强化学习
人类通过与环境交互来学习,在交互中学习的计算性方法被称为强化学习。
强化学习就是学习在当前的情境采取什么动作才能使得数值化的收益信号最大化,动作往往影响的不仅仅是即时收益,也会影响下一个情境,从而影响随后的收益。试错和延迟收益是强化学习两个最重要最显著的特征。
强化学习解决的问题是马尔可夫决策过程。具有学习能力的智能体必须能够在某种程度上感知环境的状态,然后采取动作并影响环境状态。智能体必须同时拥有和环境状态相关的一个或多个明确的目标。马尔可夫决策过程即包含了感知、动作和目标三方面。
强化学习与有监督学习不同,我们不可能获得在所有情境(特征)下既正确又有代表性的动作示例(标签)。在一个未知领域,若想收益最大,智能体必须要能够从自身的经验中学习。
强化学习也与无监督学习不同,其目的是最大化收益信号,而不是找出数据的隐含结构。
强化学习的一个独有挑战是”试探-开发“困境问题。智能体必须开发已有的经验来获取收益,同时也要进行试探,使得未来可以获得更好的动作选择空间。但无论试探与开发,都不能在完全没有失败的情况下进行,此时必须在两者之间进行权衡。
以下是一些体现强化学习思想的案例:
- 国际象棋大师走一步棋。这个选择是通过反复计算对手可能的策略和对特定局面位置及走棋动作的直观判断做出的。
- 一只羚羊幼崽出生后数分钟挣扎着站起来。半小时后,它能够以每小时20英里的速度奔跑。
- 一个移动机器人决定它是进入一个新房间收集更多垃圾还是返回充电站充电。它的决定将基于当前电量,以及它过去走到充电站的难易程度。
强化学习要素
除了智能体和环境,强化学习系统有四个核心元素:策略、收益信号、价值函数以及(可选的)对环境建立的模型。
策略定义了学习智能体在特定时间的行为方式,是环境状态到动作的映射。一般来说,策略可能是环境所在状态和智能体所采取的动作的随机函数。
收益信号定义了强化学习问题中的目标。在每一步中,环境向强化学习智能体发送一个称为收益的标量数值,智能体的唯一目标是最大化长期总收益。一般来说,收益信号可能是环境状态和在此基础上所采取的动作的随机函数。
收益信号表明了在短时间内什么是好的,价值函数表示了从长远的角度看什么是好的。一个状态的价值是一个智能体从这个状态开始,对将来累积的总收益的期望。我们寻求能带来最高价值而不是最高收益的动作,但确定价值比确定收益难得多。
对环境建立的模型是一种对环境的反应模式的模拟,对外部环境的行为进行推断。环境模型会被用于规划。规划是在真正经历之前,先考虑未来可能发生的各种情境从而预先决定采取何种动作。使用环境模型和规划来解决强化学习问题的方法被称为有模型的方法,而简单的无模型的方法则是直接地试错。
部分信息可能已经过时









