什么是强化学习?
强化学习(RL)是机器学习的一个分支,其中智能体通过与环境交互来学习决策。在强化学习中,智能体的目标是学习一种策略(策略)来选择能够最大化累积奖励的动作。
强化学习(RL) 是机器学习的一个分支,其中 智能体 通过与 环境 交互来学习决策。在强化学习中,智能体的目标是学习一种 策略(一种策略)来选择能够随着时间最大化累积奖励的动作。
与需要标注样本的监督学习不同,强化学习依赖于 试错反馈:产生正面结果(奖励)的动作会被强化,而产生负面结果(惩罚)的动作则会被避免。
强化学习本质上是“一种理解和自动化目标导向学习与决策的计算方法”,智能体通过与环境的直接交互学习,无需外部监督或完整的世界模型。
— Sutton 和 Barto,强化学习研究者
实际上,这意味着智能体不断探索状态-动作空间,观察其动作的结果,并调整策略以提升未来的奖励。
关键概念与组成部分
强化学习涉及几个核心元素。广义上,智能体(学习者或决策实体)通过在离散时间步采取 动作 与 环境(外部系统或问题空间)交互。
在每一步,智能体观察环境的当前 状态,执行一个动作,然后从环境中获得一个 奖励(数值反馈信号)。经过多次交互,智能体寻求最大化其总(累积)奖励。
智能体
环境
动作
状态
奖励
策略
价值函数
模型(可选)

强化学习的工作原理
强化学习通常被形式化为 马尔可夫决策过程(MDP)。在每个离散时间步,智能体观察状态 St 并选择动作 At。环境随后转移到新状态 St+1,并根据所采取的动作发出奖励 Rt+1。
经过多次回合,智能体积累了状态-动作-奖励序列的经验。通过分析哪些动作带来了更高的奖励,智能体逐渐改进其策略。
例如,一个控制机器人的强化学习智能体通常会选择已验证的安全路径(利用),但有时也会尝试新路径(探索),以期发现更快的路线。平衡这一权衡对于找到最优策略至关重要。
强化学习“模仿人类的试错学习过程”。孩子可能学会收拾玩具会得到表扬,而乱扔玩具会被责备;类似地,强化学习智能体通过对好动作给予正反馈,对坏动作给予负反馈来学习哪些动作能获得奖励。
— AWS 机器学习文档
随着时间推移,智能体构建价值估计或策略,捕捉实现长期目标的最佳动作序列。
实际上,强化学习算法在多个回合中累积奖励,旨在最大化 期望回报(未来奖励之和)。它们学会偏好那些带来高未来奖励的动作,即使这些动作可能不会带来最高的即时奖励。这种为长期收益规划(有时接受短期牺牲)的能力,使强化学习适合复杂的序列决策任务。

强化学习算法的类型
实现强化学习的算法众多,大致分为两类:基于模型 和 无模型 方法。
规划方法
智能体首先学习或已知环境动态模型(状态如何变化及奖励如何给出),然后通过模拟结果进行动作规划。
- 在数据有限时高效
 - 能有效进行前瞻规划
 - 需要准确的环境模型
 
示例:机器人绘制建筑物地图以寻找最短路径即采用基于模型的方法。
直接学习
智能体没有环境的显式模型,仅通过在真实(或模拟)环境中的试错学习。
- 不需要环境模型
 - 适用于复杂环境
 - 需要更多经验
 
示例:大多数经典强化学习算法(如 Q 学习或时序差分学习)属于无模型方法。
在这些类别中,算法在如何表示和更新策略或价值函数上有所不同。例如,Q 学习(基于价值的方法)学习状态-动作对的“Q 值”(期望回报)估计,并选择价值最高的动作。
策略梯度方法直接参数化策略,并通过期望奖励的梯度上升调整参数。许多先进方法(如 Actor-Critic 或信赖域策略优化)结合了价值估计和策略优化。
在深度强化学习中,算法如深度 Q 网络(DQN)或深度策略梯度将强化学习扩展到复杂的现实任务。
常见的强化学习算法包括 Q 学习、蒙特卡洛方法、策略梯度方法和时序差分学习,“深度强化学习”指的是在这些方法中使用深度神经网络。
— AWS 机器学习文档

强化学习的应用
强化学习应用于许多需要在不确定性下进行序列决策的领域。主要应用包括:
游戏与模拟
强化学习在游戏和模拟器中取得了显著成就。DeepMind 的 AlphaGo 和 AlphaZero 使用强化学习达到了超越人类的围棋和国际象棋水平。
- 视频游戏(Atari、星际争霸)
 - 棋类游戏(围棋、国际象棋)
 - 物理模拟
 - 机器人模拟器
 
机器人与控制
自主机器人和自动驾驶汽车作为动态环境中的智能体,通过试错学习。
- 物体抓取与操作
 - 自主导航
 - 自动驾驶车辆
 - 工业自动化
 
推荐系统
强化学习可根据用户交互个性化内容或广告,学习呈现最相关的项目。
- 内容个性化
 - 广告投放优化
 - 产品推荐
 - 用户参与度优化
 
资源优化
强化学习擅长优化具有长期目标和复杂资源分配挑战的系统。
- 数据中心冷却优化
 - 智能电网储能
 - 云计算资源管理
 - 供应链管理
 
金融与交易
金融市场动态且序列化,强化学习适合交易策略和投资组合管理。
- 算法交易策略
 - 投资组合优化
 - 风险管理
 - 做市策略
 

强化学习与其他机器学习的比较
强化学习是机器学习的三大范式之一(另两者为监督学习和无监督学习),但其关注点大不相同。监督学习基于标注的输入输出对进行训练,无监督学习则在无标注数据中发现模式。
| 方面 | 监督学习 | 无监督学习 | 强化学习 | 
|---|---|---|---|
| 数据类型 | 标注的输入输出对 | 无标注数据 | 序列状态-动作-奖励元组 | 
| 学习目标 | 预测正确输出 | 发现隐藏模式 | 最大化累积奖励 | 
| 反馈类型 | 直接正确答案 | 无反馈 | 奖励/惩罚信号 | 
| 学习方法 | 从示例学习 | 发现结构 | 试错探索 | 
相比之下,强化学习 不 需要正确行为的标注示例。它通过奖励信号定义 目标,并通过试错学习。在强化学习中,“训练数据”(状态-动作-奖励元组)是 序列且相互依赖 的,因为每个动作都会影响未来状态。
简单来说,监督学习告诉模型预测什么;强化学习教智能体如何行动。强化学习通过“正强化”(奖励)学习,而不是展示正确答案。
— IBM 机器学习概述
这使得强化学习在涉及决策和控制的任务中特别强大。但这也意味着强化学习更具挑战性:没有标注反馈,智能体必须自行发现良好动作,通常需要大量环境探索。

强化学习的挑战
尽管功能强大,强化学习在实践中面临诸多挑战:
样本效率低
奖励设计
稳定性与安全性
可解释性

结论
总之,强化学习是一种 自主学习框架,智能体通过与环境交互并最大化累积奖励来实现目标。它融合了最优控制、动态规划和行为心理学的思想,是许多现代人工智能突破的基础。
通过将问题框定为带反馈的序列决策任务,强化学习使机器能够自主学习复杂行为,弥合了数据驱动学习与目标导向行动之间的差距。