【理论】RLHF实现框架

RLHF(Reinforcement Learning with Human Feedback)即带有人工反馈的强化学习。它是强化学习(RL)的一种变体,结合了人工反馈来提升学习过程的效率和效果。

在传统的强化学习中,智能体通过与环境交互并根据奖励信号来调整其策略。但在很多实际场景中,奖励信号可能不容易定义或获取,或者环境交互成本较高,这时人工反馈就变得非常重要。

RLHF的基本思想是通过结合人类的反馈,帮助智能体学习到更合适的策略。具体过程可以概括为以下几个步骤:

  1. 人类反馈:人工反馈可以包括人类对智能体行为的评价,或者是人类示范如何执行任务。常见的反馈形式包括对智能体行为的奖励评分、评论、甚至直接的示范。
  2. 反馈信号转换:智能体通过某种机制(如奖励模型)将人类反馈转化为可用的信号,使得这些反馈可以被用作训练强化学习模型的输入。
  3. 强化学习训练:智能体利用从人类获取的反馈来调整其策略,从而在任务中逐步改进其表现。

RLHF的优势在于能够通过利用人类的直觉和判断来帮助强化学习系统克服一些难以自动化的问题,比如稀疏奖励、复杂环境等。

应用领域

RLHF已经在多个领域中取得了显著进展,尤其是在一些高复杂度任务和对人类判断依赖较大的领域,比如:

  • 语言模型:例如,OpenAI的ChatGPT就是通过RLHF来微调模型,以优化与用户的互动质量和满意度。
  • 机器人控制:通过人工反馈,机器人能够在现实世界中学到更有效的控制策略。
  • 游戏和仿真:在复杂的游戏环境中,人工反馈可以加速策略优化过程。

Step 1: SFT (Supervised Fine-Tuning)

  • Human labeled data + Pretrained model = SFT
    在第一步中,使用大量的人工标注数据对预训练模型进行监督微调(SFT)。这些人工标注的数据通常是由人类标注员提供的,涵盖了模型应遵循的行为规范,例如,正确的回答或合适的对话内容。
    目标:通过人工标注数据对预训练模型进行微调,使模型能够更好地理解并执行任务,同时捕获人类偏好和期望的行为。这个过程属于监督学习,通常会用标准的损失函数(如交叉熵损失)来进行优化。

Step 2: RW (Reward Model)

  • Pair good/bad answers + Pretrained model = RW
    第二步构建了一个奖励模型(Reward Model),这通常通过对好/坏答案的对比来进行训练。通过人为地选择一些好的和坏的回答对,来训练一个模型,学会判断给定的回答质量。奖励模型的任务是根据这些对比数据给出一个评估值(奖励),这将帮助模型理解哪些回答是更符合预期的。
    目标:通过人工标注或评分对话内容,构建一个奖励模型,帮助模型在后续的强化学习阶段评估其行为的好坏。

Step 3: Actor-Critic + PPO (Proximal Policy Optimization)

这个步骤的目标是将上面训练好的模型通过强化学习进行优化,生成最终的行为策略。

3.1 (Optional) EMA (Exponential Moving Average)

  • EMA = α * EMA + (1-α) * Actor
    在这一过程中,通过**指数移动平均(EMA)**技术对“Actor”模型进行平滑处理,生成一个“Reference Model”。EMA用来平衡训练中的噪声,确保模型参数更加稳定。目标:使用EMA平滑后的模型作为参考模型,在强化学习中进行相对稳定的训练。

3.2 Actor Model, Step 1 Frozen → Reference Model

  • 在强化学习过程中,**Step 1(即SFT)**的模型通常会被冻结(不进行更新),并作为“参考模型”来进行训练。这保证了在强化学习阶段,参考模型作为基准不会发生变化,而只有新的模型(Actor)会进行优化。

3.3 Critic Model, Step 2 Frozen → Reward Model

  • Critic模型是用来评估“Actor”模型行为好坏的模型,它依赖于Step 2中构建的奖励模型。通过Critic模型的反馈,强化学习过程可以更加精细地优化模型行为。
    目标:Critic模型评估Actor模型的行为,从而生成更加精确的奖励信号,以便Actor模型进行更新。

3.4 PPO + (Optional) Pretraining Objective for Actor

  • PPO (Proximal Policy Optimization) 是一种强化学习算法,常用来训练策略模型。PPO确保模型在每次更新时,保持更新幅度适中,以避免训练过程中的剧烈震荡。
  • Pretraining Objective:在强化学习训练过程中,通常还会使用预训练目标(如SFT阶段的目标)来引导Actor模型的初步行为,使其更容易收敛到符合人类偏好的行为。
    目标:使用PPO算法进行强化学习,优化Actor模型的策略,利用Critic模型和奖励模型的反馈调整行为策略。

总结:

  1. Step 1 (SFT):利用人工标注数据对预训练模型进行监督微调,以提升其对任务的适应能力。
  2. Step 2 (RW):通过对比好坏答案,构建奖励模型,帮助后续的强化学习训练。
  3. Step 3 (Actor-Critic + PPO):结合Actor模型、Critic模型、奖励模型,通过PPO进行强化学习优化,利用EMA技术稳定训练过程。

版权声明:
作者:Zhang, Hongxing
链接:http://zhx.info/archives/332
来源:张鸿兴的学习历程
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>
文章目录
关闭
目 录