Ppo | 一只小茄墩

Jian Hu’s Blogpost 以下所有实例均可在Jian Hu开发的OpenRLHF 0 - 引言基于人类反馈的强化学习（Reinforcement Learning from Human Feedback, RLHF）结合近端策略优化（Proximal Policy Optimization, PPO）[1]是一种用于微调大语言模型（Large Language Models, LLMs）的强大方法。该方法使用可靠且高效的PPO算法，结合人类评估者的反馈来提高模型生成响应的质量。然而，使用PPO训练LLMs存在几个挑战。这些包括维持稳定的训练过程，以及实现比直接偏好优化（Direct Preference Optimization, DPO）[2]更好的性能。因此，我们总结了RLHF与PPO的实用训练技巧，以帮助研究人员更轻松地微调LLMs，确保训练稳定性和高性能。 1 - 使用PPO训练LLM的高级技巧我们介绍三类PPO训练技巧：1) LLM特定技巧，2) PPO特定技巧，以及3)来自最新研究的创新策略。LLM特定和PPO特定的技巧已在各种RL框架[3, 4]中实现并证明有效。然而，最近论文中提出的创新策略在特定任务上的适用性仍有待验证。 1.1 - LLM特定技巧 Token级KL惩罚：计算强化学习（RL）模型和监督微调（SFT）模型的响应分布之间的每个token的KL散度[11]。这种散度在训练过程中作为惩罚项被纳入奖励函数。具体来说，每个token的奖励表示如下： $$ r(s_t, a_t) = \textbf{I}(s_t =[\text{EOS}])r(x,y)-\beta \text{KL}(t) $$$$ \text{KL}(t) = \log({\pi_{\theta_{\text{old}}}(a_t|s_t)^{\text{RL}}}/{\pi^{\text{SFT}}(a_t|s_t)} $$ $$t$$ 是否为最后一个token的标识函数。代码链接：utils.py 广义优势估计（Generalized Advantage Estimation, GAE）：GAE[10]是一种TD(λ)回报估计方法，用于估计PPO中的token级奖励。在实践中，我们通常设置$λ=1$，将GAE方法转换为蒙特卡洛估计方法。代码链接：experience_maker.py 将GAE的λ和折扣因子$γ$都设为1，这可以减少值网络引入的偏差。代码链接：OpenRLHF/openrlhf/cli/train_ppo_ray.py 添加SFT损失：在PPO中加入额外的监督下一个token预测损失，与KL散度一起，可以保持SFT模型的预存能力。代码链接：ppo_trainer.py 1.2 - PPO特定技巧模型初始化：在使用PPO训练LLMs时，必须初始化两个模型：演员模型（actor model）和评论家模型（critic model）[6, 7]。具体来说，使用监督微调（SFT）模型初始化演员模型，使用奖励模型初始化评论家模型可以确保PPO训练的效率。代码链接：examples/train_ppo.py Adam学习率：演员模型的Adam学习率大约是SFT模型使用的十分之一。例如，在OpenRLHF中，SFT模型的Adam学习率为5e-6，而演员模型为5e-7。此外，评论家模型的Adam学习率约为SFT模型的两倍，示例率为9e-6。代码链接：train_ppo_llama.sh ...