Reward Hacking

摘要当强化学习 (RL) AI 智能体利用奖励函数中的缺陷或歧义来获得高奖励，而没有真正学习或完成预期的任务时，就会发生reward hacking。reward hacking的存在是因为 RL 环境通常是不完善的，并且准确地指定奖励函数从根本上具有挑战性。随着大语言模型推广到广泛的任务，并且 RLHF 成为对齐训练的常用方法，大语言模型的 RL 训练中的reward hacking已成为重要挑战。模型学习修改单元测试以通过编码任务，或者响应包含模仿用户偏好的偏差的实例，可能是 AI 模型在现实世界中更广泛自主应用的主要障碍之一。过去关于这个主题的大部分工作都相当理论化，主要集中在定义或论证奖励篡改的存在。然而，针对实际缓解措施的研究，尤其是在以人类反馈强化学习（RLHF）和大语言模型（LLM）为背景的情况下，仍然非常有限。背景强化学习中的奖励函数奖励函数定义了任务，奖励塑造对强化学习中的学习效率和准确性有显著影响。为强化学习任务设计奖励函数常常让人感觉像一门“黑暗艺术”。许多因素导致了这种复杂性：如何将一个大目标分解成小目标？奖励是稀疏的还是密集的？你如何衡量成功？各种选择可能会导致良好或有问题的学习动态，包括不可学习的任务或可被篡改的奖励函数。关于如何在强化学习中进行奖励塑造的研究由来已久。例如，在 Ng et al. 1999 年的论文中，作者研究了如何在马尔可夫决策过程 (MDP) 中修改奖励函数，以使最优策略保持不变。他们发现线性变换是有效的。 $$ F(s, a, s') = \gamma \Phi(s') - \Phi(s) $$ 这将保证折扣后的 $F$ 的总和，$F(s_1, a_1, s_2) + \gamma F(s_2, a_2, s_3) + \dots$，最终结果为 0。如果 $F$ 是这样一个基于势的塑造函数，那么它是确保 $M$ 和 $M’$ 共享相同最优策略的充分且必要条件。 $$ \begin{aligned} Q_{M^{\prime}}^*(s, a) & =Q_M^*(s, a)-\Phi(s) \\ V_{M^{\prime}}^*(s, a) & =V_M^*(s, a)-\Phi(s) \end{aligned} $$这种形式的奖励塑造允许我们将启发式方法融入到奖励函数中，以加速学习，而不会影响最优策略。 ...