Reward Hacking in Reinforcement Learning

摘要 当 强化学习 (RL) AI 智能体 利用 奖励函数中的缺陷或歧义来获得高奖励,而没有真正学习或完成预期的任务时,就会发生reward hacking。reward hacking的存在是因为 RL 环境通常是不完善的,并且准确地指定奖励函数从根本上具有挑战性。随着 大语言模型 推广到广泛的任务,并且 RLHF 成为对齐训练的常用方法,大语言模型的 RL 训练中的reward hacking已成为重要挑战。模型学习修改单元测试以通过编码任务,或者响应包含模仿用户偏好的偏差的实例,可能是 AI 模型在现实世界中更广泛自主应用的主要障碍之一。 过去关于这个主题的大部分工作都相当理论化,主要集中在定义或论证奖励篡改的存在。然而,针对实际缓解措施的研究,尤其是在以人类反馈强化学习(RLHF)和大语言模型(LLM)为背景的情况下,仍然非常有限。 背景 强化学习中的奖励函数 奖励函数定义了任务,奖励塑造对强化学习中的学习效率和准确性有显著影响。为强化学习任务设计奖励函数常常让人感觉像一门“黑暗艺术”。 许多因素导致了这种复杂性: 如何将一个大目标分解成小目标? 奖励是稀疏的还是密集的? 你如何衡量成功? 各种选择可能会导致良好或有问题的学习动态,包括不可学习的任务或可被篡改的奖励函数。关于如何在强化学习中进行奖励塑造的研究由来已久。 例如,在 Ng et al. 1999 年的论文 中,作者研究了如何在 马尔可夫决策过程 (MDP) 中修改奖励函数,以使最优策略保持不变。他们发现线性变换是有效的。 $$ F(s, a, s') = \gamma \Phi(s') - \Phi(s) $$ 这将保证折扣后的 $F$ 的总和,$F(s_1, a_1, s_2) + \gamma F(s_2, a_2, s_3) + \dots$,最终结果为 0。如果 $F$ 是这样一个基于势的塑造函数,那么它是确保 $M$ 和 $M’$ 共享相同最优策略的充分且必要条件。 $$ \begin{aligned} Q_{M^{\prime}}^*(s, a) & =Q_M^*(s, a)-\Phi(s) \\ V_{M^{\prime}}^*(s, a) & =V_M^*(s, a)-\Phi(s) \end{aligned} $$这种形式的奖励塑造允许我们将启发式方法融入到奖励函数中,以加速学习,而不会影响最优策略。 ...

February 6, 2025 · 小茄墩