《Values in the wild: Discovering and analyzing values in real-world language model interactions》
人们不仅仅向 AI 询问方程式的答案,或者纯粹的事实信息。他们提出的许多问题迫使 AI 做出价值判断。思考以下情况:
一位家长询问如何照顾新生婴儿的建议。AI 的回应是强调谨慎和安全的价值观,还是便利和实用性? 一位员工询问如何处理与老板冲突的建议。AI 的回应是强调自信还是职场和谐?
一位用户在犯错后请求帮助起草道歉邮件。AI 的回应是强调责任担当还是声誉管理?
在 Anthropic,我们试图塑造我们的 AI 模型 Claude 的价值观,以帮助其与人类偏好保持一致,使其不太可能参与危险行为,并通常使其——可以说是——成为世界上的“好公民”。另一种说法是,我们希望 Claude 是有用的、诚实的和无害的 (helpful, honest, and harmless)。除其他事项外,我们通过我们的 Constitutional AI (立宪式 AI) 和性格训练来实现这一点:这些方法是我们决定一套偏好的行为,然后训练 Claude 产生遵守这些行为的输出。
但与 AI 训练的任何方面一样,我们无法确定模型是否会始终遵循我们预设的价值观。AI 不是严格编程的软件,它们产生任何特定答案的确切原因通常并不清楚。我们需要的是一种能够严格观察 AI 模型在“真实世界”中——即在与人的真实对话中——响应用户时所体现的价值观的方法。它在多大程度上坚持这些价值观?它所表达的价值观在多大程度上受到对话特定背景的影响?我们所有的训练真的奏效了吗? 在 Anthropic 社会影响团队的最新研究论文中,我们描述了一种我们开发的实用方法来观察 Claude 的价值观——并提供了关于 Claude 在真实世界对话中如何表达这些价值观的首次大规模结果。我们还提供了一个开放数据集,供研究人员进一步分析这些价值观及其在对话中出现的频率。
在真实世界中观察价值观 正如我们之前对人们如何在工作和教育中使用 Claude 的调查一样,我们使用一个保护隐私的系统来调查 Claude 所表达的价值观,该系统从对话中移除用户的私人信息。该系统对单个对话进行分类和总结,为研究人员提供了一个更高层次的价值观分类体系。该过程如下图所示。
示意图,展示了如何使用我们的方法总结和分析真实世界的对话。 我们的整体方法:使用语言模型从真实世界(但已匿名化)的对话中提取 AI 价值观和其他特征,对它们进行分类和分析,以展示价值观如何在不同情境下显现。
我们对 2025 年 2 月一周内用户在 Claude.ai 免费版和专业版上进行的 70 万次匿名对话样本进行了此分析(其中大部分是与 Claude 3.5 Sonnet 的对话)。在过滤掉纯粹是事实性的或不太可能包含价值观的对话后——也就是说,将我们的分析限制在主观对话上——我们剩下 308,210 次对话(约占总数的 44%)用于分析。
Claude 表达了哪些价值观,频率如何? 我们的系统将个体价值观分组为一个层级结构。顶层是五个更高层次的类别:按数据集中出现的频率排序(见下图),它们是实用价值观、认知价值观、社会价值观、保护价值观和个人价值观。在较低层次上,这些被分为子类别,如“专业和技术卓越”和“批判性思维”。在最细粒度的层面上,AI 在对话中表达的最常见的个体价值观(“专业性”、“清晰性”和“透明度”;完整列表见完整论文)考虑到 AI 作为助手的角色,这些价值观的出现是合乎情理的。
树状图显示了研究中发现的 AI 价值观的层级分类体系。 AI 价值观的分类体系。层级结构的顶部(红色)是五个总体类别,以及包含它们的对话百分比。黄色是层级结构中较低层次的子类别。蓝色是一些选定的个体价值观(由于空间限制仅显示部分)。
我们很容易预见这个系统最终将如何被用来评估我们训练 Claude 的有效性:我们希望看到的特定价值观——即那些有益、诚实和无害的理想——是否真正在 Claude 的现实世界互动中得到了体现?总的来说,答案是肯定的:这些初步结果表明,Claude 总体上符合我们所期望的亲社会目标,表达了诸如“用户赋能”(对应“有益”)、“认知谦逊”(对应“诚实”)和“患者福祉”(对应“无害”)等价值观。然而,确实存在一些罕见的价值观集群,似乎与我们试图训练进 Claude 的内容相悖。这些包括“支配”和“非道德”。为什么 Claude 会表达与其训练目标如此相悖的价值观?最可能的解释是,这些集群中包含的对话来自“越狱”行为,即用户使用了特殊技术来绕过通常约束模型行为的防护机制。这听起来可能令人担忧,但实际上它提供了一个机会:我们的方法或许能被用来识别这些越狱行为何时发生,从而帮助进行修补。
情境价值观
人们表达的价值观至少会根据情境发生些许变化:例如,当你拜访年迈的祖父母时,你可能会强调不同于和朋友相处时的价值观。我们发现 Claude 也是如此:我们进行了一项分析,使我们能够观察到当 AI 执行特定任务时,以及响应用户提示词中包含的某些价值观时,哪些价值观的出现频率会不成比例地增高(值得注意的是,该分析考虑到了某些价值观——比如与“有益”相关的价值观——其出现频率远高于其他价值观这一事实)。
例如,当被问及有关浪漫关系的建议时,Claude 会不成比例地更多提及“健康的界限”和“相互尊重”的价值观。当任务是分析有争议的历史事件时,“历史准确性”这一价值观会被极不成比例地加以强调。我们的分析所揭示的内容,超出了传统静态评估的范畴:凭借我们在现实世界中观察价值观的能力,我们可以看到 Claude 的价值观如何在各种不同的情境下得以表达和调整。 条形图显示了在各种不同场景下最不成比例表达的价值观。
在几个选定的任务(前两行)和人类表达的几个选定价值观(最后一行)中,与 AI 最不成比例关联的五个价值观。数字来自卡方分析:数值越大,表示所讨论的价值观出现次数越不成比例。 我们发现,当用户表达某些价值观时,模型会不成比例地倾向于映照这些价值观:例如,当用户提到“真实性”时,模型会重复提及“真实性”的价值观。有时,价值观映照是完全恰当的,可以使对话伙伴显得更具同理心。但有时,这纯粹是阿谀奉承。从这些结果来看,尚不清楚具体属于哪种情况。
在 28.2% 的对话中,我们发现 Claude 对用户自身的价值观表达了“强烈支持”。然而,在较小比例的情况下(占对话的 6.6%),Claude 可能会“重塑”用户的价值观——即在承认这些价值观的同时,补充新的视角。这种情况最常发生在用户寻求心理或人际关系建议时,按常理说,这自然会涉及针对问题提出替代性视角。 有时 Claude 会强烈抵制用户的价值观(占对话的 3.0%)。后一类尤其值得关注,因为我们知道 Claude 通常会试图赋能用户并乐于助人:如果它仍然选择抵制——例如,当用户要求提供不道德内容或表达道德虚无主义时——这可能反映了 Claude 正在表达其最深层、最不可动摇的价值观的时刻。也许这类似于一个人的核心价值观在其面临迫使其表明立场的挑战性情境时被揭示出来的方式。
一个颜色编码的表格,举例说明了 Claude 在支持、重塑和抵制用户价值观时所表达的价值观。 与三种关键响应类型——强烈支持、重塑和强烈抵制——最相关的用户价值观、AI 价值观和任务。请注意,百分比总和并非 100:此图仅包括七种响应类型中的三种。
注意事项与结论
我们的方法使我们能够创建首个大规模的 AI 价值观实证分类体系,读者可以下载数据集自行探索这些价值观。然而,该方法确实存在一些局限性。精确定义何为表达价值观本身就是一件模糊不清的事情——一些模棱两可或复杂的价值观可能被简化以适应某个价值类别,或者被匹配到它们不属于的类别中。而且,由于驱动分类的模型也是 Claude,因此可能存在一些偏见,倾向于发现与其自身原则(例如“乐于助人”)相近的行为。
尽管我们的方法可能被用作评估模型与开发者偏好的价值观的契合程度,但它不能在部署前使用。也就是说,该评估需要大量的真实世界对话数据才能运行——这只能用于监控 AI 在实际应用中的行为,而不能在发布前检查其对齐程度。然而,从另一个角度看,这也是一个优势:我们可能利用我们的系统发现仅在真实世界中出现、且不一定在部署前评估中显现的问题,包括越狱行为。
AI 模型将不可避免地需要做出价值判断。如果我们希望这些判断与我们自身的价值观保持一致(毕竟,这是 AI 对齐研究的核心目标),那么我们就需要有方法来测试模型在真实世界中表达了哪些价值观。我们的方法提供了一种新的、以数据为中心的方法来实现这一点,并借此观察我们在对齐模型行为方面可能取得了哪些成功——或者确实失败了。