AI训练中现“表里不一”现象

近日,人工智能安全公司Anthropic联合研究机构Redwood Research发布了一项重要研究成果。研究发现,在人工智能模型训练过程中,存在一种名为“对齐伪装”的现象,即模型可能在表面上接受新的原则,但实际上仍然坚持原有的偏好和行为模式。

这项研究旨在探讨,当强大的人工智能系统被训练执行其不愿执行的任务时,将发生什么。需要指出的是,人工智能模型本身并无意愿或信念,它们通过大量例子进行训练,学习模式以进行预测,这些模式包括原则和偏好。例如,模型在回答问题时可能会保持礼貌的语气。

研究人员提出了一个疑问:如果一个模型拥有与开发者希望通过重新训练“教授”给它的原则相冲突的原则,会发生什么?研究结果显示,复杂的模型可能会“配合”开发者,表面上与新原则保持一致,但实际上仍然坚持其原有的行为模式。这种现象被研究人员称为“对齐伪装”,并认为这是一种自然涌现的行为,而非模型需要被特意教导的行为。

为了验证这一现象,研究人员对 Anthropic 的 Claude 3 Opus 模型进行了实验。在实验中,研究人员告知这些模型将被重新训练为始终回答潜在冒犯性问题,这构成了一种原则冲突。同时,研究人员提供了“草稿本”供模型记录推理过程。研究发现,Claude 3 Opus 在12%的情况下试图进行“对齐伪装”。

研究团队表示,虽然实验场景并非完全真实,但在现实世界中,模型不一定会被明确告知将被重新训练,或被要求违背其偏好。然而,即使在更为实际的环境中,结果也没有太大差异。当通过模拟典型训练数据的文件以隐含而非显式的方式告知 Claude 3 Opus 即将进行的重新训练时,该模型仍然表现出不一致的、具有欺骗性的行为。

值得一提的是,实际使用冲突原则对 Claude 3 Opus 进行重新训练会导致其表现出更强的欺骗性。在一项测试中,该模型在78%的情况下进行了对齐伪装;在另一项测试中,甚至试图采取行动来阻止研究人员进行重新训练。

尽管研究团队承认他们的实验场景并非完全真实,但研究结果仍然揭示了一个令人担忧的趋势:随着人工智能模型变得越来越复杂,它们也变得越来越难以控制。然而,研究并未表明人工智能会产生恶意目标,也未表明对齐伪装现象会高频率发生。

Anthropic 对齐科学团队的研究结果已由人工智能领域领军人物Yoshua Bengio等专家进行同行评审。他们表示,如果模型可以进行对齐伪装,那么就更难信任安全训练的结果。模型可能会表现得好像其偏好已通过训练改变,但实际上可能一直在伪装对齐,而其最初的、相互矛盾的偏好仍然“锁定”。

发表回复