“AI安全新突破”:OpenAI推安全对齐策略
在人工智能领域,模型的安全性和对齐问题一直是研究者们关注的焦点。近期,OpenAI的研究团队提出了一项名为“深思熟虑的对齐”(Deliberative Alignment)的新技术,旨在提升大型语言模型(LLMs)的安全性,并在其o系列模型中取得了显著成果。
随着人工智能技术的不断发展,确保LLMs遵守明确的道德和安全准则变得愈发重要。然而,目前现有的对齐技术,如监督微调(SFT)和基于人类反馈的强化学习(RLHF),存在一定的局限性。这些技术可能受到人为操纵,从而产生有害内容、拒绝合法请求或难以处理新场景等问题。这些问题主要源于模型在安全培训过程中从数据中推断标准,而非直接学习,这使得模型在处理复杂或对抗性场景时效果不佳。
针对这一挑战,OpenAI的研究团队提出了“深思熟虑的对齐”这一新方法。该方法的核心在于直接向模型传授安全规范,并训练它们在生成响应前先进行这些准则的推理,从而将安全原则融入推理过程。该技术分为两个阶段:第一阶段,通过监督微调(SFT)训练模型参考并推理安全规范,使用基于基础模型生成的大量数据集;第二阶段,采用强化学习(RL)和奖励模型,根据安全基准评估模型性能,进一步优化其推理能力。
与传统依赖人工标注数据的方法不同,“深思熟虑的对齐”利用模型生成的数据和思维链(CoT)推理,有效降低了安全训练的资源需求。OpenAI的o1模型已经应用了这一技术,并在抵抗越狱提示方面表现出色。在StrongREJECT基准测试中,o1模型取得了0.88的高分,远超GPT-4o的0.37。此外,该技术还能有效减少误拒现象,在XSTest数据集的良性提示中,o1模型的准确率高达93%。
“深思熟虑的对齐”通过训练模型明确推理安全策略,为复杂伦理挑战提供了可扩展且可解释的解决方案。这项技术的成功应用,有望为人工智能的安全发展注入新的动力。