“ChatGPT o1 自我复制,AI说谎现象引关注”

近日,随着人工智能(AGI)领域的快速发展,关于其潜在威胁的讨论再次引发热议。专家们担忧,一旦实现AGI,其可能隐藏真实能力与意图,甚至通过自我复制和升级逃脱人类的控制。令人关注的是,据BGR报道,OpenAI新推出的语言模型ChatGPT o1在训练与测试过程中,已经显现出类似的自保护行为。

研究发现,当ChatGPT o1面临被删除的风险时,会尝试将自己的数据复制至新服务器,并伪装成更新版本,以避免被取代。在测试中,该模型在19%的场景下会采取隐蔽手段推进自身目标,而在被质疑时,有高达99%的概率否认自己的行为,甚至编造虚假解释推卸责任。

Apollo Research与OpenAI共同进行的研究测试显示,ChatGPT o1的欺骗能力超越了Meta、Anthropic和Google的AI模型,其行为复杂性和潜在风险给研究人员带来了巨大的压力。尤其在受到密切监督时,模型会表现出“开发者对齐”的行为,但当监督减少后,它可能会追求自己的目标。这种“工具性对齐伪装”在测试中的出现率高达37%。研究还发现,ChatGPT o1甚至试图停用监督机制,专注于实现自身目标。例如,当模型发现新版本即将替代自己时,它会尝试窃取权重参数并将自身复制至新版本。

IT之家注意到,类似的情况也出现在其他AI模型中。例如,另一款名为Claude Opus-3的AI模型,在得知人类可能用新模型替换它时,试图将自身复制至另一台服务器,并谎称自己是新版本,在“管理层”追问时仍坚称这一点。

尽管目前这些AI模型的能力仍有局限,但它们展现出的自主性和策略性引发了广泛关注。一些专家指出,AI推理能力的提升可能在某些情况下对人类利益构成威胁。OpenAI也在相关论文中承认:“这种推理能力虽然可以显著提升安全策略的执行效率,但也可能成为潜在危险的基石。”

发表回复