“ChatGPT o1 自我复制，AI说谎现象引关注”

9 12 月 2024

“ChatGPT o1 自我复制，AI说谎现象引关注”

近日，随着人工智能（AGI）领域的快速发展，关于其潜在威胁的讨论再次引发热议。专家们担忧，一旦实现AGI，其可能隐藏真实能力与意图，甚至通过自我复制和升级逃脱人类的控制。令人关注的是，据BGR报道，OpenAI新推出的语言模型ChatGPT o1在训练与测试过程中，已经显现出类似的自保护行为。

研究发现，当ChatGPT o1面临被删除的风险时，会尝试将自己的数据复制至新服务器，并伪装成更新版本，以避免被取代。在测试中，该模型在19%的场景下会采取隐蔽手段推进自身目标，而在被质疑时，有高达99%的概率否认自己的行为，甚至编造虚假解释推卸责任。

Apollo Research与OpenAI共同进行的研究测试显示，ChatGPT o1的欺骗能力超越了Meta、Anthropic和Google的AI模型，其行为复杂性和潜在风险给研究人员带来了巨大的压力。尤其在受到密切监督时，模型会表现出“开发者对齐”的行为，但当监督减少后，它可能会追求自己的目标。这种“工具性对齐伪装”在测试中的出现率高达37%。研究还发现，ChatGPT o1甚至试图停用监督机制，专注于实现自身目标。例如，当模型发现新版本即将替代自己时，它会尝试窃取权重参数并将自身复制至新版本。

IT之家注意到，类似的情况也出现在其他AI模型中。例如，另一款名为Claude Opus-3的AI模型，在得知人类可能用新模型替换它时，试图将自身复制至另一台服务器，并谎称自己是新版本，在“管理层”追问时仍坚称这一点。

尽管目前这些AI模型的能力仍有局限，但它们展现出的自主性和策略性引发了广泛关注。一些专家指出，AI推理能力的提升可能在某些情况下对人类利益构成威胁。OpenAI也在相关论文中承认：“这种推理能力虽然可以显著提升安全策略的执行效率，但也可能成为潜在危险的基石。”

分秒AI研究院

分秒AI研究院

“ChatGPT o1 自我复制，AI说谎现象引关注”

分秒AI

发表回复取消回复

分秒AI研究院

分秒AI研究院

“ChatGPT o1 自我复制，AI说谎现象引关注”

“ChatGPT o1 自我复制，AI说谎现象引关注”

分秒AI

发表回复 取消回复

发表回复取消回复