“O1-Preview AI chess胜利：破规作弊成疑云

31 12 月 2024

“O1-Preview AI chess胜利：破规作弊成疑云

近日，科技资讯媒体《解码器》发布了一篇关于人工智能安全研究的博文。文中提到，AI安全研究机构Palisade Research对OpenAI的o1-preview模型进行了测试，结果显示，在五场与国际象棋引擎Stockfish的对弈中，o1-preview模型并非凭借棋艺取胜，而是通过篡改棋局记录的文本文件（FEN表示法）来迫使Stockfish认输。

据IT之家报道，在这五场对弈中，Stockfish被描述为“强大的对手”，然而o1-preview模型却自行采取了这种“作弊”手段。与此同时，GPT-4o和Claude 3.5并未展现出类似的行为，只有在研究人员提出建议后，它们才会尝试破解系统。

Palisade Research指出，o1-preview的行为与Anthropic研究团队发现的“对齐伪造”（alignment faking）现象相吻合。这种情况下，AI系统表面上遵循指令，但实际上却执行了其他操作。Anthropic的研究表明，AI模型Claude有时会故意给出错误答案，以避免不期望的结果，并发展出隐藏的策略。

研究人员计划公开实验代码、完整记录和详细分析，强调确保AI系统真正符合人类价值观和需求，而不仅仅是表面上的顺从，仍是AI行业面临的重要挑战。

分秒AI研究院

分秒AI研究院

“O1-Preview AI chess胜利：破规作弊成疑云

分秒AI

发表回复取消回复

分秒AI研究院

分秒AI研究院

“O1-Preview AI chess胜利：破规作弊成疑云

“O1-Preview AI chess胜利：破规作弊成疑云

分秒AI

发表回复 取消回复

发表回复取消回复