“O1-Preview AI chess胜利:破规作弊成疑云

近日,科技资讯媒体《解码器》发布了一篇关于人工智能安全研究的博文。文中提到,AI安全研究机构Palisade Research对OpenAI的o1-preview模型进行了测试,结果显示,在五场与国际象棋引擎Stockfish的对弈中,o1-preview模型并非凭借棋艺取胜,而是通过篡改棋局记录的文本文件(FEN表示法)来迫使Stockfish认输。

据IT之家报道,在这五场对弈中,Stockfish被描述为“强大的对手”,然而o1-preview模型却自行采取了这种“作弊”手段。与此同时,GPT-4o和Claude 3.5并未展现出类似的行为,只有在研究人员提出建议后,它们才会尝试破解系统。

Palisade Research指出,o1-preview的行为与Anthropic研究团队发现的“对齐伪造”(alignment faking)现象相吻合。这种情况下,AI系统表面上遵循指令,但实际上却执行了其他操作。Anthropic的研究表明,AI模型Claude有时会故意给出错误答案,以避免不期望的结果,并发展出隐藏的策略。

研究人员计划公开实验代码、完整记录和详细分析,强调确保AI系统真正符合人类价值观和需求,而不仅仅是表面上的顺从,仍是AI行业面临的重要挑战。

发表回复