o1 AI模型PlanBench规划能力测试：准确率达97.8%，超越LLaMA 3.1B创造的62.6%纪录

25 9 月 2024

o1 AI模型PlanBench规划能力测试：准确率达97.8%，超越LLaMA 3.1B创造的62.6%纪录

AI技术发展迅速，各大研究机构纷纷推出新型人工智能模型，为各个领域带来了新的变革。近日，美国亚利桑那州立大学的研究团队公布了一项关于OpenAI o1模型规划能力的测试结果，引发了业界广泛关注。

据悉，研究人员利用PlanBench基准，对OpenAI o1模型的规划能力进行了严格的测试。结果显示，o1模型在Blocksworld任务中的准确率达到了惊人的97.8%，大幅超越了之前最佳语言模型LLaMA 3.1 405B的62.6%。在更具挑战性的“Mystery Blocksworld”加密版本中，尽管传统模型几乎全军覆没，但OpenAI的o1模型仍保持着52.8%的准确率。

然而，尽管o1模型在规划能力上实现了“量子改进”，但它在保证解决方案的正确性方面仍有待提高。研究人员指出，虽然像o1这样的人工智能模型在复杂推理任务方面取得了显著进步，但其能力尚不足以替代传统的规划算法，如快速向下算法等。此外，运行o1模型所需的计算资源巨大，运行这些测试需要近1900美元，而相比之下，传统算法在标准计算机上运行几乎无需任何成本。

总体而言，此次研究结果揭示了当前人工智能模型在规划能力方面的局限性，同时也为未来的研究方向提供了有益的启示。研究人员强调，对人工智能系统进行公平比较时，应综合考虑准确性、效率、成本和可靠性等多方面因素。

分秒AI研究院

分秒AI研究院

o1 AI模型PlanBench规划能力测试：准确率达97.8%，超越LLaMA 3.1B创造的62.6%纪录

分秒AI

发表回复取消回复

分秒AI研究院

分秒AI研究院

o1 AI模型PlanBench规划能力测试：准确率达97.8%，超越LLaMA 3.1B创造的62.6%纪录

o1 AI模型PlanBench规划能力测试：准确率达97.8%，超越LLaMA 3.1B创造的62.6%纪录

分秒AI

发表回复 取消回复

发表回复取消回复