“O3模型亮相：OpenAI引领推理AI新变革，冲刺通用人工智能新纪元”

21 12 月 2024

“O3模型亮相：OpenAI引领推理AI新变革，冲刺通用人工智能新纪元”

近日，OpenAI举办的“12 Days of OpenAI”活动圆满落幕，该活动上，备受瞩目的o3系列大模型隆重登场。据官方透露，o3系列模型在某些应用场景下的推理能力已接近通用人工智能（AGI）水平。

值得一提的是，此次最新AI模型的命名跳过了o2，直接命名为o3，背后原因是为了避免与英国电信运营商O2的商标产生冲突。OpenAI首席执行官山姆·阿尔特曼（Sam Altman）在直播活动中透露，这一命名决策是为了规避商标纠纷。

o3系列模型包括完整版和精简版（o3-mini），后者主要针对特定任务进行了微调。目前，OpenAI尚未全面开放这两款模型，首先邀请安全研究人员注册测试预览版o3-mini。感兴趣的朋友可以通过以下链接提交申请：https://openai.com/index/early-access-for-safety-testing/。

关于o3模型的开放日期，阿尔特曼并未明确公布，仅透露2025年1月底将推出o3-mini，后续再推出o3完整版。

o3系列模型的一大特点是在推理过程中进行事实核查，从而规避了一些常见的模型陷阱。但这一过程可能会带来响应延迟，根据推理难度，延迟时间通常在几秒到几分钟不等。

o3系列模型的另一亮点是采用“私人思想链”（private chain of thought）进行“思考”，在响应前可以暂停，考虑相关提示并解释推理过程，最终得出最准确的答案。o3模型还具备调整推理时间的功能，分为低、中、高三种计算级别，计算级别越高，模型在任务执行上的性能越好。

通用人工智能（AGI）是指人工智能可以像人类一样执行任何任务，OpenAI公司将其定义为“在最具经济价值的工作中超越人类的高度自治系统”。OpenAI公司正积极致力于实现AGI目标，不仅巩固了其在AI领域的地位，还在投资领域具有特殊意义。

根据OpenAI与微软的交易条款，一旦OpenAI实现AGI，公司就不再有义务向微软提供其最先进的技术。而o3模型被视为OpenAI向AGI目标迈进的重要一步。在ARC-AGI基准测试中，o3在高计算设置下取得了87.5%的分数，在低计算设置下得分为75.7%，性能是o1的三倍。

ARC-AGI联合创始人弗朗索瓦·肖莱特（François Chollet）表示，虽然高计算设置成本高昂，每个任务可能需要数千美元，但o3在其他基准测试中也表现出色。

OpenAI的内部评估结果显示，o3在SWE-Bench Verified编程任务基准测试中比o1高出22.8个百分点；在Codeforces编程技能测试中，o3获得了2727的评分；在2024年美国数学邀请赛中，o3得分96.7%；在GPQA Diamond研究生水平生物、物理和化学测试中，o3得分87.7%；在EpochAI的Frontier Math基准测试中，o3解决了25.2%的问题（其他模型均不超过2%），创造了新纪录。

尽管o3模型的能力令人印象深刻，但其潜在风险也不容忽视。OpenAI承诺将致力于模型安全，并与其他机构合作构建更完善的基准测试体系。

分秒AI研究院

分秒AI研究院

“O3模型亮相：OpenAI引领推理AI新变革，冲刺通用人工智能新纪元”

分秒AI

发表回复取消回复

分秒AI研究院

分秒AI研究院

“O3模型亮相：OpenAI引领推理AI新变革，冲刺通用人工智能新纪元”

“O3模型亮相：OpenAI引领推理AI新变革，冲刺通用人工智能新纪元”

分秒AI

发表回复 取消回复

发表回复取消回复