“O3模型亮相:OpenAI引领推理AI新变革,冲刺通用人工智能新纪元”

近日,OpenAI举办的“12 Days of OpenAI”活动圆满落幕,该活动上,备受瞩目的o3系列大模型隆重登场。据官方透露,o3系列模型在某些应用场景下的推理能力已接近通用人工智能(AGI)水平。

值得一提的是,此次最新AI模型的命名跳过了o2,直接命名为o3,背后原因是为了避免与英国电信运营商O2的商标产生冲突。OpenAI首席执行官山姆·阿尔特曼(Sam Altman)在直播活动中透露,这一命名决策是为了规避商标纠纷。

o3系列模型包括完整版和精简版(o3-mini),后者主要针对特定任务进行了微调。目前,OpenAI尚未全面开放这两款模型,首先邀请安全研究人员注册测试预览版o3-mini。感兴趣的朋友可以通过以下链接提交申请:https://openai.com/index/early-access-for-safety-testing/。

关于o3模型的开放日期,阿尔特曼并未明确公布,仅透露2025年1月底将推出o3-mini,后续再推出o3完整版。

o3系列模型的一大特点是在推理过程中进行事实核查,从而规避了一些常见的模型陷阱。但这一过程可能会带来响应延迟,根据推理难度,延迟时间通常在几秒到几分钟不等。

o3系列模型的另一亮点是采用“私人思想链”(private chain of thought)进行“思考”,在响应前可以暂停,考虑相关提示并解释推理过程,最终得出最准确的答案。o3模型还具备调整推理时间的功能,分为低、中、高三种计算级别,计算级别越高,模型在任务执行上的性能越好。

通用人工智能(AGI)是指人工智能可以像人类一样执行任何任务,OpenAI公司将其定义为“在最具经济价值的工作中超越人类的高度自治系统”。OpenAI公司正积极致力于实现AGI目标,不仅巩固了其在AI领域的地位,还在投资领域具有特殊意义。

根据OpenAI与微软的交易条款,一旦OpenAI实现AGI,公司就不再有义务向微软提供其最先进的技术。而o3模型被视为OpenAI向AGI目标迈进的重要一步。在ARC-AGI基准测试中,o3在高计算设置下取得了87.5%的分数,在低计算设置下得分为75.7%,性能是o1的三倍。

ARC-AGI联合创始人弗朗索瓦·肖莱特(François Chollet)表示,虽然高计算设置成本高昂,每个任务可能需要数千美元,但o3在其他基准测试中也表现出色。

OpenAI的内部评估结果显示,o3在SWE-Bench Verified编程任务基准测试中比o1高出22.8个百分点;在Codeforces编程技能测试中,o3获得了2727的评分;在2024年美国数学邀请赛中,o3得分96.7%;在GPQA Diamond研究生水平生物、物理和化学测试中,o3得分87.7%;在EpochAI的Frontier Math基准测试中,o3解决了25.2%的问题(其他模型均不超过2%),创造了新纪录。

尽管o3模型的能力令人印象深刻,但其潜在风险也不容忽视。OpenAI承诺将致力于模型安全,并与其他机构合作构建更完善的基准测试体系。

发表回复