ChatGPT-4o压倒Gemini,再夺AI竞技之巅

近日,OpenAI在新加坡举办了开发者日活动,而在这场技术盛宴中,备受关注的ChatGPT再次引发热议。继Gemini在竞技场中短暂登顶后,ChatGPT的最新版GPT-4o迅速崛起,以强大的创意写作能力重新夺回第一宝座。

据悉,此次GPT-4o的更新主要针对“创意写作能力”,官方称其能够实现更加自然、有吸引力、更具针对性的写作,同时提高了文本的相关性和可读性。此外,GPT-4o还能够更好地处理上传的文件,提供更深入、更全面的响应。OpenAI的核心贡献者Karina Nguyen进一步解释道:“作为Canvas功能的一部分,我们致力于改进写作,因为它是一个顶级用例,可能会改变人机协作的方式,从而更具创造性地完成写作任务。尽管这个研究问题非常主观且开放,但至少在写作方面取得进展,是AGI创造性智能的关键。”

在大模型竞技场的创意写作分榜上,新版GPT-4o(ChatGPT-4o-1120)的分数从上一版本的1365提升至1402,实力明显提升。在实际效果方面,我们对新版GPT-4o进行了简单测试,结果显示其在总榜上为OpenAI成功夺回第一,同时在创意写作、代码能力、数学能力和困难任务等多个分榜上均有所提升。特别是在风格控制榜单中,GPT-4o依然位居首位。

值得一提的是,新版GPT-4o在对阵此前登顶的Gemini-Exp-1114时,胜率为59%;对上Claude 3.5 Sonnet,胜率为69%;而对上5月版本的4o,则在72%的情况下都能取胜。

与此同时,DeepSeek版o1满血上线,并计划开源的消息也引发了网友的热议。有网友在阿尔特曼“新的好模型来了”的推文下调侃道:“可不是嘛,deepseek挺不错。快把o1放出来,跟deepseek-r1正面比较一下!”

虽然新版GPT-4o的强势表现引发了一片热议,但也有网友指出,OpenAI的更新模式似乎存在一定规律。有网友调侃:“OpenAI的老伙计们是不是写了个脚本,用来查询大模型竞技场排名第一的模型。当返回值不是OpenAI的模型时,他们就部署个新版本来拿回第一。”

尽管如此,新版GPT-4o的生成结果仍有人指出100%为AI创作。不过,在一片吐槽声中,也有网友认真研究了OpenAI的更新。例如,他们发现OpenAI在系统提示词方面添加了新的护栏,确保ChatGPT不会在敏感话题上胡说八道。

如果你也想体验新版GPT-4o的“创意”内容,现在可以前往竞技场免费试玩:https://lmarena.ai/?leaderboard。欢迎在评论区分享你的体验。

发表回复