在新加坡举办的OpenAI开发者日上,一场激动人心的AI竞技场争夺战再次上演。就在Gemini刚刚登顶不到一周之后,OpenAI再次出击,其最新版本的ChatGPT-4o轻松夺回了第一的位置。
这次更新的焦点落在“创意写作能力”上,官方称,模型现在能够创作出更加自然、吸引人、更具针对性的文本,同时文本的相关性和可读性也得到了显著提升。此外,模型在处理上传文件并提供深入见解和全面响应方面的能力也得到了增强。
ChatGPT的核心贡献者Karina Nguyen进一步解释说,这次更新是Canvas功能的一部分,旨在改进写作这一顶级用例,并可能改变人机协作的方式,以更具创造性完成写作任务。她认为,尽管这是一个非常主观和开放的研究问题,但至少在写作方面取得的进展,是迈向通用人工智能创造性智能的关键。
在大模型竞技场的创意写作榜单上,新版ChatGPT-4o(ChatGPT-4o-1120)的表现确实令人瞩目,其分数从上一个版本的1365提升至1402。
为了检验新版本的实际效果,我们进行了简单的测试,并对新版本的表现打出了评分。除了在总榜上重新夺回第一之外,新版ChatGPT-4o在创意写作、代码能力、数学能力以及困难任务等多个分榜单上也取得了明显的进步。
尤其是在风格控制(Style Control)方面,新版ChatGPT-4o依然位居首位。风格控制旨在确保榜单分数更真实地反映模型解决问题的能力,避免模型仅仅通过漂亮的格式或增加回答长度来刷分。总胜率热图显示,新版ChatGPT-4o在多轮对抗中均表现出色,对上Gemini-Exp-1114的胜率为59%,对上Claude 3.5 Sonnet的胜率为69%,对上5月版本的ChatGPT-4o的胜率更是高达72%。
然而,就在人们还在热议OpenAI的新动态时,DeepSeek版的o1(o1满血版)也即将上线,并计划开源。这无疑让许多人对OpenAI的举措产生了质疑。
尽管如此,OpenAI的这次更新还是引起了不少讨论。有网友尝试总结OpenAI的更新模式,认为他们可能编写了一个脚本,用于查询大模型竞技场排名第一的模型。如果返回的不是OpenAI的模型,他们就会部署一个新版本来重新夺回第一。
尽管新版本ChatGPT-4o的表现令人印象深刻,但也有人对其进行了测试,结果显示系统依然能判断出100%是AI创作的。
与此同时,OpenAI也在悄悄地对ChatGPT进行了改进。有专家发现,OpenAI在系统提示词方面增加了一道新的“护栏”,以确保ChatGPT在处理敏感话题时不会胡说八道。
如果您想亲自体验新版ChatGPT-4o的创意写作能力,现在就可以在竞技场免费尝试:https://lmarena.ai/?lead