新AI评测标准:威尔史密斯挑战意大利面引关注

随着人工智能视频生成技术的飞速进步,业界出现了一个有趣的现象:每当有新的人工智能视频生成工具发布,总有人迫不及待地用它来创作威尔·史密斯吃意大利面的搞笑视频。这一现象已演变成网络上的热门梗,甚至成为衡量新型AI视频生成器性能的非官方标准——通过是否能够逼真地呈现史密斯狼吞虎咽吃面的场景来检验其技术水平。今年2月,威尔·史密斯本人在Instagram上发布了一段模仿视频,亲自加入了这场网络狂欢。

值得注意的是,“威尔·史密斯吃意大利面”只是2024年人工智能领域众多非官方评测标准之一。在此之前,一位16岁的开发者曾开发出一款应用程序,通过人工智能控制《我的世界》游戏,以此测试其建筑设计能力。同时,还有一位英国程序员创建了一个平台,让AI在“你画我猜”和“四子棋”等游戏中展开对战。

尽管人工智能领域存在许多学术化的性能测试,但这些非正式的、略显另类的评测为何能够迅速走红呢?原因之一在于,许多行业标准的人工智能基准测试对普通人来说过于复杂难懂。企业常常宣传其人工智能在解决奥林匹克数学竞赛或博士级别难题方面的能力,但大多数人使用聊天机器人只是为了日常交流或处理邮件。即便行业内普遍采用的评测方法,也未必更有效或更具参考价值。

以广受人工智能爱好者和开发者关注的公共基准测试平台“聊天机器人竞技场”为例,它允许任何网络用户对AI在特定任务上的表现进行评分,如创建网页应用程序或生成图像。然而,参与评分的用户往往不具备代表性,他们大多来自人工智能和科技行业,且他们的投票也常常基于个人偏好,难以捉摸。

这类非正式的人工智能基准测试,如“四子棋”、“我的世界”和“威尔·史密斯吃面条”,显然并非严谨的实证研究,也不具备普遍适用性。即便AI能够完美生成“威尔·史密斯吃面条”的视频,也不意味着其能很好地生成汉堡的图像。尽管如此,这些另类的AI基准测试短期内不会消失,因为它们既具有娱乐性,又易于理解。

那么,在2025年,又将有哪些新奇的AI基准测试走红呢?我们拭目以待。

发表回复