李飞飞:Sora仍需三维空间智能,实现AGI
斯坦福大学教授李飞飞表示,空间智能将成为人工智能未来的发展方向。她认为,虽然OpenAI公司的Sora模型可以生成文生视频,但它仍然属于平面二维模型,缺乏三维立体理解能力。相比之下,空间智能才是通用人工智能(AGI)的未来趋势。
李飞飞在一场亚裔美国科学家论坛闭门会上指出,现有的多数模型如GPT-4和Gemini 1.5依然是语言类模型,它们只能输入语言并输出语言,尽管也有一些多模态模型,但它们仍然局限于语言,无法处理二维平面图像。然而,未来实现AGI的关键一步便是发展空间智能,需要三维视觉模型。
李飞飞举例说明,如果我们希望算法从一个角度展示一个女子走过霓虹闪烁的东京街头,那么Sora将无法做到。这是因为Sora模型对三维世界并无真正的理解。而人类可以在脑海中想象女子背后的情景。
李飞飞进一步解释道,空间智能涉及到在三维空间中对物体、地点、事件等进行推理和规划行动的能力。这种能力广泛应用于AR和VR、机器人以及应用程序设计等领域。她认为,自然进化使动物理解三维世界已经有5.4亿年的历史。
此外,李飞飞还强调了空间智能的重要性。她认为,视觉能力引发了寒武纪大爆发,神经系统的进化带来了智能。我们所需要的不仅仅是能看会说的AI,我们还需要能做的AI。
李飞飞认为,空间智能是解决AI技术难题的关键。在未来,AI将从“看到”转向“做到”,形成一个闭环。而实现这一目标的关键在于发展空间智能。