AI 视频新王者诞生!文生视频大模型 Sora 14 项功能盘点!

2 月 16 日 OpenAI 发布了一个新的 AI 视频生成模型 Sora,它可以根据文本生成 60s 的高质量视频,完全突破了之前 AI 文生视频存在的各种局限,所以一出现就引起广泛关注和热烈讨论,大家应该对它都有所了解。

今天就根据网上已公布的视频,对 Sora 的功能特性进行一个盘点总结,其中包含与 Runway、Pika 等 AI 视频工具的生成效果对比,让大家对 Sora 的能力有一个更直观全面的了解。

一、60s 超长视频

之前优设已经推荐过 AI 视频工具,比如 Runway、Pika、MoonVally、Domo AI、AnimateDiff、Stable Video 等,它们文生视频长度都在 3-7 秒之间(Aminatediff 和 Deforum 因形式不同,不列入此处的比较),而 Sora 直接将时长最高提升到 60s,是之前的 10 倍,这样的长度是放在之前大家可能觉得要好几年才能实现,但是 Sora 让其一夜之间成为现实。

二、超高的文生视频质量

接触过 AI 视频生成的小伙伴肯定清楚,文本生成的视频效果最难控制,很容易出现画面扭曲、元素丢失情况,或者视频根本看不出动态。所以不少 AI 视频工具都转向在图生视频或者视频转绘上发力,比如 Runway 的 Motion Brush 笔刷,通过在图像上涂抹指定区域添加动效;以及 Domo AI,可以将真实视频转为多种不同的风格,这些方式让 AI 视频更可控,因此质量更好。

而 Sora 的出现则完全颠覆了人们对文生视频的认知,不仅直接能通过文本生成各种风格的高清的视频,还支持多样化的视频时长、分辨率和画幅比,并且能始终保持画面主体位于视频中央,呈现出最佳构图

三、连贯一致的视频内容

Sora 生成的视频中,随时长增加人物及场景元素依旧能保持自己原有原有的状态,不会扭曲变形,所以视频前后连贯性非常好。即使元素被遮挡或者短暂离开画面,Sora 依旧能在后续准确呈现这一对象的相关特征。

这就解决了之前大家一直很关心的视频中人物一致性问题,也许之后我们就无需后期拼接,而是仅凭文本就生成一个剧情完整的短视频了。

四、多视角稳定呈现

Sora 能针对一个场景或者一个主题进行多视角呈现,比如针对“下雪天的街道”主体,可以同时生成手部玩雪特写、街道元素特写、行人走动中景、街道全景等分镜。

下面是从 Sora 视频中截取一段,可以看到随着镜头旋转,新视角中无论是机器人还是背后环境的细节都能稳定呈现,如同 CG 建模一样精准。之前为大家介绍过 Stable zero 123,一种可以生成多视角图像的 AI 模型,但效果远比不上在视频中的呈现,也许 Sora 能为我们提供一种生成角色三视图的新方法。

五、自然流畅的动态

推特网友 @Poonam Soni 制作的了几组 Sora 与 Runway 的效果对比。无论是小狗打闹、云朵的飘动还是袋鼠跳舞,Sora 的动态都非常自然,就像我们在现实中看到的那样;相比之下 Runway 生成的动作总有一种 “慢放”的感觉,不够自然。

六、逼真的镜头运动

在 Runway、Pika 等工具中,如果想实现镜头运动,需要使用额外的 –motion 参数,然后从平移、旋转、缩放中等选项中选一种。

而 Sora 中可以直接列理解文本提示词中有关视频的镜头运动,比如提示词中是 “镜头跟在一辆白色复古越野车后面”,在长达 20s 的视频内,无论道路如何弯曲,镜头真的能始终跟随这汽车,让其处于画面中央。Sora 也能在一个视频中使用多种镜头运动。

即使没有镜头提示,Sora 也能主动地添加镜头动作,比如下面的视频,花盛开到快超出屏幕时,镜头会自动上移以展现完整的主体;以及镜头有聚焦在老人面部时,带着一种手持拍摄的抖动,这是用 motion 设置也无法得到的效果,让人感觉这是真的视频而非“会动的图片”。

七、准确的提示词理解

对于“船在咖啡杯里”、”用白炽灯做壳的寄居蟹” 这样比较复杂的概念,Sora 能准确理解并呈现出正确的视频,Runway、Pika、Morph 等目前则无法做到。

在 Sora 的研究报告中,官方提到他们会利用 GPT 将用户的简短提示转换成更长的详细说明,然后发送给视频模型,以得到更好的生成效果。

八、图生视频

Sora 虽然自称是文生视频模型,但它也可以将图像转为动态视频,而且动态效果比其他 AI 视频都好,还不会出现转换后画质下降的情况。Sora 的图生视频功能并不是简单的为已有元素添加动态,还能生成新的内容(比如为云彩字添加了一个弹出的动效)。

九、用文本编辑视频

Sora 可以仅通过文本对视频进行编辑,对一个写画风视频加上 “rewrite the video in a pixel art style” 提示,可以将其变为像素飞哥,加上 ““make it go underwater”可以替换画面元素,而且新元素与整体融合自然然。

之前图像进行局部重绘都是有些困难的事,Sora 这是直接做到了对视频内容的完美局部重绘,模型的能力真的令人惊叹

十、生成完美循环动画

Sora 支持在一个视频的基础上生成向前或向后延伸生成新内容,并且做到无缝衔接。下面 2 个视频是由同一段视频向前扩展得来的,所以结尾相同;而如果对一个视频同时操作向前和向后延伸,就能好得到一个完美的循环动画。

这项功能目前还没有其他能实现的 AI 工具,如果能落地对创意视频生成肯定非常有帮助。

十一、无缝衔接视频

Sora 可以在两个视频之间逐步插值,在主题和场景构图完全不同的视频之间创建无缝过渡,比如由真实的海岛变为一个 3D 卡通风格的微缩雪地村庄,或者让一只蜥蜴慢慢变成一只鸟。

官方用的 “无缝过渡” 绝不是夸张,仔细看视频你会发现 sora 真的会自己找角度让视频转换更自然,这点在影视特效制作上应该也大有可为。

十二、文生图

图像就是单帧的视频,Sora 既然能生成高质量的视频,那生成高质量的图像自然也不在话下,并且支持多种尺寸,最高分辨率到达 2048*2048 px。

我用 Sora 官方给出的提示词,在 Midjourney 的 V6 模型中重新生成一遍,下面的效果对比,你觉得哪一个更好?

十三、模拟真实世界的交互

Sora 可以模拟真实物理世界中物体的运作状态,比如画笔落下后画布上有对应的痕迹留下,并且持续保留;被咬了一个口的汉堡上会有一个缺口等。

不过这个功能并不稳定,处理复杂交互场景也会出错,或者混淆空间细节。

十四、模拟虚拟世界

在 Sora 的提示词中加上 Minecraft 后,除了视频会变成体素风格,Sora 还能通过基础策略控制玩家,并高保真地呈现世界及其动态,达到真假难辨的地步。这或许会改变视频游戏的制作及玩法,对 AR、VR 的虚拟空间搭建应该也会有帮助。

那么以上就是本期为大家盘点的 AI 视频生成模型 Sora 的相关功能,如果想了解为什么 Sora 能做到这么厉害,可以去阅读 OpenAI 官方的研究报告,里面有相关介绍。

Sora 模型技术报告: 
https://openai.com/research/video-generation-models-as-world-simulators

发表回复