中国Vidu视频大模型更新:时长32秒,支持音视频合成
近日,我国首个自研视频大模型Vidu迎来了重要的技术进步。钛媒体AGI独家报道,生数科技与清华大学联合发布的我国首个具有长时长、高一致性和高动态性的视频大模型Vidu,已经完成了三个最新的重大技术迭代,实现了国内视频模型技术的巨大飞跃。
目前,Vidu能够一键生成32秒的视频。此外,Vidu支持音视频合成,使得视频生成具备了声音功能(Text-2-Audio)。此外,Vidu还支持4D生成,可以从单一视频中生成具有时空一致性的4D内容。
在32秒视频技术方面,清华大学人工智能研究院副院长、生数科技首席科学家朱军教授在现场展示了Vidu生成的画面。这是一个图书馆书架上的地球仪,它轻轻地旋转着,表面描绘的是地球的地图。随着摄像头的靠近,地球仪表面的地图信息得到了细致的再现。同时,从“地球仪”到“内部蓝色星球”的动态过渡也得到了良好的实现。
在现场展示的三段先前Vidu发布的演示片段中,此次加入了声音效果:一是“画室里的一艘船驶向镜头”的画面,二是“汽车在陡峭山坡上行驶”的场景,三是“镜头围绕一大堆老式电视旋转”的场景。这些画面都能够生成自然的声音效果,与画面内容高度匹配。
在Vidu 4D层面,Vidu 4D支持从单个生成的视频中精确重构出4D(即序列3D)。这项工作能够有效提高视频生成模型效果,通过提升3D一致性,来增强视频生成对世界的真实模拟。
Vidu的研发公司生数科技,其创始团队早在2021年就率先开始了扩散模型研究,是我国最早研究深度生成模型的团队之一。他们提出了免训练推断算法 Analytic-DPM、全球最快采样算法 DPM-Solver,并被Stable Diffusion、DALL-E 2等图像模型采用,直接推动了全球图像生成浪潮的兴起。
今年2月,OpenAI发布Sora之后,Vidu团队基于对U-ViT架构的深入理解以及长期积累的工程与数据经验,仅用两个月时间就突破了长视频表示与处理关键技术,研发出了Vidu视频大模型,显著提升了视频的连贯性与动态性。
值得一提的是,Vidu在底层算法实现上是基于单一模型完全端到端生成,不涉及中间的插帧和其他多步骤的处理。