中国Vidu视频大模型更新：时长32秒，支持音视频合成

6 6 月 2024

中国Vidu视频大模型更新：时长32秒，支持音视频合成

近日，我国首个自研视频大模型Vidu迎来了重要的技术进步。钛媒体AGI独家报道，生数科技与清华大学联合发布的我国首个具有长时长、高一致性和高动态性的视频大模型Vidu，已经完成了三个最新的重大技术迭代，实现了国内视频模型技术的巨大飞跃。

目前，Vidu能够一键生成32秒的视频。此外，Vidu支持音视频合成，使得视频生成具备了声音功能（Text-2-Audio）。此外，Vidu还支持4D生成，可以从单一视频中生成具有时空一致性的4D内容。

在32秒视频技术方面，清华大学人工智能研究院副院长、生数科技首席科学家朱军教授在现场展示了Vidu生成的画面。这是一个图书馆书架上的地球仪，它轻轻地旋转着，表面描绘的是地球的地图。随着摄像头的靠近，地球仪表面的地图信息得到了细致的再现。同时，从“地球仪”到“内部蓝色星球”的动态过渡也得到了良好的实现。

在现场展示的三段先前Vidu发布的演示片段中，此次加入了声音效果：一是“画室里的一艘船驶向镜头”的画面，二是“汽车在陡峭山坡上行驶”的场景，三是“镜头围绕一大堆老式电视旋转”的场景。这些画面都能够生成自然的声音效果，与画面内容高度匹配。

在Vidu 4D层面，Vidu 4D支持从单个生成的视频中精确重构出4D（即序列3D）。这项工作能够有效提高视频生成模型效果，通过提升3D一致性，来增强视频生成对世界的真实模拟。

Vidu的研发公司生数科技，其创始团队早在2021年就率先开始了扩散模型研究，是我国最早研究深度生成模型的团队之一。他们提出了免训练推断算法 Analytic-DPM、全球最快采样算法 DPM-Solver，并被Stable Diffusion、DALL-E 2等图像模型采用，直接推动了全球图像生成浪潮的兴起。

今年2月，OpenAI发布Sora之后，Vidu团队基于对U-ViT架构的深入理解以及长期积累的工程与数据经验，仅用两个月时间就突破了长视频表示与处理关键技术，研发出了Vidu视频大模型，显著提升了视频的连贯性与动态性。

值得一提的是，Vidu在底层算法实现上是基于单一模型完全端到端生成，不涉及中间的插帧和其他多步骤的处理。

分秒AI研究院

分秒AI研究院

中国Vidu视频大模型更新：时长32秒，支持音视频合成

分秒AI

发表回复取消回复

分秒AI研究院

分秒AI研究院

中国Vidu视频大模型更新：时长32秒，支持音视频合成

中国Vidu视频大模型更新：时长32秒，支持音视频合成

分秒AI

发表回复 取消回复

发表回复取消回复