中国Sora来袭:AI领域新篇章
美国OpenAI公司于今年2月16日推出了视频生成模型Sora,该模型能够根据寥寥数语生成长达1分钟的视频,其镜头感和视觉效果堪比电影。Sora的发布引起了全球范围内的一场关于AI视频生成模型的讨论热潮。
在国内,清华大学与生数科技联合推出的中国首个长时长、高一致性、高动态性视频大模型Vidu,也被誉为“国内首个Sora级视频模型”。Vidu利用了Diffusion与Transformer融合架构U-ViT,能够生成长度为16秒、分辨率为1080P的视频,不仅能够模拟物理世界,还具备多镜头生成、时空一致性高等特点。
清华大学教授、生数科技首席科学家朱军指出,Vidu的技术路线与Sora高度一致,因此才能够达到与Sora类似的生成效果。与此同时,商汤科技也在文生视频平台方面取得了重要技术突破,公布了三段完全由大模型生成的视频,强调了文生视频平台对于人物、动作和场景的可控性。
虽然Sora等技术在全球范围内引起了广泛关注和热议,但在我国仍然面临着一些挑战和难点。例如,由于缺乏足够的计算资源和支持,我国的AI研究人员和公司难以像OpenAI那样快速发展。此外,由于每个行业的产品逻辑和背景不同,市场也需要不同领域的定制模型。因此,在未来,国内仍需加强技术研究和创新能力,以实现Sora级视频模型的技术突破,推动AGI技术的更快到来。