RTX 3060助力,CogVideoX-5B成为新一代AI视频生成明星

近日,我国人工智能领域的研究团队智谱 AI 正式开源了全新的视频生成模型 CogVideoX-5B,相较于之前的 CogVideoX-2B,该模型在视频生成质量上有显著提升,视觉效果更加优秀。智谱 AI 团队对模型进行了大幅度优化,降低了推理性能门槛,使其能够在早期显卡如 GTX 1080Ti 上运行,同时在桌面端的“甜品卡”RTX 3060等显卡上也能流畅运行。

CogVideoX 是一个大规模的 DiT(diffusion transformer)模型,主要用于文本生成视频任务。该模型采用了多项创新技术,包括 3D causal VAE、专家 Transformer 等。其中,3D causal VAE 通过压缩视频数据到隐空间,并在时间维度上进行解码,实现了高效的视频重建;而专家 Transformer 将文本嵌入和视频嵌入相结合,利用 3D-RoPE 作为位置编码,采用专家自适应层归一化处理两个模态的数据,并使用 3D 全注意力机制进行时空联合建模。

智谱 AI 团队表示,CogVideoX-5B 模型在保持高质量视频生成效果的同时,大幅降低了推理性能门槛,使得更多用户能够体验到先进的人工智能技术带来的便捷与乐趣。目前,该模型的代码仓库已上线 GitHub,并提供了详细的模型下载信息。同时,智谱 AI 团队还分享了关于该模型的论文链接供广大研究者参考。

发表回复