RTX 3060助力，CogVideoX-5B成为新一代AI视频生成明星

28 8 月 2024

RTX 3060助力，CogVideoX-5B成为新一代AI视频生成明星

近日，我国人工智能领域的研究团队智谱 AI 正式开源了全新的视频生成模型 CogVideoX-5B，相较于之前的 CogVideoX-2B，该模型在视频生成质量上有显著提升，视觉效果更加优秀。智谱 AI 团队对模型进行了大幅度优化，降低了推理性能门槛，使其能够在早期显卡如 GTX 1080Ti 上运行，同时在桌面端的“甜品卡”RTX 3060等显卡上也能流畅运行。

CogVideoX 是一个大规模的 DiT（diffusion transformer）模型，主要用于文本生成视频任务。该模型采用了多项创新技术，包括 3D causal VAE、专家 Transformer 等。其中，3D causal VAE 通过压缩视频数据到隐空间，并在时间维度上进行解码，实现了高效的视频重建；而专家 Transformer 将文本嵌入和视频嵌入相结合，利用 3D-RoPE 作为位置编码，采用专家自适应层归一化处理两个模态的数据，并使用 3D 全注意力机制进行时空联合建模。

智谱 AI 团队表示，CogVideoX-5B 模型在保持高质量视频生成效果的同时，大幅降低了推理性能门槛，使得更多用户能够体验到先进的人工智能技术带来的便捷与乐趣。目前，该模型的代码仓库已上线 GitHub，并提供了详细的模型下载信息。同时，智谱 AI 团队还分享了关于该模型的论文链接供广大研究者参考。

分秒AI研究院

分秒AI研究院

RTX 3060助力，CogVideoX-5B成为新一代AI视频生成明星

分秒AI

发表回复取消回复

分秒AI研究院

分秒AI研究院

RTX 3060助力，CogVideoX-5B成为新一代AI视频生成明星

RTX 3060助力，CogVideoX-5B成为新一代AI视频生成明星

分秒AI

发表回复 取消回复

发表回复取消回复