阿里AI创新：Tora视频生成框架

6 8 月 2024

分秒AI
0 评论

阿里AI创新：Tora视频生成框架

近日，阿里巴巴的研究团队推出了一款名为Tora的AI视频生成框架，该框架能够通过结合文本、视觉和轨迹条件来生成视频。这款框架采用了基于轨迹导向的扩散变换器（DiT）技术。Tora由三个部分组成：轨迹提取器（TE），时空DiT和运动引导融合器（MGF）。其中，TE使用3D视频压缩网络将任何轨迹编码为分层时空运动补丁。MGF将运动贴片集成到DiT模块中，以生成遵循轨迹的连贯视频。Tora无缝契合DiT设计，支持制作最长204帧、720P分辨率的视频，并能精确控制不同持续时间、宽高比和分辨率的视频内容。大量实验表明，Tora在实现高运动保真度和细致模拟物理世界运动方面表现出色，同时还能为电影特效制作、虚拟现实等领域带来无限可能。

分秒AI研究院

分秒AI研究院

阿里AI创新：Tora视频生成框架

分秒AI

发表回复取消回复

分秒AI研究院

分秒AI研究院

阿里AI创新：Tora视频生成框架

阿里AI创新：Tora视频生成框架

分秒AI

发表回复 取消回复

发表回复取消回复