微软VASA-1框架实现实时口型动画合成

22 4 月 2024

微软VASA-1框架实现实时口型动画合成

微软推出全新AI框架：VASA-1实现实时生成逼真对口型视频

近日，微软发布了一项名为VASA-1的图生视频AI框架，借助该框架，仅需提供一张真人肖像照片和一段个人语音音频，便可生成精准且逼真的对口型视频。据悉，VASA-1在表情和头部动作方面表现尤为自然，成功克服了现有对口型生成技术的局限性。

传统的对口型生成技术研究主要集中在对口型本身，而往往忽视了面部动态行为及头部运动的多样性。因此，生成的对口型视频在表情和头部动作方面可能会显得僵硬、缺乏真实感，甚至出现“恐怖谷”现象。微软的VASA-1框架针对这一问题进行了优化和改进，通过利用扩散Transformer模型对整体面部动态和头部运动进行训练，将所有面部动态，如嘴唇动作、表情、眼神和眨眼等，视为单一潜在变量（即一次生成整个具有高度细节的人脸）。这样，VASA-1不仅能生成高质量的面部视频，还能有效捕捉和还原面部三维结构。

此外，微软还运用了3D技术辅助标记人脸面部特征，并设计了一种特殊的损失函数，以期进一步提高VASA-1的视频生成能力。据称，该框架可实现每秒512×512分辨率的40帧视频生成，为用户提供更为真实自然的视频体验。

总之，微软的VASA-1框架在实时对口型视频生成领域取得了重要突破，有望为AI技术的发展带来新的可能性。

分秒AI研究院

分秒AI研究院

微软VASA-1框架实现实时口型动画合成

分秒AI

发表回复取消回复

分秒AI研究院

分秒AI研究院

微软VASA-1框架实现实时口型动画合成

微软VASA-1框架实现实时口型动画合成

分秒AI

发表回复 取消回复

发表回复取消回复