微软VASA-1框架实现实时口型动画合成
微软推出全新AI框架:VASA-1实现实时生成逼真对口型视频
近日,微软发布了一项名为VASA-1的图生视频AI框架,借助该框架,仅需提供一张真人肖像照片和一段个人语音音频,便可生成精准且逼真的对口型视频。据悉,VASA-1在表情和头部动作方面表现尤为自然,成功克服了现有对口型生成技术的局限性。
传统的对口型生成技术研究主要集中在对口型本身,而往往忽视了面部动态行为及头部运动的多样性。因此,生成的对口型视频在表情和头部动作方面可能会显得僵硬、缺乏真实感,甚至出现“恐怖谷”现象。微软的VASA-1框架针对这一问题进行了优化和改进,通过利用扩散Transformer模型对整体面部动态和头部运动进行训练,将所有面部动态,如嘴唇动作、表情、眼神和眨眼等,视为单一潜在变量(即一次生成整个具有高度细节的人脸)。这样,VASA-1不仅能生成高质量的面部视频,还能有效捕捉和还原面部三维结构。
此外,微软还运用了3D技术辅助标记人脸面部特征,并设计了一种特殊的损失函数,以期进一步提高VASA-1的视频生成能力。据称,该框架可实现每秒512×512分辨率的40帧视频生成,为用户提供更为真实自然的视频体验。
总之,微软的VASA-1框架在实时对口型视频生成领域取得了重要突破,有望为AI技术的发展带来新的可能性。