“字节跳动动捕新突破:X-Portrait2技惊四座!”
在游戏和3D动画领域,动作捕捉技术一直是打造生动角色不可或缺的工具。然而,这项技术的应用并非毫无瑕疵。动捕的工作流程复杂,所需设备价格高昂,制作一部长约200分钟的动画,从演员表演到最终成品,通常需要超过一个月的时间。此外,设备成本动辄数十万美金,而且实现动画中的表情控制,除了动捕之外,往往只能依靠传统动画师的手工制作,这条路无疑更加耗时费力。
面对这些挑战,寻找更高效且低成本的表情、动作捕捉与控制方法变得尤为迫切。在这个智能化时代,AI技术成为了解答这一问题的关键。近期,字节跳动智能创作团队提出了一项名为X-Portrait2的单图视频驱动技术,为动画和游戏行业带来了新的可能性。
X-Portrait2技术仅需一张静态照片和一段视频,就能生成高质量、电影级的视频。该模型不仅能保留原图的ID,还能精准捕捉并逼真迁移细微到夸张的表情和情绪,呈现高度真实的效果。这种技术为创作者提供了一种成本极低且高效的方法,以实现富有表现力、逼真的角色动画和视频片段。
近日,IT之家获得了X-Portrait2技术的内部测试机会,以下是我们的实测体验。
在实测过程中,我们只需提供一段带有显著人物表情的视频和一张静态的人物照片,X-Portrait2便能将照片中的人物表情与视频中的人物同步。例如,我们选择了影视经典场景中乌蝇哥的名场面,以及《黑神话:悟空》中的天命人复刻乌蝇哥的表情。结果显示,X-Portrait2在复刻表情方面表现自然,即便静态图片与视频中人物头部视角存在差异,也不会影响技术的表现。
我们还尝试了其他案例,如让《生化危机4:重制版》中的里昂和艾什莉演绎电视剧《回家的诱惑》中的名场面。X-Portrait2同样生成了对应的视频,展现了其在复刻细微表情和情感表达方面的强大能力。
此外,我们还对AI生成的人物照片进行了测试。结果表明,X-Portrait2在将AI生成的真人照片模仿原视频真人表情方面,也表现出极高的逼真度。
X-Portrait2技术的背后,是字节跳动在AI模型创新方面的强大实力。该技术基于前一代的X-Portrait创新条件扩散模型研究成果,通过创新的端到端自监督训练框架,能够从大量人像视频中自学习ID无关的运动隐式表征,并将编码器与生成式扩散模型相结合,生成流畅且富有表现力的视频。
X-Portrait2在动态目标捕捉能力和生成结果的逼真度、协调度方面,相比目前行业其他AIGC模型和方案具有明显优势。其创新之处在于,能够如实表现快速的头部动作、细微的表情变化以及强烈的个人情感,对于高质量的内容创作至关重要。
随着X-Portrait2技术的不断成熟和完善,其在动画、游戏、数字人、XR等领域应用前景十分广阔。创作者们可以利用这项技术大大提高工作效率,实现虚拟与现实的交融,为我们的生活带来更多精彩。
总之,X-Portrait2单图视频驱动技术的出现,标志着AIGC技术的一大进步。字节跳动在此领域的技术实力令人惊叹,相信未来这项技术将为我们带来更多惊喜。