跳至正文

谷歌DeepMind创新:AI助无声视频配音

DeepMind推出“视频到音频”技术,可自动生成背景音乐

近日,谷歌旗下的DeepMind公司发布了一项创新性的“视频到音频”(video-to-audio)技术。这项技术利用人工智能(AI)自动从无声视频中生成相应的背景音乐。尽管目前该技术尚存在一定的局限性,但已经展示了令人瞩目的潜力。

据悉,“视频到音频”技术的工作原理是:首先将用户提供的视频进行分解,然后结合用户提供的文字提示,利用扩散模型进行反复计算,最后生成与视频画面相协调的背景音乐。例如,如果用户提供了一段“在黑暗中行走”的无声视频,并附加了“电影、恐怖片、音乐、紧张、混凝土上的脚步声”等关键词,那么该技术就可以生成一段恐怖片风格的背景音乐。

此外,DeepMind还表示,他们的“视频到音频”技术可以生成任意数量的音轨,并且可以通过关键词内容来判断生成的音频的“正面性”或“负面性”,使得生成的音频更能符合特定的场景需求。

对于未来的发展,DeepMind的研究人员正在不断优化和完善这一技术,目标是让“视频到音频”技术能够直接根据视频内容自动生成背景音乐,同时提高视频中人物对话的口型同步效果。

发表回复