据谷歌DeepMind最新公布的研究成果,他们已成功研发出一项革命性的“video-to-audio”技术,能够利用AI模型为无声视频生成背景音乐。
尽管这一技术目前还存在一定的局限性,需要开发者通过文字提示来引导AI模型理解视频内容并生成相应的音效,但它已经展现出了巨大的潜力和应用价值。
据了解,该模型的工作原理是首先将用户输入的视频进行拆解,然后结合用户提供的文字提示,利用扩散模型进行反复运算,最终生成与视频画面相协调的背景声音。例如,如果用户输入一段“在黑暗中行走”的无声视频,并添加“电影、恐怖片、音乐、紧张、混凝土上的脚步声”等文字提示,模型就能根据这些提示生成符合恐怖氛围的背景音效。
DeepMind表示,这款“video-to-audio”模型具备高度的灵活性和可定制性。它可以为任何视频生成无限数量的音轨,并且能够通过调整提示词的内容来控制生成音频的“正向性”或“反向性”,以更精准地满足用户的需求。
展望未来,DeepMind的研究团队计划进一步优化这款模型,使其能够直接根据视频内容自动生成背景音效,而无需依赖用户提供的文字提示。此外,他们还将致力于改善视频中人物对白的口型同步能力,以提升整体的用户体验。
这一技术的成功研发不仅为视频制作领域带来了全新的可能性,也为AI技术在音频生成领域的应用开辟了新的道路。随着技术的不断进步和完善,我们有理由相信,未来的视频制作将更加智能化、高效化。