在人工智能領域,谷歌旗下的DeepMind公司再次取得突破性進展,推出了一款名爲V2A(Video-to-Audio,視頻到音頻)的AI模型。該項技術能夠將視頻像素與文本提示相結合,爲無聲視頻生成包含對話、音效和音樂的詳細音頻軌道。
V2A技術不僅可以與DeepMind自家的視頻生成模型Veo配合使用,還能與Sora、可靈或Gen 3等競爭對手的視頻生成模型相結合,爲視頻添加戲劇性的音樂、逼真的音效或與視頻中角色和情緒相匹配的對話。當然,這項技術同樣適用於爲傳統影像資料,如檔案影像和無聲電影添加聲音。V2A的強大之處在於,能夠爲每個視頻輸入創造無限數量的音軌。
DeepMind團隊表示,V2A模型基於擴散模型,在同步視頻和音頻方面提供了最逼真和令人滿意的結果。V2A系統首先將視頻輸入編碼爲壓縮表示,然後擴散模型在視覺輸入和文本提示的指導下,從隨機噪聲中逐漸細化音頻。最終,音頻輸出被解碼、轉換爲音頻波形,並與視頻數據結合。
爲了提高音頻質量,DeepMind在訓練過程中增加了額外信息,包括AI生成的聲音描述和對話的轉錄。這樣,V2A學會了將某些音頻事件與不同的視覺場景聯繫起來,並響應描述或轉錄中包含的信息。
然而,V2A技術也存在一些限制。例如,音頻輸出的質量取決於視頻輸入的質量。視頻中的僞影或失真,如果超出了模型的訓練分佈,可能會導致音頻質量顯著下降。此外,視頻中的脣形同步仍然不夠穩定。
目前,V2A尚未公開發布。DeepMind正在收集來自頂尖創意人士和電影製作人的反饋,以確保V2A能夠對創意社區產生積極影響。公司表示,在考慮更廣泛的訪問之前,V2A將經過嚴格的安全評估和測試。
(更多信息:Google DeepMind – Generating audio for video)
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...