谷歌DeepMind推出V2A技術，可爲無聲視頻添加逼真音效

AI工具1年前 (2024)更新 AI管理員

2 0 0

在人工智能領域，谷歌旗下的DeepMind公司再次取得突破性進展，推出了一款名爲V2A（Video-to-Audio，視頻到音頻）的AI模型。該項技術能夠將視頻像素與文本提示相結合，爲無聲視頻生成包含對話、音效和音樂的詳細音頻軌道。

V2A技術不僅可以與DeepMind自家的視頻生成模型Veo配合使用，還能與Sora、可靈或Gen 3等競爭對手的視頻生成模型相結合，爲視頻添加戲劇性的音樂、逼真的音效或與視頻中角色和情緒相匹配的對話。當然，這項技術同樣適用於爲傳統影像資料，如檔案影像和無聲電影添加聲音。V2A的強大之處在於，能夠爲每個視頻輸入創造無限數量的音軌。

DeepMind團隊表示，V2A模型基於擴散模型，在同步視頻和音頻方面提供了最逼真和令人滿意的結果。V2A系統首先將視頻輸入編碼爲壓縮表示，然後擴散模型在視覺輸入和文本提示的指導下，從隨機噪聲中逐漸細化音頻。最終，音頻輸出被解碼、轉換爲音頻波形，並與視頻數據結合。

谷歌DeepMind推出V2A技術，可爲無聲視頻添加逼真音效

爲了提高音頻質量，DeepMind在訓練過程中增加了額外信息，包括AI生成的聲音描述和對話的轉錄。這樣，V2A學會了將某些音頻事件與不同的視覺場景聯繫起來，並響應描述或轉錄中包含的信息。

然而，V2A技術也存在一些限制。例如，音頻輸出的質量取決於視頻輸入的質量。視頻中的僞影或失真，如果超出了模型的訓練分佈，可能會導致音頻質量顯著下降。此外，視頻中的脣形同步仍然不夠穩定。

目前，V2A尚未公開發布。DeepMind正在收集來自頂尖創意人士和電影製作人的反饋，以確保V2A能夠對創意社區產生積極影響。公司表示，在考慮更廣泛的訪問之前，V2A將經過嚴格的安全評估和測試。

（更多信息：Google DeepMind – Generating audio for video）

# AI工具