VoiceCraft – 開源的語音編輯和文本轉語音模型

AI工具2年前 (2024)發佈新公告 AI管理員

2 0 0

VoiceCraft是什麼

VoiceCraft是一個由德克薩斯大學奧斯汀分校研究團隊開源的神經編解碼器語言模型，專注於零樣本語音編輯和文本到語音（TTS）任務。該模型採用Transformer架構，通過創新的token重排過程，結合因果掩蔽和延遲疊加技術，可零樣本實現在現有音頻序列內的高效生成。VoiceCraft在多種口音、風格和噪聲條件下的語音編輯和TTS任務上展現出卓越性能，生成的語音自然甚至難以與原聲區分。

VoiceCraft的官網入口

官方項目主頁：https://jasonppy.github.io/VoiceCraft_web/
GitHub源碼庫：https://github.com/jasonppy/VoiceCraft
研究論文：https://jasonppy.github.io/assets/pdfs/VoiceCraft.pdf

VoiceCraft的功能特性

語音編輯：VoiceCraft能夠在不需要針對性訓練的情況下，對現有的語音錄音進行編輯，如插入、刪除或替換其中的詞語，而編輯後的語音聽起來自然，與原錄音難以區分。
文本到語音轉換：該模型能夠僅根據文本和簡短的聲音樣本，生成與目標聲音相似的語音，無需在訓練過程中接觸過目標聲音。
高質量語音合成：VoiceCraft在合成語音時，能夠保持語音的自然度和清晰度，使得合成語音在聽覺上與真實人聲相近。
多樣化數據適應性：模型在多種口音、說話風格、錄音條件以及背景噪音和音樂的挑戰性數據集上進行了評估，顯示出良好的適應性和一致的性能。

VoiceCraft的工作原理

神經編解碼器架構：VoiceCraft採用了Transformer架構，一種依賴於自注意力機制的深度學習模型，能夠處理序列數據並捕捉序列中的長距離依賴關係。Transformer架構在自然語言處理（NLP）領域已經證明了其高效性，VoiceCraft將其應用於語音信號的處理。
Token重排過程：VoiceCraft引入了一種特殊的token重排過程，該過程包括兩個主要步驟——因果掩蔽和延遲疊加。這個過程允許模型在生成語音時考慮到前後文信息，從而生成更加自然和連貫的語音序列。
- 因果掩蔽：這一步驟涉及將輸入語音信號量化爲一系列編碼器token，並將這些token按照因果關係（即不影響未來輸出）進行掩蔽。這意味着模型在預測被掩蔽的token時，只能依賴於未被掩蔽的token。
- 延遲疊加：在因果掩蔽的基礎上，延遲疊加步驟進一步調整了編碼器token的時間維度，以確保模型在預測當前時間步的編碼器token時，能夠有效地利用之前時間步的信息。
自迴歸序列預測：VoiceCraft在訓練和推理過程中使用自迴歸序列預測方法。這意味着模型會一次生成一個token，並在每個時間步使用之前生成的所有token作爲上下文信息來預測下一個token。
多碼本建模：爲了提高效率和生成質量，VoiceCraft使用了殘差向量量化（RVQ）技術，將語音信號編碼爲多個碼本的序列。這些碼本捕捉了語音的不同特徵，使得模型能夠更精細地建模語音信號。
推理和生成：在推理階段，VoiceCraft根據輸入的文本和音頻信息（對於零樣本TTS任務，還包括目標聲音的簡短參考錄音），自迴歸地生成對應的語音序列。對於語音編輯任務，模型會根據原始音頻和編輯後的文本目標，生成與目標文本匹配的語音，同時保持未編輯部分的原始特徵。