LongCat-AudioDiT – 美團開源的文本轉語音模型

0 0 0

LongCat-AudioDiT是什麼

LongCat-AudioDiT 是美團開源的高保真擴散式文本轉語音（TTS）模型，核心創新在於直接在波形潛空間進行擴散生成，非傳統梅爾頻譜等中間表示，有效避免誤差累積並大幅簡化流程。模型引入自適應投影引導（APG）替代傳統 CFG，修正訓練-推理不匹配問題。在 Seed 基準測試中，3.5B 版本以 0.818 中文相似度超越前 SOTA（Seed-TTS 0.809），實現頂尖零樣本語音克隆效果。模型採用 MIT 協議開源，提供 1B/3.5B 雙版本及完整推理工具。

LongCat-AudioDiT的主要功能

文本轉語音：將任意文本轉換爲24kHz高保真自然語音，支持中英文等多語言合成。
零樣本語音克隆：僅需3-10秒參考音頻可精準復刻任意說話人音色，無需專門訓練。
波形潛空間生成：模型直接在波形潛空間進行擴散，避免傳統梅爾頻譜的信息損失，簡化流水線。
自適應投影引導：模型採用APG技術替代傳統CFG，修正訓練-推理不匹配，提升生成質量。
靈活推理接口：提供CLI命令行與Python API雙模式，支持單條合成與批量處理。
雙規格模型：開源1B輕量版與3.5B高質量版，滿足不同場景的速度與質量需求。

如何使用LongCat-AudioDiT

環境準備：克隆倉庫執行 pip install -r requirements.txt 安裝依賴。
加載模型：通過 AudioDiTModel.from_pretrained("meituan-longcat/LongCat-AudioDiT-1B") 加載預訓練模型至GPU。
準備文本：用 AutoTokenizer 將目標文本編碼爲模型輸入格式。
設置參數：指定生成時長（duration）、擴散步數（steps）、引導方式（CFG或APG）及強度。
執行推理：調用模型生成音頻，TTS直接輸入文本，克隆需額外提供參考音頻和提示文本。
保存結果：使用 soundfile 將生成的波形數據寫入WAV文件完成輸出。

LongCat-AudioDiT的關鍵信息和使用要求

開發方：美團（Meituan）
技術路線：擴散模型 + 波形潛空間直接生成
模型規模：1B（輕量版）、3.5B（旗艦版）
音頻質量：24kHz 採樣率
核心創新：波形潛空間擴散、自適應投影引導（APG）
性能水平：Seed基準SOTA，中文相似度0.818
硬件：NVIDIA GPU（CUDA支持），建議顯存≥8GB
軟件：Python 3.8+、PyTorch、transformers、librosa
依賴安裝：執行 pip install -r requirements.txt

LongCat-AudioDiT的核心優勢

端到端簡化：直接在波形潛空間生成，無需梅爾頻譜等中間表示，避免誤差累積，流程更簡潔。
SOTA語音克隆：Seed基準中文相似度達0.818，超越前SOTA模型Seed-TTS，零樣本克隆效果頂尖。
推理質量優化：支持自適應投影引導（APG）替代傳統CFG，修正訓練-推理不匹配，生成更穩定自然。
靈活雙版本：提供1B版快速輕量，3.5B版極致質量，適配不同場景需求。

LongCat-AudioDiT的項目地址

GitHub倉庫：https://github.com/meituan-longcat/LongCat-AudioDiT
HuggingFace模型庫：
- https://huggingface.co/meituan-longcat/LongCat-AudioDiT-1B
- https://huggingface.co/meituan-longcat/LongCat-AudioDiT-3.5B

LongCat-AudioDiT的同類競品對比

模型	開發方	技術路線	開源情況	核心特點
LongCat-AudioDiT	美團	擴散模型 + 波形潛空間	完全開源（MIT）	Seed基準SOTA，APG引導，端到端生成
Seed-TTS	字節跳動	擴散模型	閉源	前SOTA，高質量語音克隆
CosyVoice	阿里通義	流匹配（Flow Matching）	開源	支持指令控制、跨語言合成