F5-TTS – 上海交大推出開源的文本到語音（TTS）合成系統

AI工具1年前 (2024)發佈新公告 AI管理員

24 0 0

F5-TTS是什麼

F5-TTS是由上海交通大學開源的一款高性能文本到語音（TTS）系統，基於流匹配的非自迴歸生成方法，結合擴散變換器（DiT）技術。系統在沒有額外監督的情況下，基於零樣本學習快速生成自然、流暢且忠實於原文的語音。F5-TTS支持多語言合成，包括中文和英文，能在長文本上進行有效的語音合成。F5-TTS具備情感控制功能，能根據文本內容調整合成語音的情感表現。F5-TTS支持速度控制，支持用戶根據需要調整語音的播放速度。系統在10萬小時的大規模數據集上進行訓練，展現出卓越的性能和泛化能力。F5-TTS應用場景廣泛，包括有聲讀物、語音助手、語言學習、新聞播報、遊戲配音等，爲各種商業和非商業用途提供強大的語音合成能力。

F5-TTS的主要功能

零樣本聲音克隆：無需特定說話人的數據，模仿任何人的聲音。
速度控制：根據總時長調整語音的生成速度，實現對語音播放速度的精確控制。
情感表現控制：控制合成語音的情感色彩，機器生成的語音更加富有人類情感的表現力。
長文本合成：支持長文本的連續語音合成，適於長篇內容的朗讀和播報。
多語言支持：處理和生成中文和英文等多種語言的語音，具有很好的多語言合成能力。
大規模數據訓練：在10萬小時的大規模數據集上進行訓練，確保模型的泛化能力和合成語音的自然度。

F5-TTS的技術原理

流匹配（Flow Matching）：F5-TTS基於流匹配目標訓練模型，模型能將一個簡單的概率分佈（如標準正態分佈）轉換爲近似數據分佈的複雜概率分佈。涉及到在整個流步驟和數據範圍內訓練模型，確保處理從初始分佈到目標分佈的整個轉換過程。
擴散變換器（DiT）：作爲模型的骨幹網絡，DiT能處理序列數據，在生成過程中逐步去除噪聲，生成清晰的語音信號。
ConvNeXt V2：F5-TTS基於ConvNeXt V2改進文本表示，更容易與語音特徵對齊，提高語音合成的質量和自然度。
Sway Sampling策略：在推理時用的流步驟採樣策略，基於非均勻採樣提高模型的性能和效率，尤其是在生成語音的早期階段，有助於模型更準確地捕捉目標語音的輪廓。
端到端的系統設計：F5-TTS的系統設計簡單直接，從文本輸入到語音輸出，省略傳統的複雜設計，如音素對齊和時長預測，簡化模型的訓練和推理過程。