Voice Engine – OpenAI公佈的AI語音合成和聲音克隆模型

AI工具2年前 (2024)發佈新公告 AI管理員

3 0 0

Voice Engine是什麼

Voice Engine是OpenAI最新公佈的一項AI語音合成和聲音克隆技術，能夠利用簡短的15秒音頻樣本和文本輸入，生成接近原聲的自然聽起來的語音。該項技術自2022年底開發以來，已經被應用於OpenAI的文本到語音API和ChatGPT的語音功能中。Voice Engine的應用前景廣泛，包括爲兒童和非讀者提供閱讀輔助、翻譯內容以觸及全球聽衆、支持非言語交流者、幫助恢復患者的聲音等。同時，爲確保技術的安全使用，OpenAI制定了嚴格的使用政策，防止聲音冒充，並採取了包括水印追蹤在內的多項安全措施。

官方博客介紹：https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices

Voice Engine的應用場景和案例

教育與閱讀輔助：Voice Engine可以爲兒童和非讀者提供自然聽起來的語音，幫助他們更好地接觸和理解書面內容。例如，教育技術公司Age of Learning利用這一技術生成預設腳本的語音內容，並與GPT-4結合，創造實時、個性化的互動響應，以提高學生的學習體驗。
內容翻譯與全球化：通過Voice Engine，視頻和播客等內容可以被翻譯成聽衆的母語，同時保留原始說話者的口音，使得創作者和企業能夠以更加地道和親切的方式觸及全球聽衆。例如，AI視覺敘事平台HeyGen使用Voice Engine進行視頻翻譯，使其內容能夠跨越語言障礙，觸及更廣泛的受衆。
改善偏遠地區的服務提供：Voice Engine能夠通過提供本地語言的服務，改善偏遠社區的基本服務，如健康諮詢等。Dimagi公司正在開發工具，使用Voice Engine和GPT-4爲社區衛生工作者提供互動反饋，幫助他們提高技能。
支持言語殘障人士：對於有交流障礙的個體，Voice Engine可以提供獨特且非機械性的聲音，使他們能夠通過增強和替代通訊（AAC）設備進行交流。Livox公司就是利用這一技術，爲其用戶提供多種語言的自然聽起來的聲音，讓他們能夠更好地表達自己。
恢復患者的聲音：對於那些因疾病或神經問題而失去語言能力的患者，Voice Engine可以幫助他們恢復或重建自己的聲音。例如，Norman Prince Neurosciences Institute正在探索如何使用Voice Engine幫助因腫瘤或神經原因導致語言障礙的個體。