Voice Engine – OpenAI公佈的AI語音合成和聲音克隆模型

AI工具8個月前發佈新公告 AI管理員
1 0

Voice Engine是什麼

Voice Engine是OpenAI最新公佈的一項AI語音合成和聲音克隆技術,能夠利用簡短的15秒音頻樣本和文本輸入,生成接近原聲的自然聽起來的語音。該項技術自2022年底開發以來,已經被應用於OpenAI的文本到語音API和ChatGPT的語音功能中。Voice Engine的應用前景廣泛,包括爲兒童和非讀者提供閱讀輔助、翻譯內容以觸及全球聽衆、支持非言語交流者、幫助恢復患者的聲音等。同時,爲確保技術的安全使用,OpenAI制定了嚴格的使用政策,防止聲音冒充,並採取了包括水印追蹤在內的多項安全措施。

Voice Engine – OpenAI公佈的AI語音合成和聲音克隆模型

官方博客介紹:https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices

Voice Engine的應用場景和案例

  • 教育與閱讀輔助:Voice Engine可以爲兒童和非讀者提供自然聽起來的語音,幫助他們更好地接觸和理解書面內容。例如,教育技術公司Age of Learning利用這一技術生成預設腳本的語音內容,並與GPT-4結合,創造實時、個性化的互動響應,以提高學生的學習體驗。
  • 內容翻譯與全球化:通過Voice Engine,視頻和播客等內容可以被翻譯成聽衆的母語,同時保留原始說話者的口音,使得創作者和企業能夠以更加地道和親切的方式觸及全球聽衆。例如,AI視覺敘事平台HeyGen使用Voice Engine進行視頻翻譯,使其內容能夠跨越語言障礙,觸及更廣泛的受衆。
  • 改善偏遠地區的服務提供:Voice Engine能夠通過提供本地語言的服務,改善偏遠社區的基本服務,如健康諮詢等。Dimagi公司正在開發工具,使用Voice Engine和GPT-4爲社區衛生工作者提供互動反饋,幫助他們提高技能。
  • 支持言語殘障人士:對於有交流障礙的個體,Voice Engine可以提供獨特且非機械性的聲音,使他們能夠通過增強和替代通訊(AAC)設備進行交流。Livox公司就是利用這一技術,爲其用戶提供多種語言的自然聽起來的聲音,讓他們能夠更好地表達自己。
  • 恢復患者的聲音:對於那些因疾病或神經問題而失去語言能力的患者,Voice Engine可以幫助他們恢復或重建自己的聲音。例如,Norman Prince Neurosciences Institute正在探索如何使用Voice Engine幫助因腫瘤或神經原因導致語言障礙的個體。

Voice Engine的音頻示例

1. 音頻翻譯

參考英文音頻
生成的中文音頻

2. 患者聲音恢復

患者原聲
參考音頻
生成音頻

如何使用Voice Engine

Voice Engine目前還處於小規模預覽階段,並沒有廣泛發佈。OpenAI正在通過與一小部分可信賴的合作伙伴進行私下測試,以更好地理解這項技術的可能用途,並且根據這些小規模測試的結果和收到的反饋,來決定如何以及是否在未來更廣泛地部署這項技術。

因此,目前Voice Engine並沒有對公衆開放在線使用。OpenAI採取了謹慎的態度,以確保在推廣這項技術的同時,能夠充分考慮到其潛在的濫用風險,並制定相應的安全措施和使用政策。未來,OpenAI可能會根據測試結果和社會發展的需要,決定是否將Voice Engine提供給更廣泛的用戶羣體。

© 版權聲明

相關文章

暫無評論

暫無評論...