FunAudioLLM – 阿里巴巴通義團隊推出的開源語音大模型

AI工具2年前 (2024)發佈新公告 AI管理員

9 0 0

FunAudioLLM是什麼

FunAudioLLM是阿里巴巴通義實驗室推出的開源語音大模型項目，包含SenseVoice和CosyVoice兩個模型。SenseVoice擅長多語言語音識別和情感辨識，支持超過50種語言，特別在中文和粵語上表現優異。CosyVoice則專注於自然語音生成，能夠控制音色和情感，支持中英日粵韓五種語言。FunAudioLLM適用於多語言翻譯、情緒語音對話等場景。相關模型和代碼已在Modelscope和Huggingface平台開源。

FunAudioLLM – 阿里巴巴通義團隊推出的開源語音大模型

FunAudioLLM的主要功能

SenseVoice模型：
- 專注於多語言的高精度語音識別。
- 支持超過50種語言，特別是在中文和粵語上識別效果優於現有模型。
- 具備情感識別功能，能夠辨識多種人機交互事件。
- 提供輕量級和大型兩個版本，適應不同應用場景。
CosyVoice模型：
- 專注於自然語音生成，支持多語言、音色和情感控制。
- 能夠根據少量原始音頻快速生成模擬音色，包括韻律和情感細節。
- 支持跨語種語音生成和細粒度的情感控制。

FunAudioLLM – 阿里巴巴通義團隊推出的開源語音大模型

FunAudioLLM的項目地址

項目官網：https://fun-audio-llm.github.io/
CosyVoice 在線體驗：https://www.modelscope.cn/studios/iic/CosyVoice-300M
SenseVoice 在線體驗：https://www.modelscope.cn/studios/iic/SenseVoice
GitHub倉庫：https://github.com/FunAudioLLM
arXiv技術論文：https://arxiv.org/abs/2407.04051

FunAudioLLM的應用場景

FunAudioLLM – 阿里巴巴通義團隊推出的開源語音大模型

開發者和研究人員：使用FunAudioLLM進行語音識別、語音合成、情感分析等領域的研究和開發。
企業用戶：在客戶服務、智能助手、多語言翻譯等業務場景中應用FunAudioLLM，提高效率和用戶體驗。
內容創作者：使用FunAudioLLM生成有聲讀物或播客，豐富內容形式，吸引更多聽衆。
教育領域：用於語言學習、聽力訓練等教育應用，提高學習效率和興趣。
殘障人士：幫助視障人士通過語音交互獲取信息，提升生活便利性。

© 版權聲明

文章版权归作者所有，未经允许请勿转载。

相關文章

Boximator – 字節推出的控制視頻生成中對象運動的框架

earnbyshare2016

7 0

Oasis – Decart聯合Etched推出首個實時生成交互式視頻內容的AI模型

earnbyshare2016

21 0

吐槽大師 – Monica推出的終極AI吐槽生成器

earnbyshare2016

2 0

CodeWP – AI驅動自動化WordPress開發的平台

earnbyshare2016

3 0

9款免費好用的AI文本轉語音的工具和網站，智能合成配音

earnbyshare2016

60 0

DressPlay – AI虛擬試衣應用，支持圖片和視頻換裝

earnbyshare2016

50 0

暫無評論

暫無評論...