AI工具
Voice Engine – OpenAI公佈的AI語音合成和聲音克隆模型
Voice Engine是什麼 Voice Engine是OpenAI最新公佈的一項AI語音合成和聲音克隆技術,能夠利用簡短的15秒音頻樣本和文本輸入,生成接近原聲的自然聽起來的語音...
Jamba – AI21開源的首個基於Mamba架構的大模型
Jamba是什麼 Jamba是由AI21 Labs推出的首個基於Mamba架構的生產級別的大語言模型,目前大部分的大模型(如GPT、Gemini 和 Llama)都是基於 Transformer 結構...
Champ – 基於3D的人物圖片轉視頻動畫模型
Champ是什麼 Champ是由阿里巴巴、復旦大學和南京大學的研究人員共同提出的一種基於3D的將人物圖片轉換爲視頻動畫的模型,該方法結合了3D參數化模型(特別是SM...
Champ – 基於3D的人物圖片轉視頻動畫模型
Champ是什麼 Champ是由阿里巴巴、復旦大學和南京大學的研究人員共同提出的一種基於3D的將人物圖片轉換爲視頻動畫的模型,該方法結合了3D參數化模型(特別是SM...
VoiceCraft – 開源的語音編輯和文本轉語音模型
VoiceCraft是什麼 VoiceCraft是一個由德克薩斯大學奧斯汀分校研究團隊開源的神經編解碼器語言模型,專注於零樣本語音編輯和文本到語音(TTS)任務。該模型採...
VoiceCraft – 開源的語音編輯和文本轉語音模型
VoiceCraft是什麼 VoiceCraft是一個由德克薩斯大學奧斯汀分校研究團隊開源的神經編解碼器語言模型,專注於零樣本語音編輯和文本到語音(TTS)任務。該模型採...
StreamingT2V – PicsArt推出的可生成長達2分鐘視頻的模型
StreamingT2V是什麼 StreamingT2V是由PicsArt AI研究團隊推出的一個文本到視頻的生成模型,旨在解決現有模型僅能生成16幀或24幀的高質量短視頻,而當在生成長...
StreamingT2V – PicsArt推出的可生成長達2分鐘視頻的模型
StreamingT2V是什麼 StreamingT2V是由PicsArt AI研究團隊推出的一個文本到視頻的生成模型,旨在解決現有模型僅能生成16幀或24幀的高質量短視頻,而當在生成長...
SUPIR – 高保真的AI圖像修復和畫質增強模型
SUPIR是什麼 SUPIR(Scaling-UP Image Restoration)是一個突破性的圖像修復和畫質增強方法,利用了大規模的生成模型StableDiffusion-XL(SDXL)和模型擴展技...
BrushNet – 騰訊推出的高質量圖像照片修復模型
BrushNet是什麼 BrushNet是由騰訊PCG部門的ARC實驗室與香港大學的研究人員推出的一個基於擴散模型的即插即用的圖像照片修復(Inpainting)模型,通過分解的雙...