AI工具

SWE-agent – 普林斯頓開源的AI程序員智能體

SWE-agent是什麼 SWE-agent是一個由普林斯頓大學NLP組研究人員開發的開源AI程序員和軟件工程師系統,利用大型語言模型(如GPT-4)的能力,可以自動解決GitHub...

Voice Engine – OpenAI公佈的AI語音合成和聲音克隆模型

Voice Engine是什麼 Voice Engine是OpenAI最新公佈的一項AI語音合成和聲音克隆技術,能夠利用簡短的15秒音頻樣本和文本輸入,生成接近原聲的自然聽起來的語音...

Voice Engine – OpenAI公佈的AI語音合成和聲音克隆模型

Voice Engine是什麼 Voice Engine是OpenAI最新公佈的一項AI語音合成和聲音克隆技術,能夠利用簡短的15秒音頻樣本和文本輸入,生成接近原聲的自然聽起來的語音...

Jamba – AI21開源的首個基於Mamba架構的大模型

Jamba是什麼 Jamba是由AI21 Labs推出的首個基於Mamba架構的生產級別的大語言模型,目前大部分的大模型(如GPT、Gemini 和 Llama)都是基於 Transformer 結構...

Champ – 基於3D的人物圖片轉視頻動畫模型

Champ是什麼 Champ是由阿里巴巴、復旦大學和南京大學的研究人員共同提出的一種基於3D的將人物圖片轉換爲視頻動畫的模型,該方法結合了3D參數化模型(特別是SM...

Champ – 基於3D的人物圖片轉視頻動畫模型

Champ是什麼 Champ是由阿里巴巴、復旦大學和南京大學的研究人員共同提出的一種基於3D的將人物圖片轉換爲視頻動畫的模型,該方法結合了3D參數化模型(特別是SM...

VoiceCraft – 開源的語音編輯和文本轉語音模型

VoiceCraft是什麼 VoiceCraft是一個由德克薩斯大學奧斯汀分校研究團隊開源的神經編解碼器語言模型,專注於零樣本語音編輯和文本到語音(TTS)任務。該模型採...

VoiceCraft – 開源的語音編輯和文本轉語音模型

VoiceCraft是什麼 VoiceCraft是一個由德克薩斯大學奧斯汀分校研究團隊開源的神經編解碼器語言模型,專注於零樣本語音編輯和文本到語音(TTS)任務。該模型採...

StreamingT2V – PicsArt推出的可生成長達2分鐘視頻的模型

StreamingT2V是什麼 StreamingT2V是由PicsArt AI研究團隊推出的一個文本到視頻的生成模型,旨在解決現有模型僅能生成16幀或24幀的高質量短視頻,而當在生成長...

StreamingT2V – PicsArt推出的可生成長達2分鐘視頻的模型

StreamingT2V是什麼 StreamingT2V是由PicsArt AI研究團隊推出的一個文本到視頻的生成模型,旨在解決現有模型僅能生成16幀或24幀的高質量短視頻,而當在生成長...
1 ... 34 35 36 37 38 ... 49