AI工具

Llama 3 – Meta開源推出的新一代大語言模型

Llama 3是什麼 Llama 3是Meta公司最新開源推出的新一代大型語言模型(LLM),包含8B和70B兩種參數規模的模型,標誌着開源人工智能領域的又一重大進步。作爲Ll...

VASA-1 – 微軟推出的靜態照片對口型視頻生成框架

VASA-1是什麼 VASA-1是由微軟亞洲研究院提出的一個將靜態照片轉換爲對口型動態視頻的生成框架,能夠根據單張靜態人臉照片和一段語音音頻,實時生成逼真的3D說...

Parler-TTS – Hugging Face開源的文本轉語音模型

Parler-TTS是什麼 Parler-TTS是由Hugging Face推出的一款開源的文本到語音(TTS)模型,能夠通過輸入提示描述模仿特定說話者的風格(性別、音調、說話風格等...

Parler-TTS – Hugging Face開源的文本轉語音模型

Parler-TTS是什麼 Parler-TTS是由Hugging Face推出的一款開源的文本到語音(TTS)模型,能夠通過輸入提示描述模仿特定說話者的風格(性別、音調、說話風格等...

CodeGemma – 谷歌開源推出的代碼生成大模型

CodeGemma是什麼 CodeGemma是由Google發佈的專注於代碼生成和理解的大型語言模型,該系列包含三種不同規模的模型,分別是2B預訓練模型、7B預訓練模型和7B指令...

DesignEdit – 微軟等開源的AI圖像分層處理編輯框架

DesignEdit是什麼 DesignEdit是由來自微軟亞洲研究院和北京大學的研究人員共同開發的一個AI圖像編輯框架,引入了設計領域的圖層概念,採用多層潛在分解和融合...

InstantStyle – 開源的個性化文本到圖像生成框架,保留風格一致性

InstantStyle是什麼 InstantStyle是小紅書的InstantX團隊(該團隊也是InstantID框架背後的開發團隊)開源的保留風格一致性的個性化文本到圖像生成框架,旨在...

InstantStyle – 開源的個性化文本到圖像生成框架,保留風格一致性

InstantStyle是什麼 InstantStyle是小紅書的InstantX團隊(該團隊也是InstantID框架背後的開發團隊)開源的保留風格一致性的個性化文本到圖像生成框架,旨在...

AniPortrait – 騰訊開源的照片對口型視頻生成框架

AniPortrait是什麼 AniPortrait是一個由騰訊開源的照片對口型視頻生成框架,類似於此前阿里推出的EMO,能夠通過音頻和一張參考肖像圖片生成高質量的動畫。Ani...

DreaMoving – 阿里開源的基於擴散模型的人類視頻生成框架

DreaMoving是什麼 DreaMoving是一個基於擴散模型的人類視頻生成框架,由阿里巴巴集團的研究團隊開發。DreaMoving通過視頻控制網絡和內容引導器實現對人物動作...
1 ... 33 34 35 36 37 ... 49