AI項目和框架

SEED-Story – 騰訊推出的多模態故事生成模型

SEED-Story是什麼 SEED-Story是騰訊聯合香港科技大學、香港中文大學推出的多模態故事生成模型。基於多模態大語言模型(MLLM),能預測文本和視覺token,通過...

EmoTalk3D – 華爲、復旦聯合推出的3D數字人框架

EmoTalk3D是什麼 EmoTalk3D是華爲諾亞方舟實驗室、南京大學和復旦大學共同推出的3D數字人框架。技術的核心在於能合成具有豐富情感表達的3D會說話頭像。EmoTal...

EasyAnimate – 阿里推出的AI視頻生成工具

EasyAnimate是什麼 EasyAnimate是阿里推出的AI視頻生成工具,支持文生視頻和圖生視頻兩種方式,用戶可以上傳圖片作爲視頻的起始和結束畫面,實現更靈活的...

FlashFace – 阿里聯合香港大學推出的高保真AI寫真工具

FlashFace是什麼 FlashFace是阿里聯合香港大學推出的高保真AI寫真工具。能基於用戶提供的面部圖像和文本提示,快速生成個性化的高保真人像寫真圖。FlashFac...

PhotoMaker V2 – 騰訊推出的AI圖像生成框架

PhotoMaker V2是什麼 PhotoMaker V2是騰訊推出的AI圖像生成框架,能在極短的時間內生成逼真的人物照片。與初代相比,V2版本在角色的一致性和可控性上實現了...

CogVideoX – 智譜AI推出的開源AI視頻生成模型

CogVideoX是什麼 CogVideoX是智譜AI最新推出的開源AI視頻生成模型,與智譜AI的商業產品“清影”同源。CogVideoX支持英文提示詞,能生成6秒長、每秒8幀、分辨率...

FoleyCrafter – 上海人工智能實驗室推出的AI視頻配音框架

FoleyCrafter是什麼 FoleyCrafter是上海人工智能實驗室和香港中文大學(深圳)共同推出的AI視頻配音框架,FoleyCrafter能自動聽出視頻中的動作,配上恰到好處...

Whisper-Medusa – aiOla推出的開源AI語音識別模型

Whisper-Medusa是什麼 Whisper-Medusa是aiOla推出的開源AI語音識別模型,結合了OpenAI的Whisper技術與aiOla的創新,Whisper-Medusa引入了多頭注意力機制,實...

Tora – 阿里推出的AI視頻生成框架

Tora是什麼 Tora是阿里推出的AI視頻生成框架,基於軌跡導向的擴散變換器(DiT)技術,將文本、視覺和軌跡條件融合,生成高質量且符合物理世界動態的視頻內容...

Stable Fast 3D – Stability AI推出的AI新模型,0.5秒將圖片轉爲3D

Stable Fast 3D是什麼 Stable Fast 3D(SF3D)是Stability AI推出的一種創新3D網格重建技術,能在0.5秒內從單張圖片生成高質量的3D模型。Stable Fast 3D採用...
1 2 3 4 5