AI項目和框架

StableDrag – 騰訊聯合南京大學推出的AI圖像編輯框架

StableDrag是什麼 StableDrag是騰訊聯合南京大學推出的AI圖像編輯框架。讓拖拽圖片變得既穩又準,就像給圖片裝上了精準的GPS。無論你想怎麼調整,StableDrag...

SAM 2 – Meta推出的AI對象分割模型

SAM 2是什麼 SAM 2(Segment Anything Model 2)是Meta推出的AI對象分割模型,專注於實時圖像和視頻對象分割。具備零樣本泛化能力,能準確分割未知對象,並通...

SEED-Story – 騰訊推出的多模態故事生成模型

SEED-Story是什麼 SEED-Story是騰訊聯合香港科技大學、香港中文大學推出的多模態故事生成模型。基於多模態大語言模型(MLLM),能預測文本和視覺token,通過...

EmoTalk3D – 華爲、復旦聯合推出的3D數字人框架

EmoTalk3D是什麼 EmoTalk3D是華爲諾亞方舟實驗室、南京大學和復旦大學共同推出的3D數字人框架。技術的核心在於能合成具有豐富情感表達的3D會說話頭像。EmoTal...

EasyAnimate – 阿里推出的AI視頻生成工具

EasyAnimate是什麼 EasyAnimate是阿里推出的AI視頻生成工具,支持文生視頻和圖生視頻兩種方式,用戶可以上傳圖片作爲視頻的起始和結束畫面,實現更靈活的...

FlashFace – 阿里聯合香港大學推出的高保真AI寫真工具

FlashFace是什麼 FlashFace是阿里聯合香港大學推出的高保真AI寫真工具。能基於用戶提供的面部圖像和文本提示,快速生成個性化的高保真人像寫真圖。FlashFac...

PhotoMaker V2 – 騰訊推出的AI圖像生成框架

PhotoMaker V2是什麼 PhotoMaker V2是騰訊推出的AI圖像生成框架,能在極短的時間內生成逼真的人物照片。與初代相比,V2版本在角色的一致性和可控性上實現了...

CogVideoX – 智譜AI推出的開源AI視頻生成模型

CogVideoX是什麼 CogVideoX是智譜AI最新推出的開源AI視頻生成模型,與智譜AI的商業產品“清影”同源。CogVideoX支持英文提示詞,能生成6秒長、每秒8幀、分辨率...

FoleyCrafter – 上海人工智能實驗室推出的AI視頻配音框架

FoleyCrafter是什麼 FoleyCrafter是上海人工智能實驗室和香港中文大學(深圳)共同推出的AI視頻配音框架,FoleyCrafter能自動聽出視頻中的動作,配上恰到好處...

Whisper-Medusa – aiOla推出的開源AI語音識別模型

Whisper-Medusa是什麼 Whisper-Medusa是aiOla推出的開源AI語音識別模型,結合了OpenAI的Whisper技術與aiOla的創新,Whisper-Medusa引入了多頭注意力機制,實...
1 2 3 4 5 6