AI項目和框架
StableDrag – 騰訊聯合南京大學推出的AI圖像編輯框架
StableDrag是什麼 StableDrag是騰訊聯合南京大學推出的AI圖像編輯框架。讓拖拽圖片變得既穩又準,就像給圖片裝上了精準的GPS。無論你想怎麼調整,StableDrag...
SAM 2 – Meta推出的AI對象分割模型
SAM 2是什麼 SAM 2(Segment Anything Model 2)是Meta推出的AI對象分割模型,專注於實時圖像和視頻對象分割。具備零樣本泛化能力,能準確分割未知對象,並通...
SEED-Story – 騰訊推出的多模態故事生成模型
SEED-Story是什麼 SEED-Story是騰訊聯合香港科技大學、香港中文大學推出的多模態故事生成模型。基於多模態大語言模型(MLLM),能預測文本和視覺token,通過...
EmoTalk3D – 華爲、復旦聯合推出的3D數字人框架
EmoTalk3D是什麼 EmoTalk3D是華爲諾亞方舟實驗室、南京大學和復旦大學共同推出的3D數字人框架。技術的核心在於能合成具有豐富情感表達的3D會說話頭像。EmoTal...
EasyAnimate – 阿里推出的AI視頻生成工具
EasyAnimate是什麼 EasyAnimate是阿里推出的AI視頻生成工具,支持文生視頻和圖生視頻兩種方式,用戶可以上傳圖片作爲視頻的起始和結束畫面,實現更靈活的...
FlashFace – 阿里聯合香港大學推出的高保真AI寫真工具
FlashFace是什麼 FlashFace是阿里聯合香港大學推出的高保真AI寫真工具。能基於用戶提供的面部圖像和文本提示,快速生成個性化的高保真人像寫真圖。FlashFac...
PhotoMaker V2 – 騰訊推出的AI圖像生成框架
PhotoMaker V2是什麼 PhotoMaker V2是騰訊推出的AI圖像生成框架,能在極短的時間內生成逼真的人物照片。與初代相比,V2版本在角色的一致性和可控性上實現了...
CogVideoX – 智譜AI推出的開源AI視頻生成模型
CogVideoX是什麼 CogVideoX是智譜AI最新推出的開源AI視頻生成模型,與智譜AI的商業產品“清影”同源。CogVideoX支持英文提示詞,能生成6秒長、每秒8幀、分辨率...
FoleyCrafter – 上海人工智能實驗室推出的AI視頻配音框架
FoleyCrafter是什麼 FoleyCrafter是上海人工智能實驗室和香港中文大學(深圳)共同推出的AI視頻配音框架,FoleyCrafter能自動聽出視頻中的動作,配上恰到好處...
Whisper-Medusa – aiOla推出的開源AI語音識別模型
Whisper-Medusa是什麼 Whisper-Medusa是aiOla推出的開源AI語音識別模型,結合了OpenAI的Whisper技術與aiOla的創新,Whisper-Medusa引入了多頭注意力機制,實...