Moondream – 開源的輕量級AI視覺語言模型,可在本地快速運行
Moondream是什麼 Moondream是一個免費開源的小型的人工智能視覺語言模型,雖然參數量小(Moondream1僅16億,Moondream2爲18.6億)但可以提供高性能的視覺處理...
EMO – 阿里推出的AI肖像視頻生成框架
EMO是什麼 EMO(Emote Portrait Alive)是一個由阿里巴巴集團智能計算研究院的研究人員開發的框架,一個音頻驅動的AI肖像視頻生成系統,能夠通過輸入單一的參...
EMO – 阿里推出的AI肖像視頻生成框架
EMO是什麼 EMO(Emote Portrait Alive)是一個由阿里巴巴集團智能計算研究院的研究人員開發的框架,一個音頻驅動的AI肖像視頻生成系統,能夠通過輸入單一的參...
AtomoVideo – 阿里推出的高保真圖像到視頻生成框架
AtomoVideo是什麼 AtomoVideo是由阿里巴巴的研究團隊提出的一個高保真圖像到視頻(Image-to-Video, I2V)生成框架,旨在從輸入的靜態圖像生成高質量的視頻內...
ResAdapter – 字節推出的擴散模型分辨率適配器
ResAdapter是什麼 ResAdapter是由字節跳動的研究人員推出的一種爲擴散模型(如Stable Diffusion)設計的分辨率適配器,允許這些圖像生成模型生成具有任意分辨...
ScreenAI – 谷歌推出的可讀屏AI視覺模型,可理解UI和信息圖表
ScreenAI是什麼 ScreenAI是一個由谷歌的研究人員推出的可讀屏AI視覺語言模型,專門設計用於理解和處理用戶界面(UI)和信息圖表。該模型基於PaLI架構結合了視...
LayerDiffusion – AI生成具有透明度的圖像的框架
LayerDiffusion是什麼 LayerDiffusion(現已更名爲LayerDiffuse)是由來自斯坦福大學的研究人員 Lvmin Zhang(即ControlNet的作者張呂敏)和 Maneesh Agrawal...
LayerDiffusion – AI生成具有透明度的圖像的框架
LayerDiffusion是什麼 LayerDiffusion(現已更名爲LayerDiffuse)是由來自斯坦福大學的研究人員 Lvmin Zhang(即ControlNet的作者張呂敏)和 Maneesh Agrawal...
DUSt3R – 從任意圖像集閤中重建3D場景的框架
DUSt3R是什麼 DUSt3R(Dense and Unconstrained Stereo 3D Reconstruction,密集無約束立體三維重建)是由來自芬蘭阿爾託大學和Naver歐洲實驗室的研究人員推...
UniEdit – 免訓練調優的統一視頻編輯框架
UniEdit是什麼 UniEdit是由浙江大學、微軟研究院和北京大學的研究人員推出的一個創新的視頻編輯框架,允許用戶在不需要進行模型微調的情況下,對視頻的運動和...