Moondream – 開源的輕量級AI視覺語言模型,可在本地快速運行

Moondream是什麼 Moondream是一個免費開源的小型的人工智能視覺語言模型,雖然參數量小(Moondream1僅16億,Moondream2爲18.6億)但可以提供高性能的視覺處理...

EMO – 阿里推出的AI肖像視頻生成框架

EMO是什麼 EMO(Emote Portrait Alive)是一個由阿里巴巴集團智能計算研究院的研究人員開發的框架,一個音頻驅動的AI肖像視頻生成系統,能夠通過輸入單一的參...

EMO – 阿里推出的AI肖像視頻生成框架

EMO是什麼 EMO(Emote Portrait Alive)是一個由阿里巴巴集團智能計算研究院的研究人員開發的框架,一個音頻驅動的AI肖像視頻生成系統,能夠通過輸入單一的參...

AtomoVideo – 阿里推出的高保真圖像到視頻生成框架

AtomoVideo是什麼 AtomoVideo是由阿里巴巴的研究團隊提出的一個高保真圖像到視頻(Image-to-Video, I2V)生成框架,旨在從輸入的靜態圖像生成高質量的視頻內...

ResAdapter – 字節推出的擴散模型分辨率適配器

ResAdapter是什麼 ResAdapter是由字節跳動的研究人員推出的一種爲擴散模型(如Stable Diffusion)設計的分辨率適配器,允許這些圖像生成模型生成具有任意分辨...

ScreenAI – 谷歌推出的可讀屏AI視覺模型,可理解UI和信息圖表

ScreenAI是什麼 ScreenAI是一個由谷歌的研究人員推出的可讀屏AI視覺語言模型,專門設計用於理解和處理用戶界面(UI)和信息圖表。該模型基於PaLI架構結合了視...

LayerDiffusion – AI生成具有透明度的圖像的框架

LayerDiffusion是什麼 LayerDiffusion(現已更名爲LayerDiffuse)是由來自斯坦福大學的研究人員 Lvmin Zhang(即ControlNet的作者張呂敏)和 Maneesh Agrawal...

LayerDiffusion – AI生成具有透明度的圖像的框架

LayerDiffusion是什麼 LayerDiffusion(現已更名爲LayerDiffuse)是由來自斯坦福大學的研究人員 Lvmin Zhang(即ControlNet的作者張呂敏)和 Maneesh Agrawal...

DUSt3R – 從任意圖像集閤中重建3D場景的框架

DUSt3R是什麼 DUSt3R(Dense and Unconstrained Stereo 3D Reconstruction,密集無約束立體三維重建)是由來自芬蘭阿爾託大學和Naver歐洲實驗室的研究人員推...

UniEdit – 免訓練調優的統一視頻編輯框架

UniEdit是什麼 UniEdit是由浙江大學、微軟研究院和北京大學的研究人員推出的一個創新的視頻編輯框架,允許用戶在不需要進行模型微調的情況下,對視頻的運動和...
1 ... 87 88 89 90 91 ... 104