AI工具
EMO – 阿里推出的AI肖像視頻生成框架
EMO是什麼 EMO(Emote Portrait Alive)是一個由阿里巴巴集團智能計算研究院的研究人員開發的框架,一個音頻驅動的AI肖像視頻生成系統,能夠通過輸入單一的參...
EMO – 阿里推出的AI肖像視頻生成框架
EMO是什麼 EMO(Emote Portrait Alive)是一個由阿里巴巴集團智能計算研究院的研究人員開發的框架,一個音頻驅動的AI肖像視頻生成系統,能夠通過輸入單一的參...
AtomoVideo – 阿里推出的高保真圖像到視頻生成框架
AtomoVideo是什麼 AtomoVideo是由阿里巴巴的研究團隊提出的一個高保真圖像到視頻(Image-to-Video, I2V)生成框架,旨在從輸入的靜態圖像生成高質量的視頻內...
ResAdapter – 字節推出的擴散模型分辨率適配器
ResAdapter是什麼 ResAdapter是由字節跳動的研究人員推出的一種爲擴散模型(如Stable Diffusion)設計的分辨率適配器,允許這些圖像生成模型生成具有任意分辨...
ScreenAI – 谷歌推出的可讀屏AI視覺模型,可理解UI和信息圖表
ScreenAI是什麼 ScreenAI是一個由谷歌的研究人員推出的可讀屏AI視覺語言模型,專門設計用於理解和處理用戶界面(UI)和信息圖表。該模型基於PaLI架構結合了視...
LayerDiffusion – AI生成具有透明度的圖像的框架
LayerDiffusion是什麼 LayerDiffusion(現已更名爲LayerDiffuse)是由來自斯坦福大學的研究人員 Lvmin Zhang(即ControlNet的作者張呂敏)和 Maneesh Agrawal...
LayerDiffusion – AI生成具有透明度的圖像的框架
LayerDiffusion是什麼 LayerDiffusion(現已更名爲LayerDiffuse)是由來自斯坦福大學的研究人員 Lvmin Zhang(即ControlNet的作者張呂敏)和 Maneesh Agrawal...
DUSt3R – 從任意圖像集閤中重建3D場景的框架
DUSt3R是什麼 DUSt3R(Dense and Unconstrained Stereo 3D Reconstruction,密集無約束立體三維重建)是由來自芬蘭阿爾託大學和Naver歐洲實驗室的研究人員推...
UniEdit – 免訓練調優的統一視頻編輯框架
UniEdit是什麼 UniEdit是由浙江大學、微軟研究院和北京大學的研究人員推出的一個創新的視頻編輯框架,允許用戶在不需要進行模型微調的情況下,對視頻的運動和...
TextDiffuser-2 – 微軟等推出的AI圖像文本渲染融合框架
TextDiffuser-2是什麼 Text-Diffuser 2是由來自微軟研究院、香港科技大學和中山大學的研究人員最新推出的一個基於擴散模型的文本渲染方法,旨在解決圖像擴散...