AI工具
ScreenAI – 谷歌推出的可讀屏AI視覺模型,可理解UI和信息圖表
ScreenAI是什麼 ScreenAI是一個由谷歌的研究人員推出的可讀屏AI視覺語言模型,專門設計用於理解和處理用戶界面(UI)和信息圖表。該模型基於PaLI架構結合了視...
LayerDiffusion – AI生成具有透明度的圖像的框架
LayerDiffusion是什麼 LayerDiffusion(現已更名爲LayerDiffuse)是由來自斯坦福大學的研究人員 Lvmin Zhang(即ControlNet的作者張呂敏)和 Maneesh Agrawal...
LayerDiffusion – AI生成具有透明度的圖像的框架
LayerDiffusion是什麼 LayerDiffusion(現已更名爲LayerDiffuse)是由來自斯坦福大學的研究人員 Lvmin Zhang(即ControlNet的作者張呂敏)和 Maneesh Agrawal...
DUSt3R – 從任意圖像集閤中重建3D場景的框架
DUSt3R是什麼 DUSt3R(Dense and Unconstrained Stereo 3D Reconstruction,密集無約束立體三維重建)是由來自芬蘭阿爾託大學和Naver歐洲實驗室的研究人員推...
UniEdit – 免訓練調優的統一視頻編輯框架
UniEdit是什麼 UniEdit是由浙江大學、微軟研究院和北京大學的研究人員推出的一個創新的視頻編輯框架,允許用戶在不需要進行模型微調的情況下,對視頻的運動和...
TextDiffuser-2 – 微軟等推出的AI圖像文本渲染融合框架
TextDiffuser-2是什麼 Text-Diffuser 2是由來自微軟研究院、香港科技大學和中山大學的研究人員最新推出的一個基於擴散模型的文本渲染方法,旨在解決圖像擴散...
Snap Video – Snapchat公司推出的AI視頻生成模型
Snap Video是什麼 Snap Video是由Snap(社交媒體Snapchat所屬的公司)研究團隊開發的一個AI視頻生成模型,目標是通過文本描述來合成視頻,即用戶可以輸入一段...
MeloTTS – MyShell AI推出的多語言文本到語音轉換工具
MeloTTS是什麼 MeloTTS 是一個由 MyShell AI 開發的開源的高質量多語言文本轉語音(TTS)庫,能夠將文本轉換成自然流暢的語音輸出,支持多種語言,包括但不限...
StarCoder 2 – BigCode推出的第二代開源代碼大模型
StarCoder 2是什麼 StarCoder 2是由BigCode項目(Hugging Face和ServiceNow支持)聯合Nvidia的團隊開發的新一代大型代碼語言模型,使用來自 The Stack v2 數...
StarCoder 2 – BigCode推出的第二代開源代碼大模型
StarCoder 2是什麼 StarCoder 2是由BigCode項目(Hugging Face和ServiceNow支持)聯合Nvidia的團隊開發的新一代大型代碼語言模型,使用來自 The Stack v2 數...