AI工具
ScreenAgent – 基於視覺語言模型的計算機控制智能體
ScreenAgent是什麼 ScreenAgent是一個由吉林大學人工智能學院的研究團隊開發的計算機控制智能體,該智能體是基於視覺語言模型(VLM)構建的,能夠與真實計算...
ConsiStory – 免訓練實現主題一致性的文生圖方法
ConsiStory是什麼 ConsiStory是由NVIDIA和特拉維夫大學的研究人員共同開發的一種無需訓練的文本生成圖像的方法,可以實現讓圖像在保持風格和主題不變的情況下...
Stable Diffusion 3 – Stability AI推出的新一代圖像生成模型
Stable Diffusion 3是什麼 Stable Diffusion 3 是由 Stability AI 開發的一款先進的文本到圖像生成模型,是 Stable Diffusion 系列模型的最新迭代,旨在通過...
SDXL-Lightning – 字節跳動推出的文本到圖像生成模型
SDXL-Lightning是什麼 SDXL-Lightning是由字節跳動的研究團隊推出的一種基於擴散模型的文本到圖像生成技術,旨在解決傳統擴散模型在圖像生成速度和計算成本上...
VideoPoet – 谷歌推出的AI視頻生成模型
VideoPoet是什麼 VideoPoet是由谷歌的研究團隊開發的一種基於大模型的AI視頻生成方案,支持從文本、圖像或視頻輸入中合成高質量的視頻內容,並生成匹配的音頻...
VideoPoet – 谷歌推出的AI視頻生成模型
VideoPoet是什麼 VideoPoet是由谷歌的研究團隊開發的一種基於大模型的AI視頻生成方案,支持從文本、圖像或視頻輸入中合成高質量的視頻內容,並生成匹配的音頻...
DiT – 基於Transfomer架構的擴散模型
DiT是什麼 DiT(Diffusion Transformers)是一種新型的擴散模型,由William Peebles(Sora的研發負責人之一) 與紐約大學助理教授謝賽寧提出,結合了去噪擴散...
Boximator – 字節推出的控制視頻生成中對象運動的框架
Boximator是什麼? Boximator是由字節跳動的研究團隊開發的一種視頻合成技術,旨在生成豐富且可控的運動,以增強視頻合成的質量和可控性。該技術通過引入兩種...
V-JEPA:Meta推出的視覺模型,可以通過觀看視頻來學習理解物理世界
V-JEPA是什麼? V-JEPA(Video Joint-Embedding Predictive Architecture,視頻聯合嵌入預測架構)是由Meta的研究人員推出的一種新型的視頻自監督學習方法,...
Depth Anything – Tiktok等推出的單目深度估計模型
Depth Anything是什麼? Depth Anything是由來自Tiktok、香港大學和浙江大學的研究人員推出的一個爲單目深度估計(Monocular Depth Estimation, MDE)設計的...