YOLOv9 – 新一代高效的實時目標檢測系統
YOLOv9是什麼 YOLOv9是一個由台北中研院和台北科技大學等機構的研究團隊推出的新一代先進的目標檢測系統,是YOLO(You Only Look Once)算法系列的最新版本。...
VideoPrism – 谷歌研究團隊推出的通用視頻編碼器
VideoPrism是什麼 VideoPrism是一個由谷歌研究團隊開發的通用視頻編碼器,旨在通過一個單一的預訓練模型來處理多種視頻理解任務。該模型能夠從視頻中提取豐富...
VideoPrism – 谷歌研究團隊推出的通用視頻編碼器
VideoPrism是什麼 VideoPrism是一個由谷歌研究團隊開發的通用視頻編碼器,旨在通過一個單一的預訓練模型來處理多種視頻理解任務。該模型能夠從視頻中提取豐富...
ScreenAgent – 基於視覺語言模型的計算機控制智能體
ScreenAgent是什麼 ScreenAgent是一個由吉林大學人工智能學院的研究團隊開發的計算機控制智能體,該智能體是基於視覺語言模型(VLM)構建的,能夠與真實計算...
ConsiStory – 免訓練實現主題一致性的文生圖方法
ConsiStory是什麼 ConsiStory是由NVIDIA和特拉維夫大學的研究人員共同開發的一種無需訓練的文本生成圖像的方法,可以實現讓圖像在保持風格和主題不變的情況下...
Stable Diffusion 3 – Stability AI推出的新一代圖像生成模型
Stable Diffusion 3是什麼 Stable Diffusion 3 是由 Stability AI 開發的一款先進的文本到圖像生成模型,是 Stable Diffusion 系列模型的最新迭代,旨在通過...
SDXL-Lightning – 字節跳動推出的文本到圖像生成模型
SDXL-Lightning是什麼 SDXL-Lightning是由字節跳動的研究團隊推出的一種基於擴散模型的文本到圖像生成技術,旨在解決傳統擴散模型在圖像生成速度和計算成本上...
VideoPoet – 谷歌推出的AI視頻生成模型
VideoPoet是什麼 VideoPoet是由谷歌的研究團隊開發的一種基於大模型的AI視頻生成方案,支持從文本、圖像或視頻輸入中合成高質量的視頻內容,並生成匹配的音頻...
VideoPoet – 谷歌推出的AI視頻生成模型
VideoPoet是什麼 VideoPoet是由谷歌的研究團隊開發的一種基於大模型的AI視頻生成方案,支持從文本、圖像或視頻輸入中合成高質量的視頻內容,並生成匹配的音頻...
DiT – 基於Transfomer架構的擴散模型
DiT是什麼 DiT(Diffusion Transformers)是一種新型的擴散模型,由William Peebles(Sora的研發負責人之一) 與紐約大學助理教授謝賽寧提出,結合了去噪擴散...