TIPSv2 – 谷歌 DeepMind 開源的多模態模型

AI工具4周前發佈新公告 AI管理員
0 0

TIPSv2是什麼

TIPSv2 是 Google DeepMind 推出的多模態模型,模型通過 iBOT++、Head-only EMA 與多粒度文本增強三大創新,解決密集圖像塊與文本嵌入的精準對齊難題。模型覆蓋 86M 至 1.1B 參數,在 9 項任務、20 個數據集上實現 SOTA,零樣本語義分割尤爲突出。目前模型權重、代碼與 HuggingFace 在線 Demo 已全面開源。

TIPSv2 – 谷歌 DeepMind 開源的多模態模型

TIPSv2的主要功能

  • 零樣本語義分割:無需訓練可通過文本描述精確分割圖像中的物體邊界。
  • 圖像-文本檢索:支持圖像搜文本、文本搜圖像的雙向跨模態檢索。
  • 零樣本圖像分類:直接通過文本嵌入匹配實現 ImageNet 等分類任務。
  • 深度與法向量預測:用 Patch 級特徵估計場景幾何信息。
  • 特徵可視化:上傳圖片可探索 Patch 嵌入的 PCA 特徵圖,直觀理解模型感知。

TIPSv2的技術原理

  • iBOT++:將 Patch 級自蒸餾損失擴展到所有 token(包括可見 token),強制學生模型對齊教師模型的全部 Patch 表示,ADE150 零樣本分割提升 +14.1 mIoU。
  • Head-only EMA:僅對投影頭應用 EMA,減少 42% 訓練參數並顯著降低內存開銷。
  • 多粒度文本增強:用 PaliGemma 生成密集局部字幕、Gemini Flash 生成全局深度描述,訓練時隨機交替以提升魯棒性。
  • 對比學習與自監督聯合訓練:同時接收文本監督信號與自監督信號,解鎖底層網絡的密集圖文對齊能力。

TIPSv2的關鍵信息和使用要求

  • 研發團隊:Google DeepMind,通訊作者爲 Bingyi Cao、Koert Chen 與 André Araujo。
  • 開源範圍:模型權重(86M 至 1.1B 共 4 種規格)、PyTorch 與 JAX/Scenic 雙框架代碼、HuggingFace 在線 Demo 及 Colab Notebook 全面開放。
  • 運行環境:Python 3.11,支持 PyTorch 或 JAX/Scenic 後端。
  • 依賴安裝:需安裝 torch、torchvision、tensorflow_text、scikit-learn 等核心庫。

TIPSv2的核心優勢

  • Patch-文本對齊 SOTA:零樣本分割在 ADE150、PASCAL VOC 等四大基準全面領先,無需複雜後處理協議,直接最大化餘弦相似度即可取得更高 mIoU。
  • 極致參數效率:Head-only EMA 策略節省 42% 訓練內存,小模型通過蒸餾即可在密集對齊任務上反超更大的教師模型。
  • 訓練性價比極高:TIPSv2-g 用更少參數與數據,在 3/5 項評測上擊敗參數量多 56%、數據多 47 倍的 PE-core;TIPSv2-L 在 4/6 項上擊敗使用 6 倍參數、15 倍數據的 DINOv3-L。
  • 通用性覆蓋三大維度:同時精通密集對齊(分割)、全局對齊(檢索/分類)與純視覺任務(深度/法向量),9 項任務 20 個數據集表現均衡。
  • 特徵語義清晰:PCA 可視化顯示其 Patch 嵌入比 SigLIP2、DINOv3 更平滑,物體邊界與語義細節保留更完整。

TIPSv2的項目地址

  • 項目官網:https://gdm-tipsv2.github.io/
  • GitHub倉庫:https://github.com/google-deepmind/tips
  • HuggingFace模型庫:https://huggingface.co/collections/google/tipsv2
  • arXiv技術論文:https://arxiv.org/pdf/2604.12012

TIPSv2的同類競品對比

維度 TIPSv2 DINOv3 SILC
機構 Google DeepMind Meta 多機構
核心機制 iBOT++ + 對比學習 + 多粒度 Caption 純自監督(DINO + iBOT) 對比學習 + 掩碼語言
文本監督 多粒度合成 Caption 單粒度
零樣本分割 直接餘弦相似度,無需後處理 需滑動窗口協議輔助 依賴 TCL 滑動窗口協議
參數效率 (Head-only EMA 省 42% 內存) 低(全模型 EMA,大數據量) 中等
Patch-文本對齊 SOTA 弱(無文本對齊) 較強但需複雜協議

TIPSv2的應用場景

  • 自動駕駛:用零樣本分割與深度估計實時理解道路場景,識別障礙物與可通行區域,無需針對新類別重新訓練。
  • 電商與內容審覈:通過圖像-文本雙向檢索實現以文搜圖、以圖搜文,支撐商品推薦與違規內容識別。
  • 醫學影像分析:醫生通過文本描述即可定位病竈區域,大幅降低專業醫學圖像的標註與訓練成本。
  • 機器人視覺導航:機器人接收自然語言指令後,對環境中特定物體進行細粒度視覺定位與抓取操作。
  • 科研與模型可解釋性:通過 PCA 特徵可視化探索 Patch 嵌入的語義結構,深入理解視覺-語言模型的感知機制。
© 版權聲明

相關文章

暫無評論

暫無評論...