TIPSv2 – 谷歌 DeepMind 開源的多模態模型

AI工具4周前發佈新公告 AI管理員

0 0 0

TIPSv2是什麼

TIPSv2 是 Google DeepMind 推出的多模態模型，模型通過 iBOT++、Head-only EMA 與多粒度文本增強三大創新，解決密集圖像塊與文本嵌入的精準對齊難題。模型覆蓋 86M 至 1.1B 參數，在 9 項任務、20 個數據集上實現 SOTA，零樣本語義分割尤爲突出。目前模型權重、代碼與 HuggingFace 在線 Demo 已全面開源。

TIPSv2 – 谷歌 DeepMind 開源的多模態模型

TIPSv2的主要功能

零樣本語義分割：無需訓練可通過文本描述精確分割圖像中的物體邊界。
圖像-文本檢索：支持圖像搜文本、文本搜圖像的雙向跨模態檢索。
零樣本圖像分類：直接通過文本嵌入匹配實現 ImageNet 等分類任務。
深度與法向量預測：用 Patch 級特徵估計場景幾何信息。
特徵可視化：上傳圖片可探索 Patch 嵌入的 PCA 特徵圖，直觀理解模型感知。

TIPSv2的技術原理

iBOT++：將 Patch 級自蒸餾損失擴展到所有 token（包括可見 token），強制學生模型對齊教師模型的全部 Patch 表示，ADE150 零樣本分割提升 +14.1 mIoU。
Head-only EMA：僅對投影頭應用 EMA，減少 42% 訓練參數並顯著降低內存開銷。
多粒度文本增強：用 PaliGemma 生成密集局部字幕、Gemini Flash 生成全局深度描述，訓練時隨機交替以提升魯棒性。
對比學習與自監督聯合訓練：同時接收文本監督信號與自監督信號，解鎖底層網絡的密集圖文對齊能力。

TIPSv2的關鍵信息和使用要求

研發團隊：Google DeepMind，通訊作者爲 Bingyi Cao、Koert Chen 與 André Araujo。
開源範圍：模型權重（86M 至 1.1B 共 4 種規格）、PyTorch 與 JAX/Scenic 雙框架代碼、HuggingFace 在線 Demo 及 Colab Notebook 全面開放。
運行環境：Python 3.11，支持 PyTorch 或 JAX/Scenic 後端。
依賴安裝：需安裝 torch、torchvision、tensorflow_text、scikit-learn 等核心庫。

TIPSv2的核心優勢

Patch-文本對齊 SOTA：零樣本分割在 ADE150、PASCAL VOC 等四大基準全面領先，無需複雜後處理協議，直接最大化餘弦相似度即可取得更高 mIoU。
極致參數效率：Head-only EMA 策略節省 42% 訓練內存，小模型通過蒸餾即可在密集對齊任務上反超更大的教師模型。
訓練性價比極高：TIPSv2-g 用更少參數與數據，在 3/5 項評測上擊敗參數量多 56%、數據多 47 倍的 PE-core；TIPSv2-L 在 4/6 項上擊敗使用 6 倍參數、15 倍數據的 DINOv3-L。
通用性覆蓋三大維度：同時精通密集對齊（分割）、全局對齊（檢索/分類）與純視覺任務（深度/法向量），9 項任務 20 個數據集表現均衡。
特徵語義清晰：PCA 可視化顯示其 Patch 嵌入比 SigLIP2、DINOv3 更平滑，物體邊界與語義細節保留更完整。

TIPSv2的項目地址

項目官網：https://gdm-tipsv2.github.io/
GitHub倉庫：https://github.com/google-deepmind/tips
HuggingFace模型庫：https://huggingface.co/collections/google/tipsv2
arXiv技術論文：https://arxiv.org/pdf/2604.12012

TIPSv2的同類競品對比

維度	TIPSv2	DINOv3	SILC
機構	Google DeepMind	Meta	多機構
核心機制	iBOT++ + 對比學習 + 多粒度 Caption	純自監督（DINO + iBOT）	對比學習 + 掩碼語言
文本監督	多粒度合成 Caption	無	單粒度
零樣本分割	直接餘弦相似度，無需後處理	需滑動窗口協議輔助	依賴 TCL 滑動窗口協議
參數效率	高（Head-only EMA 省 42% 內存）	低（全模型 EMA，大數據量）	中等
Patch-文本對齊	SOTA	弱（無文本對齊）	較強但需複雜協議

TIPSv2的應用場景

自動駕駛：用零樣本分割與深度估計實時理解道路場景，識別障礙物與可通行區域，無需針對新類別重新訓練。
電商與內容審覈：通過圖像-文本雙向檢索實現以文搜圖、以圖搜文，支撐商品推薦與違規內容識別。
醫學影像分析：醫生通過文本描述即可定位病竈區域，大幅降低專業醫學圖像的標註與訓練成本。
機器人視覺導航：機器人接收自然語言指令後，對環境中特定物體進行細粒度視覺定位與抓取操作。
科研與模型可解釋性：通過 PCA 特徵可視化探索 Patch 嵌入的語義結構，深入理解視覺-語言模型的感知機制。

© 版權聲明

文章版权归作者所有，未经允许请勿转载。

相關文章

MovieDreamer – 專爲長視頻研發的AI視頻生成框架

earnbyshare2016

60 0

GLM-4-Voice – 智譜AI推出的端到端情感語音模型

earnbyshare2016

8 0

SleepFM – 斯坦福大學開源的多模態睡眠分析模型

earnbyshare2016

24 0

Xiaomi MiMo-V2-Pro – 小米推出的 Agent 旗艦大模型

earnbyshare2016

4 0

CapsWriter-Offline – AI語音轉文字工具，PC端離線實時工作

earnbyshare2016

1 0

Vidu – 生數科技發佈的視頻大模型，可生成16秒1080P的視頻

earnbyshare2016

68 0

暫無評論

暫無評論...