Xiaomi MiMo-V2-Omni – 小米推出的全模態Agent基座模型

1 0 0

Xiaomi MiMo-V2-Omni是什麼

Xiaomi MiMo-V2-Omni 是小米推出的全模態 Agent 基座模型，融合文本、視覺、語音三大模態，原生具備感知、推理與執行能力。模型支持工具調用、GUI 操作及複雜任務自主規劃，在音頻理解、圖像推理等評測中比肩 Gemini 3 Pro 與 Claude Opus 4.6。模型曾以”Healer Alpha”代號匿名測試，登頂 OpenRouter 調用榜，現已成爲小米麪向 Agent 時代的核心 AI 基礎設施。

Xiaomi MiMo-V2-Omni的主要功能

全模態感知：模型融合文本、視覺、音頻三大模態，實現圖像理解、視頻分析、10+小時長音頻處理及跨模態聯合推理。
Agent執行能力：原生支持工具調用、GUI操作和自主任務規劃，能制定策略、實時修正和端到端交付完整結果。
複雜場景應用：覆蓋網頁瀏覽、代碼工程、前端開發等真實數字環境交互任務。

Xiaomi MiMo-V2-Omni的技術原理

統一全模態架構：從底層構建融合文本、視覺、語音的基座模型，通過統一編碼器和融合層實現原生多模態表示，非後期模態拼接。
感知-行動深度綁定：打破傳統模型”重理解、輕執行”的侷限，端到端訓練將感知能力與工具調用、GUI操作等行動能力統一內化，實現從理解到操控的跨越。
視頻預訓練與長上下文：採用創新的視頻預訓練方法實現音視頻聯合理解，支持超長上下文建模，爲複雜Agent任務提供結構性優勢。

Xiaomi MiMo-V2-Omni的關鍵信息和使用要求

發佈方：小米技術團隊
發佈時間：2026年3月19日
內測代號：Healer Alpha（曾匿名上架OpenRouter）
模型規模：全模態融合架構（文本+視覺+音頻）
上下文窗口：支持長序列建模（參考同系列Pro版達1M）
Benchmark排名：PinchBench均分第一，OpenRouter調用量登頂
接入方式：通過OpenRouter等平台API調用，可無縫接入OpenClaw等主流Agent框架
硬件/環境：雲端部署，無需本地配置；支持多模態輸入（圖像、視頻、音頻文件或流）

Xiaomi MiMo-V2-Omni的核心優勢

全模態原生融合：從底層構建文本、視覺、音頻統一架構，實現真正的跨模態理解與聯合推理，非簡單拼接。
感知行動一體化：打破”重理解輕執行”侷限，原生內化工具調用、GUI操作等能力，形成”越準感知、越有效行動”的複合優勢。
超長上下文支持：支持百萬級上下文窗口，在處理長視頻、長音頻及複雜多輪Agent任務時具備結構性優勢。
真實場景驗證：以Healer Alpha匿名內測，調用量登頂OpenRouter並獲PinchBench第一，經市場與 benchmark 雙重檢驗。
生態無縫接入：可快速集成OpenClaw等主流Agent框架，大幅降低全模態Agent落地門檻。

如何使用Xiaomi MiMo-V2-Omni

開發者可訪問 https://platform.xiaomimimo.com 註冊獲取 API 密鑰，按定價（輸入 $0.4/百萬 tokens、輸出 $2/百萬 tokens）調用接口。

Xiaomi MiMo-V2-Omni的同類競品對比

評測維度	MiMo-V2-Omni	Gemini 3 Pro	Claude Opus 4.6
MMAU-Pro（音頻理解）	69.4	67.0	–
MMMU-Pro（圖像理解）	76.8	81.0	73.9
Video-MME（視頻理解）	85.3	88.4	–
CharXiv RQ（圖表理解）	80.1	81.4	77.4
FutureOmni（未來預測）	66.7	62.9	60.3
MM-BrowserComp（網頁瀏覽）	52.0	37.2	59.3
OmniGAIA（多模態感知）	49.8	62.5	59.7
Claw Eval（複雜交互）	54.8	51.9	66.3
PinchBench（Agent綜合）	85.6	75.0	86.3