WBench是什麼
WBench 是美團 LongCat 團隊推出的,首個面向交互式視頻世界模型的系統性多輪評測基準,包含 289 個測試案例和 1058 個交互輪次,覆蓋自然、城市、幻想等 6 類場景與 7 種藝術風格。基準通過統一交互接口對 20 個前沿模型進行CT 掃描,精準定位模型從被動觀看到主動交互的能力邊界,揭示當前世界模型在多輪交互、導航控制和視角切換等維度的核心短板。

WBench的主要功能
-
多維度世界定義:支持 6 類場景(自然、城市、室內、工作區、幻想、運動)、7 種藝術風格(寫實、動漫、卡通、油畫、水墨、扁平、素描)及 3 種視角包括第一人稱/第三人稱/具身第一人稱)。
-
四類核心交互:提供導航、主體動作、事件編輯、視角切換四種交互方式。
-
統一交互接口:通過 Action Router 將文本指令、6DoF 座標和鍵盤動作統一映射爲標準化輸入,適配不同模型的原生接口。
-
五維評測套件:從視頻質量、設定遵循度、交互遵循度、一致性、物理真實性五個維度進行量化評分,包含 NavScore、Gated Spatial Consistency 等硬核指標。
-
多輪長程評估:支持連續多輪交互測試,測量模型在長時間交互後的性能衰減情況。
WBench的技術原理
- 四大核心要素架構:WBench 的設計遵循世界定義 + 指令集 + 統一交互接口 + 評測套件的框架。世界定義負責構建多樣化的測試環境;指令集提供標準化的動作描述;統一交互接口通過 Action Router 將異構輸入轉換爲模型可理解的信號;評測套件則從五個維度輸出量化指標,形成完整的評估閉環。
- 場景與交互解耦設計:採用舞台與劇本分離的設計理念:場景和交互獨立配置,可自由組合。這種解耦使評測可精準定位問題根源。
- 多輪自迴歸反饋機制:評測流程採用自迴歸方式:每一輪的輸出幀會作爲下一輪的輸入,模擬真實交互場景。通過這種方式,WBench 能檢測模型在長程交互中的錯誤累積效應,如導航能力在多輪後平均下降 33 點。
如何使用WBench
- 克隆倉庫:訪問 GitHub 倉庫並克隆 WBench 代碼到本地,安裝 Python 依賴環境。
- 下載數據集:從 HuggingFace 拉取包含 289 個測試案例和 1058 個交互輪次的評測數據集。
- 接入模型:通過 Action Router 將待測模型接入 WBench 的統一交互接口,適配文本或動作輸入協議。
- 定義場景:在配置文件中選擇場景類型、藝術風格、主體對象及觀察視角。
- 選擇交互:從導航、主體動作、事件編輯、視角切換四類交互中組合測試動作。
- 設定維度:啓用視頻質量、設定遵循度、交互遵循度、一致性、物理真實性五維評測指標。
- 單輪測試:運行初始幀生成與單輪交互,獲取模型基礎能力得分。
- 多輪測試:啓動自迴歸模式,將上一輪輸出作爲下一輪輸入,測量長程性能衰減。
- 批量對比:配置多個模型並行運行相同測試用例,生成橫向對比數據。
- 查看報告:評測結束後自動生成雷達圖與得分表,直觀展示各維度強弱分佈。
WBench的核心優勢
-
首個多輪交互評測基準:區別於傳統單輪視頻生成評測,WBench 首次系統性地評估模型在連續交互中的表現,填補行業空白。
-
覆蓋全面且解耦:289 個案例覆蓋 6 大場景、7 種風格、5 類主體,且場景與交互獨立配置,可精準定位模型短板。
-
統一接口兼容異構模型:通過 Action Router 適配文本驅動模型(如 Kling 3.0)和專用世界模型(如 HY-World 1.5),實現公平對比。
-
揭示關鍵行業洞察:本驅動模型擅長理解,專用世界模型擅長導航;視頻質量與導航能力基本無關;多輪交互是核心難點。
WBench的項目地址
- 項目官網:https://meituan-longcat.github.io/WBench/
- GitHub倉庫:https://github.com/meituan-longcat/WBench
- HuggingFace模型庫:https://huggingface.co/datasets/meituan-longcat/WBench
- 技術論文:https://huggingface.co/papers/2605.25874
WBench的同類競品對比
| 維度 | WBench | WorldScore |
|---|---|---|
| 定位 | 多輪交互式視頻世界模型評測 | 世界生成統一評測基準 |
| 發佈時間 | 2026-05 | 2025 |
| 案例規模 | 289 案例,1058 交互輪次 | 3000 案例 |
| 交互類型 | 導航、主體動作、事件編輯、視角切換 | 軌跡條件控制,無自由交互 |
| 多輪支持 | 原生多輪自迴歸評測,支持長程衰減分析 | 單場景/多場景序列,非交互式 |
| 統一接口 | Action Router(文本/6DoF/離散動作) | 統一世界規格(佈局+語義) |
| 評測維度 | 視頻質量、設定遵循、交互遵循、一致性、物理真實性 | 可控性、質量、動態性 |
| 核心特色 | 多輪交互衰減診斷,場景與交互解耦 | 跨 3D/4D/I2V/T2V 統一評測 |
| 在線平台 | 離線評測套件 + HuggingFace 數據集 | 離線排行榜 |
WBench的應用場景
-
世界模型研發:爲視頻世界模型(如 Genie、Kling、Wan 等)提供標準化評測工具,指導模型迭代優化。
-
導航與具身智能評估:專門評測模型在虛擬環境中的導航控制能力,適用於機器人、自動駕駛等具身智能方向。
-
多輪交互產品測試:幫助 AI 視頻/遊戲產品評估長程交互體驗,如虛擬世界探索、AI 遊戲引擎等。
-
學術研究基準:作爲學術界研究世界模型、交互式視頻生成的基礎評測框架,推動領域標準化。
-
開源 vs 閉源模型選型:爲企業和開發者提供客觀數據,輔助選擇適合特定交互任務(如導航/編輯)的模型方案。
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...