WBench – 美團推出的交互式視頻世界模型多輪評測基準

AI工具2天前發佈新公告 AI管理員
0 0

WBench是什麼

WBench 是美團 LongCat 團隊推出的,首個面向交互式視頻世界模型的系統性多輪評測基準,包含 289 個測試案例和 1058 個交互輪次,覆蓋自然、城市、幻想等 6 類場景與 7 種藝術風格。基準通過統一交互接口對 20 個前沿模型進行CT 掃描,精準定位模型從被動觀看到主動交互的能力邊界,揭示當前世界模型在多輪交互、導航控制和視角切換等維度的核心短板。

WBench – 美團推出的交互式視頻世界模型多輪評測基準

WBench的主要功能

  • 多維度世界定義:支持 6 類場景(自然、城市、室內、工作區、幻想、運動)、7 種藝術風格(寫實、動漫、卡通、油畫、水墨、扁平、素描)及 3 種視角包括第一人稱/第三人稱/具身第一人稱)。
  • 四類核心交互:提供導航、主體動作、事件編輯、視角切換四種交互方式。
  • 統一交互接口:通過 Action Router 將文本指令、6DoF 座標和鍵盤動作統一映射爲標準化輸入,適配不同模型的原生接口。
  • 五維評測套件:從視頻質量、設定遵循度、交互遵循度、一致性、物理真實性五個維度進行量化評分,包含 NavScore、Gated Spatial Consistency 等硬核指標。
  • 多輪長程評估:支持連續多輪交互測試,測量模型在長時間交互後的性能衰減情況。

WBench的技術原理

  • 四大核心要素架構:WBench 的設計遵循世界定義 + 指令集 + 統一交互接口 + 評測套件的框架。世界定義負責構建多樣化的測試環境;指令集提供標準化的動作描述;統一交互接口通過 Action Router 將異構輸入轉換爲模型可理解的信號;評測套件則從五個維度輸出量化指標,形成完整的評估閉環。
  • 場景與交互解耦設計:採用舞台與劇本分離的設計理念:場景和交互獨立配置,可自由組合。這種解耦使評測可精準定位問題根源。
  • 多輪自迴歸反饋機制:評測流程採用自迴歸方式:每一輪的輸出幀會作爲下一輪的輸入,模擬真實交互場景。通過這種方式,WBench 能檢測模型在長程交互中的錯誤累積效應,如導航能力在多輪後平均下降 33 點。

如何使用WBench

  • 克隆倉庫:訪問 GitHub 倉庫並克隆 WBench 代碼到本地,安裝 Python 依賴環境。
  • 下載數據集:從 HuggingFace 拉取包含 289 個測試案例和 1058 個交互輪次的評測數據集。
  • 接入模型:通過 Action Router 將待測模型接入 WBench 的統一交互接口,適配文本或動作輸入協議。
  • 定義場景:在配置文件中選擇場景類型、藝術風格、主體對象及觀察視角。
  • 選擇交互:從導航、主體動作、事件編輯、視角切換四類交互中組合測試動作。
  • 設定維度:啓用視頻質量、設定遵循度、交互遵循度、一致性、物理真實性五維評測指標。
  • 單輪測試:運行初始幀生成與單輪交互,獲取模型基礎能力得分。
  • 多輪測試:啓動自迴歸模式,將上一輪輸出作爲下一輪輸入,測量長程性能衰減。
  • 批量對比:配置多個模型並行運行相同測試用例,生成橫向對比數據。
  • 查看報告:評測結束後自動生成雷達圖與得分表,直觀展示各維度強弱分佈。

WBench的核心優勢

  • 首個多輪交互評測基準:區別於傳統單輪視頻生成評測,WBench 首次系統性地評估模型在連續交互中的表現,填補行業空白。
  • 覆蓋全面且解耦:289 個案例覆蓋 6 大場景、7 種風格、5 類主體,且場景與交互獨立配置,可精準定位模型短板。
  • 統一接口兼容異構模型:通過 Action Router 適配文本驅動模型(如 Kling 3.0)和專用世界模型(如 HY-World 1.5),實現公平對比。
  • 揭示關鍵行業洞察:本驅動模型擅長理解,專用世界模型擅長導航;視頻質量與導航能力基本無關;多輪交互是核心難點。

WBench的項目地址

  • 項目官網:https://meituan-longcat.github.io/WBench/
  • GitHub倉庫:https://github.com/meituan-longcat/WBench
  • HuggingFace模型庫:https://huggingface.co/datasets/meituan-longcat/WBench
  • 技術論文:https://huggingface.co/papers/2605.25874

WBench的同類競品對比

維度 WBench WorldScore
定位 多輪交互式視頻世界模型評測 世界生成統一評測基準
發佈時間 2026-05 2025
案例規模 289 案例,1058 交互輪次 3000 案例
交互類型 導航、主體動作、事件編輯、視角切換 軌跡條件控制,無自由交互
多輪支持 原生多輪自迴歸評測,支持長程衰減分析 單場景/多場景序列,非交互式
統一接口 Action Router(文本/6DoF/離散動作) 統一世界規格(佈局+語義)
評測維度 視頻質量、設定遵循、交互遵循、一致性、物理真實性 可控性、質量、動態性
核心特色 多輪交互衰減診斷,場景與交互解耦 跨 3D/4D/I2V/T2V 統一評測
在線平台 離線評測套件 + HuggingFace 數據集 離線排行榜

WBench的應用場景

  • 世界模型研發:爲視頻世界模型(如 Genie、Kling、Wan 等)提供標準化評測工具,指導模型迭代優化。
  • 導航與具身智能評估:專門評測模型在虛擬環境中的導航控制能力,適用於機器人、自動駕駛等具身智能方向。
  • 多輪交互產品測試:幫助 AI 視頻/遊戲產品評估長程交互體驗,如虛擬世界探索、AI 遊戲引擎等。
  • 學術研究基準:作爲學術界研究世界模型、交互式視頻生成的基礎評測框架,推動領域標準化。
  • 開源 vs 閉源模型選型:爲企業和開發者提供客觀數據,輔助選擇適合特定交互任務(如導航/編輯)的模型方案。
© 版權聲明

相關文章

暫無評論

暫無評論...