WBench – 美團推出的交互式視頻世界模型多輪評測基準

AI工具2天前發佈新公告 AI管理員

0 0 0

WBench是什麼

WBench 是美團 LongCat 團隊推出的，首個面向交互式視頻世界模型的系統性多輪評測基準，包含 289 個測試案例和 1058 個交互輪次，覆蓋自然、城市、幻想等 6 類場景與 7 種藝術風格。基準通過統一交互接口對 20 個前沿模型進行CT 掃描，精準定位模型從被動觀看到主動交互的能力邊界，揭示當前世界模型在多輪交互、導航控制和視角切換等維度的核心短板。

WBench – 美團推出的交互式視頻世界模型多輪評測基準

WBench的主要功能

多維度世界定義：支持 6 類場景（自然、城市、室內、工作區、幻想、運動）、7 種藝術風格（寫實、動漫、卡通、油畫、水墨、扁平、素描）及 3 種視角包括第一人稱/第三人稱/具身第一人稱）。
四類核心交互：提供導航、主體動作、事件編輯、視角切換四種交互方式。
統一交互接口：通過 Action Router 將文本指令、6DoF 座標和鍵盤動作統一映射爲標準化輸入，適配不同模型的原生接口。
五維評測套件：從視頻質量、設定遵循度、交互遵循度、一致性、物理真實性五個維度進行量化評分，包含 NavScore、Gated Spatial Consistency 等硬核指標。
多輪長程評估：支持連續多輪交互測試，測量模型在長時間交互後的性能衰減情況。

WBench的技術原理

四大核心要素架構：WBench 的設計遵循世界定義 + 指令集 + 統一交互接口 + 評測套件的框架。世界定義負責構建多樣化的測試環境；指令集提供標準化的動作描述；統一交互接口通過 Action Router 將異構輸入轉換爲模型可理解的信號；評測套件則從五個維度輸出量化指標，形成完整的評估閉環。
場景與交互解耦設計：採用舞台與劇本分離的設計理念：場景和交互獨立配置，可自由組合。這種解耦使評測可精準定位問題根源。
多輪自迴歸反饋機制：評測流程採用自迴歸方式：每一輪的輸出幀會作爲下一輪的輸入，模擬真實交互場景。通過這種方式，WBench 能檢測模型在長程交互中的錯誤累積效應，如導航能力在多輪後平均下降 33 點。

如何使用WBench

克隆倉庫：訪問 GitHub 倉庫並克隆 WBench 代碼到本地，安裝 Python 依賴環境。
下載數據集：從 HuggingFace 拉取包含 289 個測試案例和 1058 個交互輪次的評測數據集。
接入模型：通過 Action Router 將待測模型接入 WBench 的統一交互接口，適配文本或動作輸入協議。
定義場景：在配置文件中選擇場景類型、藝術風格、主體對象及觀察視角。
選擇交互：從導航、主體動作、事件編輯、視角切換四類交互中組合測試動作。
設定維度：啓用視頻質量、設定遵循度、交互遵循度、一致性、物理真實性五維評測指標。
單輪測試：運行初始幀生成與單輪交互，獲取模型基礎能力得分。
多輪測試：啓動自迴歸模式，將上一輪輸出作爲下一輪輸入，測量長程性能衰減。
批量對比：配置多個模型並行運行相同測試用例，生成橫向對比數據。
查看報告：評測結束後自動生成雷達圖與得分表，直觀展示各維度強弱分佈。

WBench的核心優勢

首個多輪交互評測基準：區別於傳統單輪視頻生成評測，WBench 首次系統性地評估模型在連續交互中的表現，填補行業空白。
覆蓋全面且解耦：289 個案例覆蓋 6 大場景、7 種風格、5 類主體，且場景與交互獨立配置，可精準定位模型短板。
統一接口兼容異構模型：通過 Action Router 適配文本驅動模型（如 Kling 3.0）和專用世界模型（如 HY-World 1.5），實現公平對比。
揭示關鍵行業洞察：本驅動模型擅長理解，專用世界模型擅長導航；視頻質量與導航能力基本無關；多輪交互是核心難點。

WBench的項目地址

項目官網：https://meituan-longcat.github.io/WBench/
GitHub倉庫：https://github.com/meituan-longcat/WBench
HuggingFace模型庫：https://huggingface.co/datasets/meituan-longcat/WBench
技術論文：https://huggingface.co/papers/2605.25874

WBench的同類競品對比

維度	WBench	WorldScore
定位	多輪交互式視頻世界模型評測	世界生成統一評測基準
發佈時間	2026-05	2025
案例規模	289 案例，1058 交互輪次	3000 案例
交互類型	導航、主體動作、事件編輯、視角切換	軌跡條件控制，無自由交互
多輪支持	原生多輪自迴歸評測，支持長程衰減分析	單場景/多場景序列，非交互式
統一接口	Action Router（文本/6DoF/離散動作）	統一世界規格（佈局+語義）
評測維度	視頻質量、設定遵循、交互遵循、一致性、物理真實性	可控性、質量、動態性
核心特色	多輪交互衰減診斷，場景與交互解耦	跨 3D/4D/I2V/T2V 統一評測
在線平台	離線評測套件 + HuggingFace 數據集	離線排行榜

WBench的應用場景

世界模型研發：爲視頻世界模型（如 Genie、Kling、Wan 等）提供標準化評測工具，指導模型迭代優化。
導航與具身智能評估：專門評測模型在虛擬環境中的導航控制能力，適用於機器人、自動駕駛等具身智能方向。
多輪交互產品測試：幫助 AI 視頻/遊戲產品評估長程交互體驗，如虛擬世界探索、AI 遊戲引擎等。
學術研究基準：作爲學術界研究世界模型、交互式視頻生成的基礎評測框架，推動領域標準化。
開源 vs 閉源模型選型：爲企業和開發者提供客觀數據，輔助選擇適合特定交互任務（如導航/編輯）的模型方案。

© 版權聲明

文章版权归作者所有，未经允许请勿转载。

相關文章

GenericAgent – A3 Lab 推出的通用自進化 LLM Agent 系統

earnbyshare2016

1 0

GPT-4o – OpenAI最新發布的多模態AI大模型

earnbyshare2016

9 0

FlexClip – 在線AI視頻編輯平台，海量資源庫和豐富的編輯功能

earnbyshare2016

5 0

STranslate – 多功能免費AI翻譯工具，支持離線OCR識別

earnbyshare2016

81 0

Gemini Live – 谷歌推出的多模態AI語音助手

earnbyshare2016

23 0

DreamPress – AI故事生成器，個性化故事生成無限創作

earnbyshare2016

4 0

暫無評論

暫無評論...