VitaBench 2.0是什麼
VitaBench 2.0 是美團 LongCat 團隊推出的首個真實生活場景下長期動態用戶建模智能體評測基準,包含 56 名擬真用戶、819 個複雜任務、超 2000 個動態偏好及 66 個可執行工具,平均交互跨度達 1580 天,系統評測大模型在長期互動中的個性化與主動性能力。

VitaBench 2.0的主要功能
-
擬真用戶軌跡構建:爲 56 位虛擬用戶構建覆蓋送餐、到店、差旅等領域的長期生活軌跡。
-
動態偏好演化:嵌入超 2000 種偏好,平均每位用戶發生 48 次以上動態變化。
-
複雜任務評測:提供 819 個貫穿用戶生命週期的可執行任務。
-
雙記憶模式對決:統一評測 Agentic Memory(主動維護檔案)與 RAG Memory(檢索歷史片段)。
-
主動性任務設計:考驗 AI 在信息不足時主動提問非盲目決策的能力。
VitaBench 2.0的技術原理
-
三維解構架構:將用戶信息(畫像+偏好+歷史+任務)→ 個性化記憶→ 智能體任務串聯爲完整閉環。
-
時間標尺暴露:嚴格按時間線向 Agent 暴露交互事件,真實還原用戶偏好的演進與漂移。
-
記憶擂台機制:通過可擴展接口讓兩種記憶架構在相同用戶場景下公平對決,評估不同設計對決策的真實影響。
-
噪音信號分離:約 20% 交互包含無關、探索性、代理等噪音,考驗模型從混雜線索中提取真實偏好的能力。
如何使用VitaBench 2.0
- 克隆倉庫:執行
git clone https://github.com/meituan-longcat/vitabench-2.0.git獲取評測框架與運行腳本。 - 下載數據:從 HuggingFace 數據集 拉取包含 56 名用戶軌跡、819 個任務及 66 個工具的標準化數據集。
- 安裝依賴:進入項目目錄並運行安裝命令,配置 Python 環境與所需庫。
- 選擇模式:在 Full Context、Agentic Memory、RAG Memory 三種記憶設置中選定一種作爲評測基線。
- 接入模型:按照倉庫文檔將你的大模型或 Agent 接入評測接口,使其按時間線接收用戶事件並調用工具。
- 啓動評測:運行評測腳本,讓 Agent 在送餐、到店、差旅等場景中依次執行標準化任務。
- 查看報告:分析生成的性能報告,對比 Avg@4、Pass@4 等指標及時間衰減曲線,定位模型在長期用戶建模上的短板。
VitaBench 2.0的核心優勢
- 業界首創:首個將智能體場景與豐富用戶生態結合、面向真實生活長期動態用戶建模的評測基準。
- 超長時間跨度:平均交互週期達 1580 天(最長 2974 天),真實還原用戶偏好的長期演進與漂移。
- 高真實度用戶畫像:56 位虛擬用戶基於真實世界統計數據構建,覆蓋性別、年齡、城市層級、職業、婚戀等多維特徵。
- 動態偏好演化:嵌入超 2000 種偏好,平均每位用戶經歷 48 次以上動態變化,模擬真實生活中的習慣改變。
- 統一記憶評測生態:搭建首個真實場景下的長期智能體評測平台,統一對比 Agentic Memory 與 RAG Memory 兩種架構。
VitaBench 2.0的項目地址
- 項目官網:https://vitabench2.github.io/
- GitHub倉庫:https://github.com/meituan-longcat/vitabench-2.0
- HuggingFace模型庫:https://huggingface.co/datasets/meituan-longcat/VitaBench-2.0
- arXiv技術論文:https://arxiv.org/pdf/2605.27141
VitaBench 2.0的同類競品對比
| 維度 | VitaBench 2.0 | SWE-bench |
|---|---|---|
| 核心目標 | 評測 AI 在長期動態互動中理解用戶偏好與主動服務的能力 | 評測 AI 解決真實 GitHub 軟件工程問題的能力 |
| 任務類型 | 生活服務決策(點餐、差旅、到店推薦) | 代碼修復、功能實現、測試通過 |
| 時間跨度 | 平均 1580 天,最長 2974 天 | 單次獨立任務,無時間線概念 |
| 用戶維度 | 56 個擬真用戶,含畫像、偏好演化與社交背景 | 無用戶概念,僅關注代碼庫與 Issue |
| 記憶機制 | 核心評測維度,對比 Agentic / RAG / Full Context 三種記憶模式 | 不涉及記憶,僅依賴當前代碼上下文 |
| 主動性要求 | 設計主動性任務,要求 AI 在信息不足時主動提問 | 不涉及主動性交互,直接輸出代碼補丁 |
| 數據噪音 | 約 20% 交互爲無關/探索性噪音,需分離信號 | 問題描述與代碼相對清晰,噪音較低 |
| 最強模型得分 | 全歷史模式下最高分約 0.50(Claude-Opus-4.6) | 頂尖模型通過率可達 40%-60% 以上 |
| 適用領域 | 個人助理、智能客服、生活服務平台 | 自動化編程、代碼審查、DevOps 工具 |
VitaBench 2.0的應用場景
-
AI 個人助理評測:測試智能助手在長期陪伴中的用戶理解與個性化服務能力。
-
智能客服優化:評估客服系統對用戶偏好記憶與動態適配的準確程度。
-
生活服務平台:爲外賣、出行、酒店等場景的推薦算法提供貼近真實的評測環境。
-
記憶模塊研發:幫助研究者對比選型 Agentic Memory 與 RAG Memory 在不同場景下的表現。
-
長上下文模型邊界探索:檢驗大模型在超長時序、高噪音場景下的能力極限。
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...