VitaBench 2.0 – 美團 LongCat 推出的長期動態智能體評測基準

AI工具1天前發佈新公告 AI管理員

0 0 0

VitaBench 2.0是什麼

VitaBench 2.0 是美團 LongCat 團隊推出的首個真實生活場景下長期動態用戶建模智能體評測基準，包含 56 名擬真用戶、819 個複雜任務、超 2000 個動態偏好及 66 個可執行工具，平均交互跨度達 1580 天，系統評測大模型在長期互動中的個性化與主動性能力。

VitaBench 2.0 – 美團 LongCat 推出的長期動態智能體評測基準

VitaBench 2.0的主要功能

擬真用戶軌跡構建：爲 56 位虛擬用戶構建覆蓋送餐、到店、差旅等領域的長期生活軌跡。
動態偏好演化：嵌入超 2000 種偏好，平均每位用戶發生 48 次以上動態變化。
複雜任務評測：提供 819 個貫穿用戶生命週期的可執行任務。
雙記憶模式對決：統一評測 Agentic Memory（主動維護檔案）與 RAG Memory（檢索歷史片段）。
主動性任務設計：考驗 AI 在信息不足時主動提問非盲目決策的能力。

VitaBench 2.0的技術原理

三維解構架構：將用戶信息（畫像+偏好+歷史+任務）→ 個性化記憶→ 智能體任務串聯爲完整閉環。
時間標尺暴露：嚴格按時間線向 Agent 暴露交互事件，真實還原用戶偏好的演進與漂移。
記憶擂台機制：通過可擴展接口讓兩種記憶架構在相同用戶場景下公平對決，評估不同設計對決策的真實影響。
噪音信號分離：約 20% 交互包含無關、探索性、代理等噪音，考驗模型從混雜線索中提取真實偏好的能力。

如何使用VitaBench 2.0

克隆倉庫：執行 git clone https://github.com/meituan-longcat/vitabench-2.0.git 獲取評測框架與運行腳本。
下載數據：從 HuggingFace 數據集拉取包含 56 名用戶軌跡、819 個任務及 66 個工具的標準化數據集。
安裝依賴：進入項目目錄並運行安裝命令，配置 Python 環境與所需庫。
選擇模式：在 Full Context、Agentic Memory、RAG Memory 三種記憶設置中選定一種作爲評測基線。
接入模型：按照倉庫文檔將你的大模型或 Agent 接入評測接口，使其按時間線接收用戶事件並調用工具。
啓動評測：運行評測腳本，讓 Agent 在送餐、到店、差旅等場景中依次執行標準化任務。
查看報告：分析生成的性能報告，對比 Avg@4、Pass@4 等指標及時間衰減曲線，定位模型在長期用戶建模上的短板。

VitaBench 2.0的核心優勢

業界首創：首個將智能體場景與豐富用戶生態結合、面向真實生活長期動態用戶建模的評測基準。
超長時間跨度：平均交互週期達 1580 天（最長 2974 天），真實還原用戶偏好的長期演進與漂移。
高真實度用戶畫像：56 位虛擬用戶基於真實世界統計數據構建，覆蓋性別、年齡、城市層級、職業、婚戀等多維特徵。
動態偏好演化：嵌入超 2000 種偏好，平均每位用戶經歷 48 次以上動態變化，模擬真實生活中的習慣改變。
統一記憶評測生態：搭建首個真實場景下的長期智能體評測平台，統一對比 Agentic Memory 與 RAG Memory 兩種架構。

VitaBench 2.0的項目地址

項目官網：https://vitabench2.github.io/
GitHub倉庫：https://github.com/meituan-longcat/vitabench-2.0
HuggingFace模型庫：https://huggingface.co/datasets/meituan-longcat/VitaBench-2.0
arXiv技術論文：https://arxiv.org/pdf/2605.27141

VitaBench 2.0的同類競品對比

維度	VitaBench 2.0	SWE-bench
核心目標	評測 AI 在長期動態互動中理解用戶偏好與主動服務的能力	評測 AI 解決真實 GitHub 軟件工程問題的能力
任務類型	生活服務決策（點餐、差旅、到店推薦）	代碼修復、功能實現、測試通過
時間跨度	平均 1580 天，最長 2974 天	單次獨立任務，無時間線概念
用戶維度	56 個擬真用戶，含畫像、偏好演化與社交背景	無用戶概念，僅關注代碼庫與 Issue
記憶機制	核心評測維度，對比 Agentic / RAG / Full Context 三種記憶模式	不涉及記憶，僅依賴當前代碼上下文
主動性要求	設計主動性任務，要求 AI 在信息不足時主動提問	不涉及主動性交互，直接輸出代碼補丁
數據噪音	約 20% 交互爲無關/探索性噪音，需分離信號	問題描述與代碼相對清晰，噪音較低
最強模型得分	全歷史模式下最高分約 0.50（Claude-Opus-4.6）	頂尖模型通過率可達 40%-60% 以上
適用領域	個人助理、智能客服、生活服務平台	自動化編程、代碼審查、DevOps 工具

VitaBench 2.0的應用場景

AI 個人助理評測：測試智能助手在長期陪伴中的用戶理解與個性化服務能力。
智能客服優化：評估客服系統對用戶偏好記憶與動態適配的準確程度。
生活服務平台：爲外賣、出行、酒店等場景的推薦算法提供貼近真實的評測環境。
記憶模塊研發：幫助研究者對比選型 Agentic Memory 與 RAG Memory 在不同場景下的表現。
長上下文模型邊界探索：檢驗大模型在超長時序、高噪音場景下的能力極限。

© 版權聲明

文章版权归作者所有，未经允许请勿转载。

相關文章

GPT-5.5 – OpenAI 推出的最新旗艦大模型

earnbyshare2016

1 0

Copilot Search – 微軟 Bing 推出的智能搜索模式

earnbyshare2016

1 0

Aqua Voice – AI文檔編輯工具，自然語言指令對文本進行編輯

earnbyshare2016

0 0

浦語靈筆 – 開源的多模態大模型，性能媲美GPT-4V

earnbyshare2016

17 0

即刻魔法鏡 – 即刻賬戶AI趣味分析應用

earnbyshare2016

2 0

新Dynamic Workflows – Claude Code 推出的動態工作流

earnbyshare2016

0 0

暫無評論

暫無評論...