VitaBench 2.0 – 美團 LongCat 推出的長期動態智能體評測基準

AI工具1天前發佈新公告 AI管理員
0 0

VitaBench 2.0是什麼

VitaBench 2.0 是美團 LongCat 團隊推出的首個真實生活場景下長期動態用戶建模智能體評測基準,包含 56 名擬真用戶、819 個複雜任務、超 2000 個動態偏好及 66 個可執行工具,平均交互跨度達 1580 天,系統評測大模型在長期互動中的個性化與主動性能力。

VitaBench 2.0 – 美團 LongCat 推出的長期動態智能體評測基準

VitaBench 2.0的主要功能

  • 擬真用戶軌跡構建:爲 56 位虛擬用戶構建覆蓋送餐、到店、差旅等領域的長期生活軌跡。
  • 動態偏好演化:嵌入超 2000 種偏好,平均每位用戶發生 48 次以上動態變化。
  • 複雜任務評測:提供 819 個貫穿用戶生命週期的可執行任務。
  • 雙記憶模式對決:統一評測 Agentic Memory(主動維護檔案)與 RAG Memory(檢索歷史片段)。
  • 主動性任務設計:考驗 AI 在信息不足時主動提問非盲目決策的能力。

VitaBench 2.0的技術原理

  • 三維解構架構:將用戶信息(畫像+偏好+歷史+任務)→ 個性化記憶→ 智能體任務串聯爲完整閉環。
  • 時間標尺暴露:嚴格按時間線向 Agent 暴露交互事件,真實還原用戶偏好的演進與漂移。
  • 記憶擂台機制:通過可擴展接口讓兩種記憶架構在相同用戶場景下公平對決,評估不同設計對決策的真實影響。
  • 噪音信號分離:約 20% 交互包含無關、探索性、代理等噪音,考驗模型從混雜線索中提取真實偏好的能力。

如何使用VitaBench 2.0

  • 克隆倉庫:執行 git clone https://github.com/meituan-longcat/vitabench-2.0.git 獲取評測框架與運行腳本。
  • 下載數據:從 HuggingFace 數據集 拉取包含 56 名用戶軌跡、819 個任務及 66 個工具的標準化數據集。
  • 安裝依賴:進入項目目錄並運行安裝命令,配置 Python 環境與所需庫。
  • 選擇模式:在 Full Context、Agentic Memory、RAG Memory 三種記憶設置中選定一種作爲評測基線。
  • 接入模型:按照倉庫文檔將你的大模型或 Agent 接入評測接口,使其按時間線接收用戶事件並調用工具。
  • 啓動評測:運行評測腳本,讓 Agent 在送餐、到店、差旅等場景中依次執行標準化任務。
  • 查看報告:分析生成的性能報告,對比 Avg@4、Pass@4 等指標及時間衰減曲線,定位模型在長期用戶建模上的短板。

VitaBench 2.0的核心優勢

  • 業界首創:首個將智能體場景與豐富用戶生態結合、面向真實生活長期動態用戶建模的評測基準。
  • 超長時間跨度:平均交互週期達 1580 天(最長 2974 天),真實還原用戶偏好的長期演進與漂移。
  • 高真實度用戶畫像:56 位虛擬用戶基於真實世界統計數據構建,覆蓋性別、年齡、城市層級、職業、婚戀等多維特徵。
  • 動態偏好演化:嵌入超 2000 種偏好,平均每位用戶經歷 48 次以上動態變化,模擬真實生活中的習慣改變。
  • 統一記憶評測生態:搭建首個真實場景下的長期智能體評測平台,統一對比 Agentic Memory 與 RAG Memory 兩種架構。

VitaBench 2.0的項目地址

  • 項目官網:https://vitabench2.github.io/
  • GitHub倉庫:https://github.com/meituan-longcat/vitabench-2.0
  • HuggingFace模型庫:https://huggingface.co/datasets/meituan-longcat/VitaBench-2.0
  • arXiv技術論文:https://arxiv.org/pdf/2605.27141

VitaBench 2.0的同類競品對比

維度 VitaBench 2.0 SWE-bench
核心目標 評測 AI 在長期動態互動中理解用戶偏好與主動服務的能力 評測 AI 解決真實 GitHub 軟件工程問題的能力
任務類型 生活服務決策(點餐、差旅、到店推薦) 代碼修復、功能實現、測試通過
時間跨度 平均 1580 天,最長 2974 天 單次獨立任務,無時間線概念
用戶維度 56 個擬真用戶,含畫像、偏好演化與社交背景 無用戶概念,僅關注代碼庫與 Issue
記憶機制 核心評測維度,對比 Agentic / RAG / Full Context 三種記憶模式 不涉及記憶,僅依賴當前代碼上下文
主動性要求 設計主動性任務,要求 AI 在信息不足時主動提問 不涉及主動性交互,直接輸出代碼補丁
數據噪音 約 20% 交互爲無關/探索性噪音,需分離信號 問題描述與代碼相對清晰,噪音較低
最強模型得分 全歷史模式下最高分約 0.50(Claude-Opus-4.6) 頂尖模型通過率可達 40%-60% 以上
適用領域 個人助理、智能客服、生活服務平台 自動化編程、代碼審查、DevOps 工具

VitaBench 2.0的應用場景

  • AI 個人助理評測:測試智能助手在長期陪伴中的用戶理解與個性化服務能力。
  • 智能客服優化:評估客服系統對用戶偏好記憶與動態適配的準確程度。
  • 生活服務平台:爲外賣、出行、酒店等場景的推薦算法提供貼近真實的評測環境。
  • 記憶模塊研發:幫助研究者對比選型 Agentic Memory 與 RAG Memory 在不同場景下的表現。
  • 長上下文模型邊界探索:檢驗大模型在超長時序、高噪音場景下的能力極限。
© 版權聲明

相關文章

暫無評論

暫無評論...