LifeSim是什麼
LifeSim是復旦大學與上海創智學院推出的首個長程用戶生活模擬框架,用於評測個性化AI助手。框架基於BDI認知模型,同時建模用戶內部認知(信念、願望、意圖)與外部環境(時間、地點、天氣),生成連貫的生活軌跡和多輪交互。LifeSim通過1200個場景、8個生活領域的LifeSim-Eval基準,評測模型處理顯性與隱性意圖、長期偏好建模的能力,解決現有評測與真實場景脫節的問題。

LifeSim的主要功能
-
長程生活軌跡模擬:基於真實出行數據生成連貫的用戶生活事件序列,涵蓋時間、地點、天氣等外部環境約束。
-
多輪交互行爲模擬:模擬用戶與AI助手的自然對話,支持記憶衝突檢測、情緒推理和動態行爲選擇。
-
個性化能力評測:通過LifeSim-Eval基準測試模型識別顯性/隱性意圖、長期偏好重建與對齊能力。
-
隱私安全數據合成:支持生成百萬級多樣化用戶畫像,爲個性化助手訓練提供高質量合成數據。
LifeSim的技術原理
-
信念引擎:整合長期用戶畫像與短期情境認知(物理/心理/環境狀態)。
-
願望引擎:從需求庫檢索候選意圖,結合用戶信念與外部環境進行重排序。
-
事件引擎:基於邏輯函數控制事件觸發概率,確保生活事件符合真實時空約束。
-
行爲引擎:通過記憶感知(檢測歷史衝突)、情緒推理(GoEmotions分類)、行動選擇三階段生成用戶響應。
如何使用LifeSim
- 在線 Demo 體驗:
- 訪問官網:直接訪問http://fudan-disc.com/lifesim/可使用可視化界面。
-
預設演示:選擇系統內置用戶,在地圖時間軸上點擊任意生活節點,查看當時場景並與模擬用戶對話。
-
實時生成:自定義年齡、職業、人格特質等畫像,觀看 BDI 引擎實時生成生活事件並交互。
- 本地部署評測:
- 環境準備:安裝 Python 依賴,準備用戶畫像與生活事件數據。
- 模型配置:接入用戶模擬模型(如 Qwen3-32B)與被測助手模型(支持本地 vLLM 或 OpenAI/DeepSeek 等 API)。
- 運行模擬:選擇單場景(獨立對話)或長程模式(帶歷史記憶的多輪交互),系統將自動生成對話日誌。
- 自動評分:使用 LLM-as-Judge 對意圖識別、隱性需求滿足、畫像對齊等 7 個維度自動打分。
LifeSim的關鍵信息和使用要求
- 定位:首個長程用戶生活模擬器,用於評測個性化 AI 助手在真實動態場景中的能力。
- 技術核心:基於 BDI 認知模型(信念-願望-意圖),融合外部環境(時間/地點/天氣)與內部認知狀態(人格/偏好/記憶)生成用戶行爲。
- 數據規模:百萬級用戶畫像池、3,374 條真實軌跡、1,200 個評測場景(覆蓋 8 大生活領域)。
- 評測重點:區分顯性意圖(直接需求)與隱性意圖(需結合畫像與場景推斷),支持長程對話(最長 16K tokens 歷史上下文):
- 所屬機構:復旦大學數據科學與上海創智學院聯合研發。
LifeSim的核心優勢
- 填補真實場景鴻溝:突破現有靜態、短上下文評測侷限,首次實現跨天/周級的長程生活軌跡模擬,讓 AI 助手評測真正貼近”賈維斯”式連續服務場景。
- BDI 認知架構深度建模:不同於簡單角色扮演,基於信念-願望-意圖心理學模型,系統模擬用戶”如何想”(認知狀態),生成具備一致人格的合理行爲鏈。
- 顯隱性意圖雙重考驗:通過隱性意圖(需結合天氣、地點、歷史偏好推斷)暴露當前 LLM 在長期用戶理解上的 20+ 分性能缺口。
- 物理-認知雙環境融合:獨特地將真實地理軌跡(3,374 條)、時間天氣等物理約束,與動態心理情緒、記憶遺忘等認知機制結合,生成事件具備現實合理性。
LifeSim的項目地址
- GitHub倉庫:https://github.com/dfy37/lifesim
- arXiv技術論文:https://arxiv.org/pdf/2603.12152
- 在線體驗Demo:http://fudan-disc.com/lifesim/
LifeSim的同類競品對比
| 對比維度 | LifeSim | Generative Agents (Smallville) |
AgentBench |
|---|---|---|---|
| 核心定位 | 個性化 AI 助手長程能力評測基準 | 虛擬社會沙盒行爲觀察平台 | LLM Agent 工具調用能力評測 |
| 時間維度 | 長程連續(跨天/周級,最長 16K tokens 上下文) | 連續時間(無明確上限) | 短程任務(單輪或少數輪次) |
| 環境建模 | 真實物理環境(時間+天氣+地理軌跡)+ 認知狀態 | 虛擬 2D 沙盒環境(遊戲式交互) | 虛擬工具環境(OS/網頁/數據庫) |
| 用戶建模 | BDI 認知模型(信念-願望-意圖+大五人格+動態情緒) | 記憶流+反思(觀察湧現行爲) | 無(僅測試 Agent 本身能力) |
| 評測重點 | 顯隱性意圖識別、長期偏好對齊、畫像還原 | 社會現象湧現、羣體互動模式 | 工具使用準確率、任務完成效率 |
| 交互模式 | 用戶-AI 助手對抗對話(可評測第三方模型) | AI 智能體間自由互動(觀察型) | AI 與虛擬環境交互(任務型) |
| 數據規模 | 百萬級用戶畫像、1,200 標準評測場景 | 25 個智能體、有限預製場景 | 8 個環境、數千測試用例 |
| 可復現性 | 標準化種子場景+自動評分(支持模型橫向對標) | 開放式觀察(結果隨機性強,難復現) | 固定測試集(可復現) |
| 主要優勢 | 真實生活場景、心理學理論支撐、量化隱性意圖能力 | 羣體智能湧現、視覺化社會模擬 | 工具生態豐富、任務邊界清晰 |
| 主要侷限 | 僅限單用戶-助手二元交互(暫不支持多智能體社會) | 缺乏標準化評測指標,難以對比模型優劣 | 缺乏用戶認知建模,不涉及個性化長期服務 |
LifeSim的應用場景
- AI 助手能力評測與對標:爲 GPT-4o、Claude、DeepSeek 等模型提供標準化”長程個性化”考場,精準識別模型在隱性意圖理解、長期記憶保持、用戶畫像對齊等方面的能力邊界。
- 合成數據生成::基於百萬級模擬用戶生成大規模、多樣化的長期交互對話數據,解決真實用戶數據稀缺且隱私敏感的問題,用於微調個性化助手或強化學習訓練。
- 智能客服與伴侶 AI 預訓練:在虛擬環境中模擬極端或罕見場景(如用戶連續多日焦慮狀態下的求助),測試客服系統的情感支持能力與長期上下文一致性,避免上線後真實用戶測試風險。
- 人機交互(HCI)學術研究:爲認知科學、社會心理學提供可控實驗平台,研究不同人格特質(如大五人格)如何影響用戶對 AI 助手的接受度與信任建立過程。
- 個性化推薦算法驗證:在飲食、健身、育兒等 8 大生活領域,驗證推薦系統能否結合用戶長期偏好與實時情境(如雨天+健身習慣)做出動態調整。
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...