LifeSim – 復旦與上海創智學院推出的長程用戶生活模擬框架

AI工具3天前發佈新公告 AI管理員

0 0 0

LifeSim是什麼

LifeSim是復旦大學與上海創智學院推出的首個長程用戶生活模擬框架，用於評測個性化AI助手。框架基於BDI認知模型，同時建模用戶內部認知（信念、願望、意圖）與外部環境（時間、地點、天氣），生成連貫的生活軌跡和多輪交互。LifeSim通過1200個場景、8個生活領域的LifeSim-Eval基準，評測模型處理顯性與隱性意圖、長期偏好建模的能力，解決現有評測與真實場景脫節的問題。

LifeSim – 復旦與上海創智學院推出的長程用戶生活模擬框架

LifeSim的主要功能

長程生活軌跡模擬：基於真實出行數據生成連貫的用戶生活事件序列，涵蓋時間、地點、天氣等外部環境約束。
多輪交互行爲模擬：模擬用戶與AI助手的自然對話，支持記憶衝突檢測、情緒推理和動態行爲選擇。
個性化能力評測：通過LifeSim-Eval基準測試模型識別顯性/隱性意圖、長期偏好重建與對齊能力。
隱私安全數據合成：支持生成百萬級多樣化用戶畫像，爲個性化助手訓練提供高質量合成數據。

LifeSim的技術原理

信念引擎：整合長期用戶畫像與短期情境認知（物理/心理/環境狀態）。
願望引擎：從需求庫檢索候選意圖，結合用戶信念與外部環境進行重排序。
事件引擎：基於邏輯函數控制事件觸發概率，確保生活事件符合真實時空約束。
行爲引擎：通過記憶感知（檢測歷史衝突）、情緒推理（GoEmotions分類）、行動選擇三階段生成用戶響應。

如何使用LifeSim

在線 Demo 體驗：
- 訪問官網：直接訪問http://fudan-disc.com/lifesim/可使用可視化界面。
- 預設演示：選擇系統內置用戶，在地圖時間軸上點擊任意生活節點，查看當時場景並與模擬用戶對話。
- 實時生成：自定義年齡、職業、人格特質等畫像，觀看 BDI 引擎實時生成生活事件並交互。
本地部署評測：
- 環境準備：安裝 Python 依賴，準備用戶畫像與生活事件數據。
- 模型配置：接入用戶模擬模型（如 Qwen3-32B）與被測助手模型（支持本地 vLLM 或 OpenAI/DeepSeek 等 API）。
- 運行模擬：選擇單場景（獨立對話）或長程模式（帶歷史記憶的多輪交互），系統將自動生成對話日誌。
- 自動評分：使用 LLM-as-Judge 對意圖識別、隱性需求滿足、畫像對齊等 7 個維度自動打分。

LifeSim的關鍵信息和使用要求

定位：首個長程用戶生活模擬器，用於評測個性化 AI 助手在真實動態場景中的能力。
技術核心：基於 BDI 認知模型（信念-願望-意圖），融合外部環境（時間/地點/天氣）與內部認知狀態（人格/偏好/記憶）生成用戶行爲。
數據規模：百萬級用戶畫像池、3,374 條真實軌跡、1,200 個評測場景（覆蓋 8 大生活領域）。
評測重點：區分顯性意圖（直接需求）與隱性意圖（需結合畫像與場景推斷），支持長程對話（最長 16K tokens 歷史上下文）：
所屬機構：復旦大學數據科學與上海創智學院聯合研發。

LifeSim的核心優勢

填補真實場景鴻溝：突破現有靜態、短上下文評測侷限，首次實現跨天/周級的長程生活軌跡模擬，讓 AI 助手評測真正貼近”賈維斯”式連續服務場景。
BDI 認知架構深度建模：不同於簡單角色扮演，基於信念-願望-意圖心理學模型，系統模擬用戶”如何想”（認知狀態），生成具備一致人格的合理行爲鏈。
顯隱性意圖雙重考驗：通過隱性意圖（需結合天氣、地點、歷史偏好推斷）暴露當前 LLM 在長期用戶理解上的 20+ 分性能缺口。
物理-認知雙環境融合：獨特地將真實地理軌跡（3,374 條）、時間天氣等物理約束，與動態心理情緒、記憶遺忘等認知機制結合，生成事件具備現實合理性。

LifeSim的項目地址

GitHub倉庫：https://github.com/dfy37/lifesim
arXiv技術論文：https://arxiv.org/pdf/2603.12152
在線體驗Demo：http://fudan-disc.com/lifesim/

LifeSim的同類競品對比

對比維度	LifeSim	Generative Agents (Smallville)	AgentBench
核心定位	個性化 AI 助手長程能力評測基準	虛擬社會沙盒行爲觀察平台	LLM Agent 工具調用能力評測
時間維度	長程連續（跨天/周級，最長 16K tokens 上下文）	連續時間（無明確上限）	短程任務（單輪或少數輪次）
環境建模	真實物理環境（時間+天氣+地理軌跡）+ 認知狀態	虛擬 2D 沙盒環境（遊戲式交互）	虛擬工具環境（OS/網頁/數據庫）
用戶建模	BDI 認知模型（信念-願望-意圖+大五人格+動態情緒）	記憶流+反思（觀察湧現行爲）	無（僅測試 Agent 本身能力）
評測重點	顯隱性意圖識別、長期偏好對齊、畫像還原	社會現象湧現、羣體互動模式	工具使用準確率、任務完成效率
交互模式	用戶-AI 助手對抗對話（可評測第三方模型）	AI 智能體間自由互動（觀察型）	AI 與虛擬環境交互（任務型）
數據規模	百萬級用戶畫像、1,200 標準評測場景	25 個智能體、有限預製場景	8 個環境、數千測試用例
可復現性	標準化種子場景+自動評分（支持模型橫向對標）	開放式觀察（結果隨機性強，難復現）	固定測試集（可復現）
主要優勢	真實生活場景、心理學理論支撐、量化隱性意圖能力	羣體智能湧現、視覺化社會模擬	工具生態豐富、任務邊界清晰
主要侷限	僅限單用戶-助手二元交互（暫不支持多智能體社會）	缺乏標準化評測指標，難以對比模型優劣	缺乏用戶認知建模，不涉及個性化長期服務

LifeSim的應用場景

AI 助手能力評測與對標：爲 GPT-4o、Claude、DeepSeek 等模型提供標準化”長程個性化”考場，精準識別模型在隱性意圖理解、長期記憶保持、用戶畫像對齊等方面的能力邊界。
合成數據生成：：基於百萬級模擬用戶生成大規模、多樣化的長期交互對話數據，解決真實用戶數據稀缺且隱私敏感的問題，用於微調個性化助手或強化學習訓練。
智能客服與伴侶 AI 預訓練：在虛擬環境中模擬極端或罕見場景（如用戶連續多日焦慮狀態下的求助），測試客服系統的情感支持能力與長期上下文一致性，避免上線後真實用戶測試風險。
人機交互（HCI）學術研究：爲認知科學、社會心理學提供可控實驗平台，研究不同人格特質（如大五人格）如何影響用戶對 AI 助手的接受度與信任建立過程。
個性化推薦算法驗證：在飲食、健身、育兒等 8 大生活領域，驗證推薦系統能否結合用戶長期偏好與實時情境（如雨天+健身習慣）做出動態調整。

© 版權聲明

文章版权归作者所有，未经允许请勿转载。

相關文章

ComflowySpace – 免費開源且簡單易用的ComfyUI整合工具

earnbyshare2016

3 0

CodeFormer – AI照片修復工具，輕鬆去除圖片和視頻馬賽克

earnbyshare2016

444 0

CodeWP – AI驅動自動化WordPress開發的平台

earnbyshare2016

3 0

AskHackers – 面向開發者的AI搜索工具

earnbyshare2016

4 0

Mailchimp – 全球知名的電子郵件AI營銷自動化平台

earnbyshare2016

1 0

新Veo 3.1 Lite – 谷歌推出的 AI 視頻生成模型

earnbyshare2016

0 0

暫無評論

暫無評論...