MindDR 1.5 – 理想汽車推出的多智能體深度研究框架

0 0 0

MindDR 1.5是什麼

MindDR 1.5 是理想汽車信息智能體團隊推出的多智能體深度研究框架，用僅約 30B 參數規模在 DeepResearch Bench 取得 52.54 分，達到業界領先水平。框架採用 Planning、DeepSearch、Report 三智能體協作架構，配合 SFT 冷啓動、Search-RL、Report-RL 與偏好對齊四階段訓練管線，跳過昂貴的 mid-training，訓練 token 減少 71.4%、卡時降低 60%，已實現低成本高性能的深度研究能力，現已部署於理想同學在線產品。

MindDR 1.5的主要功能

智能任務規劃：Planning Agent 自動拆解用戶查詢爲獨立子任務。
深度並行檢索：DeepSearch Agent 執行多輪搜索、驗證與長程推理。
高質量報告生成：Report Agent 整合多源證據，輸出結構化長報告。
記憶共享與追溯：通過 Extended Chain-of-Thought（XoT）與 Tool Memory 實現跨智能體信息流轉與溯源。
多工具環境調用：支持 Web、Database、Browser、Python 等統一工具接口。

MindDR 1.5的技術原理

多智能體協作架構：將深度研究全流程拆分爲 Planning Agent（任務規劃）、DeepSearch Agent（深度搜索）與 Report Agent（報告撰寫）三個分工明確的智能體，通過 Memory 模塊共享 XoT 推理軌跡與工具調用記錄，避免單模型長上下文膨脹與能力耦合干擾。
四階段訓練管線：
- SFT 冷啓動：建立工具調用、格式遵循與多輪推理的基礎行爲。
- Search-RL：基於真實工具環境進行在線強化學習，採用動態調度獎勵（工具調用→格式→PRM→ORM 遞進），優化長鏈路搜索與決策效率。
- Report-RL：以 RACE Rubrics（全面性、洞察力、可讀性、指令遵循）爲核心獎勵，結合引用與格式獎勵，優化長報告生成質量。
偏好對齊：通過 DPO 與 Self-SFT 解決時態一致性、表格格式等細粒度用戶體驗問題，對齊人類偏好。
數據合成：基於百度百科與英文維基百科構建知識圖譜，通過子圖採樣、多跳 QA 生成、條件混淆與質量過濾，合成高質量複雜推理訓練數據；並與真實用戶查詢混合，彌合分佈差距。

MindDR 1.5的關鍵信息和使用要求

開發團隊：理想汽車（Li Auto）信息智能體團隊自主研發並維護。
開源狀態：技術報告與論文已公開（arXiv 2604.14518），模型權重與產品接口暫未開源。
參數規模：採用約 30B 參數的稠密模型與 MoE 模型雙路線，在同規模開源系統中性能領先。
訓練成本：相較 MindDR 1.0，訓練 token 數量減少 71.4%，訓練卡時降低 60%，實現顯著的效率提升。
產品形態：已作爲核心能力部署於理想同學（Livis）在線產品，面向真實用戶場景提供深度研究服務。
評測基準：覆蓋 DeepResearch Bench、MindDR Bench、BrowseComp、xbench-DS、WideSearch 等多個深度搜索與研究報告評測體系。

MindDR 1.5的核心優勢

低成本高性能：用30B 級小模型跳過 mid-training，通過多階段訓練實現業界領先性能，顯著降低訓練與推理成本。
智能體分工明確：三智能體解耦搜索與寫作，避免端到端訓練的獎勵稀疏與能力干擾問題，支持並行子任務執行。
動態遞進獎勵：Search-RL 採用閾值觸發的動態獎勵調度，從基礎工具調用逐步過渡到深層推理優化，模擬”頓悟式”能力躍遷。
真實場景對齊：基於 500 條真實用戶查詢構建 MindDR Bench，評測維度覆蓋內容質量與呈現格式，直接對齊用戶體驗。
高效搜索決策：在同等準確率下，工具調用次數與上下文 token 消耗顯著低於同規模競品，實現準確且高效。

MindDR 1.5的項目地址

HuggingFace模型庫：https://huggingface.co/papers/2604.14518
arXiv技術論文：https://arxiv.org/pdf/2604.14518

MindDR 1.5的同類競品對比

對比維度	MindDR 1.5	Gemini 3.1 Pro	OpenAI Deep Research
開發方	理想汽車	Google	OpenAI
參數規模	~30B	未公開（大模型）	未公開（大模型）
架構設計	三智能體協作（規劃/搜索/報告分離）	單/多智能體（未公開細節）	單智能體端到端
訓練策略	四階段管線（跳過 mid-training）	大規模持續預訓練	端到端強化學習
DeepResearch Bench	52.54	52.17	46.45
BrowseComp-ZH	45.7	—	—
核心特點	小模型+多階段 RL，成本極低	原生多模態，通用性強	閉源產品，體驗成熟
開源程度	論文公開，模型未開源	閉源	閉源