MindDR 1.5是什麼
MindDR 1.5 是理想汽車信息智能體團隊推出的多智能體深度研究框架,用僅約 30B 參數規模在 DeepResearch Bench 取得 52.54 分,達到業界領先水平。框架採用 Planning、DeepSearch、Report 三智能體協作架構,配合 SFT 冷啓動、Search-RL、Report-RL 與偏好對齊四階段訓練管線,跳過昂貴的 mid-training,訓練 token 減少 71.4%、卡時降低 60%,已實現低成本高性能的深度研究能力,現已部署於理想同學在線產品。

MindDR 1.5的主要功能
-
智能任務規劃:Planning Agent 自動拆解用戶查詢爲獨立子任務。
-
深度並行檢索:DeepSearch Agent 執行多輪搜索、驗證與長程推理。
-
高質量報告生成:Report Agent 整合多源證據,輸出結構化長報告。
-
記憶共享與追溯:通過 Extended Chain-of-Thought(XoT)與 Tool Memory 實現跨智能體信息流轉與溯源。
-
多工具環境調用:支持 Web、Database、Browser、Python 等統一工具接口。
MindDR 1.5的技術原理
- 多智能體協作架構:將深度研究全流程拆分爲 Planning Agent(任務規劃)、DeepSearch Agent(深度搜索)與 Report Agent(報告撰寫)三個分工明確的智能體,通過 Memory 模塊共享 XoT 推理軌跡與工具調用記錄,避免單模型長上下文膨脹與能力耦合干擾。
- 四階段訓練管線:
- SFT 冷啓動:建立工具調用、格式遵循與多輪推理的基礎行爲。
- Search-RL:基於真實工具環境進行在線強化學習,採用動態調度獎勵(工具調用→格式→PRM→ORM 遞進),優化長鏈路搜索與決策效率。
- Report-RL:以 RACE Rubrics(全面性、洞察力、可讀性、指令遵循)爲核心獎勵,結合引用與格式獎勵,優化長報告生成質量。
- 偏好對齊:通過 DPO 與 Self-SFT 解決時態一致性、表格格式等細粒度用戶體驗問題,對齊人類偏好。
- 數據合成:基於百度百科與英文維基百科構建知識圖譜,通過子圖採樣、多跳 QA 生成、條件混淆與質量過濾,合成高質量複雜推理訓練數據;並與真實用戶查詢混合,彌合分佈差距。
MindDR 1.5的關鍵信息和使用要求
- 開發團隊:理想汽車(Li Auto)信息智能體團隊自主研發並維護。
- 開源狀態:技術報告與論文已公開(arXiv 2604.14518),模型權重與產品接口暫未開源。
- 參數規模:採用約 30B 參數的稠密模型與 MoE 模型雙路線,在同規模開源系統中性能領先。
- 訓練成本:相較 MindDR 1.0,訓練 token 數量減少 71.4%,訓練卡時降低 60%,實現顯著的效率提升。
- 產品形態:已作爲核心能力部署於理想同學(Livis)在線產品,面向真實用戶場景提供深度研究服務。
- 評測基準:覆蓋 DeepResearch Bench、MindDR Bench、BrowseComp、xbench-DS、WideSearch 等多個深度搜索與研究報告評測體系。
MindDR 1.5的核心優勢
- 低成本高性能:用30B 級小模型跳過 mid-training,通過多階段訓練實現業界領先性能,顯著降低訓練與推理成本。
- 智能體分工明確:三智能體解耦搜索與寫作,避免端到端訓練的獎勵稀疏與能力干擾問題,支持並行子任務執行。
- 動態遞進獎勵:Search-RL 採用閾值觸發的動態獎勵調度,從基礎工具調用逐步過渡到深層推理優化,模擬”頓悟式”能力躍遷。
- 真實場景對齊:基於 500 條真實用戶查詢構建 MindDR Bench,評測維度覆蓋內容質量與呈現格式,直接對齊用戶體驗。
- 高效搜索決策:在同等準確率下,工具調用次數與上下文 token 消耗顯著低於同規模競品,實現準確且高效。
MindDR 1.5的項目地址
- HuggingFace模型庫:https://huggingface.co/papers/2604.14518
- arXiv技術論文:https://arxiv.org/pdf/2604.14518
MindDR 1.5的同類競品對比
| 對比維度 | MindDR 1.5 | Gemini 3.1 Pro | OpenAI Deep Research |
|---|---|---|---|
| 開發方 | 理想汽車 | OpenAI | |
| 參數規模 | ~30B | 未公開(大模型) | 未公開(大模型) |
| 架構設計 | 三智能體協作(規劃/搜索/報告分離) | 單/多智能體(未公開細節) | 單智能體端到端 |
| 訓練策略 | 四階段管線(跳過 mid-training) | 大規模持續預訓練 | 端到端強化學習 |
| DeepResearch Bench | 52.54 | 52.17 | 46.45 |
| BrowseComp-ZH | 45.7 | — | — |
| 核心特點 | 小模型+多階段 RL,成本極低 | 原生多模態,通用性強 | 閉源產品,體驗成熟 |
| 開源程度 | 論文公開,模型未開源 | 閉源 | 閉源 |
MindDR 1.5的應用場景
-
汽車行業深度調研:分析市場競爭格局、價格戰策略、技術路線等複雜商業問題。
-
學術科研輔助:自動檢索文獻、整合多源證據並生成引用規範的研究綜述。
-
金融投資研究:對上市公司、行業趨勢進行多輪信息驗證與結構化報告輸出。
-
產品決策支持:基於海量公開數據與用戶行爲日誌,生成可落地的商業分析報告。
-
智能座艙問答:作爲理想同學的核心能力,爲車主提供高可信度的深度知識問答。
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...