MindDR 1.5 – 理想汽車推出的多智能體深度研究框架

AI工具1周前發佈新公告 AI管理員
0 0

MindDR 1.5是什麼

MindDR 1.5 是理想汽車信息智能體團隊推出的多智能體深度研究框架,用僅約 30B 參數規模在 DeepResearch Bench 取得 52.54 分,達到業界領先水平。框架採用 Planning、DeepSearch、Report 三智能體協作架構,配合 SFT 冷啓動、Search-RL、Report-RL 與偏好對齊四階段訓練管線,跳過昂貴的 mid-training,訓練 token 減少 71.4%、卡時降低 60%,已實現低成本高性能的深度研究能力,現已部署於理想同學在線產品。

MindDR 1.5 – 理想汽車推出的多智能體深度研究框架

MindDR 1.5的主要功能

  • 智能任務規劃:Planning Agent 自動拆解用戶查詢爲獨立子任務。
  • 深度並行檢索:DeepSearch Agent 執行多輪搜索、驗證與長程推理。
  • 高質量報告生成:Report Agent 整合多源證據,輸出結構化長報告。
  • 記憶共享與追溯:通過 Extended Chain-of-Thought(XoT)與 Tool Memory 實現跨智能體信息流轉與溯源。
  • 多工具環境調用:支持 Web、Database、Browser、Python 等統一工具接口。

MindDR 1.5的技術原理

  • 多智能體協作架構:將深度研究全流程拆分爲 Planning Agent(任務規劃)、DeepSearch Agent(深度搜索)與 Report Agent(報告撰寫)三個分工明確的智能體,通過 Memory 模塊共享 XoT 推理軌跡與工具調用記錄,避免單模型長上下文膨脹與能力耦合干擾。
  • 四階段訓練管線
    • SFT 冷啓動:建立工具調用、格式遵循與多輪推理的基礎行爲。
    • Search-RL:基於真實工具環境進行在線強化學習,採用動態調度獎勵(工具調用→格式→PRM→ORM 遞進),優化長鏈路搜索與決策效率。
    • Report-RL:以 RACE Rubrics(全面性、洞察力、可讀性、指令遵循)爲核心獎勵,結合引用與格式獎勵,優化長報告生成質量。
  • 偏好對齊:通過 DPO 與 Self-SFT 解決時態一致性、表格格式等細粒度用戶體驗問題,對齊人類偏好。
  • 數據合成:基於百度百科與英文維基百科構建知識圖譜,通過子圖採樣、多跳 QA 生成、條件混淆與質量過濾,合成高質量複雜推理訓練數據;並與真實用戶查詢混合,彌合分佈差距。

MindDR 1.5的關鍵信息和使用要求

  • 開發團隊:理想汽車(Li Auto)信息智能體團隊自主研發並維護。
  • 開源狀態:技術報告與論文已公開(arXiv 2604.14518),模型權重與產品接口暫未開源。
  • 參數規模:採用約 30B 參數的稠密模型與 MoE 模型雙路線,在同規模開源系統中性能領先。
  • 訓練成本:相較 MindDR 1.0,訓練 token 數量減少 71.4%,訓練卡時降低 60%,實現顯著的效率提升。
  • 產品形態:已作爲核心能力部署於理想同學(Livis)在線產品,面向真實用戶場景提供深度研究服務。
  • 評測基準:覆蓋 DeepResearch Bench、MindDR Bench、BrowseComp、xbench-DS、WideSearch 等多個深度搜索與研究報告評測體系。

MindDR 1.5的核心優勢

  • 低成本高性能:用30B 級小模型跳過 mid-training,通過多階段訓練實現業界領先性能,顯著降低訓練與推理成本。
  • 智能體分工明確:三智能體解耦搜索與寫作,避免端到端訓練的獎勵稀疏與能力干擾問題,支持並行子任務執行。
  • 動態遞進獎勵:Search-RL 採用閾值觸發的動態獎勵調度,從基礎工具調用逐步過渡到深層推理優化,模擬”頓悟式”能力躍遷。
  • 真實場景對齊:基於 500 條真實用戶查詢構建 MindDR Bench,評測維度覆蓋內容質量與呈現格式,直接對齊用戶體驗。
  • 高效搜索決策:在同等準確率下,工具調用次數與上下文 token 消耗顯著低於同規模競品,實現準確且高效。

MindDR 1.5的項目地址

  • HuggingFace模型庫:https://huggingface.co/papers/2604.14518
  • arXiv技術論文:https://arxiv.org/pdf/2604.14518

MindDR 1.5的同類競品對比

對比維度 MindDR 1.5 Gemini 3.1 Pro OpenAI Deep Research
開發方 理想汽車 Google OpenAI
參數規模 ~30B 未公開(大模型) 未公開(大模型)
架構設計 三智能體協作(規劃/搜索/報告分離) 單/多智能體(未公開細節) 單智能體端到端
訓練策略 四階段管線(跳過 mid-training) 大規模持續預訓練 端到端強化學習
DeepResearch Bench 52.54 52.17 46.45
BrowseComp-ZH 45.7
核心特點 小模型+多階段 RL,成本極低 原生多模態,通用性強 閉源產品,體驗成熟
開源程度 論文公開,模型未開源 閉源 閉源

MindDR 1.5的應用場景

  • 汽車行業深度調研:分析市場競爭格局、價格戰策略、技術路線等複雜商業問題。
  • 學術科研輔助:自動檢索文獻、整合多源證據並生成引用規範的研究綜述。
  • 金融投資研究:對上市公司、行業趨勢進行多輪信息驗證與結構化報告輸出。
  • 產品決策支持:基於海量公開數據與用戶行爲日誌,生成可落地的商業分析報告。
  • 智能座艙問答:作爲理想同學的核心能力,爲車主提供高可信度的深度知識問答。
© 版權聲明

相關文章

暫無評論

暫無評論...