AReaL 2.0是什麼
AReaL 2.0是螞蟻聯合香港科技大學、清華大學開源的Agent在線強化學習基礎架構,能讓已部署的Agent從真實交互軌跡中持續自我演進。AReaL 2.0通過軌跡數據協議、企業級數據代理和演進控制平面三根支柱,將生產環境中的會話流轉化爲可訓練經驗,無需重寫Agent或推倒業務系統,已加入PyTorch基金會並支持昇騰NPU適配。

AReaL 2.0的主要功能
- 在線RL閉環:將Agent真實交互軌跡自動轉化爲可訓練經驗,實現從執行到學習的閉環。
- 軌跡數據採集:通過ATDP協議以步驟爲單位記錄完整決策過程,包括觀察、動作、結果和元數據。
- 企業級數據治理:Data Proxy負責攔截、脫敏、權限控制和軌跡持久化,確保訓練前完成合規處理。
- 演進控制平面:根據軌跡統計、失敗簇、用戶修正率等多維信號,判斷模型更新、記憶寫入或工具調整等修復入口。
- 微服務化架構:將訓練、推理、權重更新拆分爲Gateway、Router、Data Proxy等可獨立部署的組件。
AReaL 2.0的技術原理
- Agent Trajectory Data Protocol (ATDP):面向學習的智能體軌跡協議,將複雜任務拆分爲可追責、可回放的學習樣本。以步驟爲單位記錄Agent的觀察、內部狀態、動作選擇、動作結果、獎勵反饋以及模型版本、工具版本、租戶、成本等元數據,回答”哪次檢索、哪個工具調用影響了任務成敗”等關鍵問題。
- Agentic Data Proxy:部署在模型、工具、檢索系統、人類反饋渠道等關鍵邊界上的學習數據層。負責攔截、採集、脫敏、權限控制、軌跡持久化、獎勵收集和回放管理。數據進入訓練隊列前即完成治理,區分可見字段、訓練資格數據和僅用於調試審計的數據。
- Agent Evolution Control Plane:智能體演進控制平面,將”是否更新、更新哪裏”變成可治理的系統性決策。根據軌跡統計、用戶修正率、工具失敗簇、評估器得分、成本信號、安全約束和分佈漂移,判斷演進應落在模型RL、偏好優化、記憶寫入還是工具路由調整層面,並支持回放評估、迴歸測試、灰度發佈和版本化追蹤。
- Online RL微服務運行時:將原有RL基礎設施改造爲承接Agent服務流量的在線系統。Gateway作爲入口承接請求;Router維護會話與Data Proxy的綁定關係,保證多輪交互上下文連續;Data Proxy管理會話狀態和軌跡;Agent-Compute Worker執行推理、採樣和訓練計算;Controller負責調度、擴縮容和健康檢查。

微信關注回覆“開源”,加入AI開源項目交流羣
如何使用AReaL 2.0
-
訪問項目主頁:打開GitHub倉庫 https://github.com/areal-project/AReaL 獲取源碼和文檔。
-
安裝基礎設施:部署AReaL 2.0的Gateway、Router、Data Proxy和Controller等微服務組件。
-
切換推理入口:將現有Agent的LLM API調用後端(base_url/api_key)指向AReaL 2.0管理的Gateway。
-
配置軌跡協議:啓用ATDP,以步驟爲單位記錄Agent的觀察、動作、工具調用和結果。
-
部署數據代理:配置Data Proxy完成數據攔截、脫敏、權限控制和軌跡持久化。
-
啓動訓練閉環:將採集的真實軌跡導入訓練服務,啓動在線RL,讓Agent從交互中持續學習。
AReaL 2.0的核心優勢
-
低侵入式接入:只需切換LLM推理後端,無需重寫Agent的規劃、工具調用、沙箱或記憶模塊。
-
真實軌跡驅動:直接用線上真實交互數據訓練,彌合離線仿真環境與實際行爲之間的差距。
-
企業級安全治理:數據脫敏、權限控制和合規邊界在訓練前完成,適配多租戶、多業務線場景。
-
可解釋可回滾:每次演進經過回放評估、迴歸測試和版本化追蹤,出問題可快速退回。
-
開源生態豐富:已加入PyTorch基金會,社區提供昇騰NPU適配和LoRA低算力方案。
AReaL 2.0的項目地址
- 項目官網:https://areal-ai.io/en/intro.html
- GitHub倉庫:https://github.com/areal-project/AReaL
- arXiv技術論文:https://arxiv.org/pdf/2607.01120
AReaL 2.0的同類競品對比
| 對比維度 | AReaL 2.0 | OpenRLHF |
|---|---|---|
| 產品定位 | Agent在線RL基礎設施,面向服務側持續演進 | 通用LLM RLHF訓練框架,面向模型後訓練 |
| 數據來源 | 真實部署環境中的在線會話軌跡 | 離線構建的偏好數據集和仿真環境 |
| 接入方式 | 微服務化,低侵入切換推理後端即可接入 | 需重構訓練流程,適配特定模型結構 |
| 數據治理 | 內置企業級Data Proxy,訓練前完成脫敏與權限控制 | 需額外搭建數據清洗和治理流程 |
| 架構設計 | Gateway-Router-Worker微服務解耦,支持會話保持和橫向擴展 | 集中式訓練架構,側重分佈式計算效率 |
| 適用場景 | 已上線的Agent從真實交互中持續自我改進 | 新模型的RLHF後訓練與對齊優化 |
AReaL 2.0的應用場景
-
軟件工程智能體:訓練Coding Agent從真實issue修復、代碼審查和PR生成中持續改進策略,如Claude Code類Agent的端到端RL訓練。
-
企業客服助手:從用戶對話、滿意度反饋和人工修正中優化回覆策略、工具調用路徑和知識檢索準確性。
-
科研實驗助理:記錄文獻檢索、實驗設計、數據分析的完整軌跡,優化多工具編排和跨平台操作能力。
-
複雜任務調度Agent:在多輪交互、多工具調用的工作流中,持續改進工具選擇、路由策略和錯誤恢復機制。
-
多租戶SaaS智能體:爲不同業務線、不同權限邊界的Agent提供隔離的軌跡採集和定製化在線學習服務。
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...