AReaL 2.0 – 螞蟻等開源的Agent在線強化學習基礎架構

0 0 0

AReaL 2.0是什麼

AReaL 2.0是螞蟻聯合香港科技大學、清華大學開源的Agent在線強化學習基礎架構，能讓已部署的Agent從真實交互軌跡中持續自我演進。AReaL 2.0通過軌跡數據協議、企業級數據代理和演進控制平面三根支柱，將生產環境中的會話流轉化爲可訓練經驗，無需重寫Agent或推倒業務系統，已加入PyTorch基金會並支持昇騰NPU適配。

AReaL 2.0的主要功能

在線RL閉環：將Agent真實交互軌跡自動轉化爲可訓練經驗，實現從執行到學習的閉環。
軌跡數據採集：通過ATDP協議以步驟爲單位記錄完整決策過程，包括觀察、動作、結果和元數據。
企業級數據治理：Data Proxy負責攔截、脫敏、權限控制和軌跡持久化，確保訓練前完成合規處理。
演進控制平面：根據軌跡統計、失敗簇、用戶修正率等多維信號，判斷模型更新、記憶寫入或工具調整等修復入口。
微服務化架構：將訓練、推理、權重更新拆分爲Gateway、Router、Data Proxy等可獨立部署的組件。

AReaL 2.0的技術原理

Agent Trajectory Data Protocol (ATDP)：面向學習的智能體軌跡協議，將複雜任務拆分爲可追責、可回放的學習樣本。以步驟爲單位記錄Agent的觀察、內部狀態、動作選擇、動作結果、獎勵反饋以及模型版本、工具版本、租戶、成本等元數據，回答”哪次檢索、哪個工具調用影響了任務成敗”等關鍵問題。
Agentic Data Proxy：部署在模型、工具、檢索系統、人類反饋渠道等關鍵邊界上的學習數據層。負責攔截、採集、脫敏、權限控制、軌跡持久化、獎勵收集和回放管理。數據進入訓練隊列前即完成治理，區分可見字段、訓練資格數據和僅用於調試審計的數據。
Agent Evolution Control Plane：智能體演進控制平面，將”是否更新、更新哪裏”變成可治理的系統性決策。根據軌跡統計、用戶修正率、工具失敗簇、評估器得分、成本信號、安全約束和分佈漂移，判斷演進應落在模型RL、偏好優化、記憶寫入還是工具路由調整層面，並支持回放評估、迴歸測試、灰度發佈和版本化追蹤。
Online RL微服務運行時：將原有RL基礎設施改造爲承接Agent服務流量的在線系統。Gateway作爲入口承接請求；Router維護會話與Data Proxy的綁定關係，保證多輪交互上下文連續；Data Proxy管理會話狀態和軌跡；Agent-Compute Worker執行推理、採樣和訓練計算；Controller負責調度、擴縮容和健康檢查。

AReaL 2.0 – 螞蟻等開源的Agent在線強化學習基礎架構

微信關注回覆“開源”，加入AI開源項目交流羣

如何使用AReaL 2.0

訪問項目主頁：打開GitHub倉庫 https://github.com/areal-project/AReaL 獲取源碼和文檔。
安裝基礎設施：部署AReaL 2.0的Gateway、Router、Data Proxy和Controller等微服務組件。
切換推理入口：將現有Agent的LLM API調用後端（base_url/api_key）指向AReaL 2.0管理的Gateway。
配置軌跡協議：啓用ATDP，以步驟爲單位記錄Agent的觀察、動作、工具調用和結果。
部署數據代理：配置Data Proxy完成數據攔截、脫敏、權限控制和軌跡持久化。
啓動訓練閉環：將採集的真實軌跡導入訓練服務，啓動在線RL，讓Agent從交互中持續學習。

AReaL 2.0的核心優勢

低侵入式接入：只需切換LLM推理後端，無需重寫Agent的規劃、工具調用、沙箱或記憶模塊。
真實軌跡驅動：直接用線上真實交互數據訓練，彌合離線仿真環境與實際行爲之間的差距。
企業級安全治理：數據脫敏、權限控制和合規邊界在訓練前完成，適配多租戶、多業務線場景。
可解釋可回滾：每次演進經過回放評估、迴歸測試和版本化追蹤，出問題可快速退回。
開源生態豐富：已加入PyTorch基金會，社區提供昇騰NPU適配和LoRA低算力方案。

AReaL 2.0的項目地址

項目官網：https://areal-ai.io/en/intro.html
GitHub倉庫：https://github.com/areal-project/AReaL
arXiv技術論文：https://arxiv.org/pdf/2607.01120

AReaL 2.0的同類競品對比

對比維度	AReaL 2.0	OpenRLHF
產品定位	Agent在線RL基礎設施，面向服務側持續演進	通用LLM RLHF訓練框架，面向模型後訓練
數據來源	真實部署環境中的在線會話軌跡	離線構建的偏好數據集和仿真環境
接入方式	微服務化，低侵入切換推理後端即可接入	需重構訓練流程，適配特定模型結構
數據治理	內置企業級Data Proxy，訓練前完成脫敏與權限控制	需額外搭建數據清洗和治理流程
架構設計	Gateway-Router-Worker微服務解耦，支持會話保持和橫向擴展	集中式訓練架構，側重分佈式計算效率
適用場景	已上線的Agent從真實交互中持續自我改進	新模型的RLHF後訓練與對齊優化

AReaL 2.0的應用場景

軟件工程智能體：訓練Coding Agent從真實issue修復、代碼審查和PR生成中持續改進策略，如Claude Code類Agent的端到端RL訓練。
企業客服助手：從用戶對話、滿意度反饋和人工修正中優化回覆策略、工具調用路徑和知識檢索準確性。
科研實驗助理：記錄文獻檢索、實驗設計、數據分析的完整軌跡，優化多工具編排和跨平台操作能力。
複雜任務調度Agent：在多輪交互、多工具調用的工作流中，持續改進工具選擇、路由策略和錯誤恢復機制。
多租戶SaaS智能體：爲不同業務線、不同權限邊界的Agent提供隔離的軌跡採集和定製化在線學習服務。