Polar – 英偉達開源的智能體強化學習訓練框架

AI工具2天前發佈新公告 AI管理員
0 0

Polar是什麼

Polar 是英偉達推出的開源智能體強化學習(Agentic RL)訓練框架,核心創新在於無需修改現有智能體框架內部代碼,可將其接入 GRPO 等 RL 算法進行訓練。框架通過在 LLM API 調用邊界放置代理,捕獲 token 級交互數據並重建訓練軌跡,使 Codex CLI、Claude Code、Qwen Code、Pi 等複雜代碼智能體 harness 直接變爲可訓練的 RL 環境。

Polar – 英偉達開源的智能體強化學習訓練框架

Polar的主要功能

  • API 代理捕獲:在智能體與推理服務器之間插入兼容 Anthropic、OpenAI、Google 風格的 API 代理,透明轉發請求並記錄 prompts、sampled tokens、log probabilities 和 responses。
  • 軌跡重建:提供 per-request(逐請求)和 prefix merging(前綴合並)兩種策略,將多輪模型調用重建爲訓練器可直接消費的 RL 軌跡。
  • 異步服務架構:Rollout Server 負責任務調度與負載均衡,Gateway Nodes 負責運行時預熱、智能體執行、軌跡構建和評估,解耦訓練與執行。
  • 多 Harness 兼容:內置 Claude Code、Codex、Qwen Code、OpenCode、Pi、Gemini CLI 等主流代碼智能體的快捷適配。
  • 容器化運行時:支持 Docker 和 rootless Apptainer,提供隔離執行環境。

Polar的技術原理

  • 黑盒代理範式:Polar 不將智能體 harness 改寫爲 env.init()/env.step() 接口,而是將 LLM API 流量作爲 rollout 邊界,保持 harness 原生執行邏輯不變。
  • Token 保真軌跡重建:直接從推理後端獲取 token IDs 和 log probabilities,避免 retokenization drift(重編碼漂移),確保訓練信號與行爲策略嚴格對齊。
  • Prefix Merging 算法:檢測多輪對話中 prompt 的 token-prefix 關係,將 append-only 的對話鏈合併爲更長的訓練軌跡,減少 trainer 更新次數。
  • 異步分階段執行:Gateway 內部分離 INIT(運行時啓動)、RUN(harness 執行)、POSTRUN(軌跡構建與評估)三個獨立工作池,配合 READY 緩衝區實現運行時預熱與 GPU 訓練並行。
  • 權重同步機制:Trainer 與 Inference Server 之間異步同步模型權重,rollout 在舊策略上持續採樣,trainer 在收到足夠軌跡後執行策略更新。

如何使用Polar

  • 部署 Polar 服務:啓動 Rollout Server 和 Gateway Nodes,配置 Inference Server(如 SGLang)。
  • 配置 Harness:將目標智能體(如 Codex CLI)的模型 base URL 指向 Polar Gateway 代理端點。
  • 編寫適配器:創建 harness adapter(通常只需配置環境變量、provider 設置和啓動命令)。
  • 提交訓練任務:通過 Polar API 提交 TaskRequest,指定 harness、運行時、評估器和軌跡構建策略。
  • 接入 Trainer:訓練框架(如 Slime、Megatron)通過回調接收 Polar 返回的軌跡數據,執行 GRPO 等 RL 算法更新。

Polar的核心優勢

  • 零侵入集成:無需修改現有智能體框架源碼,降低接入 RL 訓練的技術門檻。
  • Harness 無關性:兼容任意基於 LLM API 的智能體,包括閉源二進制程序。
  • 高效資源利用:異步架構使 CPU 密集型運行時準備不阻塞 GPU 訓練,prefix merging 將訓練時間縮短約 5.39 倍。
  • Token 級保真:直接從推理後端捕獲原始 token,避免文本重編碼帶來的訓練信號失真。
  • 彈性擴展:Rollout-as-a-service 設計支持大規模分佈式異步 RL 訓練。

Polar的項目地址

  • GitHub倉庫:https://github.com/NVIDIA-NeMo/ProRL-Agent-Server
  • arXiv技術論文:https://arxiv.org/pdf/2605.24220

Polar的同類競品對比

維度 Polar(英偉達) SkyRL-Agent Agent Lightning
核心定位 Rollout-as-a-Service 基礎設施 全棧多輪 Agent RL 訓練與評估系統 訓練-智能體解耦架構 + 統一數據接口
集成侵入性 零侵入:API 代理攔截,無需改 harness 源碼 需重寫:需將 agent 適配到 Gymnasium 風格接口 低侵入:需接入標準追蹤接口或 SDK 回調
Harness 兼容性 任意黑盒 harness(含閉源二進制) 僅限框架內實現的 agent 需符合預設接口的 agent
Rollout 邊界 LLM API 流量邊界 Agent 執行邏輯內部 Agent 執行追蹤層
異步架構 原生異步服務邊界(Server + Gateway Nodes) 支持異步,但 agent 與訓練緊耦合 有限異步支持
軌跡重建 Token 保真 + Prefix Merging(減少 trainer 更新) 框架內直接生成軌跡 統一數據接口轉換
運行時隔離 Docker / Apptainer 支持容器化 未明確
訓練算法耦合 與算法無關(GRPO / PPO 等均可接入) 內置算法優化 與算法無關
代表場景 Codex、Claude Code、Qwen Code 等現成 harness 的 RL 訓練 長流程多輪工具使用 agent 訓練 跨框架 agent 訓練數據收集

Polar的應用場景

  • 代碼智能體強化學習:對 Codex、Claude Code 等編程助手進行 RL 微調,提升 SWE-Bench 等軟件工程 benchmark 表現。
  • 多輪工具使用 Agent 訓練:訓練需要持續調用外部工具(瀏覽器、數據庫、API)的長流程智能體。
  • 離線 SFT 數據生成:利用 Polar 在自定義 harness 上批量生成高質量訓練數據,用於監督微調。
  • 多智能體協作優化:對包含子智能體編排和上下文壓縮的複雜多 Agent 系統進行端到端 RL 訓練。
  • 閉源 Agent 評估與改進:對無法獲取源碼的閉源智能體產品進行黑盒 RL 訓練和能力提升。
© 版權聲明

相關文章

暫無評論

暫無評論...