Polar – 英偉達開源的智能體強化學習訓練框架

0 0 0

Polar是什麼

Polar 是英偉達推出的開源智能體強化學習（Agentic RL）訓練框架，核心創新在於無需修改現有智能體框架內部代碼，可將其接入 GRPO 等 RL 算法進行訓練。框架通過在 LLM API 調用邊界放置代理，捕獲 token 級交互數據並重建訓練軌跡，使 Codex CLI、Claude Code、Qwen Code、Pi 等複雜代碼智能體 harness 直接變爲可訓練的 RL 環境。

Polar的主要功能

API 代理捕獲：在智能體與推理服務器之間插入兼容 Anthropic、OpenAI、Google 風格的 API 代理，透明轉發請求並記錄 prompts、sampled tokens、log probabilities 和 responses。
軌跡重建：提供 per-request（逐請求）和 prefix merging（前綴合並）兩種策略，將多輪模型調用重建爲訓練器可直接消費的 RL 軌跡。
異步服務架構：Rollout Server 負責任務調度與負載均衡，Gateway Nodes 負責運行時預熱、智能體執行、軌跡構建和評估，解耦訓練與執行。
多 Harness 兼容：內置 Claude Code、Codex、Qwen Code、OpenCode、Pi、Gemini CLI 等主流代碼智能體的快捷適配。
容器化運行時：支持 Docker 和 rootless Apptainer，提供隔離執行環境。

Polar的技術原理

黑盒代理範式：Polar 不將智能體 harness 改寫爲 env.init()/env.step() 接口，而是將 LLM API 流量作爲 rollout 邊界，保持 harness 原生執行邏輯不變。
Token 保真軌跡重建：直接從推理後端獲取 token IDs 和 log probabilities，避免 retokenization drift（重編碼漂移），確保訓練信號與行爲策略嚴格對齊。
Prefix Merging 算法：檢測多輪對話中 prompt 的 token-prefix 關係，將 append-only 的對話鏈合併爲更長的訓練軌跡，減少 trainer 更新次數。
異步分階段執行：Gateway 內部分離 INIT（運行時啓動）、RUN（harness 執行）、POSTRUN（軌跡構建與評估）三個獨立工作池，配合 READY 緩衝區實現運行時預熱與 GPU 訓練並行。
權重同步機制：Trainer 與 Inference Server 之間異步同步模型權重，rollout 在舊策略上持續採樣，trainer 在收到足夠軌跡後執行策略更新。

如何使用Polar

部署 Polar 服務：啓動 Rollout Server 和 Gateway Nodes，配置 Inference Server（如 SGLang）。
配置 Harness：將目標智能體（如 Codex CLI）的模型 base URL 指向 Polar Gateway 代理端點。
編寫適配器：創建 harness adapter（通常只需配置環境變量、provider 設置和啓動命令）。
提交訓練任務：通過 Polar API 提交 TaskRequest，指定 harness、運行時、評估器和軌跡構建策略。
接入 Trainer：訓練框架（如 Slime、Megatron）通過回調接收 Polar 返回的軌跡數據，執行 GRPO 等 RL 算法更新。

Polar的核心優勢

零侵入集成：無需修改現有智能體框架源碼，降低接入 RL 訓練的技術門檻。
Harness 無關性：兼容任意基於 LLM API 的智能體，包括閉源二進制程序。
高效資源利用：異步架構使 CPU 密集型運行時準備不阻塞 GPU 訓練，prefix merging 將訓練時間縮短約 5.39 倍。
Token 級保真：直接從推理後端捕獲原始 token，避免文本重編碼帶來的訓練信號失真。
彈性擴展：Rollout-as-a-service 設計支持大規模分佈式異步 RL 訓練。

Polar的項目地址

GitHub倉庫：https://github.com/NVIDIA-NeMo/ProRL-Agent-Server
arXiv技術論文：https://arxiv.org/pdf/2605.24220

Polar的同類競品對比

維度	Polar（英偉達）	SkyRL-Agent	Agent Lightning
核心定位	Rollout-as-a-Service 基礎設施	全棧多輪 Agent RL 訓練與評估系統	訓練-智能體解耦架構 + 統一數據接口
集成侵入性	零侵入：API 代理攔截，無需改 harness 源碼	需重寫：需將 agent 適配到 Gymnasium 風格接口	低侵入：需接入標準追蹤接口或 SDK 回調
Harness 兼容性	任意黑盒 harness（含閉源二進制）	僅限框架內實現的 agent	需符合預設接口的 agent
Rollout 邊界	LLM API 流量邊界	Agent 執行邏輯內部	Agent 執行追蹤層
異步架構	原生異步服務邊界（Server + Gateway Nodes）	支持異步，但 agent 與訓練緊耦合	有限異步支持
軌跡重建	Token 保真 + Prefix Merging（減少 trainer 更新）	框架內直接生成軌跡	統一數據接口轉換
運行時隔離	Docker / Apptainer	支持容器化	未明確
訓練算法耦合	與算法無關（GRPO / PPO 等均可接入）	內置算法優化	與算法無關
代表場景	Codex、Claude Code、Qwen Code 等現成 harness 的 RL 訓練	長流程多輪工具使用 agent 訓練	跨框架 agent 訓練數據收集

Polar的應用場景

代碼智能體強化學習：對 Codex、Claude Code 等編程助手進行 RL 微調，提升 SWE-Bench 等軟件工程 benchmark 表現。
多輪工具使用 Agent 訓練：訓練需要持續調用外部工具（瀏覽器、數據庫、API）的長流程智能體。
離線 SFT 數據生成：利用 Polar 在自定義 harness 上批量生成高質量訓練數據，用於監督微調。
多智能體協作優化：對包含子智能體編排和上下文壓縮的複雜多 Agent 系統進行端到端 RL 訓練。
閉源 Agent 評估與改進：對無法獲取源碼的閉源智能體產品進行黑盒 RL 訓練和能力提升。