Relax是什麼
Relax 是小紅書AI平台團隊開源的面向全模態與 Agentic 場景設計的大模型強化學習訓練引擎。基於 Megatron-LM 與 SGLang 構建,採用服務化容錯架構(Ray Serve)與 TransferQueue 異步數據總線,實現 Rollout、Actor、Critic 角色完全解耦。Relax支持文本、圖像、音頻、視頻統一訓練,在 Qwen3-Omni-30B 上驗證四種模態 RL 穩定收斂。16×H800 全異步模式較 Colocate 提速 76%,較 veRL 提速 20%,具備分鐘級故障恢復、彈性擴縮容及 R3 MoE 支持能力,已應用於 Qwen3 系列後訓練。

Relax的主要功能
-
全模態RL訓練:統一支持文本、圖像、音頻、視頻的端到端強化學習後訓練,已驗證Qwen3-Omni系列穩定收斂。
-
異步訓練架構:基於TransferQueue數據總線實現Rollout、Actor、Critic角色完全異步並行,消除GPU空轉等待。
-
服務化容錯:每個RL角色作爲獨立Ray Serve部署,具備故障隔離與分鐘級自動恢復能力,支持訓練不中斷。
-
彈性擴縮容:通過HTTP REST API動態增減Rollout推理引擎,支持同集羣與跨集羣聯邦推理資源調度。
-
分佈式權重同步:DCS服務實現NCCL/TCP雙通道低延遲權重廣播,故障恢復無需回退磁盤Checkpoint。
-
Agentic多輪訓練:原生支持多輪交互、工具調用、視覺上下文carry-over與Loss Masking,適配”執行→觀察→決策”閉環。
-
算法套件支持:內置GRPO、GSPO、SAPO及On-Policy Distillation算法,提供規則獎勵與GenRM生成式評估。
Relax的技術原理
- 服務化異步架構:將Actor、Critic、Rollout等角色封裝爲獨立Ray Serve服務,通過TransferQueue進行流式微批傳輸,實現計算資源解耦與流水線並行,消除傳統Colocate模式的串行等待瓶頸。
- 全模態數據流水線:內建Omni Processor統一處理圖文音視頻數據,支持模態感知並行與端到端異步流水,通過Field-Level存儲機制允許同一樣本的不同字段獨立讀寫,適配RL多階段計算特性。
- 容錯與彈性機制:採用兩級恢復策略(無狀態角色原地重啓、有狀態角色全局恢復),配合DCS分佈式Checkpoint服務實現GPU-GPU直接權重同步,避免磁盤IO開銷,支持NCCL/TCP雙通道適配跨集羣拓撲。
- 異步一致性控制:通過max_staleness參數靈活控制On/Off-Policy模式,StreamingDataLoader支持增量消費,DCS異步權重廣播與訓練計算重疊,在吞吐與策略新鮮度間取得平衡。
如何使用Relax
- 環境部署:拉取官方 Docker 鏡像(預裝 CUDA、PyTorch、Megatron-LM、SGLang、Ray):
docker pull relaxrl/relax:latest,啓動容器時掛載 GPU 與工作目錄。 - 數據與模型準備:用
hf download下載數據集(如 dapo-math-17k、multimodal-open-r1-8k-verified)與基礎模型(Qwen3-4B、Qwen3-VL-4B、Qwen3-Omni-30B-A3B)至本地目錄。 - 啓動訓練:設置
EXP_DIR環境變量指向數據根目錄,執行對應模態的 bash 腳本:-
文本任務(8卡):
bash scripts/training/text/run-qwen3-4B-8xgpu.sh -
視覺語言任務(8卡):
bash scripts/training/multimodal/run-qwen3-vl-4B-8xgpu.sh -
全模態任務(16卡/雙機):
bash scripts/entrypoint/spmd-multinode.sh scripts/training/multimodal/run-qwen3-30B-A3B-omni-16xgpu.sh
-
- 模型導出:訓練完成後用
scripts/tools/convert_torch_dist_to_hf_bridge.py將 Megatron DCP 格式權重轉換爲 HuggingFace 格式。
Relax的關鍵信息和使用要求
- 開源主體:小紅書AI平台團隊(RedAI Infra)於2026年4月15日正式開源。
- 產品定位:面向全模態與Agentic場景的高性能異步強化學習後訓練引擎。
- 技術底座:基於Megatron-LM訓練框架與SGLang推理引擎構建,採用Ray Serve服務化架構。
- 核心架構:六層服務化設計(Entrypoints→Orchestration→Components→Engine→Backends→Distributed),通過TransferQueue實現異步數據總線,DCS實現分佈式權重同步。
- 性能指標:16×H800全異步模式較Colocate基線端到端提速76%,較veRL提速20%,MoE模型R3開銷僅1.9%(veRL爲32%)。
- 模態支持:原生支持文本、圖像、音頻、視頻統一訓練,已驗證Qwen3-Omni-30B四模態穩定收斂2000+步。
- 算法覆蓋:內置GRPO、GSPO、SAPO、On-Policy Distillation,支持規則獎勵與GenRM生成式評估。
- 硬件配置:單節點至少8×H800(4B模型),全模態Omni訓練需16×H800跨2節點,支持彈性擴縮容動態調整Rollout資源。
Relax的核心優勢
-
全模態原生支持:內建圖文音視頻統一處理流水線,是少數支持 Qwen3-Omni 端到端後訓練的開源框架,驗證 2000+ 步穩定收斂。
-
極致異步性能:TransferQueue 實現 Rollout/Actor/Critic 完全解耦,16×H800 全異步模式較 Colocate 提速 76%,較 veRL 提速 20%。
-
服務化容錯架構:基於 Ray Serve 的獨立故障域設計,支持分鐘級自動恢復與彈性擴縮容,DCS 實現秒級權重同步無需回退磁盤。
-
Agentic 原生設計:內置多輪交互、工具調用、視覺上下文 Carry-over 與 Loss Masking,適配”執行→觀察→決策”閉環訓練。
-
MoE 高效支持:R3(Rollout Routing Replay)開銷僅 1.9%,相比 veRL 的 34% 性能損耗實現近零開銷 replay。
-
生產級運維:HealthManager 自動監控、Metrics 多平台對接(WandB/TensorBoard)、Apprise 實時告警,支持 HTTP API 動態擴縮容。
Relax的項目地址
- GitHub倉庫:https://github.com/redai-infra/Relax
- arXiv技術論文:https://arxiv.org/pdf/2604.11554
Relax的同類競品對比
| 對比維度 | Relax | veRL | OpenRLHF |
|---|---|---|---|
| 開發團隊 | 小紅書 RedAI Infra 團隊 | 字節跳動/清華大學/南京大學等聯合團隊 | 開源社區 (OpenRLHF Labs) |
| 架構設計 | 服務化六層架構,Ray Serve 獨立部署,TransferQueue 異步數據總線 | HybridFlow 混合編程,3D-HybridEngine 顯存原地複用,生成與訓練默認耦合 | Ray Placement Groups 調度,支持 Colocate/異步模式切換,架構相對傳統 |
| 異步機制 | 完全異步解耦,Rollout/Actor/Critic 獨立 GPU 集羣,流式微批調度 | 支持分離與 Colocate,但缺乏細粒度流水線調度,Rollout 與 Train 存在同步點 | 支持 Colocate 與異步切換,但角色間耦合度高於 Relax |
| 模態支持 | 全模態原生(文本/圖像/音頻/視頻),驗證 Qwen3-Omni 端到端訓練 | 主要爲文本,多模態支持尚不完善 | 文本爲主,OpenRLHF-M 分支支持多模態 |
| 訓練後端 | Megatron-LM (TP/PP/CP/EP) | Megatron-LM / FSDP | DeepSpeed |
| 推理後端 | SGLang | vLLM / SGLang | vLLM |
| 容錯機制 | 服務級故障隔離,DCS 秒級權重同步,分鐘級自動恢復,無需回退磁盤 | 單控制器統一調度,缺乏服務級隔離,故障需全局重啓 | 基於 Ray Actor 容錯,無獨立服務域設計 |
| 彈性擴縮容 | HTTP REST API 動態擴縮容,支持跨集羣聯邦推理 | 訓練過程固定配置,不支持動態擴縮容 | 支持動態資源調整,但粒度較粗 |
| 性能表現 | 16×H800 較 veRL 提速 20%,較 Colocate 提速 76%,R3 開銷僅 1.9% | 全異步較 Colocate 提速 5.2×,但 R3 開銷 32%,故障恢復慢 | 支持 70B+ 模型,消費級顯卡友好 |
| MoE 支持 | 原生支持,Near-Zero-Overhead R3 | 支持但 R3 開銷大(32%) | 支持 |
| Agentic 能力 | 原生支持多輪交互、工具調用、視覺上下文 Carry-over | 基礎支持多輪,缺乏服務級會話狀態管理 | 基礎支持 |
| 適用場景 | 超大規模 Omni 模型 Agentic 訓練、生產級高可用場景 | 萬億參數 MoE 模型、極致顯存優化 | 70B+ 模型分佈式訓練、消費級顯卡集羣 |
Relax的應用場景
-
全模態大模型後訓練:統一優化支持文本、圖像、音頻、視頻輸入的Omni模型(如Qwen3-Omni),實現跨模態理解與生成能力強化。
-
Agentic智能體開發:訓練具備多輪工具調用、環境交互與自主決策能力的智能體,適配”執行→觀察→決策”閉環任務(如DeepEyes多輪視覺推理)。
-
視覺語言任務優化:針對視覺問答(VQA)、圖像描述、視頻理解(NextQA)等任務進行RL後訓練,提升多模態推理準確性。
-
數學與代碼推理:通過GRPO/GSPO等算法增強大模型在數學問題求解(DAPO-Math)、邏輯推理與代碼生成方面的能力。
-
MoE模型高效訓練:支持Qwen3-30B-A3B等MoE架構的低成本R3重放訓練,降低路由誤差與計算開銷。
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...