Relax – 小紅書開源的大模型強化學習訓練引擎

0 0 0

Relax是什麼

Relax 是小紅書AI平台團隊開源的面向全模態與 Agentic 場景設計的大模型強化學習訓練引擎。基於 Megatron-LM 與 SGLang 構建，採用服務化容錯架構（Ray Serve）與 TransferQueue 異步數據總線，實現 Rollout、Actor、Critic 角色完全解耦。Relax支持文本、圖像、音頻、視頻統一訓練，在 Qwen3-Omni-30B 上驗證四種模態 RL 穩定收斂。16×H800 全異步模式較 Colocate 提速 76%，較 veRL 提速 20%，具備分鐘級故障恢復、彈性擴縮容及 R3 MoE 支持能力，已應用於 Qwen3 系列後訓練。

Relax的主要功能

全模態RL訓練：統一支持文本、圖像、音頻、視頻的端到端強化學習後訓練，已驗證Qwen3-Omni系列穩定收斂。
異步訓練架構：基於TransferQueue數據總線實現Rollout、Actor、Critic角色完全異步並行，消除GPU空轉等待。
服務化容錯：每個RL角色作爲獨立Ray Serve部署，具備故障隔離與分鐘級自動恢復能力，支持訓練不中斷。
彈性擴縮容：通過HTTP REST API動態增減Rollout推理引擎，支持同集羣與跨集羣聯邦推理資源調度。
分佈式權重同步：DCS服務實現NCCL/TCP雙通道低延遲權重廣播，故障恢復無需回退磁盤Checkpoint。
Agentic多輪訓練：原生支持多輪交互、工具調用、視覺上下文carry-over與Loss Masking，適配”執行→觀察→決策”閉環。
算法套件支持：內置GRPO、GSPO、SAPO及On-Policy Distillation算法，提供規則獎勵與GenRM生成式評估。

Relax的技術原理

服務化異步架構：將Actor、Critic、Rollout等角色封裝爲獨立Ray Serve服務，通過TransferQueue進行流式微批傳輸，實現計算資源解耦與流水線並行，消除傳統Colocate模式的串行等待瓶頸。
全模態數據流水線：內建Omni Processor統一處理圖文音視頻數據，支持模態感知並行與端到端異步流水，通過Field-Level存儲機制允許同一樣本的不同字段獨立讀寫，適配RL多階段計算特性。
容錯與彈性機制：採用兩級恢復策略（無狀態角色原地重啓、有狀態角色全局恢復），配合DCS分佈式Checkpoint服務實現GPU-GPU直接權重同步，避免磁盤IO開銷，支持NCCL/TCP雙通道適配跨集羣拓撲。
異步一致性控制：通過max_staleness參數靈活控制On/Off-Policy模式，StreamingDataLoader支持增量消費，DCS異步權重廣播與訓練計算重疊，在吞吐與策略新鮮度間取得平衡。

如何使用Relax

環境部署：拉取官方 Docker 鏡像（預裝 CUDA、PyTorch、Megatron-LM、SGLang、Ray）：docker pull relaxrl/relax:latest，啓動容器時掛載 GPU 與工作目錄。
數據與模型準備：用 hf download 下載數據集（如 dapo-math-17k、multimodal-open-r1-8k-verified）與基礎模型（Qwen3-4B、Qwen3-VL-4B、Qwen3-Omni-30B-A3B）至本地目錄。
啓動訓練：設置 EXP_DIR 環境變量指向數據根目錄，執行對應模態的 bash 腳本：
- 文本任務（8卡）：bash scripts/training/text/run-qwen3-4B-8xgpu.sh
- 視覺語言任務（8卡）：bash scripts/training/multimodal/run-qwen3-vl-4B-8xgpu.sh
- 全模態任務（16卡/雙機）：bash scripts/entrypoint/spmd-multinode.sh scripts/training/multimodal/run-qwen3-30B-A3B-omni-16xgpu.sh
模型導出：訓練完成後用 scripts/tools/convert_torch_dist_to_hf_bridge.py 將 Megatron DCP 格式權重轉換爲 HuggingFace 格式。

Relax的關鍵信息和使用要求

開源主體：小紅書AI平台團隊（RedAI Infra）於2026年4月15日正式開源。
產品定位：面向全模態與Agentic場景的高性能異步強化學習後訓練引擎。
技術底座：基於Megatron-LM訓練框架與SGLang推理引擎構建，採用Ray Serve服務化架構。
核心架構：六層服務化設計（Entrypoints→Orchestration→Components→Engine→Backends→Distributed），通過TransferQueue實現異步數據總線，DCS實現分佈式權重同步。
性能指標：16×H800全異步模式較Colocate基線端到端提速76%，較veRL提速20%，MoE模型R3開銷僅1.9%（veRL爲32%）。
模態支持：原生支持文本、圖像、音頻、視頻統一訓練，已驗證Qwen3-Omni-30B四模態穩定收斂2000+步。
算法覆蓋：內置GRPO、GSPO、SAPO、On-Policy Distillation，支持規則獎勵與GenRM生成式評估。
硬件配置：單節點至少8×H800（4B模型），全模態Omni訓練需16×H800跨2節點，支持彈性擴縮容動態調整Rollout資源。

Relax的核心優勢

全模態原生支持：內建圖文音視頻統一處理流水線，是少數支持 Qwen3-Omni 端到端後訓練的開源框架，驗證 2000+ 步穩定收斂。
極致異步性能：TransferQueue 實現 Rollout/Actor/Critic 完全解耦，16×H800 全異步模式較 Colocate 提速 76%，較 veRL 提速 20%。
服務化容錯架構：基於 Ray Serve 的獨立故障域設計，支持分鐘級自動恢復與彈性擴縮容，DCS 實現秒級權重同步無需回退磁盤。
Agentic 原生設計：內置多輪交互、工具調用、視覺上下文 Carry-over 與 Loss Masking，適配”執行→觀察→決策”閉環訓練。
MoE 高效支持：R3（Rollout Routing Replay）開銷僅 1.9%，相比 veRL 的 34% 性能損耗實現近零開銷 replay。
生產級運維：HealthManager 自動監控、Metrics 多平台對接（WandB/TensorBoard）、Apprise 實時告警，支持 HTTP API 動態擴縮容。

Relax的項目地址

GitHub倉庫：https://github.com/redai-infra/Relax
arXiv技術論文：https://arxiv.org/pdf/2604.11554

Relax的同類競品對比

對比維度	Relax	veRL	OpenRLHF
開發團隊	小紅書 RedAI Infra 團隊	字節跳動/清華大學/南京大學等聯合團隊	開源社區 (OpenRLHF Labs)
架構設計	服務化六層架構，Ray Serve 獨立部署，TransferQueue 異步數據總線	HybridFlow 混合編程，3D-HybridEngine 顯存原地複用，生成與訓練默認耦合	Ray Placement Groups 調度，支持 Colocate/異步模式切換，架構相對傳統
異步機制	完全異步解耦，Rollout/Actor/Critic 獨立 GPU 集羣，流式微批調度	支持分離與 Colocate，但缺乏細粒度流水線調度，Rollout 與 Train 存在同步點	支持 Colocate 與異步切換，但角色間耦合度高於 Relax
模態支持	全模態原生（文本/圖像/音頻/視頻），驗證 Qwen3-Omni 端到端訓練	主要爲文本，多模態支持尚不完善	文本爲主，OpenRLHF-M 分支支持多模態
訓練後端	Megatron-LM (TP/PP/CP/EP)	Megatron-LM / FSDP	DeepSpeed
推理後端	SGLang	vLLM / SGLang	vLLM
容錯機制	服務級故障隔離，DCS 秒級權重同步，分鐘級自動恢復，無需回退磁盤	單控制器統一調度，缺乏服務級隔離，故障需全局重啓	基於 Ray Actor 容錯，無獨立服務域設計
彈性擴縮容	HTTP REST API 動態擴縮容，支持跨集羣聯邦推理	訓練過程固定配置，不支持動態擴縮容	支持動態資源調整，但粒度較粗
性能表現	16×H800 較 veRL 提速 20%，較 Colocate 提速 76%，R3 開銷僅 1.9%	全異步較 Colocate 提速 5.2×，但 R3 開銷 32%，故障恢復慢	支持 70B+ 模型，消費級顯卡友好
MoE 支持	原生支持，Near-Zero-Overhead R3	支持但 R3 開銷大（32%）	支持
Agentic 能力	原生支持多輪交互、工具調用、視覺上下文 Carry-over	基礎支持多輪，缺乏服務級會話狀態管理	基礎支持
適用場景	超大規模 Omni 模型 Agentic 訓練、生產級高可用場景	萬億參數 MoE 模型、極致顯存優化	70B+ 模型分佈式訓練、消費級顯卡集羣