Relax – 小紅書開源的大模型強化學習訓練引擎

AI工具2天前發佈新公告 AI管理員
0 0

Relax是什麼

Relax 是小紅書AI平台團隊開源的面向全模態與 Agentic 場景設計的大模型強化學習訓練引擎。基於 Megatron-LM 與 SGLang 構建,採用服務化容錯架構(Ray Serve)與 TransferQueue 異步數據總線,實現 Rollout、Actor、Critic 角色完全解耦。Relax支持文本、圖像、音頻、視頻統一訓練,在 Qwen3-Omni-30B 上驗證四種模態 RL 穩定收斂。16×H800 全異步模式較 Colocate 提速 76%,較 veRL 提速 20%,具備分鐘級故障恢復、彈性擴縮容及 R3 MoE 支持能力,已應用於 Qwen3 系列後訓練。

Relax – 小紅書開源的大模型強化學習訓練引擎

Relax的主要功能

  • 全模態RL訓練:統一支持文本、圖像、音頻、視頻的端到端強化學習後訓練,已驗證Qwen3-Omni系列穩定收斂。
  • 異步訓練架構:基於TransferQueue數據總線實現Rollout、Actor、Critic角色完全異步並行,消除GPU空轉等待。
  • 服務化容錯:每個RL角色作爲獨立Ray Serve部署,具備故障隔離與分鐘級自動恢復能力,支持訓練不中斷。
  • 彈性擴縮容:通過HTTP REST API動態增減Rollout推理引擎,支持同集羣與跨集羣聯邦推理資源調度。
  • 分佈式權重同步:DCS服務實現NCCL/TCP雙通道低延遲權重廣播,故障恢復無需回退磁盤Checkpoint。
  • Agentic多輪訓練:原生支持多輪交互、工具調用、視覺上下文carry-over與Loss Masking,適配”執行→觀察→決策”閉環。
  • 算法套件支持:內置GRPO、GSPO、SAPO及On-Policy Distillation算法,提供規則獎勵與GenRM生成式評估。

Relax的技術原理

  • 服務化異步架構:將Actor、Critic、Rollout等角色封裝爲獨立Ray Serve服務,通過TransferQueue進行流式微批傳輸,實現計算資源解耦與流水線並行,消除傳統Colocate模式的串行等待瓶頸。
  • 全模態數據流水線:內建Omni Processor統一處理圖文音視頻數據,支持模態感知並行與端到端異步流水,通過Field-Level存儲機制允許同一樣本的不同字段獨立讀寫,適配RL多階段計算特性。
  • 容錯與彈性機制:採用兩級恢復策略(無狀態角色原地重啓、有狀態角色全局恢復),配合DCS分佈式Checkpoint服務實現GPU-GPU直接權重同步,避免磁盤IO開銷,支持NCCL/TCP雙通道適配跨集羣拓撲。
  • 異步一致性控制:通過max_staleness參數靈活控制On/Off-Policy模式,StreamingDataLoader支持增量消費,DCS異步權重廣播與訓練計算重疊,在吞吐與策略新鮮度間取得平衡。

如何使用Relax

  • 環境部署:拉取官方 Docker 鏡像(預裝 CUDA、PyTorch、Megatron-LM、SGLang、Ray):docker pull relaxrl/relax:latest,啓動容器時掛載 GPU 與工作目錄。
  • 數據與模型準備:用 hf download 下載數據集(如 dapo-math-17k、multimodal-open-r1-8k-verified)與基礎模型(Qwen3-4B、Qwen3-VL-4B、Qwen3-Omni-30B-A3B)至本地目錄。
  • 啓動訓練:設置 EXP_DIR 環境變量指向數據根目錄,執行對應模態的 bash 腳本:
    • 文本任務(8卡)bash scripts/training/text/run-qwen3-4B-8xgpu.sh
    • 視覺語言任務(8卡)bash scripts/training/multimodal/run-qwen3-vl-4B-8xgpu.sh
    • 全模態任務(16卡/雙機)bash scripts/entrypoint/spmd-multinode.sh scripts/training/multimodal/run-qwen3-30B-A3B-omni-16xgpu.sh
  • 模型導出:訓練完成後用 scripts/tools/convert_torch_dist_to_hf_bridge.py 將 Megatron DCP 格式權重轉換爲 HuggingFace 格式。

Relax的關鍵信息和使用要求

  • 開源主體:小紅書AI平台團隊(RedAI Infra)於2026年4月15日正式開源。
  • 產品定位:面向全模態與Agentic場景的高性能異步強化學習後訓練引擎。
  • 技術底座:基於Megatron-LM訓練框架與SGLang推理引擎構建,採用Ray Serve服務化架構。
  • 核心架構:六層服務化設計(Entrypoints→Orchestration→Components→Engine→Backends→Distributed),通過TransferQueue實現異步數據總線,DCS實現分佈式權重同步。
  • 性能指標:16×H800全異步模式較Colocate基線端到端提速76%,較veRL提速20%,MoE模型R3開銷僅1.9%(veRL爲32%)。
  • 模態支持:原生支持文本、圖像、音頻、視頻統一訓練,已驗證Qwen3-Omni-30B四模態穩定收斂2000+步。
  • 算法覆蓋:內置GRPO、GSPO、SAPO、On-Policy Distillation,支持規則獎勵與GenRM生成式評估。
  • 硬件配置:單節點至少8×H800(4B模型),全模態Omni訓練需16×H800跨2節點,支持彈性擴縮容動態調整Rollout資源。

Relax的核心優勢

  • 全模態原生支持:內建圖文音視頻統一處理流水線,是少數支持 Qwen3-Omni 端到端後訓練的開源框架,驗證 2000+ 步穩定收斂。
  • 極致異步性能:TransferQueue 實現 Rollout/Actor/Critic 完全解耦,16×H800 全異步模式較 Colocate 提速 76%,較 veRL 提速 20%。
  • 服務化容錯架構:基於 Ray Serve 的獨立故障域設計,支持分鐘級自動恢復與彈性擴縮容,DCS 實現秒級權重同步無需回退磁盤。
  • Agentic 原生設計:內置多輪交互、工具調用、視覺上下文 Carry-over 與 Loss Masking,適配”執行→觀察→決策”閉環訓練。
  • MoE 高效支持:R3(Rollout Routing Replay)開銷僅 1.9%,相比 veRL 的 34% 性能損耗實現近零開銷 replay。
  • 生產級運維:HealthManager 自動監控、Metrics 多平台對接(WandB/TensorBoard)、Apprise 實時告警,支持 HTTP API 動態擴縮容。

Relax的項目地址

  • GitHub倉庫:https://github.com/redai-infra/Relax
  • arXiv技術論文:https://arxiv.org/pdf/2604.11554

Relax的同類競品對比

對比維度 Relax veRL OpenRLHF
開發團隊 小紅書 RedAI Infra 團隊 字節跳動/清華大學/南京大學等聯合團隊 開源社區 (OpenRLHF Labs)
架構設計 服務化六層架構,Ray Serve 獨立部署,TransferQueue 異步數據總線 HybridFlow 混合編程,3D-HybridEngine 顯存原地複用,生成與訓練默認耦合 Ray Placement Groups 調度,支持 Colocate/異步模式切換,架構相對傳統
異步機制 完全異步解耦,Rollout/Actor/Critic 獨立 GPU 集羣,流式微批調度 支持分離與 Colocate,但缺乏細粒度流水線調度,Rollout 與 Train 存在同步點 支持 Colocate 與異步切換,但角色間耦合度高於 Relax
模態支持 全模態原生(文本/圖像/音頻/視頻),驗證 Qwen3-Omni 端到端訓練 主要爲文本,多模態支持尚不完善 文本爲主,OpenRLHF-M 分支支持多模態
訓練後端 Megatron-LM (TP/PP/CP/EP) Megatron-LM / FSDP DeepSpeed
推理後端 SGLang vLLM / SGLang vLLM
容錯機制 服務級故障隔離,DCS 秒級權重同步,分鐘級自動恢復,無需回退磁盤 單控制器統一調度,缺乏服務級隔離,故障需全局重啓 基於 Ray Actor 容錯,無獨立服務域設計
彈性擴縮容 HTTP REST API 動態擴縮容,支持跨集羣聯邦推理 訓練過程固定配置,不支持動態擴縮容 支持動態資源調整,但粒度較粗
性能表現 16×H800 較 veRL 提速 20%,較 Colocate 提速 76%,R3 開銷僅 1.9% 全異步較 Colocate 提速 5.2×,但 R3 開銷 32%,故障恢復慢 支持 70B+ 模型,消費級顯卡友好
MoE 支持 原生支持,Near-Zero-Overhead R3 支持但 R3 開銷大(32%) 支持
Agentic 能力 原生支持多輪交互、工具調用、視覺上下文 Carry-over 基礎支持多輪,缺乏服務級會話狀態管理 基礎支持
適用場景 超大規模 Omni 模型 Agentic 訓練、生產級高可用場景 萬億參數 MoE 模型、極致顯存優化 70B+ 模型分佈式訓練、消費級顯卡集羣

Relax的應用場景

  • 全模態大模型後訓練:統一優化支持文本、圖像、音頻、視頻輸入的Omni模型(如Qwen3-Omni),實現跨模態理解與生成能力強化。
  • Agentic智能體開發:訓練具備多輪工具調用、環境交互與自主決策能力的智能體,適配”執行→觀察→決策”閉環任務(如DeepEyes多輪視覺推理)。
  • 視覺語言任務優化:針對視覺問答(VQA)、圖像描述、視頻理解(NextQA)等任務進行RL後訓練,提升多模態推理準確性。
  • 數學與代碼推理:通過GRPO/GSPO等算法增強大模型在數學問題求解(DAPO-Math)、邏輯推理與代碼生成方面的能力。
  • MoE模型高效訓練:支持Qwen3-30B-A3B等MoE架構的低成本R3重放訓練,降低路由誤差與計算開銷。
© 版權聲明

相關文章

暫無評論

暫無評論...