ChatLearn – 阿里雲PAI團隊開發的大規模Alignment訓練框架

AI項目和框架2年前 (2024)發佈新公告 AI管理員

1 0 0

ChatLearn是什麼

ChatLearn 是由阿里雲 PAI 團隊開發的一個靈活、易用、高效的大規模 Alignment 訓練框架。是爲了支持大型語言模型（LLMs）的 Alignment 訓練而設計的。ChatLearn 提供了 RLHF、DPO、OnlineDPO、GRPO 等多種 Alignment 訓練方式，並支持用戶自定義模型的執行流程，使定製化訓練變得非常便捷。

ChatLearn的主要功能

多種訓練模式：支持 RLHF、DPO、OnlineDPO、GRPO等多種訓練模式。
編程接口：提供易用的編程接口，允許用戶通過封裝幾個函數來構建模型。
資源調度：具有靈活的資源調度機制，可以根據模型的計算需求、顯存和通信特點來分配資源，支持模型獨佔或資源共享。
分佈式加速引擎：支持多種分佈式計算 backend。
並行策略：支持爲不同模型配置不同的並行策略，以最大化訓練效率。

ChatLearn的項目網址

項目官網：chatlearn.readthedocs.io
GitHub 倉庫: https://github.com/alibaba/ChatLearn

如何使用ChatLearn

環境和代碼準備：準備環境，參考 ChatLearn 官方文檔中的鏡像準備建議。
數據準備：根據訓練類型（如 SFT、Reward、RLHF 等），準備相應的訓練數據，按照文檔中的指南格式化數據。
分佈式執行：在阿里雲 PAI DLC 環境上訓練，使用 PAI DLC 創建任務；在其他環境中，需要配置環境變量，如 MASTER_ADDR、MASTER_PORT、WORLD_SIZE 等，以支持分佈式執行。
開始訓練：基於特定模型（如 Llama 模型）的端到端訓練。
監控和評估：使用 ChatLearn 提供的工具和接口來監控訓練過程，並評估模型性能。