DataChef是什麼
DataChef是上海人工智能實驗室與復旦大學聯合開源的AI數據配方生成模型。模型通過強化學習自動生成大模型適配任務的完整數據處理流水線,包括數據選擇、清洗、合成、配比等步驟的可執行代碼。DataChef僅需輸入目標任務和可用數據源,AI可自動”煉丹”數據。32B參數版本在數學、代碼、金融等6個領域測試中性能逼近Gemini-3-Pro,在部分任務上超越工業級專家配方,標誌着數據工程從人工經驗邁向自動化新範式。

DataChef的主要功能
-
自動配方生成:DataChef能根據目標任務和可用數據源自動生成完整的數據配方。
-
代碼輸出:模型會輸出可執行的Python數據處理代碼,構建從原始數據到訓練集的自動化流水線。
-
多環節處理:支持數據選擇、清洗、增強、混合、去重等多種處理操作。
-
即訓即用:生成的數據配方可直接用於大模型微調適配特定領域。
-
質量驗證:DataChef內置數據驗證器,能評估數據質量和指導優化過程。
DataChef的技術原理
-
任務建模:DataChef將數據配方生成建模爲端到端的強化學習任務,策略模型接收任務指令後生成包含自然語言計劃和Python代碼的數據配方。
-
代理獎勵機制:爲解決訓練反饋成本高昂的問題,研究團隊設計了Data Verifier作爲代理獎勵機制,驗證器通過將樣本分類爲五個質量等級並基於採樣子集評分,實現對數據質量的低成本實時預測。
-
訓練優化:訓練過程採用冷啓動監督微調初始化,結合GRPO算法進行在線強化學習優化,通過解耦推理與代碼生成提升策略穩定性,使模型能在龐大的代碼組合空間中高效探索最優數據方案。
DataChef的關鍵信息和使用要求
-
研發團隊:上海人工智能實驗室(書生·浦語團隊)聯合復旦大學
-
模型規模:開源32B參數版本(DataChef-32B)
-
性能水平:在6個held-out測試任務上逼近閉源頂級模型Gemini-3-Pro,部分任務超越工業級專家配方
-
核心創新:首次將端到端數據配方生成建模爲全局決策問題,通過在線強化學習實現自動優化閉環
-
數據基礎:覆蓋19個領域、31個評測集、257個源數據集
- 環境配置:Python 3.12,通過pip安裝依賴
-
硬件資源:運行32B模型需要足夠顯存或API訪問能力
-
模型端點:需配置Planner和Coder模型的API端點(支持OpenAI兼容接口)
DataChef的核心優勢
-
端到端自動化:突破傳統局部啓發式規則,將數據配方生成提升爲端到端任務,AI直接輸出完整可執行的數據處理流水線,無需人工編排操作步驟。
-
強化學習驅動:通過在線強化學習形成自動優化閉環,模型能在龐大代碼組合空間中自我進化,持續探索更優數據方案,告別人工反覆試錯。
-
低成本驗證機制:模型創新提出Data Verifier代理獎勵信號,無需完整模型訓練即可實時預測數據質量,大幅降低傳統數據工程的效果驗證成本。
-
越級性能表現:32B參數開源模型在多項測試中逼近Gemini-3-Pro,部分複雜任務上超越工業級專家配方,證明AI自動生成方案優於人工經驗設計。
-
開放基礎設施:構建覆蓋19個領域的大規模任務池並全面開源,爲自動化數據工程、自我進化AI等前沿研究提供系統化支撐。
如何使用DataChef
-
環境安裝:創建Python 3.12虛擬環境,通過
pip install -e .命令完成DataChef安裝。 -
配置文件:複製示例配置文件並命名爲
datachef.config.json,填入模型端點地址、API密鑰及Planner和Coder模型名稱。 -
準備輸入:按JSONL格式準備任務文件,每行包含任務ID、任務描述與評測基準、以及候選數據源列表。
-
運行生成:執行
datachef-eval --config test命令啓動流程,系統自動生成數據配方計劃、Python代碼並執行驗證。 -
獲取輸出:在
data/code/和data/data-verifier/目錄下獲取生成的數據處理代碼、執行報告和數據質量驗證分數。 -
調整參數:通過
--timeout設置代碼執行超時時間,--max_workers控制並行 worker 數量,--parse_reasoning輸出模型推理過程。
DataChef的項目地址
- GitHub倉庫:https://github.com/yichengchen24/DataChe
- HuggingFace模型庫:https://huggingface.co/yichengchen24/DataChef-32B
- arXiv技術論文:https://arxiv.org/pdf/2602.11089
- 在線體驗Demo:https://huggingface.co/spaces/yichengchen24/DataChef
DataChef的同類競品對比
| 維度 | DataChef | Data-Juicer Sandbox | AIDE |
|---|---|---|---|
| 研發機構 | 上海人工智能實驗室 + 復旦大學 | 阿里巴巴達摩院 | 微軟研究院 |
| 核心定位 | 端到端數據配方自動生成 | 數據沙盒探針分析與算子優化 | 自動化數據科學與模型開發 |
| 技術路線 | 在線強化學習 + Data Verifier代理獎勵 | Probe-Analyze-Refine工作流 + 下游訓練反饋 | 迭代探索與試錯執行 + 搜索外部知識 |
| 自動化程度 | 完全自動化生成完整流水線代碼 | 半自動化,需人工定義算子池 | 自動化但依賴預設工作流模板 |
| 反饋機制 | 低成本實時數據驗證,無需完整訓練 | 依賴實際模型訓練與評測,成本高昂 | 基於執行結果迭代優化 |
| 輸出形式 | 可執行Python代碼 + 訓練數據集 | 優化後的數據處理算子組合 | 完整的數據科學解決方案 |
DataChef的應用場景
-
領域大模型訓練:爲數學、代碼、金融、醫療、氣象等垂直領域自動生成適配的數據配方,快速構建領域專用模型。
-
數據工程自動化:替代傳統依賴專家經驗的手工數據篩選與配比流程,實現從原始數據到訓練集的全流程自動化處理。
-
模型後訓練優化:爲已有基座模型生成高質量微調數據,提升模型在特定任務上的性能表現。
-
低資源場景數據增強:在數據稀缺的領域自動合成訓練樣本,通過數據增強技術擴充有效訓練數據規模。
-
AI研究自動化:作爲自動化AI研究(Automated AI Research)的基礎設施,支持自我進化AI系統的數據自我改進閉環。
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...