DataChef – 上海AI Lab聯合復旦開源的AI數據配方生成模型

AI工具2天前發佈新公告 AI管理員

0 0 0

DataChef是什麼

DataChef是上海人工智能實驗室與復旦大學聯合開源的AI數據配方生成模型。模型通過強化學習自動生成大模型適配任務的完整數據處理流水線，包括數據選擇、清洗、合成、配比等步驟的可執行代碼。DataChef僅需輸入目標任務和可用數據源，AI可自動”煉丹”數據。32B參數版本在數學、代碼、金融等6個領域測試中性能逼近Gemini-3-Pro，在部分任務上超越工業級專家配方，標誌着數據工程從人工經驗邁向自動化新範式。

DataChef – 上海AI Lab聯合復旦開源的AI數據配方生成模型

DataChef的主要功能

自動配方生成：DataChef能根據目標任務和可用數據源自動生成完整的數據配方。
代碼輸出：模型會輸出可執行的Python數據處理代碼，構建從原始數據到訓練集的自動化流水線。
多環節處理：支持數據選擇、清洗、增強、混合、去重等多種處理操作。
即訓即用：生成的數據配方可直接用於大模型微調適配特定領域。
質量驗證：DataChef內置數據驗證器，能評估數據質量和指導優化過程。

DataChef的技術原理

任務建模：DataChef將數據配方生成建模爲端到端的強化學習任務，策略模型接收任務指令後生成包含自然語言計劃和Python代碼的數據配方。
代理獎勵機制：爲解決訓練反饋成本高昂的問題，研究團隊設計了Data Verifier作爲代理獎勵機制，驗證器通過將樣本分類爲五個質量等級並基於採樣子集評分，實現對數據質量的低成本實時預測。
訓練優化：訓練過程採用冷啓動監督微調初始化，結合GRPO算法進行在線強化學習優化，通過解耦推理與代碼生成提升策略穩定性，使模型能在龐大的代碼組合空間中高效探索最優數據方案。

DataChef的關鍵信息和使用要求

研發團隊：上海人工智能實驗室（書生·浦語團隊）聯合復旦大學
模型規模：開源32B參數版本（DataChef-32B）
性能水平：在6個held-out測試任務上逼近閉源頂級模型Gemini-3-Pro，部分任務超越工業級專家配方
核心創新：首次將端到端數據配方生成建模爲全局決策問題，通過在線強化學習實現自動優化閉環
數據基礎：覆蓋19個領域、31個評測集、257個源數據集
環境配置：Python 3.12，通過pip安裝依賴
硬件資源：運行32B模型需要足夠顯存或API訪問能力
模型端點：需配置Planner和Coder模型的API端點（支持OpenAI兼容接口）

DataChef的核心優勢

端到端自動化：突破傳統局部啓發式規則，將數據配方生成提升爲端到端任務，AI直接輸出完整可執行的數據處理流水線，無需人工編排操作步驟。
強化學習驅動：通過在線強化學習形成自動優化閉環，模型能在龐大代碼組合空間中自我進化，持續探索更優數據方案，告別人工反覆試錯。
低成本驗證機制：模型創新提出Data Verifier代理獎勵信號，無需完整模型訓練即可實時預測數據質量，大幅降低傳統數據工程的效果驗證成本。
越級性能表現：32B參數開源模型在多項測試中逼近Gemini-3-Pro，部分複雜任務上超越工業級專家配方，證明AI自動生成方案優於人工經驗設計。
開放基礎設施：構建覆蓋19個領域的大規模任務池並全面開源，爲自動化數據工程、自我進化AI等前沿研究提供系統化支撐。

如何使用DataChef

環境安裝：創建Python 3.12虛擬環境，通過pip install -e .命令完成DataChef安裝。
配置文件：複製示例配置文件並命名爲datachef.config.json，填入模型端點地址、API密鑰及Planner和Coder模型名稱。
準備輸入：按JSONL格式準備任務文件，每行包含任務ID、任務描述與評測基準、以及候選數據源列表。
運行生成：執行datachef-eval --config test命令啓動流程，系統自動生成數據配方計劃、Python代碼並執行驗證。
獲取輸出：在data/code/和data/data-verifier/目錄下獲取生成的數據處理代碼、執行報告和數據質量驗證分數。
調整參數：通過--timeout設置代碼執行超時時間，--max_workers控制並行 worker 數量，--parse_reasoning輸出模型推理過程。

DataChef的項目地址

GitHub倉庫：https://github.com/yichengchen24/DataChe
HuggingFace模型庫：https://huggingface.co/yichengchen24/DataChef-32B
arXiv技術論文：https://arxiv.org/pdf/2602.11089
在線體驗Demo：https://huggingface.co/spaces/yichengchen24/DataChef

DataChef的同類競品對比

維度	DataChef	Data-Juicer Sandbox	AIDE
研發機構	上海人工智能實驗室 + 復旦大學	阿里巴巴達摩院	微軟研究院
核心定位	端到端數據配方自動生成	數據沙盒探針分析與算子優化	自動化數據科學與模型開發
技術路線	在線強化學習 + Data Verifier代理獎勵	Probe-Analyze-Refine工作流 + 下游訓練反饋	迭代探索與試錯執行 + 搜索外部知識
自動化程度	完全自動化生成完整流水線代碼	半自動化，需人工定義算子池	自動化但依賴預設工作流模板
反饋機制	低成本實時數據驗證，無需完整訓練	依賴實際模型訓練與評測，成本高昂	基於執行結果迭代優化
輸出形式	可執行Python代碼 + 訓練數據集	優化後的數據處理算子組合	完整的數據科學解決方案

DataChef的應用場景

領域大模型訓練：爲數學、代碼、金融、醫療、氣象等垂直領域自動生成適配的數據配方，快速構建領域專用模型。
數據工程自動化：替代傳統依賴專家經驗的手工數據篩選與配比流程，實現從原始數據到訓練集的全流程自動化處理。
模型後訓練優化：爲已有基座模型生成高質量微調數據，提升模型在特定任務上的性能表現。
低資源場景數據增強：在數據稀缺的領域自動合成訓練樣本，通過數據增強技術擴充有效訓練數據規模。
AI研究自動化：作爲自動化AI研究（Automated AI Research）的基礎設施，支持自我進化AI系統的數據自我改進閉環。

© 版權聲明

文章版权归作者所有，未经允许请勿转载。

相關文章

CatVTON – 中山大學和Pixocial聯合推出的虛擬試衣技術

earnbyshare2016

20 0

Graphy – AI數據可視化平台，添加數據自動生成圖表

earnbyshare2016

14 0

新Composer 2 – Cursor推出的新一代AI編程模型

earnbyshare2016

1 0

新ChatClaw – 智麻開源的AI智能體，支持多平台接入

earnbyshare2016

0 0

Dify – 開源的生成式AI應用開發平台

earnbyshare2016

11 0

HeyGen – 專業的AI數字人視頻生成工具

earnbyshare2016

116 0

暫無評論

暫無評論...