DataChef – 上海AI Lab聯合復旦開源的AI數據配方生成模型

AI工具2天前發佈新公告 AI管理員
0 0

DataChef是什麼

DataChef是上海人工智能實驗室與復旦大學聯合開源的AI數據配方生成模型。模型通過強化學習自動生成大模型適配任務的完整數據處理流水線,包括數據選擇、清洗、合成、配比等步驟的可執行代碼。DataChef僅需輸入目標任務和可用數據源,AI可自動”煉丹”數據。32B參數版本在數學、代碼、金融等6個領域測試中性能逼近Gemini-3-Pro,在部分任務上超越工業級專家配方,標誌着數據工程從人工經驗邁向自動化新範式。

DataChef – 上海AI Lab聯合復旦開源的AI數據配方生成模型

DataChef的主要功能

  • 自動配方生成:DataChef能根據目標任務和可用數據源自動生成完整的數據配方。
  • 代碼輸出:模型會輸出可執行的Python數據處理代碼,構建從原始數據到訓練集的自動化流水線。
  • 多環節處理:支持數據選擇、清洗、增強、混合、去重等多種處理操作。
  • 即訓即用:生成的數據配方可直接用於大模型微調適配特定領域。
  • 質量驗證:DataChef內置數據驗證器,能評估數據質量和指導優化過程。

DataChef的技術原理

  • 任務建模:DataChef將數據配方生成建模爲端到端的強化學習任務,策略模型接收任務指令後生成包含自然語言計劃和Python代碼的數據配方。
  • 代理獎勵機制:爲解決訓練反饋成本高昂的問題,研究團隊設計了Data Verifier作爲代理獎勵機制,驗證器通過將樣本分類爲五個質量等級並基於採樣子集評分,實現對數據質量的低成本實時預測。
  • 訓練優化:訓練過程採用冷啓動監督微調初始化,結合GRPO算法進行在線強化學習優化,通過解耦推理與代碼生成提升策略穩定性,使模型能在龐大的代碼組合空間中高效探索最優數據方案。

DataChef的關鍵信息和使用要求

  • 研發團隊:上海人工智能實驗室(書生·浦語團隊)聯合復旦大學
  • 模型規模:開源32B參數版本(DataChef-32B)
  • 性能水平:在6個held-out測試任務上逼近閉源頂級模型Gemini-3-Pro,部分任務超越工業級專家配方
  • 核心創新:首次將端到端數據配方生成建模爲全局決策問題,通過在線強化學習實現自動優化閉環
  • 數據基礎:覆蓋19個領域、31個評測集、257個源數據集
  • 環境配置:Python 3.12,通過pip安裝依賴
  • 硬件資源:運行32B模型需要足夠顯存或API訪問能力
  • 模型端點:需配置Planner和Coder模型的API端點(支持OpenAI兼容接口)

DataChef的核心優勢

  • 端到端自動化:突破傳統局部啓發式規則,將數據配方生成提升爲端到端任務,AI直接輸出完整可執行的數據處理流水線,無需人工編排操作步驟。
  • 強化學習驅動:通過在線強化學習形成自動優化閉環,模型能在龐大代碼組合空間中自我進化,持續探索更優數據方案,告別人工反覆試錯。
  • 低成本驗證機制:模型創新提出Data Verifier代理獎勵信號,無需完整模型訓練即可實時預測數據質量,大幅降低傳統數據工程的效果驗證成本。
  • 越級性能表現:32B參數開源模型在多項測試中逼近Gemini-3-Pro,部分複雜任務上超越工業級專家配方,證明AI自動生成方案優於人工經驗設計。
  • 開放基礎設施:構建覆蓋19個領域的大規模任務池並全面開源,爲自動化數據工程、自我進化AI等前沿研究提供系統化支撐。

如何使用DataChef

  • 環境安裝:創建Python 3.12虛擬環境,通過pip install -e .命令完成DataChef安裝。
  • 配置文件:複製示例配置文件並命名爲datachef.config.json,填入模型端點地址、API密鑰及Planner和Coder模型名稱。
  • 準備輸入:按JSONL格式準備任務文件,每行包含任務ID、任務描述與評測基準、以及候選數據源列表。
  • 運行生成:執行datachef-eval --config test命令啓動流程,系統自動生成數據配方計劃、Python代碼並執行驗證。
  • 獲取輸出:在data/code/data/data-verifier/目錄下獲取生成的數據處理代碼、執行報告和數據質量驗證分數。
  • 調整參數:通過--timeout設置代碼執行超時時間,--max_workers控制並行 worker 數量,--parse_reasoning輸出模型推理過程。

DataChef的項目地址

  • GitHub倉庫:https://github.com/yichengchen24/DataChe
  • HuggingFace模型庫:https://huggingface.co/yichengchen24/DataChef-32B
  • arXiv技術論文:https://arxiv.org/pdf/2602.11089
  • 在線體驗Demo:https://huggingface.co/spaces/yichengchen24/DataChef

DataChef的同類競品對比

維度 DataChef Data-Juicer Sandbox AIDE
研發機構 上海人工智能實驗室 + 復旦大學 阿里巴巴達摩院 微軟研究院
核心定位 端到端數據配方自動生成 數據沙盒探針分析與算子優化 自動化數據科學與模型開發
技術路線 在線強化學習 + Data Verifier代理獎勵 Probe-Analyze-Refine工作流 + 下游訓練反饋 迭代探索與試錯執行 + 搜索外部知識
自動化程度 完全自動化生成完整流水線代碼 半自動化,需人工定義算子池 自動化但依賴預設工作流模板
反饋機制 低成本實時數據驗證,無需完整訓練 依賴實際模型訓練與評測,成本高昂 基於執行結果迭代優化
輸出形式 可執行Python代碼 + 訓練數據集 優化後的數據處理算子組合 完整的數據科學解決方案

DataChef的應用場景

  • 領域大模型訓練:爲數學、代碼、金融、醫療、氣象等垂直領域自動生成適配的數據配方,快速構建領域專用模型。
  • 數據工程自動化:替代傳統依賴專家經驗的手工數據篩選與配比流程,實現從原始數據到訓練集的全流程自動化處理。
  • 模型後訓練優化:爲已有基座模型生成高質量微調數據,提升模型在特定任務上的性能表現。
  • 低資源場景數據增強:在數據稀缺的領域自動合成訓練樣本,通過數據增強技術擴充有效訓練數據規模。
  • AI研究自動化:作爲自動化AI研究(Automated AI Research)的基礎設施,支持自我進化AI系統的數據自我改進閉環。
© 版權聲明

相關文章

暫無評論

暫無評論...