PlanningBench – 騰訊混元等開源的大模型規劃能力評測框架

0 0 0

PlanningBench是什麼

PlanningBench 是騰訊混元團隊聯合中國人民大學高瓴人工智能學院等機構推出的開源框架，專注於大語言模型的規劃能力評測與訓練。框架從真實場景出發，構建一套覆蓋六大類、30餘種規劃任務的可驗證數據生成體系，通過約束驅動的閉環合成流程，讓模型規劃結果從看起來合理走向真的可執行。

PlanningBench的主要功能

真實場景覆蓋：涵蓋日程排布、資源分配、人力排班、路徑調度、生產運營、應急服務六大類共30餘種具體規劃任務。
三層約束體系：將規劃難度拆解爲基礎約束、中等約束和困難約束，實現任務難度的精細化控制。
自動驗證機制：每條實例配套可執行checklist，支持Avg-pass和All-pass雙指標評測。
閉環數據生成：通過Generator生成問題、Responder嘗試解答、Critic驗證答案的閉環流程，自動增強數據難度。
訓練信號輸出：可驗證樣本可直接用於強化學習訓練，爲模型提供穩定的規劃能力優化信號。

PlanningBench的技術原理

真實場景抽象與約束體系構建：PlanningBench 將由具有規劃經驗的專業標註人員與算法研究人員協作，從個人通勤、企業排產、醫療應急等真實場景中抽象出可複用的問題結構，最終形成六大規劃任務家族與 30 餘種具體任務類型，將約束劃分爲基礎約束（時間窗口、資源邊界）、中等約束（多目標優化、依賴關係）和困難約束（異常恢復、目標衝突）三個層級，使數據生成在結構化設計空間中組合任務與約束。
約束驅動的閉環合成流程：框架的核心是一個 Generator-Responder-Critic 三角色協作的閉環系統：Generator 根據採樣的任務與約束組合生成自包含的規劃問題及對應驗證清單；Responder 模型嘗試生成方案；Critic 依據 checklist 逐項檢查答案是否滿足全部要求，若通過則提高難度，否則保留爲挑戰性樣本，使 PlanningBench 成爲一個能主動尋找模型能力邊界的動態數據生成系統。
三層難度約束體系：PlanningBench 將規劃難度拆解爲任務結構、約束層級、資源緊張度、目標衝突、依賴關係和異常處理等因素，通過控制約束池的採樣分佈來調控生成數據的難度。基礎約束確保方案完整性與可執行性，中等約束引入公平性與負載均衡要求，困難約束則測試模型在不可行識別、最小變更重規劃和魯棒性設計上的能力，使難度提升真正作用於規劃推理深度。

如何使用PlanningBench

獲取資源：訪問 GitHub 倉庫克隆代碼，或從 HuggingFace 下載數據集。
運行評測：加載PlanningBench評測集，調用模型生成規劃方案，使用內置checklist自動計算Avg-pass和All-pass指標。
生成定製數據：配置任務類型與約束層級，運行閉環生成流程，按需產出特定難度和領域的規劃訓練數據。
訓練模型：用生成的可驗證樣本作爲獎勵信號，對目標模型進行強化學習訓練，遷移到下游規劃任務。

PlanningBench的核心優勢

可驗證性：通過自動checklist精確判定方案是否全局可執行。
難度可控：基於約束層級而非簡單增加提示詞長度來調控任務難度，更貼近真實規劃複雜度。
診斷精準：Avg-pass與All-pass雙指標能識別”局部正確但整體不可執行”的模型輸出。
訓練遷移：僅300條樣本即可通過GRPO訓練提升模型在外部規劃基準和通用指令遵循任務上的表現。
場景真實：任務來源於通勤、排產、醫療調度等實際場景，避免模型在固定題庫上過擬合。

PlanningBench的項目地址

GitHub倉庫：https://github.com/Tencent-Hunyuan/PlanningBench
HuggingFace模型庫：https://huggingface.co/datasets/tencent/PlanningBench
arXiv技術論文：https://arxiv.org/pdf/2605.20873

PlanningBench的同類競品對比

維度	PlanningBench	AgentBench
核心定位	專注於大模型規劃能力的評測與訓練框架，強調從”看起來合理”到”真的可執行”。	綜合性大模型智能體能力評測框架，覆蓋推理、決策、工具使用、環境交互等多維度。
任務覆蓋	覆蓋6大類30餘種真實規劃任務，包括日程排布、資源分配、人力排班、路徑調度、生產運營、應急服務。	覆蓋8個交互環境，包括操作系統、數據庫、知識圖譜、數字卡牌、橫向思維、家庭管理、網上購物、網頁瀏覽。
驗證機制	每條實例配套結構化checklist，自動逐項驗證約束滿足情況，精確判定方案是否全局可執行。	基於環境執行反饋與結果匹配判定任務成功，不同環境有獨立的驗證邏輯。
評測指標	採用Avg-pass（局部約束滿足率）與All-pass（全局可執行率）雙指標，識別”局部正確但整體不可執行”的輸出。	主要採用Success Rate（成功率），按8個環境分別統計，衡量任務最終完成度。
難度控制	通過三層約束體系（基礎/中等/困難）與閉環難度增強機制，主動調控約束耦合度和資源衝突強度。	通過多輪交互（5-50輪）和環境複雜度遞進提升難度，更側重交互深度而非約束密度。
環境交互	面向靜態規劃問題求解，模型在明確輸入下生成完整方案，無需與外部環境實時交互。	要求模型與模擬環境（如bash終端、瀏覽器、數據庫）進行實時多輪交互，動態獲取反饋。
訓練支持	原生支持訓練，可驗證數據可直接作爲GRPO等強化學習的獎勵信號，且能遷移到外部基準。	主要用於評測，框架本身不直接提供可擴展的訓練數據生成能力。