EAPO – 阿里通義推出的全新強化學習框架

AI工具2周前發佈新公告 AI管理員
0 0

EAPO是什麼

EAPO是阿里通義實驗室推出的長文本推理強化學習框架,通過引入”證據獎勵”機制,將監督信號從最終答案下沉到證據提取過程。框架已被ACL 2026錄用,在8個權威長文本基準測試中,讓30B模型反超120B的GPT-OSS及Claude-Sonnet-4等閉源大模型。

EAPO – 阿里通義推出的全新強化學習框架

EAPO的主要功能

  • 結構化證據推理:強制模型執行”任務分析→證據提取→推理執行→答案生成”四步工作流,通過特殊 token 分隔每一步,使中間證據狀態可被直接監督。
  • 多粒度過程獎勵:構建複合獎勵信號,包含格式遵循獎勵、羣組相對證據質量獎勵和結果準確率獎勵,從稀疏的結果監督轉向密集的過程監督。
  • 羣組相對證據評估:對同一問題採樣多條證據軌跡,由獎勵模型統一評估並給出1-5分的整數質量評分,在組內歸一化生成相對獎勵,引導模型優先提取高質量證據。
  • 獎勵-策略協同進化:設計自適應閉環機制,將策略模型生成的高置信度、結果一致的優質證據鏈篩選後反哺獎勵模型進行拒絕微調,使評判標準隨模型能力提升而動態進化。
  • 長文本推理增強:在SEAL、LongBench-V1/V2等8個權威長文本基準上顯著提升性能,讓30B模型在長文本推理上反超120B的GPT-OSS及Claude-Sonnet-4等閉源大模型。

EAPO的技術原理

  • Evidence-Augmented Reasoning(EAR)範式:建立結構化推理範式,強制模型在生成答案前必須從原文中逐字摘錄相關證據片段。通過特殊 token 將流程拆分爲”任務分析→證據提取→推理執行→答案生成”四步,使中間證據狀態暴露在外、可被直接監督,從根本上解決傳統模型”蒙對答案但引用錯誤”的幻覺問題。
  • Group-Relative Evidence Reward(羣組相對證據獎勵):EAPO將強化學習的優化目標從”結果正確”轉向”證據正確”。訓練時模型對同一問題採樣多條不同的證據軌跡,獎勵模型同時評估這些證據集,給出1-5分的效用評分,在採樣組內歸一化爲[0,1]的相對獎勵。密集的過程監督讓模型明白”找對證據”比”蒙對答案”更重要,有效抑制參數化捷徑。
  • Adaptive Reward-Policy Co-Evolution(自適應獎勵-策略協同進化):隨着策略模型能力提升,固定獎勵模型會逐漸無法區分證據的微妙質量差異。EAPO設計自我強化閉環:通過Outcome-Consistent Rejection Fine-Tuning,篩選出”高證據評分且答案正確”或”低評分且答案錯誤”的高置信度 rollout 數據,用這些實例對獎勵模型進行監督微調。策略模型越強,生成的訓練數據越好;獎勵模型評判越精準,又能反過來指導策略模型提取更精確的證據,實現動態同步進化。
  • 基於GRPO的複合獎勵機制:EAPO以Group Relative Policy Optimization爲基座算法,構建多粒度複合獎勵:格式遵循獎勵(α=0.1)確保輸出符合EAR結構;羣組相對證據質量獎勵(β=0.3)提供過程監督;結果準確率獎勵(γ=0.6)驗證最終答案。三者加權組合,將稀疏的結果信號轉化爲密集的過程導向指導。

EAPO的關鍵信息和使用要求

  • 研發團隊:阿里通義實驗室(Xin Guan、Zijian Li、Shen Huang等),論文已被ACL 2026錄用。
  • 基座模型:基於Qwen3-14B(Dense架構)、Qwen3-30B-A3B-Instruct(MoE架構)、Qwen3-30B-A3B-Thinking三種模型訓練。
  • 上下文長度:訓練和評估樣本統一限制在128K tokens以內。
  • 訓練數據:4,664條複合樣本,涵蓋32K-128K填充上下文的多跳QA(MuSiQue)及維基百科混合QA(結構化+非結構化)。
  • 獎勵模型:基於Qwen3-30B-A3B-Thinking初始化,每20個RL步驟更新一次。
  • 獎勵權重:格式遵循α=0.1,證據質量β=0.3,結果準確率γ=0.6。
  • 核心算法:以GRPO(Group Relative Policy Optimization)爲基座,引入羣組相對證據獎勵和協同進化機制。
  • 模型基礎:需基於支持長文本的Qwen3系列模型進行訓練,推薦30B-A3B-Thinking以獲得最佳效果。

EAPO的核心優勢

  • 過程監督革新:打破長文本RL稀疏獎勵瓶頸,首次實現證據級密集過程監督,強制模型執行”分析→提取證據→推理→作答”四步工作流,讓每一步推理都有跡可循。
  • 效能突破:基於Qwen3-30B-Thinking訓練的模型平均得分達63.1%,超越120B的GPT-OSS及Claude-Sonnet-4等閉源大模型,實現小模型反超大模型。
  • 錯誤雙降:證據錯誤率從17.7%降至13.5%,推理錯誤率從20.7%降至15.4%,無需顯式監督推理步驟即可帶動兩類錯誤同步下降。
  • 訓練效率領先:相比僅依賴結果獎勵的GRPO基線,EAPO收斂速度顯著加快且準確率天花板更高,訓練過程中的證據質量得分始終斷崖式領先。
  • 評判標準進化:獎勵模型與策略模型通過高置信度 rollout 數據持續迭代協同進化,避免固定評判標準隨模型能力提升。

EAPO的項目地址

  • 技術論文:https://arxiv.org/pdf/2601.10306

EAPO的同類競品對比

對比維度 EAPO GRPO QwenLong-32B
技術路線 證據增強RL訓練框架 標準羣組相對策略優化 長文本專用模型後訓練
監督信號 證據級密集過程獎勵 + 結果獎勵 僅稀疏結果獎勵 隱式長文本優化
證據顯式提取 強制四步結構化輸出
獎勵模型進化 自適應協同進化閉環 無獎勵模型 不涉及
長文本針對性 專爲128K高噪上下文設計 通用
代表性能 63.1%(30B,8基準平均) 59.2%(30B基線) 57.8%
核心侷限 需獨立維護獎勵模型 無法抑制”蒙對”捷徑 無顯式證據監督機制

EAPO的應用場景

  • AI搜索與問答:解決AI搜索引擎”搜對了但答錯了”的核心痛點,強制模型在海量檢索結果中精準定位並引用支撐證據,杜絕幻覺式作答。
  • 專業領域文檔分析:適用法律、金融、醫療等需要嚴格事實依據的場景,確保每一份報告、每一次分析都有明確的原文出處和證據鏈支撐。
  • 科研文獻綜述:支持跨越多篇論文的交叉驗證與綜合推理,自動提取關鍵實驗數據並準確引用,確保綜述結論均有文獻依據。
  • 企業知識庫問答:在超長內部文檔、合同、手冊中精準定位決策依據,幫助員工快速獲取有明確出處支撐的業務答案。
  • 教育輔導與自動批改:用於解題輔導時要求每一步推理都標註原文證據,自動批改時驗證學生答案是否基於題目材料中的有效信息推導。
© 版權聲明

相關文章

暫無評論

暫無評論...