EAPO – 阿里通義推出的全新強化學習框架

0 0 0

EAPO是什麼

EAPO是阿里通義實驗室推出的長文本推理強化學習框架，通過引入”證據獎勵”機制，將監督信號從最終答案下沉到證據提取過程。框架已被ACL 2026錄用，在8個權威長文本基準測試中，讓30B模型反超120B的GPT-OSS及Claude-Sonnet-4等閉源大模型。

EAPO的主要功能

結構化證據推理：強制模型執行”任務分析→證據提取→推理執行→答案生成”四步工作流，通過特殊 token 分隔每一步，使中間證據狀態可被直接監督。
多粒度過程獎勵：構建複合獎勵信號，包含格式遵循獎勵、羣組相對證據質量獎勵和結果準確率獎勵，從稀疏的結果監督轉向密集的過程監督。
羣組相對證據評估：對同一問題採樣多條證據軌跡，由獎勵模型統一評估並給出1-5分的整數質量評分，在組內歸一化生成相對獎勵，引導模型優先提取高質量證據。
獎勵-策略協同進化：設計自適應閉環機制，將策略模型生成的高置信度、結果一致的優質證據鏈篩選後反哺獎勵模型進行拒絕微調，使評判標準隨模型能力提升而動態進化。
長文本推理增強：在SEAL、LongBench-V1/V2等8個權威長文本基準上顯著提升性能，讓30B模型在長文本推理上反超120B的GPT-OSS及Claude-Sonnet-4等閉源大模型。

EAPO的技術原理

Evidence-Augmented Reasoning（EAR）範式：建立結構化推理範式，強制模型在生成答案前必須從原文中逐字摘錄相關證據片段。通過特殊 token 將流程拆分爲”任務分析→證據提取→推理執行→答案生成”四步，使中間證據狀態暴露在外、可被直接監督，從根本上解決傳統模型”蒙對答案但引用錯誤”的幻覺問題。
Group-Relative Evidence Reward（羣組相對證據獎勵）：EAPO將強化學習的優化目標從”結果正確”轉向”證據正確”。訓練時模型對同一問題採樣多條不同的證據軌跡，獎勵模型同時評估這些證據集，給出1-5分的效用評分，在採樣組內歸一化爲[0,1]的相對獎勵。密集的過程監督讓模型明白”找對證據”比”蒙對答案”更重要，有效抑制參數化捷徑。
Adaptive Reward-Policy Co-Evolution（自適應獎勵-策略協同進化）：隨着策略模型能力提升，固定獎勵模型會逐漸無法區分證據的微妙質量差異。EAPO設計自我強化閉環：通過Outcome-Consistent Rejection Fine-Tuning，篩選出”高證據評分且答案正確”或”低評分且答案錯誤”的高置信度 rollout 數據，用這些實例對獎勵模型進行監督微調。策略模型越強，生成的訓練數據越好；獎勵模型評判越精準，又能反過來指導策略模型提取更精確的證據，實現動態同步進化。
基於GRPO的複合獎勵機制：EAPO以Group Relative Policy Optimization爲基座算法，構建多粒度複合獎勵：格式遵循獎勵（α=0.1）確保輸出符合EAR結構；羣組相對證據質量獎勵（β=0.3）提供過程監督；結果準確率獎勵（γ=0.6）驗證最終答案。三者加權組合，將稀疏的結果信號轉化爲密集的過程導向指導。

EAPO的關鍵信息和使用要求

研發團隊：阿里通義實驗室（Xin Guan、Zijian Li、Shen Huang等），論文已被ACL 2026錄用。
基座模型：基於Qwen3-14B（Dense架構）、Qwen3-30B-A3B-Instruct（MoE架構）、Qwen3-30B-A3B-Thinking三種模型訓練。
上下文長度：訓練和評估樣本統一限制在128K tokens以內。
訓練數據：4,664條複合樣本，涵蓋32K-128K填充上下文的多跳QA（MuSiQue）及維基百科混合QA（結構化+非結構化）。
獎勵模型：基於Qwen3-30B-A3B-Thinking初始化，每20個RL步驟更新一次。
獎勵權重：格式遵循α=0.1，證據質量β=0.3，結果準確率γ=0.6。
核心算法：以GRPO（Group Relative Policy Optimization）爲基座，引入羣組相對證據獎勵和協同進化機制。
模型基礎：需基於支持長文本的Qwen3系列模型進行訓練，推薦30B-A3B-Thinking以獲得最佳效果。

EAPO的核心優勢

過程監督革新：打破長文本RL稀疏獎勵瓶頸，首次實現證據級密集過程監督，強制模型執行”分析→提取證據→推理→作答”四步工作流，讓每一步推理都有跡可循。
效能突破：基於Qwen3-30B-Thinking訓練的模型平均得分達63.1%，超越120B的GPT-OSS及Claude-Sonnet-4等閉源大模型，實現小模型反超大模型。
錯誤雙降：證據錯誤率從17.7%降至13.5%，推理錯誤率從20.7%降至15.4%，無需顯式監督推理步驟即可帶動兩類錯誤同步下降。
訓練效率領先：相比僅依賴結果獎勵的GRPO基線，EAPO收斂速度顯著加快且準確率天花板更高，訓練過程中的證據質量得分始終斷崖式領先。
評判標準進化：獎勵模型與策略模型通過高置信度 rollout 數據持續迭代協同進化，避免固定評判標準隨模型能力提升。

EAPO的項目地址

技術論文：https://arxiv.org/pdf/2601.10306

EAPO的同類競品對比

對比維度	EAPO	GRPO	QwenLong-32B
技術路線	證據增強RL訓練框架	標準羣組相對策略優化	長文本專用模型後訓練
監督信號	證據級密集過程獎勵 + 結果獎勵	僅稀疏結果獎勵	隱式長文本優化
證據顯式提取	強制四步結構化輸出	無	無
獎勵模型進化	自適應協同進化閉環	無獎勵模型	不涉及
長文本針對性	專爲128K高噪上下文設計	通用	強
代表性能	63.1%（30B，8基準平均）	59.2%（30B基線）	57.8%
核心侷限	需獨立維護獎勵模型	無法抑制”蒙對”捷徑	無顯式證據監督機制