EAPO是什麼
EAPO是阿里通義實驗室推出的長文本推理強化學習框架,通過引入”證據獎勵”機制,將監督信號從最終答案下沉到證據提取過程。框架已被ACL 2026錄用,在8個權威長文本基準測試中,讓30B模型反超120B的GPT-OSS及Claude-Sonnet-4等閉源大模型。

EAPO的主要功能
-
結構化證據推理:強制模型執行”任務分析→證據提取→推理執行→答案生成”四步工作流,通過特殊 token 分隔每一步,使中間證據狀態可被直接監督。
-
多粒度過程獎勵:構建複合獎勵信號,包含格式遵循獎勵、羣組相對證據質量獎勵和結果準確率獎勵,從稀疏的結果監督轉向密集的過程監督。
-
羣組相對證據評估:對同一問題採樣多條證據軌跡,由獎勵模型統一評估並給出1-5分的整數質量評分,在組內歸一化生成相對獎勵,引導模型優先提取高質量證據。
-
獎勵-策略協同進化:設計自適應閉環機制,將策略模型生成的高置信度、結果一致的優質證據鏈篩選後反哺獎勵模型進行拒絕微調,使評判標準隨模型能力提升而動態進化。
-
長文本推理增強:在SEAL、LongBench-V1/V2等8個權威長文本基準上顯著提升性能,讓30B模型在長文本推理上反超120B的GPT-OSS及Claude-Sonnet-4等閉源大模型。
EAPO的技術原理
- Evidence-Augmented Reasoning(EAR)範式:建立結構化推理範式,強制模型在生成答案前必須從原文中逐字摘錄相關證據片段。通過特殊 token 將流程拆分爲”任務分析→證據提取→推理執行→答案生成”四步,使中間證據狀態暴露在外、可被直接監督,從根本上解決傳統模型”蒙對答案但引用錯誤”的幻覺問題。
- Group-Relative Evidence Reward(羣組相對證據獎勵):EAPO將強化學習的優化目標從”結果正確”轉向”證據正確”。訓練時模型對同一問題採樣多條不同的證據軌跡,獎勵模型同時評估這些證據集,給出1-5分的效用評分,在採樣組內歸一化爲[0,1]的相對獎勵。密集的過程監督讓模型明白”找對證據”比”蒙對答案”更重要,有效抑制參數化捷徑。
- Adaptive Reward-Policy Co-Evolution(自適應獎勵-策略協同進化):隨着策略模型能力提升,固定獎勵模型會逐漸無法區分證據的微妙質量差異。EAPO設計自我強化閉環:通過Outcome-Consistent Rejection Fine-Tuning,篩選出”高證據評分且答案正確”或”低評分且答案錯誤”的高置信度 rollout 數據,用這些實例對獎勵模型進行監督微調。策略模型越強,生成的訓練數據越好;獎勵模型評判越精準,又能反過來指導策略模型提取更精確的證據,實現動態同步進化。
- 基於GRPO的複合獎勵機制:EAPO以Group Relative Policy Optimization爲基座算法,構建多粒度複合獎勵:格式遵循獎勵(α=0.1)確保輸出符合EAR結構;羣組相對證據質量獎勵(β=0.3)提供過程監督;結果準確率獎勵(γ=0.6)驗證最終答案。三者加權組合,將稀疏的結果信號轉化爲密集的過程導向指導。
EAPO的關鍵信息和使用要求
-
研發團隊:阿里通義實驗室(Xin Guan、Zijian Li、Shen Huang等),論文已被ACL 2026錄用。
-
基座模型:基於Qwen3-14B(Dense架構)、Qwen3-30B-A3B-Instruct(MoE架構)、Qwen3-30B-A3B-Thinking三種模型訓練。
-
上下文長度:訓練和評估樣本統一限制在128K tokens以內。
-
訓練數據:4,664條複合樣本,涵蓋32K-128K填充上下文的多跳QA(MuSiQue)及維基百科混合QA(結構化+非結構化)。
-
獎勵模型:基於Qwen3-30B-A3B-Thinking初始化,每20個RL步驟更新一次。
-
獎勵權重:格式遵循α=0.1,證據質量β=0.3,結果準確率γ=0.6。
-
核心算法:以GRPO(Group Relative Policy Optimization)爲基座,引入羣組相對證據獎勵和協同進化機制。
-
模型基礎:需基於支持長文本的Qwen3系列模型進行訓練,推薦30B-A3B-Thinking以獲得最佳效果。
EAPO的核心優勢
- 過程監督革新:打破長文本RL稀疏獎勵瓶頸,首次實現證據級密集過程監督,強制模型執行”分析→提取證據→推理→作答”四步工作流,讓每一步推理都有跡可循。
- 效能突破:基於Qwen3-30B-Thinking訓練的模型平均得分達63.1%,超越120B的GPT-OSS及Claude-Sonnet-4等閉源大模型,實現小模型反超大模型。
- 錯誤雙降:證據錯誤率從17.7%降至13.5%,推理錯誤率從20.7%降至15.4%,無需顯式監督推理步驟即可帶動兩類錯誤同步下降。
- 訓練效率領先:相比僅依賴結果獎勵的GRPO基線,EAPO收斂速度顯著加快且準確率天花板更高,訓練過程中的證據質量得分始終斷崖式領先。
- 評判標準進化:獎勵模型與策略模型通過高置信度 rollout 數據持續迭代協同進化,避免固定評判標準隨模型能力提升。
EAPO的項目地址
- 技術論文:https://arxiv.org/pdf/2601.10306
EAPO的同類競品對比
| 對比維度 | EAPO | GRPO | QwenLong-32B |
|---|---|---|---|
| 技術路線 | 證據增強RL訓練框架 | 標準羣組相對策略優化 | 長文本專用模型後訓練 |
| 監督信號 | 證據級密集過程獎勵 + 結果獎勵 | 僅稀疏結果獎勵 | 隱式長文本優化 |
| 證據顯式提取 | 強制四步結構化輸出 | 無 | 無 |
| 獎勵模型進化 | 自適應協同進化閉環 | 無獎勵模型 | 不涉及 |
| 長文本針對性 | 專爲128K高噪上下文設計 | 通用 | 強 |
| 代表性能 | 63.1%(30B,8基準平均) | 59.2%(30B基線) | 57.8% |
| 核心侷限 | 需獨立維護獎勵模型 | 無法抑制”蒙對”捷徑 | 無顯式證據監督機制 |
EAPO的應用場景
- AI搜索與問答:解決AI搜索引擎”搜對了但答錯了”的核心痛點,強制模型在海量檢索結果中精準定位並引用支撐證據,杜絕幻覺式作答。
- 專業領域文檔分析:適用法律、金融、醫療等需要嚴格事實依據的場景,確保每一份報告、每一次分析都有明確的原文出處和證據鏈支撐。
- 科研文獻綜述:支持跨越多篇論文的交叉驗證與綜合推理,自動提取關鍵實驗數據並準確引用,確保綜述結論均有文獻依據。
- 企業知識庫問答:在超長內部文檔、合同、手冊中精準定位決策依據,幫助員工快速獲取有明確出處支撐的業務答案。
- 教育輔導與自動批改:用於解題輔導時要求每一步推理都標註原文證據,自動批改時驗證學生答案是否基於題目材料中的有效信息推導。
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...