QwenLong-L1.5 – 阿里通義開源的長文本推理模型

0 0 0

QwenLong-L1.5是什麼

QwenLong-L1.5 是阿里通義實驗室推出的專注於長文本推理的大語言模型。模型基於 Qwen3-30B-A3B 架構，通過系統化的後訓練方案，顯著提升長文本推理能力。模型通過高質量的數據合成管線、穩定的強化學習方法和突破物理窗口限制的記憶管理框架，解決傳統模型在長文本任務中的不足，如訓練不穩定、上下文窗口有限等問題。模型在多個長文本推理基準測試中表現優異，性能接近甚至超越 GPT-5 等頂尖模型，同時在通用能力上有顯著提升。

QwenLong-L1.5的主要功能

長文本推理：模型能處理和推理超長文本（如百萬級 Token 的文檔），解決需要跨段落、跨文檔的複雜問題。
多跳推理：支持多跳邏輯推理，即通過多個步驟串聯信息，完成複雜的推理任務。
信息整合：從長文本中提取和整合分散的信息，用於回答需要全局理解的問題。
記憶管理：通過記憶增強框架，處理超出物理上下文窗口的任務，實現對超長文本的高效推理。
通用能力提升：在數學推理、智能體記憶和長對話等通用任務上有顯著提升，表現出良好的泛化能力。

QwenLong-L1.5的技術原理

高質量數據合成管線：QwenLong-L1.5 通過“先拆解，後組合”的方式構建高質量的長文本推理數據。模型將長文檔拆解爲原子事實及其關係，利用知識圖譜、多文檔表格等工具，程序化地合成需要多跳推理和全局信息整合的複雜問題。
穩定的強化學習方法：QwenLong-L1.5 引入任務均衡採樣和任務專屬優勢估計策略，應對長文本多任務訓練中的數據分佈偏移和獎勵信號不穩定問題。同時，提出自適應熵控制策略優化（AEPO）算法，通過動態調控負梯度，平衡模型的探索與利用，有效解決長文本強化學習中的不穩定性，確保模型在更長的序列上穩定訓練。
突破物理窗口的記憶管理框架：設計記憶管理框架，通過多階段融合強化學習訓練，將單次推理與迭代式記憶處理相結合。模型在處理超長文本時，不依賴於有限的上下文窗口，通過分塊處理和迭代記憶更新，將全局信息“摺疊”到緊湊的記憶表示中，突破物理窗口的限制，實現對超長文本的高效推理。