Absolute Zero – 清華大學等機構推出的語言模型推理訓練方法

AI工具1年前 (2025)發佈新公告 AI管理員

0 0 0

Absolute Zero是什麼

Absolute Zero是清華大學 LeapLab 團隊聯合北京通用人工智能研究院 NLCo 實驗室和賓夕法尼亞州立大學推出的全新語言模型推理訓練方法。Absolute Zero基於模型自我提出任務自主解決，實現自我進化式學習，無需依賴人類標註數據或預定義任務。模型在提出任務時獲得可學習性獎勵，在解決問題時獲得解答獎勵，基於與環境交互不斷優化自身推理能力。Absolute Zero的核心在於推動推理模型從依賴人類監督向依賴環境監督轉變，讓模型用真實環境的反饋生成可驗證的任務提升性能。

Absolute Zero的主要功能

任務自主生成：模型自主提出具有可學習性的任務，任務不過於簡單，也不過於複雜，能爲模型提供有效的學習信號。
任務自主解決：模型作爲求解者，嘗試解決自己提出或生成的任務，基於環境反饋驗證解答的正確性。
推理能力提升：不斷提出和解決任務，模型的推理能力（如歸納、演繹、溯因等）得到持續增強。
跨領域泛化：模型基於自我學習獲得的通用推理能力，遷移到新的任務和領域中。
零數據訓練：完全不依賴人工標註數據或人類設計的任務，基於與環境的交互和反饋進行學習。

Absolute Zero的技術原理

雙重角色模型：模型同時扮演任務提出者（Proposer）和任務求解者（Solver）兩個角色。提出者生成任務，求解者嘗試解決任務，兩者共享模型參數同步優化。
環境反饋機制：模型與環境（如代碼執行器）交互，環境驗證任務的可解性提供反饋。提出的任務獲得可學習性獎勵（基於任務的難度和模型的解答成功率），求解的任務獲得解答獎勵（基於解答的正確性）。
強化學習優化：用強化學習算法（如TRR++）優化模型參數，結合可學習性獎勵和解答獎勵，實現多任務下的自我進化學習。
推理模式支持：支持三種基本推理模式，演繹（Deduction）、溯因（Abduction）和歸納（Induction）。每種推理模式對應不同的任務類型，模型解決這些任務提升特定推理能力。
自博弈閉環：模型不斷提出新任務、求解任務，根據環境反饋更新策略，形成一個閉環的自博弈學習過程。閉環機制確保模型持續優化自身能力，無需外部數據支持。

Absolute Zero的項目地址

項目官網：https://andrewzh112.github.io/absolute-zero-reasoner/
GitHub倉庫：https://github.com/LeapLabTHU/Absolute-Zero-Reasoner
HuggingFace模型庫：https://huggingface.co/collections/andrewzh/absolute-zero-reasoner
arXiv技術論文：https://www.arxiv.org/pdf/2505.03335