Absolute Zero – 清華大學等機構推出的語言模型推理訓練方法

AI工具1年前 (2025)發佈新公告 AI管理員
0 0

Absolute Zero是什麼

Absolute Zero是清華大學 LeapLab 團隊聯合北京通用人工智能研究院 NLCo 實驗室和賓夕法尼亞州立大學推出的全新語言模型推理訓練方法。Absolute Zero基於模型自我提出任務自主解決,實現自我進化式學習,無需依賴人類標註數據或預定義任務。模型在提出任務時獲得可學習性獎勵,在解決問題時獲得解答獎勵,基於與環境交互不斷優化自身推理能力。Absolute Zero的核心在於推動推理模型從依賴人類監督向依賴環境監督轉變,讓模型用真實環境的反饋生成可驗證的任務提升性能。

Absolute Zero – 清華大學等機構推出的語言模型推理訓練方法

Absolute Zero的主要功能

  • 任務自主生成:模型自主提出具有可學習性的任務,任務不過於簡單,也不過於複雜,能爲模型提供有效的學習信號。
  • 任務自主解決:模型作爲求解者,嘗試解決自己提出或生成的任務,基於環境反饋驗證解答的正確性。
  • 推理能力提升:不斷提出和解決任務,模型的推理能力(如歸納、演繹、溯因等)得到持續增強。
  • 跨領域泛化:模型基於自我學習獲得的通用推理能力,遷移到新的任務和領域中。
  • 零數據訓練:完全不依賴人工標註數據或人類設計的任務,基於與環境的交互和反饋進行學習。

Absolute Zero的技術原理

  • 雙重角色模型:模型同時扮演任務提出者(Proposer)和任務求解者(Solver)兩個角色。提出者生成任務,求解者嘗試解決任務,兩者共享模型參數同步優化。
  • 環境反饋機制:模型與環境(如代碼執行器)交互,環境驗證任務的可解性提供反饋。提出的任務獲得可學習性獎勵(基於任務的難度和模型的解答成功率),求解的任務獲得解答獎勵(基於解答的正確性)。
  • 強化學習優化:用強化學習算法(如TRR++)優化模型參數,結合可學習性獎勵和解答獎勵,實現多任務下的自我進化學習。
  • 推理模式支持:支持三種基本推理模式,演繹(Deduction)、溯因(Abduction)和歸納(Induction)。每種推理模式對應不同的任務類型,模型解決這些任務提升特定推理能力。
  • 自博弈閉環:模型不斷提出新任務、求解任務,根據環境反饋更新策略,形成一個閉環的自博弈學習過程。閉環機制確保模型持續優化自身能力,無需外部數據支持。

Absolute Zero的項目地址

  • 項目官網:https://andrewzh112.github.io/absolute-zero-reasoner/
  • GitHub倉庫:https://github.com/LeapLabTHU/Absolute-Zero-Reasoner
  • HuggingFace模型庫:https://huggingface.co/collections/andrewzh/absolute-zero-reasoner
  • arXiv技術論文:https://www.arxiv.org/pdf/2505.03335

Absolute Zero的應用場景

  • 通用人工智能(AGI):推動模型自主學習和進化,逐步接近人類智能水平。
  • 代碼生成:自動生成高效代碼,解決複雜編程問題,提升開發效率。
  • 數學推理:提升模型在數學問題上的泛化能力,輔助數學教育和研究。
  • 自然語言處理(NLP):基於自我學習提升語言理解和生成能力,優化文本生成和問答系統。
  • 安全與倫理:研究AI自主進化中的行爲模式,確保系統安全性和倫理性。
© 版權聲明

相關文章

暫無評論

暫無評論...