AtomThink是什麼
AtomThink是中山大學、香港科技大學、上海交通大學、香港大學及華爲諾亞方舟實驗室的研究人員共同推出的多模態數學推理框架。框架基於構建長鏈的思維(CoT)引導多模態大型語言模型(MLLMs)進行復雜推理,包含自動CoT註釋引擎、原子步驟微調和多種搜索策略。AtomThink基於提升原子步驟的質量,顯著增強MLLMs在解決數學問題時的推理能力,爲開發通用的慢思維模型提供新的方向。

AtomThink的主要功能
- CoT註釋引擎:自動生成高質量的鏈式思考(Chain-of-Thought,CoT)註釋,解決視覺數學數據質量不足的問題。
- 原子步驟微調策略:聯合優化多模態大型語言模型(MLLM)和策略獎勵模型(Policy Reward Model,PRM),實現逐步推理。
- 搜索策略:提供四種不同的搜索策略,與PRM結合使用,完成複雜的推理任務。
- 數據集構建:提出AtomMATH,一個大規模多模態數據集,包含長CoTs,用在訓練和評估模型。
- 原子能力評估:設計一種基於結果監督的原子能力評估方法,評估MLLMs在生成每種原子步驟時的能力。
AtomThink的技術原理
- 慢思考框架:AtomThink框架的核心思想是“慢思考”,基於逐步構建長CoT指導MLLMs進行復雜推理,不依賴於快速直接的預測。
- 動態提示策略:基於動態提示策略,驅動MLLMs迭代構建狀態推理路徑,每個路徑節點代表一個推理步驟,包括前一階段、當前狀態和可能的行動。
- 短CoT增強:基於LLMs將現有的短CoT註釋語義分割成多個離散步驟,專注於解決推理過程中的單個原子問題。
- 多模態數據集:從多個數據源採樣數學數據,基於動態提示和短CoT增強生成多步驟推理路徑,構建AtomMATH數據集。
- 原子步驟微調:在AtomMATH數據集上進行微調,讓MLLM能學習基於原子步驟的推理模式。
AtomThink的項目地址
- GitHub倉庫:https://github.com/Quinn777/AtomThink
- arXiv技術論文:https://arxiv.org/pdf/2411.11930
AtomThink的應用場景
- 教育輔助:作爲智能輔導系統,爲學生提供數學問題的逐步解答和解釋。
- 自動化測試與評估:在在線考試系統中自動生成和評分數學試題。
- 學術研究:輔助研究者探索和解決複雜的數學問題。
- 軟件開發:幫助開發者自動生成和調試數學計算相關的代碼。
- 智能客服和技術支持:在需要數學計算或推理的客服場景中提供支持。
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...