Agent Q – MultiOn公司推出的AI智能體，可以自我學習進化

AI工具1年前 (2024)發佈新公告 AI管理員

1 0 0

Agent Q 是什麼

Agent Q是MultiOn公司聯合斯坦福大學推出的自監督代理推理和搜索框架。Agent Q融合了引導式蒙特卡洛樹搜索（MCTS）、AI自我批評和直接偏好優化（DPO）等技術，使AI模型能通過迭代微調和基於人類反饋的強化學習進行自我改進。Agent Q在網頁導航和多步任務執行中展現出色性能，在OpenTable真實預訂任務中，將成功率從18.6%提升至95.4%，標誌着AI在自主性和複雜決策能力上的重大突破。

Agent Q 的主要功能

引導式搜索：使用蒙特卡洛樹搜索（MCTS）算法來指導在複雜環境中的探索和決策。
自我批評：具備自我評估的能力，在每一步提供反饋，幫助細化決策過程。
迭代微調：通過直接偏好優化（DPO）算法，Agent Q能夠從成功和不成功的軌跡中學習，不斷優化其策略。
多步推理任務：Agent Q能處理需要多步推理和決策的複雜任務，如在線預訂和電子商務平台操作。
零樣本學習：即使在沒有接受過特定任務訓練的情況下，Agent Q也能展現出高成功率的零樣本性能。

Agent Q 的技術原理

引導式蒙特卡洛樹搜索（MCTS）：Agent Q使用MCTS算法來指導代理在網頁環境中的探索。通過模擬可能的行動路徑，算法能夠評估和選擇最優的行動，從而平衡探索新信息和用已知信息。
AI自我批評：Agent Q在每個節點上生成可能的行動，並用基礎的大型語言模型（LLM）對這些行動進行自我評估，提供中間的反饋作爲中間獎勵來指導搜索步驟。
直接偏好優化（DPO）：一種離線強化學習方法，用於優化策略，使Agent Q能從成功的和不成功的軌跡中學習。DPO算法通過直接優化偏好對來微調模型，不依賴於傳統的獎勵信號。
策略迭代優化：Agent Q通過迭代微調，結合MCTS生成的數據和AI自我批評的反饋，構建偏好對，從而優化模型性能。

Agent Q – MultiOn公司推出的AI智能體，可以自我學習進化