GenericAgent – A3 Lab 推出的通用自進化 LLM Agent 系統

AI工具6小時前更新 AI管理員
0 0

GenericAgent是什麼

GenericAgent(GA)是 A3 Lab 推出的通用自進化 LLM Agent 系統,以”上下文信息密度最大化”爲核心設計原則。GenericAgent通過 9 個原子工具、30k 上下文窗口和四層分層記憶架構,在 Lifelong AgentBench 上實現 100% 任務完成率,token 消耗爲 Claude Code 的 27.7% 和 OpenClaw 的 15.5%。GenericAgent支持經驗沉澱爲可複用 SOP 與可執行代碼,具備跨任務自進化能力,代碼量僅 3300 行,以自託管 CLI 形式運行。

GenericAgent – A3 Lab 推出的通用自進化 LLM Agent 系統

GenericAgent的主要功能

  • 極簡原子工具集:提供 file_read、file_patch、file_write、code_run、web_scan、web_execute_js、update_working_checkpoint、start_long_term_update、ask_user 共 9 個原子工具,覆蓋文件操作、代碼執行、網頁交互、記憶管理與人工介入五大能力域。
  • 分層按需記憶:採用 L0 元規則、L1 索引層、L2 事實層、L3 SOP 層、L4 原始歸檔層的四級架構,用 L1 常駐上下文,深層記憶按需顯式讀取。
  • 自進化能力:將驗證後的執行軌跡沉澱爲可複用 SOP 文件與可執行腳本,遵循”No Execution, No Memory”原則,實現跨任務經驗累積與能力進化。
  • 上下文壓縮管理:通過工具輸出截斷、標籤級壓縮、消息驅逐與工作記憶錨點四階段策略,將活躍上下文穩在 30k token 以內。
  • 雙模式執行:支持 Interact 模式處理用戶主動任務,以及 Reflect 模式作爲 Watchdog 自動監測環境變化並觸發任務。

GenericAgent的技術原理

  • 上下文信息密度最大化:將上下文質量拆解爲完整性(Completeness)、簡潔性(Conciseness)與自然性(Naturalness)三維度,通過極簡工具、分層記憶、自進化與壓縮機制,在有限窗口內最大化決策相關信息比例。
  • 工具最小化與組合泛化:基於原子性(不可再拆)與組合泛化(複雜行爲通過序列組合實現)兩個條件,保留 9 個原子工具,避免工具膨脹帶來的 prompt 開銷與策略歧義。
  • 分層記憶架構:L1 索引層僅記錄”某類知識存在”而非內容,由 LLM 充當解碼器按需取回;引入 meta-memory 元記憶層定義全局規則與更新邊界;採用觸發式提交而非即時寫入,經驗經驗證後才增量寫入長期記憶。
  • 自進化管道:工具層與知識層分離,新任務學習不干擾既有技能;在里程碑事件觸發整合階段,保留經成功工具執行驗證的內容;引入三級失敗升級機制(局部修復→策略切換→人工介入)防止錯誤循環。
  • 四階段上下文截斷:階段一按字符閾值裁剪工具返回值;階段二每約 5 輪替換重複工作記憶塊並截斷標籤內容;階段三按 FIFO 驅逐最舊消息;階段四附加工作記憶錨點作爲長期記憶唯一來源。

如何使用GenericAgent

  • 環境準備:確保本地具備 Python 運行環境,準備好兼容的 LLM API Key(支持 Claude、GPT、Gemini 等後端)。
  • 獲取代碼:通過論文發佈渠道(arXiv:2604.17091)獲取約 3300 行核心源碼與部署指引。
  • 配置安裝:在本地完成依賴安裝與 LLM 後端配置,設定 30k token 的上下文預算與字符預算閾值。
  • 啓動運行:以自託管 CLI 形式啓動 GA,進入 Interact 模式可直接輸入任務指令,或配置 Reflect 模式的觸發腳本實現自動監測。
  • 任務執行:Agent 基於當前任務與相關記憶構建執行上下文,生成工具調用或輸出,通過結構化反饋更新系統狀態。
  • 經驗沉澱:任務完成後,系統自動將驗證後的執行軌跡壓縮並歸檔至 L4,經觸發整合後沉澱爲 L2/L3 長期記憶,供後續任務複用。

GenericAgent的關鍵信息和使用要求

  • 開發團隊:由 A3 Lab(Advantage AI Agent Lab,深圳 Aquaintelling 科技與復旦大學聯合研究團隊)開發。
  • 開源形態:核心代碼約 3300 行,中央 Agent Loop 僅 92 行,以自託管 CLI 程序形式部署,命令行爲原生執行界面。
  • 模型兼容:模型無關架構,支持 Claude、GPT、Gemini 等主流 LLM 後端,可替換而不影響執行邏輯與工具接口。
  • 上下文預算:默認將活躍上下文控制在 30k token 以內,採用字符域啓發式(α≈3 chars/token)進行預算管理。
  • 執行邊界:單會話默認 30 輪執行上限,支持通過子 Agent 派發實現多進程隔離與長程任務拆分。
  • 使用門檻:需配置 LLM API Key,具備本地計算環境運行權限,適合有技術背景的用戶自託管部署。

GenericAgent的核心優勢

  • 極致 Token 效率:在 Lifelong AgentBench 上用 222k 輸入 token 實現 100% 完成率,較 Claude Code 降低 72.3%,較 OpenClaw 降低 84.5%。
  • 持續自進化:9 輪重複任務後 token 消耗下降 89.6%,LLM 調用從 32 次收斂至 5 次,實現”冷啓動-快速收斂”的複利效應。
  • 極簡架構:3300 行核心代碼 vs OpenClaw 的 53 萬行,極簡設計使 Agent 具備讀懂並修改自身架構的潛力。
  • 高密度記憶:裝入 20 個技能後完整 prompt 僅 2298 token,較 Claude Code(22821)、Codex(23932)、OpenClaw(43321)降低一個數量級。
  • 強網頁能力:在 WebCanvas、BrowseComp-ZH、Custom Tasks 上得分均超 OpenClaw,token 消耗僅爲其 1/4-1/3。

GenericAgent的項目地址

  • GitHub倉庫:https://github.com/lsdefine/GenericAgent
  • arXiv技術論文:https://arxiv.org/pdf/2604.17091

GenericAgent的同類競品對比

維度 GenericAgent OpenClaw Claude Code
核心代碼量 ~3,300 行 ~530,000 行 未公開
原子工具數 9 個 18 個工具工廠 + 插件 53 個
上下文策略 30k 壓縮窗口 依賴 1M 擴展窗口 依賴長上下文
Lifelong AgentBench 完成率 100% 70% 75%
Lifelong AgentBench 輸入 Token 222k 1.43M 800k
自進化能力 經驗沉澱爲 SOP/代碼 無顯著收斂趨勢 無跨會話記憶
記憶架構 四層分層按需加載 檢索增強原始日誌 無持久記憶
網頁瀏覽 Token 效率 0.18M (WebCanvas) 0.71M 未評測

GenericAgent的應用場景

  • 長程軟件工程:GenericAgent支持 GitHub 倉庫研究、多文件代碼重構、複雜代碼編輯與調試等需要持續多輪交互的開發任務。
  • 自動化網頁瀏覽:GenericAgent能執行電商價格比較、上市公司報告提取、航班查詢導出、新聞訂閱流驗證等需要跨頁面操作的信息檢索任務。
  • 金融與商業分析:在 RealFin-benchmark 等場景中完成動態金融數據爬取、財務報表分析等數據密集型研究任務。
  • 政府與教育機構服務導航:完成政府服務網站導航、大學課程歸檔等需要跨頁面狀態轉移的複雜流程自動化。
  • 終身個人助手:作爲跨會話累積用戶偏好、工作習慣與外部服務知識的個人 Agent,持續進化以適配用戶長期需求。
© 版權聲明

相關文章

暫無評論

暫無評論...