SearchClaw是什麼
SearchClaw 是 RUC-NLPIR(中國人民大學信息檢索實驗室)推出的自託管式 AI 深度研究智能體,配備 Web 交互界面。用戶提交問題後,系統自動執行多輪網絡搜索、頁面抓取、論文檢索與內容綜合,最終生成帶引用鏈接的詳實報告。項目基於 FastAPI 構建,通過”工具 + 鉤子”的架構設計保障研究質量,支持多種 LLM 提供商與持久化記憶,適合科研人員、分析師進行可溯源的自動化調研。

SearchClaw的主要功能
-
自主多輪研究循環:自動迭代執行搜索、抓取、閱讀、引用,直至答案達標。
-
多源信息檢索:集成網頁(Google/Serper)、學術(Semantic Scholar/DBLP/arXiv)、新聞(NewsAPI/Google News RSS)及微信公衆號文章搜索。
-
瀏覽器深度集成:通過 Playwright/CDP 渲染 JavaScript 頁面並支持登錄態抓取。
-
智能追問澄清:研究過程中可向用戶提出跟進問題以明確需求。
-
研究計劃分解:自動將複雜查詢拆解爲可追蹤的子任務並逐步執行。
-
質量門禁系統:內置鉤子檢查引用數量、來源多樣性及答案完整性,不達標則繼續研究。
-
上下文壓縮管理:雙階段壓縮機制確保長會話不超出上下文窗口限制。
-
跨會話持久記憶:自動保存並複用過往研究中的高質量來源、用戶偏好與關鍵事實。
如何使用SearchClaw
-
克隆倉庫並安裝依賴:
git clone https://github.com/RUC-NLPIR/SearchClaw.git && pip install -e . -
配置 API 密鑰(LLM 與搜索源):設置
ANTHROPIC_API_KEY或OPENAI_API_KEY,推薦配置SERPER_API_KEY與JINA_API_KEY提升搜索質量。 -
啓動服務:
python -m src.main,瀏覽器訪問http://localhost:8000。 -
返回結果:輸入研究問題,系統在 WebSocket 中實時流式返迴帶引用的綜合報告。
SearchClaw的關鍵信息和使用要求
-
環境要求:Python 3.11+,支持 Linux/macOS/Windows。
-
LLM 支持:通過 litellm 路由,兼容 Anthropic、OpenAI、Google Gemini、xAI、阿里通義、字節豆包、智譜 GLM、月之暗面等主流模型及本地 vLLM/Ollama 端點。
-
搜索依賴:無 Serper 時自動降級至 DuckDuckGo 抓取,無 Jina 時回退到直接 HTTP 請求。
-
可選瀏覽器:執行
pip install -e '.[browser]' && playwright install chromium啓用 JS 渲染支持。 -
安全配置:遠程部署時通過
SEARCH_CLAW_API_KEY設置訪問密碼,防止未授權使用。 -
持久存儲:記憶與會話數據默認以 JSON 格式存儲於本地文件系統。
SearchClaw的核心優勢
-
可驗證的引用質量:強制要求多源引用並通過門禁檢查,降低幻覺風險,優於單輪 RAG 的碎片信息拼接。
-
自主規劃與糾錯:自動拆解複雜任務並在質量不達標時自驅補充研究,無需人工干預迭代過程。
-
多源異構整合:唯一同時覆蓋英文學術庫、中文微信公衆號及實時新聞的開源研究工具,適應跨境調研場景。
-
完全自託管:數據不出本地,支持本地 LLM 端點,滿足敏感研究數據的隱私合規要求。
SearchClaw的項目地址
- GitHub倉庫:https://github.com/RUC-NLPIR/SearchClaw
SearchClaw的同類競品對比
| 對比維度 | SearchClaw | Perplexity | PaperClaw |
|---|---|---|---|
| 部署方式 | 完全自託管,本地 FastAPI 服務器 | 雲端 SaaS 服務,閉源商業產品 | 自託管,面向科研自動化 |
| 研究深度 | 多輪自主循環,支持計劃分解與質量門禁 | 單輪或淺層多輪搜索,直接生成答案 | 端到端論文復現與實驗自動化 |
| 來源覆蓋 | 網頁+學術+新聞+微信公衆號,支持 CDP 登錄抓取 | 網頁+學術+新聞,無中文社媒深度覆蓋 | 專注學術文獻與代碼倉庫 |
| 引用機制 | 強制多源引用,鉤子檢查數量與多樣性 | 自動生成引用,但無強制校驗機制 | 生成實驗報告與代碼引用 |
| 隱私控制 | 數據完全本地,支持本地 LLM | 數據上傳至雲端,企業版提供增強隱私 | 數據本地處理,專注研究復現 |
| 交互模式 | WebSocket 實時流式,支持中途追問 | 對話式實時搜索,無中途確認環節 | 自動化執行,人工干預點較少 |
SearchClaw的應用場景
-
學術文獻綜述:工具能自動檢索 Semantic Scholar 與 arXiv 論文,生成帶引用的領域進展摘要。
-
市場競品監測:自動追蹤新聞源與微信公衆號,分析競品動態並輸出帶時間戳的參考依據。
-
政策與法規研究:工具能抓取政府網站與智庫報告,整合多語言來源形成合規分析報告。
-
技術選型評估:可以搜索技術博客、GitHub 討論與學術論文,對比不同框架的社區評價與性能數據。
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...