SearchClaw – 中国人民大学推出的 AI 深度研究智能体

AI工具集27分钟前发布 商道网
66 0 0

SearchClaw是什么

SearchClaw 是 RUC-NLPIR(中国人民大学信息检索实验室)推出的自托管式 AI 深度研究智能体,配备 Web 交互界面。用户提交问题后,系统自动执行多轮网络搜索、页面抓取、论文检索与内容综合,最终生成带引用链接的详实报告。项目基于 FastAPI 构建,通过”工具 + 钩子”的架构设计保障研究质量,支持多种 LLM 提供商与持久化记忆,适合科研人员、分析师进行可溯源的自动化调研。

SearchClaw – 中国人民大学推出的 AI 深度研究智能体

SearchClaw的主要功能

  • 自主多轮研究循环:自动迭代执行搜索、抓取、阅读、引用,直至答案达标。
  • 多源信息检索:集成网页(Google/Serper)、学术(Semantic Scholar/DBLP/arXiv)、新闻(NewsAPI/Google News RSS)及微信公众号文章搜索。
  • 浏览器深度集成:通过 Playwright/CDP 渲染 JavaScript 页面并支持登录态抓取。
  • 智能追问澄清:研究过程中可向用户提出跟进问题以明确需求。
  • 研究计划分解:自动将复杂查询拆解为可追踪的子任务并逐步执行。
  • 质量门禁系统:内置钩子检查引用数量、来源多样性及答案完整性,不达标则继续研究。
  • 上下文压缩管理:双阶段压缩机制确保长会话不超出上下文窗口限制。
  • 跨会话持久记忆:自动保存并复用过往研究中的高质量来源、用户偏好与关键事实。

如何使用SearchClaw

  • 克隆仓库并安装依赖git clone https://github.com/RUC-NLPIR/SearchClaw.git && pip install -e .
  • 配置 API 密钥(LLM 与搜索源):设置 ANTHROPIC_API_KEY 或 OPENAI_API_KEY,推荐配置 SERPER_API_KEY 与 JINA_API_KEY 提升搜索质量。
  • 启动服务python -m src.main,浏览器访问 http://localhost:8000
  • 返回结果:输入研究问题,系统在 WebSocket 中实时流式返回带引用的综合报告。

SearchClaw的关键信息和使用要求

  • 环境要求:Python 3.11+,支持 Linux/macOS/Windows。
  • LLM 支持:通过 litellm 路由,兼容 Anthropic、OpenAI、Google Gemini、xAI、阿里通义、字节豆包、智谱 GLM、月之暗面等主流模型及本地 vLLM/Ollama 端点。
  • 搜索依赖:无 Serper 时自动降级至 DuckDuckGo 抓取,无 Jina 时回退到直接 HTTP 请求。
  • 可选浏览器:执行 pip install -e '.[browser]' && playwright install chromium 启用 JS 渲染支持。
  • 安全配置:远程部署时通过 SEARCH_CLAW_API_KEY 设置访问密码,防止未授权使用。
  • 持久存储:记忆与会话数据默认以 JSON 格式存储于本地文件系统。

SearchClaw的核心优势

  • 可验证的引用质量:强制要求多源引用并通过门禁检查,降低幻觉风险,优于单轮 RAG 的碎片信息拼接。
  • 自主规划与纠错:自动拆解复杂任务并在质量不达标时自驱补充研究,无需人工干预迭代过程。
  • 多源异构整合:唯一同时覆盖英文学术库、中文微信公众号及实时新闻的开源研究工具,适应跨境调研场景。
  • 完全自托管:数据不出本地,支持本地 LLM 端点,满足敏感研究数据的隐私合规要求。

SearchClaw的项目地址

  • GitHub仓库:https://github.com/RUC-NLPIR/SearchClaw

SearchClaw的应用场景

  • 学术文献综述:工具能自动检索 Semantic Scholar 与 arXiv 论文,生成带引用的领域进展摘要。
  • 市场竞品监测:自动追踪新闻源与微信公众号,分析竞品动态并输出带时间戳的参考依据。
  • 政策与法规研究:工具能抓取政府网站与智库报告,整合多语言来源形成合规分析报告。
  • 技术选型评估:可以搜索技术博客、GitHub 讨论与学术论文,对比不同框架的社区评价与性能数据。
© 版权声明

相关文章