DataClaw – 开源AI对话数据导出工具,一键转为标准训练集

DataClaw是什么

DataClaw 是开发者Peter O’Malle开源的AI对话数据导出工具。能自动抓取用户与Claude Code、Codex CLI、Gemini CLI等AI编程助手的完整对话历史,将其转换为结构化的JSONL训练数据集,支持一键发布到Hugging Face平台供社区使用。工具内置PII(个人身份信息)检测和敏感密钥过滤功能,在分享前自动清除密码、API密钥等隐私内容,确保数据安全。

DataClaw – 开源AI对话数据导出工具,一键转为标准训练集

DataClaw的主要功能

  • 对话历史自动抓取:支持从Claude Code、Codex CLI、Gemini CLI等主流AI编程助手导出完整对话记录,无需手动复制粘贴。
  • 隐私智能脱敏:内置PII(个人身份信息)检测引擎,自动识别并清除密码、API密钥、邮箱地址等敏感内容,保障数据安全。
  • 结构化格式转换:将原始对话转换为JSONL等标准训练数据格式,便于直接用于大语言模型微调。
  • 一键发布Hugging Face:支持将处理后的数据集直接推送到Hugging Face Hub,供开源社区下载使用。
  • 多平台数据整合:兼容多种AI编程工具的数据格式,实现跨平台对话数据的统一管理。
  • 开源可定制:基于Python开发,代码完全开源,用户可根据需求自定义数据处理规则和脱敏策略。

DataClaw的技术原理

  • 本地文件系统监控:通过监听Claude Code、Codex CLI等工具在本地生成的对话日志文件(如JSON或SQLite数据库),实时捕获用户与AI的完整交互记录。
  • PII检测与正则匹配:采用基于规则的正则表达式和关键词匹配算法,识别并过滤API密钥、密码、邮箱、身份证号等敏感信息,确保脱敏处理。
  • 对话结构化解析:将非结构化的自然语言对话解析为包含role(user/assistant)、content、timestamp等字段的标准JSONL格式,符合OpenAI微调数据规范。
  • Hugging Face API集成:通过Hugging Face Hub的Python SDK实现数据集的一键上传,自动处理认证、仓库创建和版本管理。
  • 增量同步机制:支持增量式数据抓取,仅导出新增对话内容,避免重复处理和全量覆盖。
  • 跨平台适配层:针对不同AI工具的差异性格式(如Claude的XML日志、Codex的JSON格式),内置适配器进行统一转换。

DataClaw的项目地址

  • GitHub仓库:https://github.com/peteromallet/dataclaw

DataClaw的应用场景

  • 开源模型微调:为开发者提供高质量的真实编程对话数据,用于微调CodeLlama、DeepSeek-Coder等开源代码模型,提升其在特定编程语言或框架上的表现。
  • AI编程助手研究:研究人员可用收集的对话数据分析用户与AI编程助手的交互模式,优化提示工程策略或评估模型性能。
  • 教育训练数据集构建:编程教育机构可将对话数据整理成教学案例库,用于培训学生如何有效与AI协作编程。
  • 竞品模型蒸馏:其他AI公司或研究团队可使用公开的对话数据作为蒸馏源,训练更小、更高效的编程专用模型。
  • 数据民主化运动:支持开源社区对抗大型AI公司的数据封闭策略,推动AI训练数据的开放共享与公平使用。
© 版权声明

相关文章