DataClaw – 开源AI对话数据导出工具，一键转为标准训练集

AI工具集5个月前发布商道网

DataClaw是什么

DataClaw 是开发者Peter O’Malle开源的AI对话数据导出工具。能自动抓取用户与Claude Code、Codex CLI、Gemini CLI等AI编程助手的完整对话历史，将其转换为结构化的JSONL训练数据集，支持一键发布到Hugging Face平台供社区使用。工具内置PII（个人身份信息）检测和敏感密钥过滤功能，在分享前自动清除密码、API密钥等隐私内容，确保数据安全。

DataClaw – 开源AI对话数据导出工具，一键转为标准训练集

DataClaw的主要功能

对话历史自动抓取：支持从Claude Code、Codex CLI、Gemini CLI等主流AI编程助手导出完整对话记录，无需手动复制粘贴。
隐私智能脱敏：内置PII（个人身份信息）检测引擎，自动识别并清除密码、API密钥、邮箱地址等敏感内容，保障数据安全。
结构化格式转换：将原始对话转换为JSONL等标准训练数据格式，便于直接用于大语言模型微调。
一键发布Hugging Face：支持将处理后的数据集直接推送到Hugging Face Hub，供开源社区下载使用。
多平台数据整合：兼容多种AI编程工具的数据格式，实现跨平台对话数据的统一管理。
开源可定制：基于Python开发，代码完全开源，用户可根据需求自定义数据处理规则和脱敏策略。

DataClaw的技术原理

本地文件系统监控：通过监听Claude Code、Codex CLI等工具在本地生成的对话日志文件（如JSON或SQLite数据库），实时捕获用户与AI的完整交互记录。
PII检测与正则匹配：采用基于规则的正则表达式和关键词匹配算法，识别并过滤API密钥、密码、邮箱、身份证号等敏感信息，确保脱敏处理。
对话结构化解析：将非结构化的自然语言对话解析为包含role（user/assistant）、content、timestamp等字段的标准JSONL格式，符合OpenAI微调数据规范。
Hugging Face API集成：通过Hugging Face Hub的Python SDK实现数据集的一键上传，自动处理认证、仓库创建和版本管理。
增量同步机制：支持增量式数据抓取，仅导出新增对话内容，避免重复处理和全量覆盖。
跨平台适配层：针对不同AI工具的差异性格式（如Claude的XML日志、Codex的JSON格式），内置适配器进行统一转换。

DataClaw的项目地址

GitHub仓库：https://github.com/peteromallet/dataclaw

DataClaw的应用场景

开源模型微调：为开发者提供高质量的真实编程对话数据，用于微调CodeLlama、DeepSeek-Coder等开源代码模型，提升其在特定编程语言或框架上的表现。
AI编程助手研究：研究人员可用收集的对话数据分析用户与AI编程助手的交互模式，优化提示工程策略或评估模型性能。
教育训练数据集构建：编程教育机构可将对话数据整理成教学案例库，用于培训学生如何有效与AI协作编程。
竞品模型蒸馏：其他AI公司或研究团队可使用公开的对话数据作为蒸馏源，训练更小、更高效的编程专用模型。
数据民主化运动：支持开源社区对抗大型AI公司的数据封闭策略，推动AI训练数据的开放共享与公平使用。

AI工具集 # DataClaw

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

Playwriter – 开源AI浏览器自动化工具，人机协作无缝切换

Playwriter – 开源AI浏览器自动化工具，人机协作无缝切换

AI工具集 # Playwriter

5个月前

640

Vidu Agent – Vidu推出的AI视频创作智能体

Vidu Agent – Vidu推出的AI视频创作智能体

AI工具集 # Vidu Agent

5个月前

960

Perplexity Computer – Perplexity推出的通用数字员工

Perplexity Computer – Perplexity推出的通用数字员工

5个月前

730

Dangcingai – AI自动配音工具，支持生成多语言配音视频

Dangcingai – AI自动配音工具，支持生成多语言配音视频

4个月前

670