MOCR – 小红书联合华中科技推出的多模态文档解析模型

AI工具集2小时前发布 商道网
65 0 0

MOCR是什么

MOCR(Multimodal OCR)是华中科技大学与小红书hi lab联合推出的多模态文档解析模型,仅3B参数在文档解析和图形重建上实现突破性表现。模型打破传统OCR只识别文字的局限,将图表、公式、流程图等视觉元素解析为可编辑的SVG代码,实现”解析一切”的新范式。在开源模型中排名第一,图形重建能力更超越Gemini 3 Pro,为文档AI领域带来范式转变。

MOCR – 小红书联合华中科技推出的多模态文档解析模型

MOCR的主要功能

  • 文档全要素解析:支持识别文字、表格、公式、图表等所有页面元素,输出结构化数据并保持阅读顺序。
  • 图形转SVG代码:将统计图表、科学插图、UI布局等视觉内容重建为可编辑的SVG代码。
  • 多格式输入支持:支持PDF、网页截图、扫描件、手机拍照等多种文档类型的解析。
  • 通用视觉能力:模型具备视觉问答、视觉定位、图像描述等通用多模态理解能力。
  • 双版本模型:提供均衡版dots.mocr和SVG优化版dots.mocr-svg,满足不同场景需求。

MOCR的关键信息和使用要求

  • 开发团队:华中科技大学 × 小红书hi lab
  • 模型参数:3B(1.2B视觉编码器 + 1.5B语言解码器)
  • 模型版本:dots.mocr(均衡版)、dots.mocr-svg(SVG增强版)
  • 核心创新:将图形解析为SVG代码,实现”解析一切”的新范式
  • 性能表现:文档解析开源第一,图形重建超越Gemini 3 Pro
  • GPU:支持CUDA的NVIDIA显卡(推荐用于推理加速)
  • 内存:根据输入分辨率调整,高分辨率文档需要更大显存

MOCR的核心优势

  • 小参数大能力:仅3B参数,性能却超越众多大模型,文档解析开源第一,图形重建反超Gemini 3 Pro。
  • 全要素解析:模型打破传统OCR只识文字的局限,将图表、公式、流程图等视觉元素统一解析为结构化代码。
  • 图形可编辑化:将图形转换为SVG代码,实现无损重建和二次编辑,非简单裁剪为像素图片。
  • 数据引擎创新:支持构建PDF、网页、SVG资产等多源数据管道,解决图形监督信号稀缺难题。
  • 评估方法革新:模型提出OCR Arena框架,用强VLM作裁判进行可靠对比评估。

如何使用MOCR

  • 环境准备:创建Python 3.12虚拟环境,克隆GitHub仓库并安装依赖。
  • 下载模型:运行下载脚本获取模型权重,注意保存路径不要包含英文句点。
  • 启动服务:使用vLLM部署模型服务,支持GPU加速推理。
  • 文档解析:调用解析脚本处理图片或PDF文件,输出结构化结果。
  • 图形转换:使用SVG专用脚本将图表转换为可编辑的SVG代码。
  • 获取结果:获取生成包含边界框的JSON文件、Markdown文本和可视化标注图。

MOCR的项目地址

  • GitHub仓库:https://github.com/rednote-hilab/dots.mocr
  • arXiv技术论文:https://arxiv.org/pdf/2603.13032
  • 在线体验Demo:https://dotsocr.xiaohongshu.com/

MOCR的应用场景

  • 学术科研:解析论文PDF、提取公式、重建图表,将扫描论文转为可编辑LaTeX,复现科研图表数据。
  • 金融财经:分析财报、提取数据报表、数字化图表,把PDF财报中的柱状图折线图转为Excel可用数据。
  • 法律政务:审查合同、数字化卷宗、识别证件,结构化提取多页合同关键信息并保持格式完整。
  • 教育出版:数字化教材、建设试题库、识别板书,将印刷教材中的复杂公式和图表转为电子资源。
  • 医疗健康:解析病历、提取检验报告、标注医学影像,处理包含化学分子式和医学示意图的文档。
© 版权声明

相关文章