MOCR – 小红书联合华中科技推出的多模态文档解析模型

AI工具集2小时前发布商道网

MOCR是什么

MOCR（Multimodal OCR）是华中科技大学与小红书hi lab联合推出的多模态文档解析模型，仅3B参数在文档解析和图形重建上实现突破性表现。模型打破传统OCR只识别文字的局限，将图表、公式、流程图等视觉元素解析为可编辑的SVG代码，实现”解析一切”的新范式。在开源模型中排名第一，图形重建能力更超越Gemini 3 Pro，为文档AI领域带来范式转变。

MOCR – 小红书联合华中科技推出的多模态文档解析模型

MOCR的主要功能

文档全要素解析：支持识别文字、表格、公式、图表等所有页面元素，输出结构化数据并保持阅读顺序。
图形转SVG代码：将统计图表、科学插图、UI布局等视觉内容重建为可编辑的SVG代码。
多格式输入支持：支持PDF、网页截图、扫描件、手机拍照等多种文档类型的解析。
通用视觉能力：模型具备视觉问答、视觉定位、图像描述等通用多模态理解能力。
双版本模型：提供均衡版dots.mocr和SVG优化版dots.mocr-svg，满足不同场景需求。

MOCR的关键信息和使用要求

开发团队：华中科技大学 × 小红书hi lab
模型参数：3B（1.2B视觉编码器 + 1.5B语言解码器）
模型版本：dots.mocr（均衡版）、dots.mocr-svg（SVG增强版）
核心创新：将图形解析为SVG代码，实现”解析一切”的新范式
性能表现：文档解析开源第一，图形重建超越Gemini 3 Pro
GPU：支持CUDA的NVIDIA显卡（推荐用于推理加速）
内存：根据输入分辨率调整，高分辨率文档需要更大显存

MOCR的核心优势

小参数大能力：仅3B参数，性能却超越众多大模型，文档解析开源第一，图形重建反超Gemini 3 Pro。
全要素解析：模型打破传统OCR只识文字的局限，将图表、公式、流程图等视觉元素统一解析为结构化代码。
图形可编辑化：将图形转换为SVG代码，实现无损重建和二次编辑，非简单裁剪为像素图片。
数据引擎创新：支持构建PDF、网页、SVG资产等多源数据管道，解决图形监督信号稀缺难题。
评估方法革新：模型提出OCR Arena框架，用强VLM作裁判进行可靠对比评估。

如何使用MOCR

环境准备：创建Python 3.12虚拟环境，克隆GitHub仓库并安装依赖。
下载模型：运行下载脚本获取模型权重，注意保存路径不要包含英文句点。
启动服务：使用vLLM部署模型服务，支持GPU加速推理。
文档解析：调用解析脚本处理图片或PDF文件，输出结构化结果。
图形转换：使用SVG专用脚本将图表转换为可编辑的SVG代码。
获取结果：获取生成包含边界框的JSON文件、Markdown文本和可视化标注图。

MOCR的项目地址

GitHub仓库：https://github.com/rednote-hilab/dots.mocr
arXiv技术论文：https://arxiv.org/pdf/2603.13032
在线体验Demo：https://dotsocr.xiaohongshu.com/

MOCR的应用场景

学术科研：解析论文PDF、提取公式、重建图表，将扫描论文转为可编辑LaTeX，复现科研图表数据。
金融财经：分析财报、提取数据报表、数字化图表，把PDF财报中的柱状图折线图转为Excel可用数据。
法律政务：审查合同、数字化卷宗、识别证件，结构化提取多页合同关键信息并保持格式完整。
教育出版：数字化教材、建设试题库、识别板书，将印刷教材中的复杂公式和图表转为电子资源。
医疗健康：解析病历、提取检验报告、标注医学影像，处理包含化学分子式和医学示意图的文档。

AI工具集 # MOCR

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

DuClaw – 百度智能云推出的零部署OpenClaw服务

DuClaw – 百度智能云推出的零部署OpenClaw服务

AI工具集 # DuClaw

2周前

710

ClawFeed – 开源AI新闻摘要工具，智能提炼结构化摘要

ClawFeed – 开源AI新闻摘要工具，智能提炼结构化摘要

AI工具集 # ClawFeed

1个月前

630

Lyria 3 Pro – 谷歌推出的 AI 音乐生成模型

Lyria 3 Pro – 谷歌推出的 AI 音乐生成模型

AI工具集 # Lyria

2天前

680

SHARP – 苹果开源的3D场景生成AI模型

SHARP – 苹果开源的3D场景生成AI模型

AI工具集 # SHARP

2个月前

710