GLM-OCR – 智谱开源的轻量级多模态OCR模型

GLM-OCR是什么

GLM-OCR是智谱AI开源的轻量级多模态OCR模型，仅0.9B参数在OmniDocBench V1.5榜单以94.6分登顶SOTA。模型基于GLM-V架构，集成自研CogViT视觉编码器与轻量跨模态连接层，引入多Token预测损失和强化学习训练，在手写体、复杂表格、代码文档、印章、多语言混排等高难场景表现卓越。模型支持HTML表格、JSON结构化输出，推理速度达1.86页/秒，兼容vLLM/SGLang/Ollama部署，适用文档解析、票据提取、RAG等商业场景。

GLM-OCR的主要功能

通用文本识别：支持照片、截图、扫描件、PDF，识别印刷体、手写体、印章、代码等特殊文字。
复杂表格解析：精准理解合并单元格、多层表头等结构，直接输出HTML代码，无需二次制表。
信息结构化提取：从卡证、票据、表格中智能提取关键字段，输出标准JSON格式，对接业务系统。
公式与代码识别：支持准确识别数学公式、程序代码等专业技术内容。
多语言与混排支持：支持处理竖排文字、多语言混排等复杂版式。
批量文档处理：支持大批量文档识别，输出规整格式，为RAG提供高质量数据基础。

GLM-OCR的技术原理

整体架构：GLM-OCR采用经典的”编码器-解码器”架构设计，整体继承自GLM-V系列。架构由三大核心模块组成：视觉侧的CogViT视觉编码器（400M参数规模）、负责跨模态信息融合的轻量连接层，和后端的GLM-0.5B语言解码器。
视觉编码：视觉编码器采用智谱自研的CogViT架构，在数十亿级别的图文对数据上引入CLIP对比学习策略进行大规模预训练。使模型具备强大的文字检测与版面语义理解能力，能有效处理复杂文档中的多栏布局、图文混排、旋转文字等挑战。
跨模态融合：为实现视觉与语言信息的高效融合，GLM-OCR设计了轻量高效的连接层结构。融合SwiGLU激活机制，引入4倍下采样策略，能精准筛选并保留关键视觉Token，将高密度的视觉语义信息高效压缩传递至后端语言解码器，支撑高精度的OCR识别输出。
训练优化：GLM-OCR在训练策略上率先将多Token预测损失（MTP）引入OCR模型训练，通过同时预测多个未来Token增强损失信号密度，显著提升模型学习效率。通过持续且稳定的全任务强化学习训练，进一步优化模型在复杂文档场景下的整体识别精度与跨领域泛化能力。
推理流程：系统层面，GLM-OCR采用”版面分析→并行识别”的两阶段技术范式。基于PP-DocLayout-V3进行文档版面分析，精准定位文本、表格、图片等区域；并行执行OCR识别，最终在版式多样、结构复杂的文档场景下实现稳定、高质量且高效率的解析效果。