微信扫码
添加专属顾问
我要投稿
开源OCR新标杆!GLM-OCR以轻量0.9B参数实现多项SOTA,文档解析能力超强。 核心内容: 1. GLM-OCR在权威榜单OmniDocBench V1.5中以94.6分夺冠 2. 专为复杂表格、代码文档等业务场景优化 3. 提供完善SDK和多种部署方案,本地部署教程详解
在 AI Chat 中,OCR 的精度对 AI 问答的质量,有着重要的影响。近期,智谱发布了专为复杂文档理解而设计的多模态 OCR 模型 —— GLM-OCR。
该模型实现了 “小尺寸,高精度”。模型的参数量仅有 0.9B,但在权威 OmniDocBench V1.5 文档解析榜单中,以 94.6 分取得 SOTA。在文本、公式、表格和信息抽取方面的表现也优于多款 OCR 模型。
GLM-OCR 官方文档已经详细介绍了在 vLLM/SGLang 上如何部署 GLM-OCR,接下来我将介绍在 macOS 下,使用 mlx-vlm 在本地部署 GLM-OCR。
1.配置虚拟环境
python3 -m venv .venv
source .venv/bin/activate
pip install mlx-vlm
hf download mlx-community/GLM-OCR-8bit --local-dir ./models/GLM-OCR-8bit
hf download mlx-community/GLM-OCR-bf16 --local-dir ./models/GLM-OCR-bf16
4.1 文本识别
代码:
from mlx_vlm import load, generate
from mlx_vlm.prompt_utils import apply_chat_template
model, processor = load("models/GLM-OCR-bf16")
prompt = "Text Recognition:"
formatted_prompt = apply_chat_template(
processor, model.config, prompt, num_images=1)
result = generate(
model,
processor,
formatted_prompt,
image=["./images/codeblock.png"],
max_tokens=2048,
verbose=True,
)
输入图片:
结果:
4.2 公式识别
代码:
from mlx_vlm import load, generate
from mlx_vlm.prompt_utils import apply_chat_template
model, processor = load("models/GLM-OCR-bf16")
prompt = "Formula Recognition:"
formatted_prompt = apply_chat_template(
processor, model.config, prompt, num_images=1)
result = generate(
model,
processor,
formatted_prompt,
image=["./images/formula.png"],
max_tokens=2048,
verbose=True,
)
输入图片:
结果:
4.3 表格识别
代码:
from mlx_vlm import load, generate
from mlx_vlm.prompt_utils import apply_chat_template
model, processor = load("models/GLM-OCR-bf16")
prompt = "Table Recognition:"
formatted_prompt = apply_chat_template(
processor, model.config, prompt, num_images=1)
result = generate(
model,
processor,
formatted_prompt,
image=["./images/complex-table.png"],
max_tokens=2048,
verbose=True,
)
输入图片:
结果:
4.4 手写识别
代码:
from mlx_vlm import load, generate
from mlx_vlm.prompt_utils import apply_chat_template
model, processor = load("models/GLM-OCR-bf16")
prompt = "Text Recognition:"
formatted_prompt = apply_chat_template(
processor, model.config, prompt, num_images=1)
result = generate(
model,
processor,
formatted_prompt,
image=["./images/handwriting.png"],
max_tokens=2048,
verbose=True,
)
输入图片:
结果:
4.5 Bad Cases
在测试表格识别的时候,也出现失败的案例。比如,对以下图片进行表格识别,就出现丢失的问题。该图片中的表格,没有包含完整的网格线。
输入图片:
结果:
同一张图片,使用 PaddleOCR 提供的 PaddleOCR-VL-1.5 在线环境进行测试,识别效果如下:
同一张图片,使用 MinerU 提供的 MinerU VLM 在线环境进行测试,识别效果如下:
经过对 GLM-OCR 的能力进行多方面测试,虽然也有出现识别失败的情形,总体来说 GLM-OCR 的综合能力还是挺强的,本地的推理速度也挺快。如果 GLM-OCR 不能满足你的需求,你可以尝试 PaddleOCR-VL-1.5、MinerU2.5 或 DeepSeek OCR2 等模型。
Vidpai 已经接入 Qwen3-TTS,将随新版本一起发布,敬请期待
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-06-17
GLM-5.2 技术解读:智谱百万上下文的新一代旗舰模型
2026-06-16
26.1%的AI编程技能有漏洞:NVIDIA开源 SkillSpector 能扫出什么?
2026-06-12
当 AI Coding Agent 成为基础设施:我们为什么要开源 LoongSuite Pilot
2026-06-09
CPU 跑得比 Whisper GPU还快的开源语音识别,本地部署
2026-06-09
别再问我什么是爱马仕!
2026-06-09
Open Design:开源界的 Claude Design 替代品,61.7K Star,21+ Agent 都能跑,本地第一
2026-06-08
我开源了 PPT-Library:让历史 PPT 变成 AI 可复用资产
2026-06-08
knowledge-work-plugins:Anthropic 官方开源的知识工作插件集,19,000+Star
2026-03-30
2026-04-09
2026-04-03
2026-03-23
2026-04-01
2026-03-31
2026-03-30
2026-04-18
2026-04-18
2026-03-31
2026-06-16
2026-05-30
2026-05-16
2026-04-22
2026-04-21
2026-04-15
2026-04-09
2026-04-01