微信扫码
添加专属顾问
我要投稿
开源OCR新标杆!GLM-OCR以轻量0.9B参数实现多项SOTA,文档解析能力超强。 核心内容: 1. GLM-OCR在权威榜单OmniDocBench V1.5中以94.6分夺冠 2. 专为复杂表格、代码文档等业务场景优化 3. 提供完善SDK和多种部署方案,本地部署教程详解
在 AI Chat 中,OCR 的精度对 AI 问答的质量,有着重要的影响。近期,智谱发布了专为复杂文档理解而设计的多模态 OCR 模型 —— GLM-OCR。
该模型实现了 “小尺寸,高精度”。模型的参数量仅有 0.9B,但在权威 OmniDocBench V1.5 文档解析榜单中,以 94.6 分取得 SOTA。在文本、公式、表格和信息抽取方面的表现也优于多款 OCR 模型。
GLM-OCR 官方文档已经详细介绍了在 vLLM/SGLang 上如何部署 GLM-OCR,接下来我将介绍在 macOS 下,使用 mlx-vlm 在本地部署 GLM-OCR。
1.配置虚拟环境
python3 -m venv .venv
source .venv/bin/activate
pip install mlx-vlm
hf download mlx-community/GLM-OCR-8bit --local-dir ./models/GLM-OCR-8bit
hf download mlx-community/GLM-OCR-bf16 --local-dir ./models/GLM-OCR-bf16
4.1 文本识别
代码:
from mlx_vlm import load, generate
from mlx_vlm.prompt_utils import apply_chat_template
model, processor = load("models/GLM-OCR-bf16")
prompt = "Text Recognition:"
formatted_prompt = apply_chat_template(
processor, model.config, prompt, num_images=1)
result = generate(
model,
processor,
formatted_prompt,
image=["./images/codeblock.png"],
max_tokens=2048,
verbose=True,
)
输入图片:
结果:
4.2 公式识别
代码:
from mlx_vlm import load, generate
from mlx_vlm.prompt_utils import apply_chat_template
model, processor = load("models/GLM-OCR-bf16")
prompt = "Formula Recognition:"
formatted_prompt = apply_chat_template(
processor, model.config, prompt, num_images=1)
result = generate(
model,
processor,
formatted_prompt,
image=["./images/formula.png"],
max_tokens=2048,
verbose=True,
)
输入图片:
结果:
4.3 表格识别
代码:
from mlx_vlm import load, generate
from mlx_vlm.prompt_utils import apply_chat_template
model, processor = load("models/GLM-OCR-bf16")
prompt = "Table Recognition:"
formatted_prompt = apply_chat_template(
processor, model.config, prompt, num_images=1)
result = generate(
model,
processor,
formatted_prompt,
image=["./images/complex-table.png"],
max_tokens=2048,
verbose=True,
)
输入图片:
结果:
4.4 手写识别
代码:
from mlx_vlm import load, generate
from mlx_vlm.prompt_utils import apply_chat_template
model, processor = load("models/GLM-OCR-bf16")
prompt = "Text Recognition:"
formatted_prompt = apply_chat_template(
processor, model.config, prompt, num_images=1)
result = generate(
model,
processor,
formatted_prompt,
image=["./images/handwriting.png"],
max_tokens=2048,
verbose=True,
)
输入图片:
结果:
4.5 Bad Cases
在测试表格识别的时候,也出现失败的案例。比如,对以下图片进行表格识别,就出现丢失的问题。该图片中的表格,没有包含完整的网格线。
输入图片:
结果:
同一张图片,使用 PaddleOCR 提供的 PaddleOCR-VL-1.5 在线环境进行测试,识别效果如下:
同一张图片,使用 MinerU 提供的 MinerU VLM 在线环境进行测试,识别效果如下:
经过对 GLM-OCR 的能力进行多方面测试,虽然也有出现识别失败的情形,总体来说 GLM-OCR 的综合能力还是挺强的,本地的推理速度也挺快。如果 GLM-OCR 不能满足你的需求,你可以尝试 PaddleOCR-VL-1.5、MinerU2.5 或 DeepSeek OCR2 等模型。
Vidpai 已经接入 Qwen3-TTS,将随新版本一起发布,敬请期待
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-04-21
Kimi K2.6 开源了!还附送了 300 个 Agent 员工?
2026-04-21
Kimi K2.6 发布并开源,全面精进代码和 Agent 集群能力
2026-04-20
借助 Gemma 4,将业界领先的 Agent Skills 引入端侧
2026-04-18
Ollama 本地部署 Gemma 4 完全指南
2026-04-18
Google Gemini CLI 完整使用指南
2026-04-18
ollama v0.21.0 最新更新:Hermes Agent 与 Ollama 联动、Copilot CLI 集成、launch 配置优化、Gemma4 与 MLX 多项性能修复全解析
2026-04-18
Hermes Agent v0.9.0 全面解析:AI 助手的终极进化
2026-04-17
Qwen3.6-35B-A3B模型,正式开源!
2026-01-30
2026-01-27
2026-01-29
2026-01-27
2026-01-28
2026-01-26
2026-01-23
2026-03-30
2026-04-03
2026-01-26
2026-04-21
2026-04-15
2026-04-09
2026-04-01
2026-03-17
2026-03-13
2026-03-02
2026-02-05