微信扫码
添加专属顾问
我要投稿
阿里巴巴开源OCR新模型Logics-Parsing-v2,在两大评测基准上拿下第一,不仅能处理传统文档,还能解析乐谱、流程图等复杂内容。 核心内容: 1. Logics-Parsing-v2在两大评测基准上的突破性表现 2. 模型新增的Parsing-2.0能力,支持乐谱、流程图等复杂内容解析 3. 与传统OCR模型的对比及优势分析
今天这位选手是阿里巴巴团队开源的 Logics-Parsing-v2,在两个主流 Benchmark 上直接拿了第一:自家的 LogicsDocBench 拿了 82.16 分,公开的 OmniDocBench-v1.5 拿了 93.23 分,都是目前最高分。
市面上 OCR 模型一大把,Logics-Parsing-v2 凭啥能打?核心就两个字:全能。
传统 OCR 做的事情比较窄——识别文字、提取表格、处理公式。但实际文档远比这复杂:报纸那种多栏排版、跨页表格、竖排文字、手写内容……这些"脏活累活",大部分模型处理得都不太行。
Logics-Parsing-v2 在 v1 的基础上,除了把这些传统任务做得更好之外,还加了一个全新的能力维度,叫 Parsing-2.0——支持解析以下内容:
你没看错,它能看懂乐谱。这在 OCR 领域算是相当炸裂的能力了。
先看自家的 LogicsDocBench,这是阿里专门建的评测集,900 页 PDF,覆盖三大场景:
在这个 Benchmark 上,Logics-Parsing-v2 以 82.16 分的总分排名第一,远超其他选手。
再看公开的 OmniDocBench-v1.5,这个是业界公认的文档解析评测标准。Logics-Parsing-v2 拿了 93.23 分,同样是最高分——比 Gemini 2.5 Pro、GPT-5、豆包 1.6 这些闭源大模型都高。
说实话,开源 OCR 模型在 OmniDocBench 上打赢闭源大模型,这还是头一次。之前我测过不少 OCR 模型,闭源的 Mathpix、doc2x 一直是天花板,现在这个天花板被捅穿了。
在阿里自建的 Benchmark 上(v1 评测,数值越低越好,TEDS 越高越好):
几个值得关注的对比:
一个模型,端到端推理,不需要复杂的 pipeline,直接图片进、HTML 出。这个思路比传统的"检测+识别+后处理"流水线简洁太多了。
Logics-Parsing-v2 输出的不是纯文本,而是结构化 HTML。
每个内容块都带有:
对于 Parsing-2.0 的新场景,输出格式也做了定制:
这意味着你拿到输出之后,不需要再做什么后处理,直接就能用。
部署很简单:
conda create -n logics-parsing-v2 python=3.10
conda activate logics-parsing-v2
pip install -r requirements.txt
下载模型(HuggingFace 或 ModelScope 二选一):
# HuggingFace
pip install huggingface_hub
python download_model_v2.py -t huggingface
# ModelScope(国内更快)
pip install modelscope
python download_model_v2.py -t modelscope
推理一行搞定:
python3 inference_v2.py --image_path 你的图片路径 --output_path 输出目录 --model_path 模型路径
基于 Qwen3-VL 架构,对 GPU 有一定要求,但不算离谱。
说了这么多数据,看几个实际效果:
扭曲文档识别——拍照角度歪斜、纸张弯曲,照样准确识别:
STEM 文档——复杂的数学公式、物理图表,结构完整保留:
代码块识别——不只是识别文字,还能保留代码结构:
流程图解析——识别流程图并转成 Mermaid 代码,可以直接渲染:
乐谱识别——这个真的是第一次在 OCR 模型里见到:
Logics-Parsing-v2 给我的感觉就是:OCR 这个赛道,终于有一个模型把"全能"两个字做到位了。
如果你在做文档数字化、论文解析、知识库构建这类工作,这个模型真的值得试试。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-03-27
ollama v0.18.3 发布:VS Code 原生集成 + Agent 模式,本地 AI 开发体验全面革新
2026-03-23
128K Star 的开源 AI 编程 Agent,把 Anthropic 逼到发律师函了
2026-03-23
字节跳动开源 DeerFlow 2.0:下一代超级 Agent 引擎,一键搞定复杂工作流!
2026-03-23
企业中职能部门打工人如何选小龙虾
2026-03-23
MiniMax开源技能包:让AI写代码从大学生变资深工程师
2026-03-22
OxyGent:构建高效能多智能体系统的协作框架
2026-03-22
Ollama绝赞适配World Monitor:无需API密钥的全球情报看板,金融地缘一手掌握!`
2026-03-22
重磅!VS Code 正式“改名”!绿色版 VS Code 更强!
2026-01-30
2026-01-27
2026-01-12
2026-01-29
2026-01-27
2026-01-21
2026-01-28
2026-01-06
2026-01-26
2026-01-23
2026-03-17
2026-03-13
2026-03-02
2026-02-05
2026-01-28
2026-01-26
2026-01-21
2026-01-21