我要投稿

PaddleOCR 3.7 正式接入ONNX Runtime，一个参数换后端，轻量部署新选择

发布日期：2026-06-12 20:48:18 浏览次数： 1522

作者：飞桨PaddlePaddle

微信搜一搜，关注“飞桨PaddlePaddle”

PaddleOCR 3.7.0 发布，根据你的环境，随意切换推理引擎！

2026年6月11日，PaddleOCR v3.7版本正式发布。该版本除了发布 PP-OCRv6重磅模型外，还持续推进3.x系列推理部署能力的升级。自 PaddleOCR3.5.0将推理层从OCR产线中解耦并抽象为独立的「推理引擎（Inference Engine）」以来，开发者只需通过一个engine参数即可使用不同的推理引擎。最新的PaddleOCR 3.7.0版本在这一方向上迈出了更坚实的一步：正式引入ONNX Runtime后端，并围绕多后端体验进行了系统性完善，为开发者带来更丰富的跨场景部署选择。

推理引擎是什么？为什么重要？

简单来说，推理引擎是模型真正运行时所在的执行层，负责模型权重加载、算子调度和在CPU、GPU等硬件上的实际计算。

过去，PaddleOCR默认采用飞桨静态图推理方案——该链路经长期优化，在性能上表现优异，但用户需要完整安装并依赖飞桨框架。

从3.5.0开始，我们将推理执行逻辑抽象为统一的engine参数：

from paddleocr import PaddleOCR# 默认使用飞桨静态图推理ocr = PaddleOCR()# 切换到 Transformers 后端ocr = PaddleOCR(engine='transformers')

OCR产线接口保持不变，仅需修改一个参数即可切换底层运行时。同一套 API、同一个产线，却能拥有更加灵活的部署选择。

迎来新成员：ONNX Runtime后端

在PaddleOCR3.7.0中，我们线正式引入ONNX Runtime（ORT）后端支持。

关于ONNX Runtime：ONNX Runtime是由微软主导推出的跨平台推理引擎，专为优化ONNX格式模型的运行效率而设计。通过支持多种硬件加速后端（Execution Providers），它能够充分发挥CPU和GPU等不同硬件的计算能力，实现高性能推理。

其中，ONNX（Open Neural Network Exchange）作为业内主流的模型交换标准，好比神经网络领域的“通用语言”，无论模型是使用PaddlePaddle、PyTorch还是TensorFlow训练，都可以转换成ONNX标准格式，实现“一次转换，随处运行”，带来了三大突出优势：

跨框架兼容性强：不拘泥于单一生态，任意框架导出的ONNX模型均可统一调度执行。
轻量易部署：依赖简单，体积小巧，非常适合容器化环境和边缘设备等资源有限的场景。
多后端推理支持：ONNX Runtime在CPU场景可接入OpenVINO、DirectML，在GPU端可接入CUDA、TensorRT等主流加速方案，一套模型即可满足多样化的部署需求。

启用方式同样简单友好，既支持CLI直接调用，也支持Python API灵活集成：

# CLIpaddleocr ocr -i image.jpg --engine onnxruntime

# Python APIocr = PaddleOCR(engine='onnxruntime')

ONNX Runtime引擎还支持通过engine_config自定义运行时参数。以配置 OpenVINO + CPU为例：

config = {    'device_type': 'cpu',    'providers': [        'OpenVINOExecutionProvider',        'CPUExecutionProvider'    ]}ocr = PaddleOCR(    engine='onnxruntime',    engine_config=config)

在实际业务场景中，该方案可展现出突出的落地价值——例如在跨厂区的工业质检场景中，只需一套ONNX模型，便可在不同厂区的工控机和服务器上分别采用ONNX Runtime CPU版和TensorRT加速版，大幅降低多环境部署的维护成本。

三种后端，覆盖不同场景

随着ONNX Runtime的加入，PaddleOCR已形成了清晰、体系化的多后端推理体矩阵：

开发者可以根据项目需求，自由选择最适合的运行时，而无需修改业务逻辑，更不用重构OCR流程。

重磅模型 PP-OCRv6 同步登场！

为方便广大开发者更清晰地了解本次发版内容，除了上述多后端推理体系的升级外，我们也和大家简单介绍一下本次v3.7版本中同步发布的重磅模型——PP-OCRv6。

PP-OCRv6是飞桨OCR团队倾力打造的新一代轻量化文字识别模型，在模型架构上采用统一的MetaFormer风格构件，并结合结构化重参数化技术，将原本分离的空间Token混合与通道混合解耦，为检测和识别任务设计了专用的步长配置，实现了双任务协同优化。

该系列模型共提供tiny、small、medium三个等级：

PP-OCRv6_tiny：极致轻量，推理速度相较PP-OCRv5_mobile提升3.9 倍，可在Intel Xeon CPU上实现高速推理；
PP-OCRv6_small_rec：520万参数，以千分之一的参数量在多项OCR任务中超越GPT-5.5、Qwen3-VL-235B等大型视觉语言模型，整体加权准确率达81.3%；
PP-OCRv6_medium：精准旗舰，识别准确率达83.2%、检测Hmean 达86.2%，分别比PP-OCRv5_server提升5.1%和4.6%。

从服务器到边缘端，PP-OCRv6系列延续了飞桨一贯的“轻量不轻质”理念，覆盖了多种部署场景下的配置需求。

如果大家想进一步了解PP-OCRv6的强大效果，文末附有专门介绍该模型的文章链接，欢迎点击阅读。

快速体验

使用 ONNX Runtime 后端非常简单，只需三步即可上手体验：

1. 安装 PaddleOCR 和 ONNX Runtime：

# 安装 PaddleOCRpip install "paddleocr>=3.7.0"# CPU 版本pip install onnxruntime# GPU 版本（CUDA 12）pip install onnxruntime-gpu

2. 运行 ONNX Runtime 后端推理示例：

paddleocr ocr -i demo.jpg --engine onnxruntime

写在最后

随着ONNX Runtime的加入，PaddleOCR现已支持多种推理后端，能够更好地满足服务器、边缘设备以及Hugging Face生态等不同场景的部署需求。欢迎大家在GitHub提交Issue、贡献PR、点亮Star，与我们一起推动PaddleOCR 推理生态持续演进！

相关链接

GitHub：

https://github.com/PaddlePaddle/PaddleOCR

官网：

https://paddleocr.com

PaddleOCR 推理引擎官方文档：

https://www.paddleocr.ai/latest/version3.x/inference_deployment/local_inference/inference_engine.html

官方技术交流群：

关注【飞桨PaddlePaddle】公众号

获取更多技术内容~

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-11

本地部署OCR，可能是AI进单位的第一道门

2026-06-08

正式推出 Gemma 4 12B: 一款统一、免编码器的多模态模型

2026-05-30

还在用 MinerU 解析 PDF？这个 2B 小模型直接把 olmOCR-bench 刷到 87.6%，速度还快 3.68 倍

2026-05-30

Qwen-VLA：迈向通用具身智能的统一动作框架

2026-05-25

罗福莉说的“伪多Agent”，我试了OmniWork后发现，真全干专家长这样

2026-05-19

从画稿到代码，AI Agent 正在吃掉产品设计的中间环节

2026-05-16

PDF解析折腾半年，最后靠这套方案搞定了

2026-04-27

一个神奇的视频生成 Skills，实测，狂喜

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

刚刚！Codex 居然能直接画图了，OpenAI 凌晨甩出 Image 2.0

2026-04-22

震惊！即梦推出 CLI，Agent 一行命令生成 Seedance 2.0 视频，AI 视频井喷

2026-04-01

全解读｜智谱 GLM-5V-Turbo 发布，多模态 Coding 基模

2026-04-02

GLM-OCR技术细节全公开

2026-03-18

让“龙虾”帮你自动赚钱！OpenClaw Seedance 2.0 视频生成全攻略

2026-03-29

我复刻了 Claude 刚发布的生成式 UI 交互！

2026-03-15

用Claude Code剪视频，自动去口癖、加字幕、调色，完全免费开源

2026-04-21

一个神奇的视频生成 Skills，实测，狂喜

2026-04-27

豆包「打电话」升级 Seeduplex：周围再吵，只认准你的声音

2026-04-09

千问发布Qwen3.5-Omni全模态模型，超越Gemini3.1 Pro？附实测~

2026-03-31

大家都在问

Gemini Embedding 2把多模态信息整合同一向量空间了，还需要多向量列吗？

2026-03-12

一篇文章讲清楚：到底什么是NotebookLM？除了PPT，它还能做啥？

2025-12-31

GenAI的多模态数据智能平台如何构建？

2025-08-04

本地AI对话神奇，ChatWise到底有什么用？

2025-05-26

什么是基于知识图谱的多模态推理？

2025-05-13

AI数字人领域重大突破：告别拼凑式合成，阿里OmniTalker能否开启音视频一体化新时代？

2025-04-08

Midjourney V7全面测评：50组多风格提示词实测，是否还有领先优势?

2025-04-05

如何结合多模态RAG和异步调用实现大模型内容理解？

2025-03-30

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw