2026年6月18日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


我要投稿

PaddleOCR 3.7 正式接入ONNX Runtime,一个参数换后端,轻量部署新选择

发布日期:2026-06-12 20:48:18 浏览次数: 1522
作者:飞桨PaddlePaddle

微信搜一搜,关注“飞桨PaddlePaddle”

推荐语

PaddleOCR 3.7.0 正式引入ONNX Runtime后端,仅需一个参数即可灵活切换推理引擎,为轻量级部署提供新选择。

核心内容:
1. 推理引擎抽象化与统一接口设计
2. ONNX Runtime后端的优势与特性
3. 多后端支持带来的灵活部署方案

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

图片

PaddleOCR 3.7.0 发布,根据你的环境,随意切换推理引擎!

2026年6月11日,PaddleOCR v3.7版本正式发布。该版本除了发布 PP-OCRv6重磅模型外,还持续推进3.x系列推理部署能力的升级。自 PaddleOCR3.5.0将推理层从OCR产线中解耦并抽象为独立的「推理引擎(Inference Engine)」以来,开发者只需通过一个engine参数即可使用不同的推理引擎。最新的PaddleOCR 3.7.0版本在这一方向上迈出了更坚实的一步:正式引入ONNX Runtime后端,并围绕多后端体验进行了系统性完善,为开发者带来更丰富的跨场景部署选择。

01

推理引擎是什么?为什么重要?

简单来说,推理引擎是模型真正运行时所在的执行层,负责模型权重加载、算子调度和在CPU、GPU等硬件上的实际计算。

过去,PaddleOCR默认采用飞桨静态图推理方案——该链路经长期优化,在性能上表现优异,但用户需要完整安装并依赖飞桨框架。

3.5.0开始,我们将推理执行逻辑抽象为统一的engine参数:

from paddleocr import PaddleOCR# 默认使用飞桨静态图推理ocr = PaddleOCR()# 切换到 Transformers 后端ocr = PaddleOCR(engine='transformers')

OCR产线接口保持不变,仅需修改一个参数即可切换底层运行时。同一套 API、同一个产线,却能拥有更加灵活的部署选择。

02

迎来新成员:ONNX Runtime后端

在PaddleOCR3.7.0中,我们线正式引入ONNX Runtime(ORT)后端支持。

关于ONNX Runtime:ONNX Runtime是由微软主导推出的跨平台推理引擎,专为优化ONNX格式模型的运行效率而设计。通过支持多种硬件加速后端(Execution Providers),它能够充分发挥CPU和GPU等不同硬件的计算能力,实现高性能推理。

其中,ONNX(Open Neural Network Exchange)作为业内主流的模型交换标准,好比神经网络领域的“通用语言”,无论模型是使用PaddlePaddle、PyTorch还是TensorFlow训练,都可以转换成ONNX标准格式,实现“一次转换,随处运行”,带来了三大突出优势:

  • 跨框架兼容性强不拘泥于单一生态,任意框架导出的ONNX模型均可统一调度执行。

  • 轻量易部署:依赖简单,体积小巧,非常适合容器化环境和边缘设备等资源有限的场景。

  • 多后端推理支持ONNX Runtime在CPU场景可接入OpenVINO、DirectML,在GPU端可接入CUDA、TensorRT等主流加速方案,一套模型即可满足多样化的部署需求。

启用方式同样简单友好,既支持CLI直接调用,也支持Python API灵活集成:

# CLIpaddleocr ocr -i image.jpg --engine onnxruntime
# Python APIocr = PaddleOCR(engine='onnxruntime')

ONNX Runtime引擎还支持通过engine_config自定义运行时参数。以配置 OpenVINO + CPU为例:

config = {    'device_type''cpu',    'providers': [        'OpenVINOExecutionProvider',        'CPUExecutionProvider'    ]}ocr = PaddleOCR(    engine='onnxruntime',    engine_config=config)

在实际业务场景中,该方案可展现出突出的落地价值——例如在跨厂区的工业质检场景中,只需一套ONNX模型,便可在不同厂区的工控机和服务器上分别采用ONNX Runtime CPU版和TensorRT加速版,大幅降低多环境部署的维护成本。

03

三种后端,覆盖不同场景

随着ONNX Runtime的加入,PaddleOCR已形成了清晰、体系化的多后端推理体矩阵:

开发者可以根据项目需求,自由选择最适合的运行时,而无需修改业务逻辑,更不用重构OCR流程。

04

重磅模型 PP-OCRv6 同步登场!

为方便广大开发者更清晰地了解本次发版内容,除了上述多后端推理体系的升级外,我们也和大家简单介绍一下本次v3.7版本中同步发布的重磅模型——PP-OCRv6

PP-OCRv6是飞桨OCR团队倾力打造的新一代轻量化文字识别模型,在模型架构上采用统一的MetaFormer风格构件,并结合结构化重参数化技术,将原本分离的空间Token混合与通道混合解耦,为检测和识别任务设计了专用的步长配置,实现了双任务协同优化。

该系列模型共提供tiny、small、medium三个等级:

  • PP-OCRv6_tiny:极致轻量,推理速度相较PP-OCRv5_mobile提升3.9 倍,可在Intel Xeon CPU上实现高速推理;

  • PP-OCRv6_small_rec:520万参数,以千分之一的参数量在多项OCR任务中超越GPT-5.5、Qwen3-VL-235B等大型视觉语言模型,整体加权准确率达81.3%;

  • PP-OCRv6_medium:精准旗舰,识别准确率达83.2%、检测Hmean 达86.2%,分别比PP-OCRv5_server提升5.1%4.6%

从服务器到边缘端,PP-OCRv6系列延续了飞桨一贯的“轻量不轻质”理念,覆盖了多种部署场景下的配置需求。

如果大家想进一步了解PP-OCRv6的强大效果,文末附有专门介绍该模型的文章链接,欢迎点击阅读。

05

快速体验

使用 ONNX Runtime 后端非常简单,只需三步即可上手体验:

1. 安装 PaddleOCR 和 ONNX Runtime:
# 安装 PaddleOCRpip install "paddleocr>=3.7.0"# CPU 版本pip install onnxruntime# GPU 版本(CUDA 12)pip install onnxruntime-gpu
2. 运行 ONNX Runtime 后端推理示例:
paddleocr ocr -i demo.jpg --engine onnxruntime



写在最后



随着ONNX Runtime的加入,PaddleOCR现已支持多种推理后端,能够更好地满足服务器、边缘设备以及Hugging Face生态等不同场景的部署需求。欢迎大家在GitHub提交Issue、贡献PR、点亮Star,与我们一起推动PaddleOCR 推理生态持续演进!



相关链接



GitHub:

https://github.com/PaddlePaddle/PaddleOCR

官网:

https://paddleocr.com

PaddleOCR 推理引擎官方文档:

https://www.paddleocr.ai/latest/version3.x/inference_deployment/local_inference/inference_engine.html

官方技术交流群:


图片


关注【飞桨PaddlePaddle】公众号
获取更多技术内容~

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询