2026年6月11日 周四晚上19:30,报名腾讯会议了解“业务抓夹如何成为前线部署工程师(FDE)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


我要投稿

从 OCR 到智能填单:一家企业如何用大模型把单据录入效率提升 5 倍

发布日期:2026-06-10 06:34:58 浏览次数: 1514
作者:白鹭智能

微信搜一搜,关注“白鹭智能”

推荐语

看传统OCR如何“看清文字”,大模型如何“看懂业务”,实现单据处理效率5倍提升。

核心内容:
1. OCR与大模型协同工作的三步流程
2. 对比纯OCR与纯大模型的优劣与局限
3. 方案实施后,人员角色从录入者到审核者的转变

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

很多企业的数字化系统已经建得很完善了,但在一个环节上,依然高度依赖人工:把外部单据里的信息,录入到内部系统里。

发票、付款凭证、报销单、送货单、对账单、收据,这些单据每天从不同业务部门、供应商、客户和员工手里流转进来。有的是扫描件,有的是手机拍照,有的是 PDF,有的是截图;有的格式标准,有的排版混乱;有的清晰,有的模糊。

过去,企业通常会引入 OCR 系统来解决这个问题。OCR 确实能把图片里的文字识别出来,但真正落地后会发现:识别文字只是第一步,后面还有大量判断、匹配、填写和校对工作。

传统 OCR 很多时候解决的是“看清楚文字”,但企业真正需要的是:把单据看懂,并自动填进系统。

OCR 和大模型协同完成单据识别、字段理解和 ERP 自动填单

不是没有系统,而是录入太慢

在这个案例中,企业每天需要处理大量业务单据,包括发票、付款凭证、报销单、送货单、对账单和收据等。原来的处理方式是:业务人员上传单据,OCR 系统识别文字,人工判断字段含义,再把关键字段填入 ERP、财务系统或报销系统,最后由审核人员校对。

这个流程看起来已经用了 OCR,但人的工作量并没有真正减少太多。原因很简单:OCR 只负责“识别”,不负责“理解”。

它可以告诉你图片里有哪些字,却不一定知道这些字分别对应业务系统里的哪个字段。尤其是在单据格式多样、字段表达不统一、版式经常变化的情况下,传统规则很容易失效。

OCR 识别,大模型理解

这个项目的核心思路并不复杂:让 OCR 做它最擅长的文字识别,让大模型做它最擅长的语义理解。

第一步,OCR 识别单据内容。单据上传后,系统先调用 OCR 引擎,对图片或 PDF 进行文字识别。这里不仅要拿到文字内容,还要尽可能获取位置信息、行列关系和版面结构。

第二步,大模型理解业务字段。OCR 输出的是一堆文字和位置,大模型要做的是把这些信息转化成结构化字段:单据类型、供应商名称、总金额、业务日期、付款方、收款方、订单号、合同号、税号和银行账号。

第三步,系统自动填单,人工审核异常。当大模型提取出结构化字段后,系统把字段自动写入 ERP、财务系统或报销系统。对于金额、日期、主体名称、发票号等关键字段,如果存在不确定、冲突或缺失,就高亮提示,由人工快速确认。

过去是人逐字段录入;现在是机器先填,人只审核不确定项。这才是效率提升的核心来源。

为什么不是纯 OCR,也不是纯大模型

纯 OCR 的优点是速度快、成本低、字符识别准确率高,但它不擅长理解业务语义。纯大模型,尤其是直接让多模态大模型读取图片,虽然理解能力更强,但在成本、速度和字符级准确性上不一定适合大规模企业处理。

能力
传统 OCR
联合方案
文字识别
字段理解
速度成本
可控
企业落地
有限
更适合

这类组合方案的价值在于:把不同技术放在各自最适合的位置上,而不是让一个模型承担所有工作。

上线后,人从录入者变成审核者

项目上线后,效果比较明显。在传统人工录入方式下,单张单据平均处理时间约为 90 秒。引入 AI 自动填单后,系统可以自动完成识别、字段提取和初步填单,人工只需要审核低置信度字段,单张单据平均处理时间降低到约 18 秒。

每日处理能力从约 800 张提升到约 4000 张。错误率也从约 2% 降低到 0.5% 以下。

这里真正发生变化的,不是简单地“机器替代人”,而是人机分工变了:机器负责识别、理解、匹配和填入,人负责确认、判断和处理异常。

落地关键不是模型,而是流程

这类项目要落地,不能只看模型能力,还要看工程流程是否完整。字段标准要先定义清楚,不同单据类型要有不同字段清单,Prompt 要模板化,输出格式要固定,关键字段要有置信度和人工审核机制。

真实世界的单据也不会总是标准样本。图片模糊、字段被遮挡、印章覆盖文字、多张单据混在一起、同一张单据出现多个金额,这些都会发生。一个能上线的 AI 系统,不能只处理标准样本,还要能识别异常、标记异常、流转异常。

AI 提取字段只是中间结果。真正产生价值,是它能自动填入 ERP、财务系统、报销系统或采购系统。所以项目还需要处理接口对接、权限控制、日志追踪、数据回写和审批流衔接。

更大的价值,是结构化数据

自动填单的直接价值,是提高效率、减少人工、降低错误率。但从更长期看,它还有一个更重要的价值:把原来散落在单据里的非结构化信息,变成企业可以使用的结构化数据。

过去,很多信息藏在图片、PDF 和纸质单据里。即使上传到了系统,也只是作为附件存在,无法被统计、分析和自动流转。通过 OCR 和大模型结合,企业可以把这些信息转化为结构化字段,沉淀到业务系统中。

这为后续自动对账、费用分析、供应商画像、合同与付款匹配、异常报销识别、财务报表自动生成打下基础。所以,自动填单不是终点。它更像是企业文档智能化的入口。

两个问题还要继续深挖

虽然这个方案已经可以跑通,并且在效率上带来了明显提升,但如果从企业级应用的角度看,还有两个问题非常关键。

第一个问题是:评测体系必须做起来。很多 AI 项目上线后,会停留在“能用”的状态,但没有持续评估机制。系统到底哪里准、哪里不准、哪些单据类型容易出错、哪些字段最容易误判,都只能靠零散反馈。

如果要让系统持续变好,就必须建立评测闭环:建立真实单据测试集,按单据类型和字段统计准确率,记录人工修改过的字段,分析高频错误类型,再把用户反馈重新用于 Prompt 优化、规则优化和样本优化。

第二个问题是:大模型处理速度还需要优化。在一些复杂单据场景下,如果使用参数较大的大模型,单张单据处理可能需要 30 到 40 秒。这个速度对于验证方案来说可以接受,但对于大规模企业应用来说,还不是最优。

后续可以考虑用小模型处理标准场景,用分层模型策略区分简单单据和复杂单据,用 Prompt 压缩和字段分批提取减少无效输入。在更成熟的场景下,也可以基于历史单据和人工审核数据,训练或微调一个更小、更快、更贴近业务的小模型。

自动填单只是开始

企业 AI 落地,不是把大模型简单接进系统,而是要重新设计业务流程中的人机分工。OCR 解决“看见文字”的问题,大模型解决“理解字段”的问题,业务系统解决“自动流转”的问题,人工审核解决“风险兜底”的问题,评测反馈解决“持续变好”的问题。

当这些环节组合起来,AI 才能真正从一个演示能力,变成企业流程里的生产力。

后续我会继续拆解两个更关键的问题:一是如何搭建 AI 单据处理的评测体系,让用户反馈持续反哺系统优化;二是如何通过小模型、分层推理和流程编排提升处理速度,让 AI 真正适应企业级高并发场景。

如果你关注 AI 如何进入真实业务流程,后续我会持续分享更多企业 AI 应用实践案例。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询