微信扫码
添加专属顾问
我要投稿
看传统OCR如何“看清文字”,大模型如何“看懂业务”,实现单据处理效率5倍提升。核心内容:1. OCR与大模型协同工作的三步流程2. 对比纯OCR与纯大模型的优劣与局限3. 方案实施后,人员角色从录入者到审核者的转变
很多企业的数字化系统已经建得很完善了,但在一个环节上,依然高度依赖人工:把外部单据里的信息,录入到内部系统里。
发票、付款凭证、报销单、送货单、对账单、收据,这些单据每天从不同业务部门、供应商、客户和员工手里流转进来。有的是扫描件,有的是手机拍照,有的是 PDF,有的是截图;有的格式标准,有的排版混乱;有的清晰,有的模糊。
过去,企业通常会引入 OCR 系统来解决这个问题。OCR 确实能把图片里的文字识别出来,但真正落地后会发现:识别文字只是第一步,后面还有大量判断、匹配、填写和校对工作。
传统 OCR 很多时候解决的是“看清楚文字”,但企业真正需要的是:把单据看懂,并自动填进系统。
不是没有系统,而是录入太慢
在这个案例中,企业每天需要处理大量业务单据,包括发票、付款凭证、报销单、送货单、对账单和收据等。原来的处理方式是:业务人员上传单据,OCR 系统识别文字,人工判断字段含义,再把关键字段填入 ERP、财务系统或报销系统,最后由审核人员校对。
这个流程看起来已经用了 OCR,但人的工作量并没有真正减少太多。原因很简单:OCR 只负责“识别”,不负责“理解”。
它可以告诉你图片里有哪些字,却不一定知道这些字分别对应业务系统里的哪个字段。尤其是在单据格式多样、字段表达不统一、版式经常变化的情况下,传统规则很容易失效。
OCR 识别,大模型理解
这个项目的核心思路并不复杂:让 OCR 做它最擅长的文字识别,让大模型做它最擅长的语义理解。
第一步,OCR 识别单据内容。单据上传后,系统先调用 OCR 引擎,对图片或 PDF 进行文字识别。这里不仅要拿到文字内容,还要尽可能获取位置信息、行列关系和版面结构。
第二步,大模型理解业务字段。OCR 输出的是一堆文字和位置,大模型要做的是把这些信息转化成结构化字段:单据类型、供应商名称、总金额、业务日期、付款方、收款方、订单号、合同号、税号和银行账号。
第三步,系统自动填单,人工审核异常。当大模型提取出结构化字段后,系统把字段自动写入 ERP、财务系统或报销系统。对于金额、日期、主体名称、发票号等关键字段,如果存在不确定、冲突或缺失,就高亮提示,由人工快速确认。
过去是人逐字段录入;现在是机器先填,人只审核不确定项。这才是效率提升的核心来源。
为什么不是纯 OCR,也不是纯大模型
纯 OCR 的优点是速度快、成本低、字符识别准确率高,但它不擅长理解业务语义。纯大模型,尤其是直接让多模态大模型读取图片,虽然理解能力更强,但在成本、速度和字符级准确性上不一定适合大规模企业处理。
这类组合方案的价值在于:把不同技术放在各自最适合的位置上,而不是让一个模型承担所有工作。
上线后,人从录入者变成审核者
项目上线后,效果比较明显。在传统人工录入方式下,单张单据平均处理时间约为 90 秒。引入 AI 自动填单后,系统可以自动完成识别、字段提取和初步填单,人工只需要审核低置信度字段,单张单据平均处理时间降低到约 18 秒。
每日处理能力从约 800 张提升到约 4000 张。错误率也从约 2% 降低到 0.5% 以下。
这里真正发生变化的,不是简单地“机器替代人”,而是人机分工变了:机器负责识别、理解、匹配和填入,人负责确认、判断和处理异常。
落地关键不是模型,而是流程
这类项目要落地,不能只看模型能力,还要看工程流程是否完整。字段标准要先定义清楚,不同单据类型要有不同字段清单,Prompt 要模板化,输出格式要固定,关键字段要有置信度和人工审核机制。
真实世界的单据也不会总是标准样本。图片模糊、字段被遮挡、印章覆盖文字、多张单据混在一起、同一张单据出现多个金额,这些都会发生。一个能上线的 AI 系统,不能只处理标准样本,还要能识别异常、标记异常、流转异常。
AI 提取字段只是中间结果。真正产生价值,是它能自动填入 ERP、财务系统、报销系统或采购系统。所以项目还需要处理接口对接、权限控制、日志追踪、数据回写和审批流衔接。
更大的价值,是结构化数据
自动填单的直接价值,是提高效率、减少人工、降低错误率。但从更长期看,它还有一个更重要的价值:把原来散落在单据里的非结构化信息,变成企业可以使用的结构化数据。
过去,很多信息藏在图片、PDF 和纸质单据里。即使上传到了系统,也只是作为附件存在,无法被统计、分析和自动流转。通过 OCR 和大模型结合,企业可以把这些信息转化为结构化字段,沉淀到业务系统中。
这为后续自动对账、费用分析、供应商画像、合同与付款匹配、异常报销识别、财务报表自动生成打下基础。所以,自动填单不是终点。它更像是企业文档智能化的入口。
两个问题还要继续深挖
虽然这个方案已经可以跑通,并且在效率上带来了明显提升,但如果从企业级应用的角度看,还有两个问题非常关键。
第一个问题是:评测体系必须做起来。很多 AI 项目上线后,会停留在“能用”的状态,但没有持续评估机制。系统到底哪里准、哪里不准、哪些单据类型容易出错、哪些字段最容易误判,都只能靠零散反馈。
如果要让系统持续变好,就必须建立评测闭环:建立真实单据测试集,按单据类型和字段统计准确率,记录人工修改过的字段,分析高频错误类型,再把用户反馈重新用于 Prompt 优化、规则优化和样本优化。
第二个问题是:大模型处理速度还需要优化。在一些复杂单据场景下,如果使用参数较大的大模型,单张单据处理可能需要 30 到 40 秒。这个速度对于验证方案来说可以接受,但对于大规模企业应用来说,还不是最优。
后续可以考虑用小模型处理标准场景,用分层模型策略区分简单单据和复杂单据,用 Prompt 压缩和字段分批提取减少无效输入。在更成熟的场景下,也可以基于历史单据和人工审核数据,训练或微调一个更小、更快、更贴近业务的小模型。
自动填单只是开始
企业 AI 落地,不是把大模型简单接进系统,而是要重新设计业务流程中的人机分工。OCR 解决“看见文字”的问题,大模型解决“理解字段”的问题,业务系统解决“自动流转”的问题,人工审核解决“风险兜底”的问题,评测反馈解决“持续变好”的问题。
当这些环节组合起来,AI 才能真正从一个演示能力,变成企业流程里的生产力。
后续我会继续拆解两个更关键的问题:一是如何搭建 AI 单据处理的评测体系,让用户反馈持续反哺系统优化;二是如何通过小模型、分层推理和流程编排提升处理速度,让 AI 真正适应企业级高并发场景。
如果你关注 AI 如何进入真实业务流程,后续我会持续分享更多企业 AI 应用实践案例。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-06-10
咨询 | 未来的咨询顾问:从执行者,到一个真正的“Agency”
2026-06-08
腾讯打出企业Agent新底牌:WorkBuddy企业版抢占AI办公统一入口
2026-06-08
Wordsmith,让企业少给律所送钱
2026-06-08
重磅|Meta杀入企业级Agent市场,微信还会远吗?
2026-06-07
咨询|从 Harvey 的三层服务和收费模式,看 AI 原生咨询公司的真正起点
2026-06-04
80→8→15:一家新加坡AI公司的「组织手术」
2026-06-03
从"野生小龙虾"到"企业级小龙虾" —— 微软 Scout
2026-06-01
重磅|Workday联合Google:HR和财务SaaS正变成Agent,职能部门进入“智能服务时代”
2026-03-20
2026-03-19
2026-03-17
2026-03-19
2026-03-26
2026-03-25
2026-03-21
2026-03-19
2026-03-19
2026-03-19
2026-06-08
2026-05-29
2026-05-27
2026-05-26
2026-05-15
2026-05-15
2026-05-13
2026-03-21