微信扫码
添加专属顾问
我要投稿
在文本处理的过程中,图片和扫描件是无法绕开的数据类型,也是业界的处理难点,也是热点的优化方向。本篇文章将介绍一款相关的开源项目,该项目在github上拥有24.9k star,涨星飞快。它是一个OCR技术的集合体,能高效解决问题:
项目特点
免费:本项目所有代码开源,完全免费。
方便:解压即用,离线运行,无需网络。
高效:自带高效率的离线OCR引擎,内置多种语言识别库。
灵活:支持命令行、HTTP接口等外部调用方式。
功能:截图OCR / 批量OCR / PDF识别 / 二维码 / 公式识别
安装使用
# 下载地址https://hiroi-sora.lanzoul.com/s/umi-ocr (国内推荐,免注册/无限速)https://github.com/hiroi-sora/Umi-OCR/releases/latest
模块举例
文档识别
文档识别:
支持格式:pdf, xps, epub, mobi, fb2, cbz。
对扫描件进行OCR,或提取原有文本。可输出为 双层可搜索PDF 。
支持设定 忽略区域 ,可用于排除页眉页脚的文字。
可设置任务完成后 自动关机/休眠 。
Umi-OCR的公司识别能力是基于Pix2Text实现的。Pix2Text 是一个开源OCR项目,能够识别既包含文字又包含数学公式的混合图片。
截图OCR
截图OCR:打开这一页后,就可以用快捷键唤起截图,识别图中的文字。
左侧的图片预览栏,可直接用鼠标划选复制。
右侧的识别记录栏,可以编辑文字,允许划选多个记录复制。
也支持在别处复制图片,粘贴到Umi-OCR进行识别。
关于 OCR文本后处理 - 排版解析方案:可以整理OCR结果的排版和顺序,使文本更适合阅读和使用。预设方案:
多栏-按自然段换行:适合大部分情景,自动识别多栏布局,按自然段规则进行换行。
多栏-总是换行:每段语句都进行换行。
多栏-无换行:强制将所有语句合并到同一行。
单栏-按自然段换行/总是换行/无换行:与上述类似,不过 不区分多栏布局。
单栏-保留缩进:适用于解析代码截图,保留行首缩进和行中空格。
不做处理:OCR引擎的原始输出,默认每段语句都进行换行。
上述方案,均能自动处理横排和竖排(从右到左)的排版。
未完待续,项目仍在持续迭代和优化中,进一步的使用可参见:
https://github.com/hiroi-sora/Umi-OCR
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-12-25
Claude技能天花板来了!Anthropic 官方开源 16 个生产级技能库
2025-12-24
被 Gemini 官方推荐为下一代Agent!Eigent 如何实现企业级浏览器自动化?
2025-12-24
教你从零“手搓”一个大模型,别再只会调用API了
2025-12-24
DeepSeek-V3.2 128K 推理秒开?百度百舸开源 CP 上下文并行方案
2025-12-24
突然,被GLM-4.7的Coding交付能力惊到了
2025-12-23
我把Claude Code换成GLM-4.7用了6小时,我竟然没发现明显区别
2025-12-23
通义百聆语音交互模型开源,创新架构可节省近50%GPU计算!
2025-12-23
OxyGent 多智能体协作框架新版本发布
2025-11-19
2025-10-20
2025-10-27
2025-10-27
2025-10-03
2025-09-29
2025-11-17
2025-10-29
2025-09-29
2025-11-07
2025-12-24
2025-12-22
2025-11-12
2025-11-10
2025-11-03
2025-10-29
2025-10-28
2025-10-13