微信扫码
添加专属顾问
我要投稿
想改图片文字却苦于繁琐操作?这款基于GLM-5.1的开源工具让你一键精准修改,效果惊艳! 核心内容: 1. 传统图片文字修改的痛点与现有解决方案的不足 2. 工具实现的两大核心技术:文字识别定位与精准局部编辑 3. GLM-5.1模型的强大表现及其在工具中的关键作用
前阵子我一直有个挺困扰的事情,就是封面图的内容改字。
我经常会看到一些还不错的封面,其实只想改几个字,比如改个标题、换个关键词,但真要去做的时候就很麻烦。
我当时就在想,有没有一种方式,可以让我「直接在原图上改」。
于是就想着,干脆自己做一个小工具,来实现直接改字的这个需求,效果大概就是下面这样了。
这个工具的效果其实很简单,你可以理解为:我只要上传一张图,它就会自动识别和提取里面的文字,然后选中一段修改文本,再生成一张新图。
很有意思的是,前几天的 GLM-5V-Turbo 更新的封面图就是直接用自己这个基于GLM-5.1 做出来的工具来改的了(当然也包括这一次)
做这个东西的时候,我一开始其实也没想复杂,就是围绕一个问题:我到底怎么精准地改一段文字。
以前的方式的话,要么打开设计工具一点点调,时间成本其实挺高的,即便直接给到像 nano banana 这种改图模型里面,很多局部编辑的文本控制也没办法精准的指哪打哪。
后来把整个链路拆了一下,大概分成两步。
第一步,是把图里的文字识别出来。
而且不仅是识别内容,还要知道这段文字在图上的位置。
所以这里我用的是视觉识别模型,让它把整张图拆成一个结构化的结果,比如:这一块是标题,这一块是副标题,对应的坐标在哪里。
第二步,是局部编辑。
当我明确了要改哪一段文字之后,我会把「原图 + 这段区域 + 新文本」一起交给图像编辑模型,让它只改这一块,而不是整张图重做。
我这里用的是 Nano Banana 来做图像编辑,这个模型在局部替换上,我自己测下来是比较稳定的,我们等待它生成就好。
如果用不了 Nano Banana,其实也有一些平替,比如最新发布的 Wan 2.7、Qwen Image 2.0、Seedream 5.0,我都试过,效果都能用,只是细节上会有差异。
说了上面的思路以及看过效果之后,我们核心实现的其实就是把这两步串起来,这里面最关键的,是我这次用的主模型:GLM-5.1,用它来复杂应用构建落地。
为什么这次想实测一下 GLM-5.1,主要看见了一个很有意思的数据。
GLM-5.1 极大地增强了代码能力,在三项综合评分里 GLM-5.1取得全球模型第三、国产模型第一、开源模型第一。
之前逛 Youtube 的时候,博主 AI Code King 的 King Bench上,GLM-5.1排名非常靠前,仅次于Claude 4.6 Sonnet 模型了。
这个新模型倒是我在无意间发现的。
因为我之前买了智谱的 Coding Plan,前两天打开的时候,发现模型列表里多了一个「glm-5.1」,没有什么明显的提示,就是已经可以用了。
我当时就顺手试了一下,想看看是不是只是一个小版本优化。
但真正跑了一下之后,我的感受是,它在把一件事情从头做到尾以及复杂的工具能力调用这件事上,变化挺明显的。
所以咱们看到的这次这个小工具,其实基本是我用跟搭载了 GLM-5.1 的 Claude Code 一起通过不断对话就做出来的。
我不是一开始就把完整方案写好,而是先给它一个目标,比如:做一个可以修改图片文字的工具。
然后 GLM-5V 模型会先帮我拆解结构,比如需要有上传模块、文本解析、编辑交互、图像生成这些部分。
接着我会让它一步步往下实现,比如先把上传和解析打通,再去做编辑交互,最后接图像生成。
你有办法把解析出来的字,然后鼠标浮动到字的区块的时候可以直接在图层上用方块高亮圈出对应的内容吗,这样我可以快速的锁定你解析的字是从哪里来的
中间其实也会遇到一些问题,比如:我问它,历史记录这块,是不是可以直接用OSS地址来存和读取,还是需要额外做一层处理来保证稳定访问。
你看下我给你的oss地址,你的历史记录里面是不是最好都能够读取到阿里云oss地址,还是说你还需要别的才能够读历史仓库呢。另外我还需要你给我整理一个灵感库,支持我自己上传一些图片,便于我后续想要使用的时候进行直接的快速引用进行二次编辑
还有灵感库,我希望支持自己上传图片,然后后面可以直接选中再编辑,这种结构该怎么设计更合理。
再比如一个我自己用的时候很有感的细节:当文字被解析出来之后,我希望鼠标移动到某一段文字的时候,可以在原图上直接高亮对应区域,这样我能快速确认这段文字的位置。
这些都不是一开始就想好的,而是在一边做一边补。
整个应用我最后拆成了三个部分,当当当,大家可以看下面的几个完整模块。
第一个是工作台。
用户上传图片之后,系统会自动解析文字,然后我就可以对某一段文字做修改,属于「指哪改哪」。
改完之后点击提交,就会进入图像编辑,生成新的图片。
第二个是灵感库。
平时看到不错的封面,可以直接存进去,后面需要的时候可以直接拿来改。
我这里用的是阿里云OSS来做存储,这样图片不会过期,也方便管理,直接让搭载了 GLM-5.1 的 Claude Code 帮我去实验。
第三个是历史记录。
每一次生成的结果都会被记录下来,本质上也是存在OSS里,方便后面回溯和复用。
说回GLM-5.1本身,我自己的感受是,它这次最大的变化,是在长任务里的稳定性。
就是我在跟它的整个交互过程中并不不只是让它做一个步骤,我让它把一整条链路跑完。
从拆解任务,到执行,再到中间出问题再修,GLM-5.1这个模型是能一直能靠得住的。
尤其是在这种多步骤、多工具配合的场景下,这种能力差异会非常明显。
这次我做这个工具的时候,很多步骤是可以让它自己往下推进的,因为我这里面用到了很多不同模型的API服务、OSS地址服务等等。
甚至我后面还给它加了一个小需求就是在帮我顺便做一个浏览器插件拿来采集图片。
用过 GLM-5.1 跟我一起做的这个功能之后,除了爽以外,我自己倒是也有一个很实际的感受。
现在的模型能力已经到了一个阶段,但算力还是一个瓶颈,有些任务在执行的时候,还是会有等待时间。
这么好用的 GLM-5.1 模型,我真希望智谱要么开源或者多增加一些卡就好了,后面速度再提升一些,整体体验会更流畅。
整体来说,这次 GLM-5.1 确实帮我把一个很具体的问题解决掉了。
以前改封面,是一个需要反复操作的事情。
现在变成:上传一张图,改一段文字,直接出结果。
太爽了,这个变化其实挺直接的。
这个模型现在是已经在智谱的 Coding Plan里可以用的,如果你也有的话,可以自己切到 GLM-5.1 试一下。
Coding Plan 地址:https://www.bigmodel.cn/glm-coding?ic=XOPPYZLH2M
我自己使用的建议是,尽量去试一些完整链路的任务体感,而不是只测单点能力。
你会更容易感受到 GLM-5.1 带来的差别。
我相信,人人都能自己创建应用解决问题的日子越来越近了。
© THE END
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-04-09
很多人突然不玩小龙虾而用Hermes Agent了。我替你试了,跟小龙虾到底有啥不同?
2026-04-08
开源模型首超Opus4.6!智谱GLM-5.1登场,14小时后CUDA专家被冲了
2026-04-08
探索Agentic生产力:从“被动问答”到“自主分析”
2026-04-08
GLM-5.1 开源:零介入,交付整套的 Linux 桌面系统
2026-04-08
DeepSeek 推出快速模式和专家模式
2026-04-07
vLLM v0.19.0 来了,适配 HuggingFace v5,多模态优化,CPU KV 缓存卸载
2026-04-04
Gemma 4开源!整整一年,谷歌终于想明白了!!!
2026-04-04
BotLearn创始人李可佳:不要问龙虾能为你做什么,要问你能为龙虾做什么|甲子光年
2026-01-30
2026-01-27
2026-01-12
2026-01-29
2026-01-27
2026-01-21
2026-01-28
2026-01-23
2026-01-26
2026-01-26
2026-04-09
2026-04-01
2026-03-17
2026-03-13
2026-03-02
2026-02-05
2026-01-28
2026-01-26