我要投稿

GLM-5.1 又是开源 SOTA？直接做个图片改字工具验验真假！

发布日期：2026-04-08 11:55:36 浏览次数： 1943

作者：AI产品银海

微信搜一搜，关注“AI产品银海”

前阵子我一直有个挺困扰的事情，就是封面图的内容改字。

我经常会看到一些还不错的封面，其实只想改几个字，比如改个标题、换个关键词，但真要去做的时候就很麻烦。

我当时就在想，有没有一种方式，可以让我「直接在原图上改」。

于是就想着，干脆自己做一个小工具，来实现直接改字的这个需求，效果大概就是下面这样了。

这个工具的效果其实很简单，你可以理解为：我只要上传一张图，它就会自动识别和提取里面的文字，然后选中一段修改文本，再生成一张新图。

很有意思的是，前几天的 GLM-5V-Turbo 更新的封面图就是直接用自己这个基于GLM-5.1 做出来的工具来改的了（当然也包括这一次）

做这个东西的时候，我一开始其实也没想复杂，就是围绕一个问题：我到底怎么精准地改一段文字。

以前的方式的话，要么打开设计工具一点点调，时间成本其实挺高的，即便直接给到像 nano banana 这种改图模型里面，很多局部编辑的文本控制也没办法精准的指哪打哪。

后来把整个链路拆了一下，大概分成两步。

第一步，是把图里的文字识别出来。

而且不仅是识别内容，还要知道这段文字在图上的位置。

所以这里我用的是视觉识别模型，让它把整张图拆成一个结构化的结果，比如：这一块是标题，这一块是副标题，对应的坐标在哪里。

第二步，是局部编辑。

当我明确了要改哪一段文字之后，我会把「原图 + 这段区域 + 新文本」一起交给图像编辑模型，让它只改这一块，而不是整张图重做。

我这里用的是 Nano Banana 来做图像编辑，这个模型在局部替换上，我自己测下来是比较稳定的，我们等待它生成就好。

如果用不了 Nano Banana，其实也有一些平替，比如最新发布的 Wan 2.7、Qwen Image 2.0、Seedream 5.0，我都试过，效果都能用，只是细节上会有差异。

说了上面的思路以及看过效果之后，我们核心实现的其实就是把这两步串起来，这里面最关键的，是我这次用的主模型：GLM-5.1，用它来复杂应用构建落地。

为什么这次想实测一下 GLM-5.1，主要看见了一个很有意思的数据。

GLM-5.1 极大地增强了代码能力，在三项综合评分里 GLM-5.1取得全球模型第三、国产模型第一、开源模型第一。

我本以为智谱新版本的模型它不会再开源了，结果又又又开源了。

之前逛 Youtube 的时候，博主 AI Code King 的 King Bench上，GLM-5.1排名非常靠前，仅次于Claude 4.6 Sonnet 模型了。

这个新模型倒是我在无意间发现的。

因为我之前买了智谱的 Coding Plan，前两天打开的时候，发现模型列表里多了一个「glm-5.1」，没有什么明显的提示，就是已经可以用了。

我当时就顺手试了一下，想看看是不是只是一个小版本优化。

但真正跑了一下之后，我的感受是，它在把一件事情从头做到尾以及复杂的工具能力调用这件事上，变化挺明显的。

所以咱们看到的这次这个小工具，其实基本是我用跟搭载了 GLM-5.1 的 Claude Code 一起通过不断对话就做出来的。

我不是一开始就把完整方案写好，而是先给它一个目标，比如：做一个可以修改图片文字的工具。

然后 GLM-5V 模型会先帮我拆解结构，比如需要有上传模块、文本解析、编辑交互、图像生成这些部分。

接着我会让它一步步往下实现，比如先把上传和解析打通，再去做编辑交互，最后接图像生成。


你有办法把解析出来的字，然后鼠标浮动到字的区块的时候可以直接在图层上用方块高亮圈出对应的内容吗，这样我可以快速的锁定你解析的字是从哪里来的

中间其实也会遇到一些问题，比如：我问它，历史记录这块，是不是可以直接用OSS地址来存和读取，还是需要额外做一层处理来保证稳定访问。


你看下我给你的oss地址，你的历史记录里面是不是最好都能够读取到阿里云oss地址，还是说你还需要别的才能够读历史仓库呢。另外我还需要你给我整理一个灵感库，支持我自己上传一些图片，便于我后续想要使用的时候进行直接的快速引用进行二次编辑

还有灵感库，我希望支持自己上传图片，然后后面可以直接选中再编辑，这种结构该怎么设计更合理。

再比如一个我自己用的时候很有感的细节：当文字被解析出来之后，我希望鼠标移动到某一段文字的时候，可以在原图上直接高亮对应区域，这样我能快速确认这段文字的位置。

这些都不是一开始就想好的，而是在一边做一边补。

整个应用我最后拆成了三个部分，当当当，大家可以看下面的几个完整模块。

第一个是工作台。

用户上传图片之后，系统会自动解析文字，然后我就可以对某一段文字做修改，属于「指哪改哪」。

改完之后点击提交，就会进入图像编辑，生成新的图片。

第二个是灵感库。

平时看到不错的封面，可以直接存进去，后面需要的时候可以直接拿来改。

我这里用的是阿里云OSS来做存储，这样图片不会过期，也方便管理，直接让搭载了 GLM-5.1 的 Claude Code 帮我去实验。

第三个是历史记录。

每一次生成的结果都会被记录下来，本质上也是存在OSS里，方便后面回溯和复用。

说回GLM-5.1本身，我自己的感受是，它这次最大的变化，是在长任务里的稳定性。