微信扫码
添加专属顾问
“Glyph-ByT5-v2: A Strong Aesthetic Baseline for Accurate Multilingual Visual Text Rendering”
目前AI在文生图领域已经日趋成熟,通过AI即可一键生成宣传海报。然而目前的AI模型大多只对英文支持较好,其他语言效果仍然有待提高。为了解决这个问题,近日微软联合清华、北大联合推出了一个多语言海报生成模型Glyph-ByT5-v2,支持10种不同语言的海报生成,为海报生成领域提供了更强大的工具。
项目主页:https://glyph-byt5-v2.github.io/
论文地址:https://arxiv.org/pdf/2406.10208
Github地址:https://github.com/AIGText/Glyph-ByT5
摘要
Glyph-ByT5-v2和Glyph-SDXL-v2支持10种不同语言的准确视觉文本渲染,并且在视觉吸引力方面表现优秀。作者通过创建高质量的多语言字形文本和图形设计数据集,建立多语言视觉段落基准测试,以及利用最新的偏好学习方法来提高视觉美学质量,实现了这一目标。这些技术的结合使得Glyph-ByT5-v2和Glyph-SDXL-v2成为强大的定制多语言文本编码器和美学图形生成模型。在DALL·E3和Ideogram 1.0都无法解决的多语言视觉文本渲染任务上取得的重大进展。
简介
目前,现有的文本到图像生成模型仅针对英语,对于中文、日语和韩语等其他语言的视觉文本渲染仍然具有挑战性。为了解决这个问题,作者设计了一个简单的基于翻译的方法,将英语字形图像和图形设计图像转换为其他语言。作者还构建了高质量的可扩展多语言训练数据集,并使用最新的技术来提高生成图形设计图像的视觉美学。作者的方法在多语言视觉段落基准测试中表现出色,并在用户研究中得到了验证。作者期望这个方法能够为准确的多语言视觉文本渲染任务提供强大的美学基础,并激发更多的努力推动这条道路上的进展。
方法
基于Glyph-ByT5和Glyph-SDXL的多语言视觉文本渲染方法进行改进,保持了字形文本编码器、视觉编码器和盒级对比损失的设计不变。
多语言Glyph-ByT5
多语言Glyph-Text数据集。本文建立了一个可扩展和准确的多语言Glyph-Text数据集。由于其他九种语言对应的字形图像和平面设计的数量比英语少得多,我们提出了一种简单而有效的基于翻译的方法来生成大量的多语言对照数据。通过使用图形渲染器创建的高质量英语字形文本数据集转换为其他语言的数据集。
多语言Glyph增强。与GlyphByT5类似,我们在字形对齐预训练阶段应用字形增强。对于字母语言,我们使用与英语相同的增强策略,即字符级和单词级的字形替换、字形重复、字形删除和字形添加。对于基于字符的语言,如汉语、日语和韩语,我们仅在字符级别上应用字形重复和字形删除。此外,为了克服对各种汉字复杂结构建模的挑战,我们设计了一种形状相似的汉字替换策略,根据汉字的形状选择最相似的汉字替换。为了帮助用户理解这些设计。
其他设置。我们选择在ByT5-Small文本编码器(217M参数)基础上构建多语种GlyphByT5-v2文本编码器,采用ViT-B/14(86M参数)实现基于DINOv2的视觉编码器。我们平等地对待不同语言的所有图像。此外,我们还采用了基于字形增强的硬负对比损失,进一步提高了视觉拼写准确率。
多语言Glyph-SDXL
我们将多语种的Glyph-ByT5-v2与改进的SDXL相结合,基于区域的多头交叉注意方案构建多语种的Glyph-SDXL-v2。
多语言设计数据集。我们按照类似的基于翻译的方式,将前面的英文平面设计图像转换成其他语言的图像。我们使用基于Llama 2-13B的LLaVA生成的相同的英文背景字幕,并且仅对发送到多语言Glyph-ByT5-v2文本编码器的提示应用不同的语言。我们还采用了基于区域的多文本编码器融合方案,将我们的多语言Glyph-ByT5-v2文本编码器的字形感知能力与两个原始CLIP文本编码器的优势整合在一起。
实验
实验设置
Glyph-ByT5v2和Glyph-SDXL-v2是通过不同数量的A100 GPU进行训练的。作者开发了多语言VISUAL PARAGRAPHY基准测试,评估了生成准确的多语言设计文本的能力。评估包括OCR指标和主观用户研究。对比了Glyph-SDXL、DALL·E3等商业产品。
评估指标
十种不同语言被分为两组:字母语言和基于字符的语言。字母语言包括英语、法语、德语、西班牙语、意大利语、葡萄牙语和俄语,使用单词作为句子的基本单位。基于字符的语言包括中文、日语和韩语,使用字符作为句子的基本单位。针对这些语言的差异,采用了大小写敏感的单词级精度和字符级精度。此外,招募了10名具有设计背景的用户来评估和比较Glyph-SDXL-v2与Glyph-SDXL,以及Glyph-SDXL-v2与DALL·E3生成的图像质量。
多语言VISUALPARAGRAPHY基准
我们构建了一个名为多语言VISUALPARAGRAPHY的基准测试,收集了100个提示,每种语言都有不同数量和难度级别的提示,包括少于20个字符、20到50个字符、50到100个字符和超过100个字符的提示。该基准测试旨在进行设计文本生成任务的评估。
使用SPO-SDXL美感
使用改进的SDXL替代原始SDXL,具体是使用经过后训练的SPO-SDXL,并通过步骤感知偏好学习方案进行微调。应用SPO后训练方案带来的改进,Albedo + SPO生成的图像质量最佳,明显优于原始SDXL生成的图像。
与DALL·E3对比
我们的方法在多语言视觉文本渲染任务中优于最新的DALL·E3方法,用户研究结果显示,我们的方法在视觉文本质量方面被优先选择91%的时间。通过利用最新的SPO后训练方案,我们的方法还实现了与DALL·E3相媲美的视觉美学。
实验
本文介绍了一种改进的定制多语言文本编码器,用于准确的多语言视觉文本渲染。作者构建了可扩展、高质量的多语言字形文本和图形设计数据集,训练了Glyph-ByT5-v2和Glyph-SDXL-v2模型。作者通过详细比较和用户研究证明了该方法的有效性。作者还通过实验证明,用人类偏好优化的后训练版本替换原始SDXL显著提高了视觉美感。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-06-28
Om AI第二弹!VLX-Seek来了:3B小模型,细粒度感知反超Gemini
2026-06-22
小参数,大能力 | 星际视觉语言大模型再进化,0.8B轻量版正式发布
2026-06-16
RapidOCR: 从 setup.py 迁移到 pyproject.toml 打包实践
2026-06-12
PaddleOCR 3.7 正式接入ONNX Runtime,一个参数换后端,轻量部署新选择
2026-06-11
本地部署OCR,可能是AI进单位的第一道门
2026-06-08
正式推出 Gemma 4 12B: 一款统一、免编码器的多模态模型
2026-05-30
还在用 MinerU 解析 PDF?这个 2B 小模型直接把 olmOCR-bench 刷到 87.6%,速度还快 3.68 倍
2026-05-30
Qwen-VLA:迈向通用具身智能的统一动作框架
2026-04-22
2026-04-27
2026-04-21
2026-04-09
2026-04-15
2026-04-26
2026-04-21
2026-05-30
2026-04-22
2026-05-25
2026-03-12
2025-12-31
2025-08-04
2025-05-26
2025-05-13
2025-04-08
2025-04-05
2025-03-30
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。