微软推出Glyph-ByT5-v2，支持10种语言高精度文字海报生成

发布日期：2024-07-29 21:43:17 浏览次数： 2976

作者：灵度智能

微信搜一搜，关注“灵度智能”

“Glyph-ByT5-v2: A Strong Aesthetic Baseline for Accurate Multilingual Visual Text Rendering”

目前AI在文生图领域已经日趋成熟，通过AI即可一键生成宣传海报。然而目前的AI模型大多只对英文支持较好，其他语言效果仍然有待提高。为了解决这个问题，近日微软联合清华、北大联合推出了一个多语言海报生成模型Glyph-ByT5-v2，支持10种不同语言的海报生成，为海报生成领域提供了更强大的工具。

项目主页：https://glyph-byt5-v2.github.io/

论文地址：https://arxiv.org/pdf/2406.10208

Github地址：https://github.com/AIGText/Glyph-ByT5

摘要

Glyph-ByT5-v2和Glyph-SDXL-v2支持10种不同语言的准确视觉文本渲染，并且在视觉吸引力方面表现优秀。作者通过创建高质量的多语言字形文本和图形设计数据集，建立多语言视觉段落基准测试，以及利用最新的偏好学习方法来提高视觉美学质量，实现了这一目标。这些技术的结合使得Glyph-ByT5-v2和Glyph-SDXL-v2成为强大的定制多语言文本编码器和美学图形生成模型。在DALL·E3和Ideogram 1.0都无法解决的多语言视觉文本渲染任务上取得的重大进展。

简介

目前，现有的文本到图像生成模型仅针对英语，对于中文、日语和韩语等其他语言的视觉文本渲染仍然具有挑战性。为了解决这个问题，作者设计了一个简单的基于翻译的方法，将英语字形图像和图形设计图像转换为其他语言。作者还构建了高质量的可扩展多语言训练数据集，并使用最新的技术来提高生成图形设计图像的视觉美学。作者的方法在多语言视觉段落基准测试中表现出色，并在用户研究中得到了验证。作者期望这个方法能够为准确的多语言视觉文本渲染任务提供强大的美学基础，并激发更多的努力推动这条道路上的进展。

方法

基于Glyph-ByT5和Glyph-SDXL的多语言视觉文本渲染方法进行改进，保持了字形文本编码器、视觉编码器和盒级对比损失的设计不变。

多语言Glyph-ByT5

多语言Glyph-Text数据集。本文建立了一个可扩展和准确的多语言Glyph-Text数据集。由于其他九种语言对应的字形图像和平面设计的数量比英语少得多，我们提出了一种简单而有效的基于翻译的方法来生成大量的多语言对照数据。通过使用图形渲染器创建的高质量英语字形文本数据集转换为其他语言的数据集。

多语言Glyph增强。与GlyphByT5类似，我们在字形对齐预训练阶段应用字形增强。对于字母语言，我们使用与英语相同的增强策略，即字符级和单词级的字形替换、字形重复、字形删除和字形添加。对于基于字符的语言，如汉语、日语和韩语，我们仅在字符级别上应用字形重复和字形删除。此外，为了克服对各种汉字复杂结构建模的挑战，我们设计了一种形状相似的汉字替换策略，根据汉字的形状选择最相似的汉字替换。为了帮助用户理解这些设计。

其他设置。我们选择在ByT5-Small文本编码器(217M参数)基础上构建多语种GlyphByT5-v2文本编码器，采用ViT-B/14(86M参数)实现基于DINOv2的视觉编码器。我们平等地对待不同语言的所有图像。此外，我们还采用了基于字形增强的硬负对比损失，进一步提高了视觉拼写准确率。

多语言Glyph-SDXL

我们将多语种的Glyph-ByT5-v2与改进的SDXL相结合，基于区域的多头交叉注意方案构建多语种的Glyph-SDXL-v2。

多语言设计数据集。我们按照类似的基于翻译的方式，将前面的英文平面设计图像转换成其他语言的图像。我们使用基于Llama 2-13B的LLaVA生成的相同的英文背景字幕，并且仅对发送到多语言Glyph-ByT5-v2文本编码器的提示应用不同的语言。我们还采用了基于区域的多文本编码器融合方案，将我们的多语言Glyph-ByT5-v2文本编码器的字形感知能力与两个原始CLIP文本编码器的优势整合在一起。

实验

实验设置

Glyph-ByT5v2和Glyph-SDXL-v2是通过不同数量的A100 GPU进行训练的。作者开发了多语言VISUAL PARAGRAPHY基准测试，评估了生成准确的多语言设计文本的能力。评估包括OCR指标和主观用户研究。对比了Glyph-SDXL、DALL·E3等商业产品。

评估指标

十种不同语言被分为两组：字母语言和基于字符的语言。字母语言包括英语、法语、德语、西班牙语、意大利语、葡萄牙语和俄语，使用单词作为句子的基本单位。基于字符的语言包括中文、日语和韩语，使用字符作为句子的基本单位。针对这些语言的差异，采用了大小写敏感的单词级精度和字符级精度。此外，招募了10名具有设计背景的用户来评估和比较Glyph-SDXL-v2与Glyph-SDXL，以及Glyph-SDXL-v2与DALL·E3生成的图像质量。

多语言VISUALPARAGRAPHY基准

我们构建了一个名为多语言VISUALPARAGRAPHY的基准测试，收集了100个提示，每种语言都有不同数量和难度级别的提示，包括少于20个字符、20到50个字符、50到100个字符和超过100个字符的提示。该基准测试旨在进行设计文本生成任务的评估。

使用SPO-SDXL美感

使用改进的SDXL替代原始SDXL，具体是使用经过后训练的SPO-SDXL，并通过步骤感知偏好学习方案进行微调。应用SPO后训练方案带来的改进，Albedo + SPO生成的图像质量最佳，明显优于原始SDXL生成的图像。

与DALL·E3对比

我们的方法在多语言视觉文本渲染任务中优于最新的DALL·E3方法，用户研究结果显示，我们的方法在视觉文本质量方面被优先选择91%的时间。通过利用最新的SPO后训练方案，我们的方法还实现了与DALL·E3相媲美的视觉美学。

实验

本文介绍了一种改进的定制多语言文本编码器，用于准确的多语言视觉文本渲染。作者构建了可扩展、高质量的多语言字形文本和图形设计数据集，训练了Glyph-ByT5-v2和Glyph-SDXL-v2模型。作者通过详细比较和用户研究证明了该方法的有效性。作者还通过实验证明，用人类偏好优化的后训练版本替换原始SDXL显著提高了视觉美感。