联想发表AutoStudio，使用AI生成主题一致的连环画

发布日期：2024-07-03 07:42:56 浏览次数： 3457

作者：灵度智能

微信搜一搜，关注“灵度智能”

“AutoStudio: Crafting Consistent Subjects in Multi-turn Interactive Image Generation”

很多人都想过自己制作漫画，但是碍于只有想法，没有画工，难以实现。随着AI绘画的发展成熟，现在只需要有想法就可以实现了！

近日，中大和联想联合发表了主题一致的多轮交互式的图像生成框架AutoStudio，只需要输入文字，即可按需生成一个故事完整的连环画。

项目主页：https://howe183.github.io/AutoStudio.io/

论文地址：https://arxiv.org/pdf/2406.01388

Github地址：https://github.com/donahowe/AutoStudio

摘要

当前文生图技术日趋成熟，多轮交互式的图像生成开始引起研究人员的关注。由于用户可能频繁切换主题，目前的多轮交互式的图像生成很难在生成多样化图像的同时保持主题的一致性。为解决这个问题，本文提出AutoStudio，一种无需训练的多智能体框架。

AutoStudio使用三个基于LLM的代理来处理交互，以及一个基于stable diffusion(SD)的代理来生成高质量的图像。AutoStudio引入了一个Parallel-UNet来取代绘画器中的原始UNet。还提出了一种主题初始化的生成方法，以更好地保留主题。

在CMIGBench公开测试集上的大量实验和人工评测表明，AutoStudio在多个回合中保持了较好的多主题一致性，在平均Fr échet Inception距离和平均字-字相似度上分别提高了13.65%和2.83%。

简介

在现实应用中，用户通常需要以交互方式生成一系列图像，如开放式故事生成和多主题的多回合编辑。然而，当前的方法在面对不同的用户指令(如定制、编辑和广泛的交叉引用)时，在保持跨多个主题的一致性方面遇到困难。

为了解决这些问题，我们提出了AutoStudio，这是一个无需训练的多代理框架，具有四个专门定制的代理，它们使用现成的模型与用户进行实时交互。我们的目的是引入一个多智能体协作的通用和可扩展的框架，允许我们将任何期望的LLM架构和扩散主干合并到框架中，以满足用户不同的多回合生成需求。

AutoStudio由三个基于LLM的代理组成：

1）主题管理器解释对话，识别不同的主题，并为它们分配适当的上下文;
2）布局生成器为每个主题生成部件级边界框，以控制主题位置
3）版式生成器监理提供版式改进和修正的建议。
4）基于Stable Diffusion（SD）的绘画器，在精细布局的条件下完成图像生成。

此外，我们在绘画器中引入了并行unet (P-UNet)，它利用两个并行交叉注意模块分别通过文本和图像嵌入来增强潜在主题特征。为了进一步解决SD在理解长提示方面的局限性，以及在生成过程中丢失和错误融合受试者的问题，我们在绘画器中引入了主题初始化生成方法。

在以上四个agent紧密协作的情况下，AutoStudio在多agent协作的多回合交互图像生成方面表现出了显著的优势。CMIGBench上的定量结果表明，AutoStudio将先前最先进的TheaterGen方法的性能标准提高了13.65%的Fr échet Inception距离和2.83%的平均字符字符相似度。我们还通过人工评估和定性分析来证明AutoStudio的优越性。

方法

整体架构

问题定义。设K>1表示最大可能的交互轮数。给定第k轮的提示符，一组历史提示符p={p1，…，pk−1}及其对应的合成图像= {I1，…，Ik−1}，我们的目标是生成图像Ik，其中的主题与I中的主题一致。假设I中有n个唯一的主题。为了便于细粒度的主题修改和跨主题交互，我们假设每个主题由多达m个组件组成。我们构建一个主题数据库D来区分和跟踪这些主题：

其中，IDi和IDi,j表示第i个主体及其第j个组件的唯一标识符。Si和Si,j是其对应分量的图像特征。AutoStudio可如下表示：

多代理框架。AutoStudio由三个基于LLM的代理和一个绘画器组成。我们首先使用一个主题管理器A Manager，它不仅为主题及其组件分配id，而且还将用户提示转换为绘图说明。然后由布局生成器A Layout处理这些主题，生成粗略的布局，其中包含每个主题及其组件的边界框和信息。为了纠正不合理的主题内部和主题之间的空间关系，改善粗糙的布局，引入了监理A Supervisor。该监理将粗布局作为输入，并向布局生成器提供建议。通过这种方式，A Supervisor和A Layout紧密协作，形成了一个优化布局的闭环过程。此外，我们还定义了一组任务介绍，以指导这三个基于LLM的代理生成具有适当格式的响应。最后，给定从D中检索到的精细布局和主题信息，绘画器A Drawer可以生成与布局很好对齐并包含一致主题的图像。

多轮交互解释

主题管理器。我们采用分而治之的策略，首先利用A Manager来处理提示并标识每个主题。我们通过输入pk以及A Manager之前的所有提示符和相应的输出来生成Ok Manager：

为了确保Ok Manager 为每个主题(及其组件)分配适当的标识符和标题，我们使用带有预定义任务指令的思维链提示：“首先生成ID，然后为其重要特征分配子ID。”，我们获得以下格式的Ok Manager：

我们为每个主题分配一个唯一的ID，在整个对话中保持不变，这样我们就可以在多个回合中有效地检索不同的主题。

布局生成器。A Layout的作用是为O Manager k定义的每个主题/组件生成一个边界框b：

其中S为生成图像的期望大小。每个生成的边界框b由其左上角、宽度和高度的坐标表示。为了便于后续的图像生成和布局细化，我们还在Ok layout 中维护了主题信息。Ok layout的格式为：

监理。我们引入了A Supervisor来提供改进布局的建议。此过程可以定义为：

A Supervisor包含多个建议。生成的建议将作为反馈提供给A Layout以生成最终的布局：

这些信息被送入绘画器A Drawer，生成具有多主题一致性的图像。

多主体一致性图像生成

我们在绘画器中提出了一种主题初始化生成方法和并行UNet架构(P-UNet)。

主题初始化生成。给定主题数据库D，该初始化方法生成潜在特征映射，根据布局Ok layout在空间上合并D中的所有主题特征。为了更好地保留小主体和组件的特征，我们首先调整每个主体的边界框的大小，以确保其长边达到1024像素。然后，我们利用带有P-UNet的SD模型，为每个主题生成一张具有相应调整大小和居中的边界框的图像

本文使用预训练好的CLIP图像编码器，然后使用IP-Adapter的投影模块进行图像编码。注意，我们只使用si进行初始化，因此不需要对SD i进行整个去噪过程来生成细粒度的si。实验中，我们注意到大约1/10的总扩散时间步长足以产生有效制导的si。这种策略减少了图像生成的昂贵的额外时间消耗。

为了将所有单主题图像合并为与Ok布局一致的图像，我们使用了一个由开放词汇检测模型和分割模型组成的提取器。然后，我们调整所有分割主题的大小，并根据它们对应的原始边界框将它们合并到空白指导图像IG中。将SD的正向扩散过程应用于IG，可以将IG投影到SD-d的潜空间中，得到引导集G如下：

我们建议将r设置为0.95，因为扩散模型通常在早期去噪步骤中生成主题的整体结构。这样，所有生成的单主体图像都来自同一个潜在空间，并在生成当前回合Ik图像的过程中发挥作用。

我们将Gt加入到SD d的去噪过程中，得到我们的目标图像Ik：

P-UNet。SD模型中的原始UNet利用交叉注意模块来挖掘文本特征，这些特征不足以表示多个主体的空间关系和特征。因此，我们提出了使用无需训练的布局调制注意力模块的P-UNet，我们将UNet层的原始交叉关注模块分解为两个并行的文本和图像交叉关注模块来细化Z。这两个模块具有相同的架构，其关键思想是计算Z与每主题文本/图像嵌入之间的特征相似度。

具体以PTCA模块为例进行说明。对于主题i的文本嵌入，我们计算Z的加权表示如下：

为了减少不同主体之间的相互干扰，我们用Zi f对应的二值掩码进行滤波，特征表示如下：

其中，Ms是一个二维加权矩阵，用于调整多个主体重叠区域的特征。我们定义mi,j如下：

图像增强的潜在特征Z h的计算方法类似，即我们将文本嵌入f i和权重矩阵替换为图像嵌入h i和IP-Adapter的线性投影权重矩阵。我们最终的特征Z*计算如下：

实验

定量评估

我们在CMIGBench上使用选定的基线模型对AutoStudio进行了全面的评估。在TheaterGen的基础上，我们选择了定量指标r échet Inception 距离(aFID)和平均字符字符相似度(aCCS)来评估上下文一致性，平均文本图像相似度(aTIS)来评估被试之间的语义一致性。结果表明，AutoStudio在所有指标上都明显优于以前的方法。这些定量实验结果证明了我们的方法在多回合交互中生成一致图像的优势。