基于GAN的文本生成图像算法研究

2021-09-24 05:26胡北辰
信阳农林学院学报 2021年3期
关键词:注意力精度细节

胡北辰

(安徽电子信息职业技术学院 信息与智能工程系,安徽 蚌埠233000)

文本生成图像是指根据自然语言描述生成对应的图像,该图像应该具有足够的视觉细节,并且在语义上与文本的描述保持一致。从描述性的文本中生成对应的图像是近年来热门的研究领域,在多个领域都发挥着重要作用。研究者通过对生成对抗网络(GAN, Generative Adversarial Networks)的生成器网络进行改进[1-3],以生成高质量的图像。但是,由于自然语言具有抽象的特点,其所表达的信息也有限,单一的文本往往缺少详细信息。因此,为了生成高质量的图像,我们需要带有条件约束的生成器来补充文本细节。本研究提出了一种新颖文本生成图像算法,通过利用由训练数据集形成的先验知识充实给定的标题,以解决信息量有限的问题并提高合成图像的质量。

1 文本生成算法

如图1所示,给定标题后,首先对其包含的文本信息进行了充实,而不是直接合成图像。在标题匹配的过程中,由于在通用数据集中一幅图像可能对应多个标题,因此需要将每个图像及其训练部分的标题作为知识库(内存)中的一项。然后,从知识库中检索兼容的项目,并精炼项目的标题以得到最佳的补语。最后,使用带有自注意力机制的GAN来生成对应的图像。

给定一个标题,通过标题匹配操作返回兼容的标题以实现标题的充实。该标题匹配的过程是一个信息检索问题,即从训练数据集中

图1算法流程

(1)

其中,评分器SRE2(t,tik)用于计算标题t和tik的匹配分数。评分器由编码器、对齐层和融合层组成。

(2)

其中,σ是一个sigmoid函数。给定标题t,可以从知识库Ω中获得K个最佳的候选标题,用ΩK(t)表示。为了提高语义一致性并进一步排除冲突的标题,通过选择Ntest个余弦相似度更接近标题t的标题以达到精炼的目的。

2 多标题注意力生成对抗网络

从文本生成图像的过程中,可以使用文本编码器生成给定标题的嵌入e,并将该嵌入输入到GAN中以生成图像。对于GAN,结合自注意力机制和多标题相似模型构造了注意力GAN,以支持多标题,如图2所示。

(3)

引入自注意力机制来融合标题的嵌入。给定上采样模块1产生的隐藏状态hi,对于每个tj,其对应的嵌入计算如下:

(4)

为了提取标题T的嵌入,利用自注意模块[5]融合所有标题的嵌入进行融合:

(5)

其中fmax(x)函数输出一个张量,张量中的每个元素是x每一列中的最大值,fposw是位置前馈网络,LMHA是multi-head注意层,即:

LMHA(v)=Lnl(Ldrop([H0(v),…,HNH(v)]·M3)+v)

(6)

同时考虑所有标题T,多标题相似模型损失函数定义为:

(7)

其中μk是句子tk的权重,L3(I,tk)是相似模型的损失函数,即

(8)

由多标题合成的图像应与这些标题一致,在多标题的约束下,总价值函数可以写成:

(9)

3 实验评估

实验部分采用Caltech-UCSD Birds (CUB)数据集[7],该数据集中的每个图像都有10个标题来描述细粒度的视觉细节。本文对比的算法是AGan[8]、DGAN[9]和C4Synth[10]。首先采用IS(Inception Score)指标来衡量生成图像的质量,结果如图3所示。由结果可知,本算法具有最高的IS,说明生成的图像具有较高的质量。

接下来考察算法的相关精度,对比结果如图4所示。由于图像是通过使用标题索引为0的第一个标题生成的,因此除了ground truth(GT)之外,图像和第0个标题之间的相关精度都高于其他。真实图像及其标题之间的相关精度约为0.25,比索引0处的合成图像的相关精度小,这说明真实图像包含了比标题中的视觉细节更多的细节。本方法通过使用多标题对关联过程进行了显式建模,因此其相关精度会高于GT,这表明合成图像比标题所描述的真实图像包含更多相关的视觉细节。

4 结论

为了实现信息有限的文本生成高质量图像,本文提出了一种基于GAN的文本生成图像算法。在Caltech-UCSD Birds数据集上进行的实验表明,与现有算法相比,本算法可以合成更逼真的图像。但是,要提高根据多标题来生成高质量图像并不是一件容易的事,该过程需要结合自然语言处理等方法来进一步提高性能。因此,在未来的工作中,我们将结合自然语言处理的相关技术来优化文本生成图像的性能。

猜你喜欢
注意力精度细节
基于不同快速星历的GAMIT解算精度分析
让注意力“飞”回来
热连轧机组粗轧机精度控制
以细节取胜 Cambridge Audio AXR100/ FOCAL ARIA 906
留心细节处处美——《收集东·收集西》
细节取胜
A Beautiful Way Of Looking At Things
以工匠精神凸显“中国精度”
浅谈ProENGINEER精度设置及应用
阅读理解两则