在视觉领域,扩散模型已然成为图像生成的新范式。我们熟知的Stable Diffusion、DALL-E和Imagen等文生图工具都以扩散模型为基础。而在语言模型领域,自回归模型则占据主导位置,大名鼎鼎的ChatGPT就使用了此类模型来生成回复。所谓的扩展法则在以自回归模型为基础的大模型身上展现出了强大的力量,可以有效地提升性能。不过,如果回到视觉领域(比如文本生成图像),扩展自回归模型并未像在大语言模型中那样显著有效。许多研究人员正在努力搞清楚原因,并且想办法弥合自回归模型在视觉模型与语言模型之间的性能差距。
近日,来自谷歌DeepMind和美国麻省理工学院的研究人员发表了一篇预印本论文,介绍了他们在“提升自回归文生图模型性能”方面的最新进展。
该研究团队开发的新模型Fluid,通过采用连续Token和随机顺序策略,成功实现了自回归模型在文生图任务上的大规模扩展,不仅在多项基准测试中达到了领先水平,还提出了关于自回归模型的新见解。自回归模型在自然语言处理领域取得了巨大成功,但在计算机视觉特别是文生图任务中的表现一直不如扩散模型。为了探究背后的原因,研究团队对自回归图像生成模型的两个关键设计因素进行了系统性的研究:Token(离散或连续)和生成顺序(光栅顺序或随机顺序)。研究发现,采用连续Token的模型在视觉质量和评估指标上都显著优于使用离散Token的模型。这主要是因为离散Token化过程会导致大量信息丢失,即使增加模型参数也无法弥补这一缺陷。
例如,在生成著名的蒙娜丽莎画像时,基于离散Token的模型即使扩展到30亿参数,也无法准确还原画像细节。相比之下,基于连续Token的模型可以生成更高质量、更符合文本描述的图像。
在生成顺序方面,研究表明随机顺序模型在生成多个对象和复杂场景时表现更佳。这可能是因为随机顺序允许模型在每个预测步骤中调整图像的全局结构,而光栅顺序模型则缺乏这种灵活性。这一发现对提高文本到图像的对齐度具有重要意义。基于这些新发现,研究团队开发了Fluid模型。Fluid采用连续Token和随机顺序生成策略,在可扩展性和生成质量上都表现出色。实验结果显示,Fluid模型的验证损失、FID(是用于衡量两个多元正态分布之间距离的评价指标)评分和GenEval得分都随着模型参数规模的增加而持续改善。值得注意的是,仅有3.69亿参数的小型Fluid模型就达到了7.23的零样本FID得分,还在GenEval基准测试中达到了0.62,与拥有200亿参数的Parti模型(谷歌开发的自回归文生图模型)持平。受到这一趋势的启发,研究团队将Fluid模型进一步扩展到105亿参数。该模型在MS-COCO数据集上实现了6.16的零样本FID得分,在GenEval基准测试中的综合得分达到0.69,超越了DALL-E 3和StableDiffusion3等多个使用扩散模型的文生图系统。
Fluid模型的成功不仅体现在量化指标上,在视觉质量方面也有显著提升。
研究人员展示了Fluid模型在各种复杂场景下的生成结果,使用了如“一只愤怒的鸭子在健身房举重”“冬天的蒙娜丽莎”“办公室里三只穿西装的泰迪熊为朋友庆祝生日”等提示。
这些生成的图像不仅细节丰富,而且准确反映了文本描述的内容和情感,展现出模型对文本和图像之间复杂关系的深入理解。
研究团队的实验还揭示了一个现象,即验证损失与评估指标(如FID和GenEval得分)之间存在强相关性。这意味着通过简单地监测验证损失,就可以在一定程度上预测模型在下游任务中的表现。
此外,研究还发现与语言模型类似的是,增加训练步数和计算量可以持续提升Fluid模型的性能。但是,该团队也观察到对于较小的模型,增加训练步数的效果不如直接扩大模型规模。这一发现强调了模型规模在提升性能中的关键作用。
Fluid模型不仅标志着自回归模型在文生图任务上的新进展,也为计算机视觉领域的模型扩展提供了新的思路。课题组指出,这项工作可能有助于缩小视觉模型和语言模型在扩展性能上的差距。
然而,研究人员也承认,尽管Fluid模型在多个指标上取得了领先,但在某些方面仍有提升空间。
例如,在GenEval基准测试的某些子任务中,如位置关系理解和渲染两个物体,Fluid模型的表现仍落后于一些最先进的扩散模型。这表明在处理某些特定类型的视觉任务时,不同的模型架构可能各有优势。总的来说,这项研究为自回归文生图模型的发展开辟了新方向。通过采用连续Token和随机顺序生成策略,Fluid模型成功实现了大规模扩展,在多个关键指标上达到或超越了现有最先进的模型。随着这一技术的进一步发展和完善,我们或许可以期待看到更多令人惊叹的应用,如更精确的图像编辑工具、更智能的视觉内容创作辅助工具等。也可以激发更多人探索自回归模型在视觉任务中的潜力,推动人工智能在理解和生成视觉内容方面取得新的突破。