摘要:目的:人工智能技术不断发展,在影视制作中的应用越来越广泛,从早期在后期制作中的有限参与发展到介入影视制作全过程,特别是近年来文生图和文生视频等生成式大模型呈现出前所未有的创造性。文章对从深度学习到生成式大模型的关键技术进行深入解析,旨在推动人工智能技术在影视制作中的广泛应用。方法:文章从人工智能技术的跨模态应用出发,深入分析文生图和文生视频等生成式大模型的底层技术结构,并结合深度学习技术的发展进化,对Transformer模型和生成模型进行解析。对Transformer模型,通过与卷积神经网络对比,重点分析其注意力机制的计算优势和向视觉领域的拓展方式。对生成模型,比较了流行的生成对抗网络(GAN)、变分自编码器(VAE)和扩散模型三种类型,并结合生成式大模型分析其应用。结果:Transformer模型以自主力机制改变了深度学习的技术架构,在自然语言处理和视觉领域都取得了极大成功,触发了大模型和跨模态应用。生成式模型是高质量图像生成力的核心,Transformer与生成模型配合,形成了生成式大模型的创新力量。结论:人工智能技术在影视行业引发了极大关注,随着技术的不断升级和创作者的实践探索,人工智能技术将给影视行业带来更大的机遇与挑战。
关键词:大模型;人工智能;深度学习;Transformer模型;扩散模型;生成模型
中图分类号:TP18 文献标识码:A 文章编号:1004-9436(2024)15-00-05
0 引言
人工智能(Artificial Intelligence,AI)技术在影视制作中的应用可以追溯到20世纪末。其发展大致可以分为三个阶段:第一阶段为后期制作中人工智能的有限参与,主要用于对图像的优化,以增强影像的视觉效果,算法相对简单;第二阶段的人工智能算法开始变得复杂,应用也更加广泛,不仅涉及影视制作的全过程,而且出现了AI换脸这样具有一定生成性的技术,如Deepfakes等;第三阶段即目前最新的生成式人工智能(Artificial Intelligence Generated Content,AIGC)大模型,如以Stable Diffusion、Midjourney为代表的文生图大模型,以及尚未市场化但备受瞩目的文生视频大模型Sora等。得益于AIGC技术的发展,它们具有一定的创造性,不再局限于影像修正或强化作用。目前,文生视频尚处于测试与发展阶段,还未真正进入成熟的市场化应用阶段。
从技术层面来说,生成式人工智能具体表现为不同的生成式大模型,如文生文、文生图、文生视频、文生声音等,它们可以根据文本描述生成不同形式的数据,为影视艺术创作提供全新的技术手段。虽然生成的形态有一定差异,但这些生成式大模型的底层技术结构非常类似。本文试图从这些通用的技术结构入手,对生成式人工智能的关键技术进行解析。
1 生成式大模型:创造性的载体
文本、图像、声音、视频等代表数据的不同形式,在人工智能领域,通常将每种形式称为一个模态(Modality)。生成式大模型可以同时理解和处理多个不同模态的数据,并能够实现不同模态之间的转换。随着AI技术的发展,多模态处理已成为一种趋势,文生视频在一定程度上可以被看作文生图技术的延伸和升级,从原理上来说,逐帧生成所需图片再连接起来就可以生成一段动态的视频。但考虑到视频中物体在空间上的一致性和视频内容在时间上的连贯性,实际文生视频的难度远高于文生图。目前的文生视频大模型还处于初级阶段,一般仅能生成几十秒到一两分钟长的短视频。但随着生成视频时长和质量的不断提高,未来其将在影视行业展现出巨大的应用价值。
文生图和文生视频的底层技术框架非常类似,都是依赖基于Transformer的深度学习技术,通过理解和处理文本描述,使用扩散模型等生成对应的视觉内容。以Stability AI公司推出的Stable Diffusion为例,其核心结构主要包括三个模块,即文本编码器、图像信息生成器和图像解码器。文本编码器对输入的文本描述进行编码,捕捉文本的含义,将文字转化为在计算机中用数学表示的语义向量;图像信息生成器是文与图连接的核心,在文本对应的语义向量引导下,使用扩散模型从噪声图像逐步去噪,生成与文本描述匹配的较低维度的图片信息;图像解码器将低维图片信息对应的特征向量进行解码放大,生成分辨率较高的实际图像[1]。需要注意的是,图片信息生成器并不直接生成图像,而是生成图像信息,图像的生成实际上是由图像信息生成器和图像解码器共同完成的。
大模型是深度学习技术发展的最新阶段。深度学习是人工智能领域的一个重要分支,自2010年以来,深度学习技术快速发展,在自然语言理解、图像识别和语音识别等领域获得了广泛应用。深度学习技术源于人工神经网络的研究,其核心在于使用多层次的神经网络结构(又称深度神经网络),通过逐层抽象来理解和处理数据,通过训练,每层网络都能学习到数据的一个特定表示,多层组合使整个网络具有强大的表示能力。与传统神经网络相比,深度神经网络以数据的原始形态作为网络的输入,其“深度”不仅体现在网络层数之多、神经元数量之大,更在于它把传统人工智能技术中人为操作的特征设计转化为利用神经网络自主提取特征。这样既避免了人工特征的局限性,通过多层神经网络的逐层抽象来学习数据的特征表示,又能将特征提取与分类识别网络有机结合,增强神经网络的学习和表示能力,从而处理复杂的任务。
早期的深度学习模型主要包括卷积神经网络(Convolutional Neural Networks,CNN)和循环神经网络(Recurrent Neural Network,RNN)两类。CNN及其各种改进模型擅长获取图像的空间相关特征,广泛用于图像分类和图像识别领域;RNN及其改进模型主要处理时间序列数据,广泛用于自然语言处理(Natural Language Processing,NLP)和语音识别等。近年来,Transformer模型横空出世,不仅成为NLP等时间序列数据处理的主流模型,还成功跨界到图像处理和计算机视觉(Computer Vision,CV)领域,更催生了ChatGPT和目前爆火的生成式人工智能。
Transformer同样基于深度神经网络,是目前最强大的深度学习模型之一。通过完全依赖自注意力机制(Self-Attention)模型,Transformer具有高效的并行计算能力、强大的表示能力和适应长序列数据等突出优点,在文本、图像和视频等方面都表现出了超越RNN和CNN的性能。ChatGPT是一种基于Transformer的语言大模型,其中的GPT表示生成式预训练(Generative Pre-Trained Transformer)。自OpenAI发布ChatGPT以来,其在对话、问答、推理和文本生成等方面的卓越表现引起了社会的普遍关注,也预示了通用人工智能(Artificial General Intelligence,AGI)时代的来临。
与专门用于特定任务处理的深度学习模型相比,大模型具有大规模参数和复杂的计算结构,参数量有数十亿甚至数千亿,因此模型的表达能力和预测性能较强,能够处理更加复杂的任务和数据。以Midjourney、Stable Diffusion、DALL-E、Sora等为代表的AIGC大模型,更是把语言大模型与图像/视频生成模型相结合,可以根据用户输入的提示词或文字描述,生成逼真的图像或视频。这些AI大模型拥有多模态的处理能力,为AIGC发挥创造力提供了空间。目前,这些主流AI大模型的技术结构有一定的相似性,其中最为突出的关键技术当数Transformer模型和生成模型。
2 Transformer模型:自注意力机制
Transformer是一种基于自注意力机制的深度神经网络模型[2]。注意力机制源于对人类视觉的研究,在观察事物时,人类会选择性地关注特定部分的信息,而忽略其他可见信息。Transformer最初针对NLP提出,在处理序列数据时,其中的每个元素都与序列中不同位置的其他元素交互,通过注意力权重捕捉与序列中其他元素的关系来不断更新自身的表示。与CNN和RNN等不同,自注意力机制使模型可以灵活处理不同位置之间的依赖关系,尤其是获得全局信息和长距离依赖关系。自注意力机制主要使用查询(Query,Q)、键(Key,K)和值(Value,V)三个关键向量来计算注意力权重。具体而言,以查询向量Q为基础,通过计算Q与所有键向量K之间的相似度来计算每对元素之间的注意力分数,并将它们加权求和得到注意力权重,再将对应的值向量V与注意力权重相乘并求和,得到该元素的输出。Q、K、V的概念源于信息检索系统,Q表示希望获取的信息,K用于确定与Q匹配的信息,而V则包含与相应K关联的实际信息。自注意力机制通过Q、K、V的设计使模型能够捕捉到序列数据中的复杂关系,其核心算式如下:
在实际应用中,往往将多个注意力机制模块并置,同时计算,再将它们的结果合并在一起,称为多头注意力机制。在训练过程中,每个“头”能够独立学习不同的注意力权重。通过这种“多头”组合的方式,模型能够同时关注输入序列数据中不同方面的相关信息,从而捕捉序列元素之间的微妙关系,增强模型的表达能力。
从结构上来看,Transformer与基于CNN的语义分割网络类似,也采用编码器—解码器结构。在NLP任务中,这是一种流行的做法。编码器处理输入序列数据并生成其紧凑的抽象表示,解码器则根据该表示解码生成输出序列。Transformer的编码器部分由多个编码器级联而成,每个编码器包含两个子层连接结构,第一个子层由一个多头自注意力机制模块、规范化层和一个残差连接组成,第二个子层包括一个前馈全连接层、规范化层和一个残差连接。解码器部分也由多个解码器堆叠而成,每个解码器包含三个子层连接结构,前两个子层都由一个多头自注意力机制模块、规范化层和一个残差连接组成,第三个子层也由一个前馈全连接层、规范化层和一个残差连接组成。前馈全连接层是最早的简单人工神经网络类型之一;规范化层对数据进行规范化处理,使样本数据更稳定,从而加快模型的收敛速度;残差连接可以缓解神经网络训练过程中可能出现的梯度消失或梯度爆炸问题。规范化层和残差连接是深度学习中广泛使用的技术手段,有助于稳定训练过程,使模型训练更深更稳定。
为使Transformer能够处理文本,首先需要使用分词(Tokenization)和词嵌入(Embedding)操作,把文本转换成一系列向量,然后输入模型中进行计算。分词的概念出现于20世纪90年代,指把一段连续的文本切分成若干独立的、有意义的基本语义单元(token)序列的过程。对英语文本而言,最简单的分词方法就是按空格把每个单词作为一个token,但这需要非常庞大的词典,而且实际语法中存在很多组合词、缩略词、俚语等,这时使用空格进行分词就不合适了。分词处理既需要保留表示文本序列的能力,也要有助于控制词典的规模。目前最常用的分词方法有BPE、BBPE、WordPiece等。
词嵌入技术可以追溯到20世纪五六十年代的语言学研究,是为分词后的每个token提供一个多维的向量表示,把稀疏离散型的高维token向低维的连续空间映射,将每个token编码为向量。该向量可以表示token的语义,如果一个单词在上下文中经常与另一个单词一起出现,那么它们嵌入后在向量空间的位置会比较接近,这意味着它们有相似的语义。早在20世纪八九十年代,人们就尝试用神经网络来学习单词的向量表示,再根据单词的上下文预测下一个单词。近年来,BERT、ELMo等大型语言模型也可以生成上下文相关的向量表示,更好地捕捉单词的语义和上下文信息。
与RNN相比,Transformer可以利用自注意力机制进行并行计算,从而高效处理长序列数据。在编码器部分,整个序列可以被同时处理,所有位置的计算并行,各位置的向量能同时与序列中的其他位置交互,计算注意力权重并加权求和。在解码器部分,训练时同样可以进行并行处理,而在推理时则顺序处理数据。通过自注意力机制和前馈神经网络层,Transformer实现了编码器和解码器内部的并行计算,显著提高了长序列数据的计算效率。其强大的表示能力使其一枝独秀,不仅从NLP跨界到计算机视觉领域,更成为几乎所有大模型的基础。
Transformer也被用于视觉领域。CNN模型的不足体现在其卷积和池化操作仅能考虑局部感受,需要不断加深网络来获取全局性特征,因此CNN对长距离像素关系的感受能力相对较弱。Transformer为计算机视觉应用提供了一种新的思路,与文本的序列性不同,图像表达的是二维的空间分布,为使用Transformer模型处理图像,需要先将图像转化为序列数据。Google团队提出的ViT是第一个用Transformer代替CNN的图像分类模型[3],它将输入图像分成一系列固定像素大小的图像块(Patches,如16×16),再经过Embedding处理,把图像块展平为向量形式作为Transformer的输入。为完成图像分类任务,Vit在输入序列中加入一个特殊的token,训练后对应的结果即为最后的类别判断。Vit是Transformer在CV领域的里程碑之作,打通了图与文之间的壁垒,图与文可以进行统一建模。
与Vit类似,Sora文生视频模型的核心技术之一是把视频数据转化为Patches的形式进行统一表示,并结合Transformer和扩散模型进行训练。由于视频包含连续的时间维度,Sora把视频切分成时空图像块(Spacetime patches)[4],其中既包含空间上的纹理和颜色等信息,也包含时间维度上连续几帧的信息。这些图像块是视频处理的基本单元,再被转换成一系列向量,这样Sora就能够利用Transformer架构的优势同时处理空间和时间上的信息。
3 生成模型:生成力的核心
生成模型(Generative Model)是人工智能领域的一个重要分支,专注于通过训练对已有数据集进行学习,在训练过程中模型学习该数据集中数据的内在结构、模式和分布特征,从而生成与之类似但又不完全相同的新数据。生成模型与判别模型相对,两者都属于有训练数据作为参考的监督式学习,但后者主要关注对数据的分类、识别或预测等[5]。为生成多样化的新数据,生成模型必须具有随机性。从概率与统计的角度来看,判别模型是在给定数据X的情况下,对类型Y出现的概率进行判断,训练学习的是条件概率分布P(Y/X);而生成模型学习得到的是联合概率分布P(X,Y),即数据X和类型Y共同出现的概率,它表征了数据的分布特征,反映的是同类数据本身的相似度。由生成模型可以进一步得到相应的判别模型。相较于判别模型,生成问题的难度更大,往往更难解决。不难想象,用计算机生成一只猫的图片的难度远大于判断一张图片是否属于猫的类型。
目前,较为流行的生成模型主要有生成对抗网络(Generative Adversarial Net,GAN)[6]、变分自编码器(Variational AutoEncoder, VAE)[7]和扩散模型(Diffusion Model)[8]等。
GAN主要基于CNN模型,结构由生成器和判别器两个神经网络组成。生成器负责生成尽可能逼真的样本数据,以欺骗判别器;而判别器负责判断输入数据的真假。GAN的基本思想是通过生成器和判别器的相互对抗来不断增强数据生成能力,两者在训练过程中共同进化,使生成器可以生成真假难辨的新数据。GAN自2014年提出以来受到广泛关注,成为当时最流行的生成类任务算法,在风格迁移、图像生成、语言合成等多个领域取得了显著成果。经典的换脸应用Deepfakes采用的就是基于GAN的技术。
VAE模型由编码器和解码器组成。编码器把训练样本编码为潜在空间(Latent Space)的分布参数,而解码器则根据这些参数生成新的数据样本。VAE模型假设潜在空间的变量遵循一定的概率分布(如高斯分布),通过引入随机性和对潜在空间的约束,来学习样本在潜在空间的概率分布参数,并认为这些参数代表了样本数据的内在结构,可以据此解码生成高质量的图像。与GAN相比,VAE易于训练和调试,但生成样本的质量不如GAN清晰。
扩散模型是近年来才提出的一种生成模型。扩散的概念源于自然界的扩散现象。如果将一滴墨水或者一颗糖果放入水里,它们会随着时间慢慢在水中扩散开来,直到达到均衡状态。而如果把这个过程反过来,水中则会重新汇聚出墨滴或糖果。但时间不可能倒流,自然界的扩散现象也无法逆转,按照热力学第二定律,这是一个熵增的不可逆过程。受非均衡热动力学启发,研究者定义了基于马尔可夫链的扩散模型。马尔可夫链表示一种随机过程,其下一状态的概率分布只由当前状态决定,而与前面的状态无关,即“无记忆性”。这个特性简化了向图像中添加噪声过程的建模,只需要用上一步的图像来预测下一步,就可以通过模拟不断向图像添加随机噪声的逐渐扩散过程,并用神经网络进行迭代训练,来学习扩散的逆向过程,从噪声中重构图像。
扩散模型包括正向扩散和逆向扩散两个过程。正向扩散在样本中基于随机过程不断添加一定量的噪声,逐步提升样本的复杂度,使原始信息逐渐模糊,直至淹没在噪声中。逆向扩散过程即生成的过程,与正向扩散相反,通过多步循环迭代,逐层去除噪声,逐步从噪声中恢复出清晰的图像。扩散模型生成的新样本不可能与原始样本完全一致,但可以与原始样本分布类似。与GAN、VAE等模型相比,扩散模型的应用优势主要体现在高质量图像生成上,其能够生成具有丰富细节和高逼真度的高质量图像,图像样本更加多样化,同时扩散模型在训练时更稳定。当前主流的文生图、文生视频模型,如Midjourney、Stable Diffusion和DALL-E等,均采用扩散模型作为图像生成的核心技术。
如前文所述,Stable Diffusion的图像生成过程由图像信息生成器和图像解码器两步组成。图像信息生成器采用的是扩散模型,实现从文本到图像信息的生成;而图像解码器使用的则是VAE模型,实现图像的解码放大。扩散模型采用UNet结构进行建模,基于噪声矩阵实现文本引导下的潜空间(latent space)图像特征信息生成(即低维图片)。UNet本来是一种基于CNN的图像分割任务网络,因U形对称结构而得名,包含一个特征提取及下采样的编码器和一个特征上采样及图像重建的解码器。在扩散模型中,UNet承担着预测随机噪声,从带有噪声的图像中恢复出图像信息的任务。UNet有强大的特征提取和重建能力,通过多级编码器提取图像的多层次特征,在解码器部分则逐步放大特征图,并结合跳跃连接传来的底层细节信息,预测应该去除的噪声。如上文所述,扩散模型是循环运行的,UNet在扩散循环中进行迭代去噪,每次预测的噪声由文本特征向量和循环的时间步进行引导,将预测的噪声在随机噪声矩阵中去除,最终形成稳定的图像特征。VAE包含编解码结构,通过编码器的压缩和解码器的放大功能,构建高清图像与潜空间特征信息的变换关系,Stable Diffusion通过VAE模型解码放大功能与扩散模型图像特征信息生成功能的组合来实现高质量图像的生成。
Stable Diffusion使用CLIP(Contrastive Language-Image Pre-training)预训练模型[9]作为文本编码器,再通过交叉注意力机制将编码的特征向量作为条件送入图像信息生成器。2021年,OpenAI发布的CLIP模型是一种基于文本—图像对进行对比学习的预训练Transformer模型,其训练使用了一个超大规模的数据集,该数据集包含4亿个通过互联网收集的文本—图像对数据。通过对比学习,模型计算文本和图像特征向量的余弦相似性,学习文本和图像的匹配关系。CLIP可以实现文本和图像的对齐,在多模态应用领域迈出了重要一步,为文本生成图像或视频奠定了基础。
为在文本和图像之间建立联系,CLIP使用文本编码器对文本进行特征提取和编码形成文本特征向量,使用图像编码器对图像进行特征提取和编码形成图像特征向量,并在规范化后计算两者的余弦距离,同对数据的结果趋近于1,不同对的结果趋向于0,采用对比损失进行误差反向传播和训练。在训练中,最大化同对文本描述和图像之间的相似度,而最小化文本描述与其他图像的相似度。文本编码器可以使用基于Transformer的BERT模型,图像编码器可以使用基于CNN的ResNet或基于Transformer的Vit模型。CLIP的核心是从文本和图像中学习一个跨模态的表示空间,在这个空间内,具有相似意义的不同模态的特征向量能够映射在一起,从而实现根据文本搜索图像、生成图像,或者根据图像生成相应的文本描述等。由于CLIP采用文图对比进行训练,其编码后的文本特征向量对图像更具有鲁棒性。
4 人工智能技术在影视制作中的应用
2012年,深度学习技术开启了人工智能的大门,很多领域因为深度神经网络的使用而步入智能时代;2022年末,ChatGPT/GPT-4大放异彩,掀起了以“大模型”为关键词的新一轮人工智能浪潮;2023年,AIGC大模型被赋予了更多的想象力和可能性,为影视行业的创新发展和升级提供了新的工具和视角。
2024年,关于生成式人工智能在影视制作中的探讨,无论是学术研讨还是行业实践,都呈现井喷状态,关于人工智能的讨论几乎遍布各大与艺术或者影视有关的学术论坛。与此同时,行业内的实践如火如荼地展开。2月,国内首部使用人工智能制作的6集动画《千秋诗颂》在央视综合频道上线开播;4月,央视电影频道“AI影像人才优选计划”推出《凤鸣山海》等以荆楚文化为主题的短片;第14届北京国际电影节,首次开设了“AIGC电影短片单元”,动画《致亲爱的自己》获得AIGC电影短片单元最佳影片。这些作品的问世显示了生成式人工智能巨大的潜力。一方面,生成式大模型的出现让(下转第页)
(上接第页)影视制作的门槛变低,一部2分钟的短片可以由5个人在10多天内完成,为更多潜在的创作者提供入行契机;另一方面,其制作过程并非“一键生成”,所需要的前期储备与艺术积淀并不弱于传统制作。未来,随着技术的不断升级以及创作者们的不断实践探索,AIGC大模型对影视制作的介入将呈现出愈发多元的面貌,给影视行业带来更多的机会与挑战。
5 结语
从深度学习到基于Transformer和扩散模型的生成式大模型,人工智能技术在影视制作中的应用越来越广泛。基于注意力机制的Transformer模型能够更好地理解和处理文本,捕捉文本含义,不仅是各种语言大模型的基础框架,更跨越到视觉领域,为跨模态应用奠定了基础。扩散模型引领了生成模型的最新发展,通过借鉴物理学中的扩散过程,采用逐步添加噪声并去除噪声的方式,获得高质量的图像生成能力。
目前,生成式人工智能主要表现为文生图和文生视频等生成式大模型,这种基于文本描述生成内容的新技术,可能改变影视内容创意与生产的范式,为创意表达提供前所未有的技术工具。
参考文献:
[1] Zhang X, Kang H, Cai Y, et al. CLIP Model for Images to Textual Prompts Based on Top-k Neighbors[C] //International Conference on Electronic Information Engineering and Computer Science. Proceeding of 2023 3rd International Conference on Electronic Information Engineering and Computer Science. Changchun: Lecture Hall of Changchun University of Science and Technology, 2023: 9.
[2] Vaswani A, Shazeer N, Parmar N, et al. Attention Is All You Need[EB/OL]. arXiv, (2017-06-12) [2024-07-14]. https://arxiv.org/abs/1706.03762.
[3] Dosovitskiy A, Beyer L, Kolesnikov A, et al. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale[EB/OL]. arXiv, (2020-10-22) [2024-07-14]. https://arxiv.org/abs/2010.11929.
[4] Vincent K. Explaining OpenAI Sora's Spacetime Patches: The Key Ingredient [EB/OL]. Medium, (2024-02-16) [2024-07-14]. https://towardsdatascience.com/explaining-openai-soras-spacetime-patches-the-key-ingredient-e14e0703ec5b.
[5] Jebara T. Machine learning: discriminative and generative[M]. New York: Springer, 2004: 1-16.
[6] Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative Adversarial Nets [EB/OL]. arXiv, (2014-06-10) [2024-07-15]. https://arxiv.org/abs/1406.2661.
[7] Kingma D P, Welling M. Stochastic Gradient VB and the Variational Auto-Encoder [EB/OL]. arXiv, (2013-12-20) [2024-07-15]. https://arxiv.org/abs/1312.6114v6.
[8] Ho J, Jain A, Abbeel P. Denoising Diffusion Probabilistic Models [EB/OL]. arXiv, (2020-06-19) [2024-07-15]. https://arxiv.org/abs/2006.11239.
[9] Radford A, Kim J W, Hallacy C, et al. Learning Transferable Visual Models From Natural Language Supervision[EB/OL]. arXiv, (2021-02-26) [2024-07-15]. https://arxiv.org/abs/2103.00020.