高锐*,张丽君
(中北大学,太原 030051)
自2016 年起人们便能陆续看见由人工智能系统“Benjamin”执导或编剧的短片,如《Sunspring》、《It's No Game》;2020 年底,一个名为Zone Out的人工智能系统执导了《Zone Out 2》,该影片根据观众输入的关键词生成不同的故事情节;2021 年末,Netflix 和Ke‐aton Patti 合作的短片《Mr Puzzles Wants You to Be Less Alive》提供了一种新颖而独特的电影风格迁移的实例,这部仅4分23秒的影片由人工智能系统编写并导演,整个过程都通过机器学习和大数据技术实现。据介绍该AI导演学习了40万小时恐怖电影。通过观影,不难发现片中有许多熟悉的经典恐怖电影的画面,这证明AI 导演已能成功地将原有的电影风格迁移到另一种完全不同风格的影片中,这是前所未有的。到2022年底,人工智能生成内容更有如雨后春笋般涌现,谷歌的Dreamix 和Make a video,使普通用户直接能通过自己的描述生成影像,这为影视产业革命提供了潜在可能。
不论是由AI 导演的《Mr Puzzles Wants You to Be Less Alive》,还是由AIGC 技术辅助商业化动画片的首支发行级别作品《The Dog & The Boy》,AI 影片的出现不可避免地引起了一系列的技术问题和艺术挑战,包括如何保持视频内容和音频内容的连贯性,如何保持电影的意义和情感,以及如何处理可能出现的失真或者伪影等问题。本文通过研究和改进现有的电影风格迁移方法,为解决这些问题提供一些有益的思考。
电影风格迁移是指将一部电影的风格转换为另一种风格的过程,比如将一部黑白电影变成彩色电影,或将一部现实主义电影变成动画电影。电影风格迁移技术有着悠久的发展历史。早在上世纪90年代,学者们就提出了基于纹理合成的方法,但只能处理简单的纹理图像。2015年起,Gatys等[1]将神经网络引入该领域,提出了一种可实现任意两张图像风格迁移的优化算法。这一方法生成的结果具有高质量,但计算量大,速度慢,难以实时应用于视频。接着,一些利用生成对抗网络(Generative Adversarial Network,GAN)和变分自编码器(Variational Autoencoder,VAE)等模型的任意风格迁移技术也相继出现,它们能够快速、高效、多样化地实现风格迁移,甚至能根据需要动态地调整风格。此外,还有一些技术能够实现实时视频风格迁移,即在观看或拍摄视频时改变视频风格,提升用户体验和参与度。电影风格迁移是一种具有创造性和表现力的艺术手段,可以为电影制作和观赏提供更多的可能性和选择。然而,电影风格迁移也是一种复杂和困难的技术挑战,需要考虑电影的内容、结构、语言、音乐、色彩等多个方面的因素,以及不同风格之间的相似性和差异性。
电影风格迁移的研究起源于图像风格迁移的领域,图像风格迁移是指将一幅图像的风格转换为另一幅图像的风格,比如将一幅照片变成梵高的星空画。图像风格迁移的方法可以分为两类:基于优化的方法和基于深度学习的方法。基于优化的方法是指通过最小化一个目标函数来实现图像风格迁移,其中目标函数包含了内容损失和风格损失两个部分,分别用来度量合成图像与内容图像和风格图像之间的差异。基于优化的方法可以产生高质量的结果,但计算代价很高,每次生成一幅新的合成图像都需要进行迭代优化。基于深度学习的方法是指通过训练一个深度神经网络来实现图像风格迁移,其中神经网络可以是一个生成对抗网络(Generative Adversarial Network,GAN)或者一个自编码器(Autoencoder,AE)。基于深度学习的方法可以实现快速的图像风格迁移,但通常需要针对每种风格训练一个单独的模型,而且生成的结果可能存在失真或者伪影等问题。
电影风格迁移与图像风格迁移相比,有着更高的难度和更广的应用。电影不仅包含了静态的图像信息,还包含了动态的视频信息和音频信息。因此,电影风格迁移需要考虑如何在保持视频内容和音频内容不变的情况下,将视频和音频的风格进行转换,并且保证转换后的视频和音频之间有着良好的协调性和连贯性。另外,电影风格迁移还需要考虑如何在保持电影本身所表达的意义和情感不变的情况下,将电影风格进行转换,并且保证转换后的电影仍然具有艺术性和观赏性。
人工智能的发展不断涌现出新的应用领域和技术,电影风格迁移便是其中的一环。现阶段,无论在国内还是国际,关于电影风格迁移的研究都刚刚起步,其主要集中在以下几个方面:
(1)基于大数据和机器学习的AI 导演,主要关注如何利用大数据和机器学习等技术来生成电影剧本、绘画、音乐、配音、剪辑等内容,并根据用户的输入或反馈来调整电影的风格、情感、内容等方面。
(2)基于深度学习的视频风格迁移,主要关注如何利用深度神经网络来实现视频内容与视频风格之间的分离与重组,并生成具有目标风格的新视频[2]。
(3)基于深度学习的音频风格迁移,主要关注如何利用深度神经网络来实现音频内容与音频风格之间的分离与重组,并生成具有目标风格的新音频。
(4)基于深度学习的视频和音频协调性,主要关注如何利用深度神经网络来实现视频和音频之间的协调性,使得转换后的视频和音频之间有着良好的匹配和连贯性[3]。
这些研究都在不同程度上推动了电影风格迁移技术的发展,但仍有许多挑战和问题待解决。本文将重点关注基于大数据和机器学习的AI 导演电影风格迁移方法,以及它们在这个过程中的优势和局限性。
本部分将重点探讨人工智能如何塑造和改变电影风格迁移的技术和艺术,深入剖析人工智能如何实现电影风格的迁移,包括它使用的算法、技术和方法,以及它如何通过一些量化或质性的指标或标准来评估这种迁移的效果。
本节将介绍基于大数据和机器学习的AI 导演电影风格迁移方法的基本原理和流程,以及它们所涉及的技术和模型。例如,神经风格迁移是一种优化技术,主要用于获取两个图像(内容图像和风格参考图像)并将它们混合在一起,以便使输出图像看起来像内容图像,但却是以风格参考图像的风格“绘制”的[4]。以《Mr Puzzles Wants You to Be Less Alive》为例,从一开始的场景就能感受到AI 导演备受《电锯惊魂》的影响,让人不禁赞叹AI 在吸纳套路方面的出色表现。具体到应用场景,风格迁移是如何实现的呢?
3.1.1 神经风格迁移的基本流程
首先,使用一个预训练好的卷积神经网络(如VGG-16)作为特征提取器,提取内容图像和风格图像在不同层次上的特征,并通过计算特征之间的距离或相关性来定义内容损失和风格损失。然后,使用一个前馈神经网络(如Autoencoder)作为转换器,将内容图像转换为目标风格,并通过反向传播算法来更新转换器的参数。最后,重复上述过程,直到达到满意的效果[5]。
3.1.2 主要技术和模型
神经风格迁移作为近年来受到瞩目的技术,其实现过程涉及到众多颇具深度和广度的技术及模型。神经风格迁移的核心部分,包括卷积神经网络、特征提取、内容损失、风格损失、Gram矩阵和转换器。
(1)卷积神经网络(CNN):深度学习模型,用于图像识别等任务。CNN 由卷积层、池化层、全连接层等组成,从输入图像提取不同层次的特征,保留空间信息[6]。
(2)特征提取:从原始数据提取有用信息的过程。在神经风格迁移中,特征提取指使用CNN 从内容图像和风格图像提取不同层次的特征,计算内容损失和风格损失[7]。
(3)内容损失:度量两个图像在内容上的差异的指标。在神经风格迁移中,内容损失指使用CNN 从内容图像和输出图像提取较高层次的特征,计算它们的均方误差。
(4)风格损失:度量两个图像在风格上的差异的指标。在神经风格迁移中,风格损失指使用CNN 从风格图像和输出图像提取较低层次的特征,计算它们的Gram矩阵的均方误差[8]。
(5)Gram矩阵:表示图像风格特征的矩阵。Gram矩阵是由CNN 输出的特征图内积得到的,反映不同特征的相关性或纹理信息。
(6)转换器:将输入图像转换为目标风格的模型。在神经风格迁移中,转换器指使用前馈神经网络(如Autoencoder)映射内容图像到输出图像[9],并通过优化内容损失和风格损失更新参数。
在电影制作的过程中,风格迁移的技术对表达特定的情感和视觉效果具有重要的价值。然而,传统的风格迁移技术往往需要大量的时间和精力,且结果的质量和多样性也受到很多限制。而基于大数据和机器学习的AI 导演电影风格迁移方法可为这个问题带来新的解决方案,其主要集中于四个方面。
(1)速度:快速迁移风格,无需迭代优化。利用预训练模型和数据加速计算,用GPU等硬件并行处理任务。传统方法慢,计算量大,不适应大规模视频。
(2)质量:高质量迁移风格,不牺牲内容或风格。利用高质量数据提高质量和可靠性,用深度神经网络提取高层和抽象特征,更好捕捉内容和风格关系[11]。传统方法可能失真或伪影,合成图像与原始图像差异或不自然。
(3)多样性:多样化迁移风格,无需针对每种风格训练模型。利用不同类型、来源、时期、流派、媒介的艺术风格作参考,实现任意风格迁移。传统方法需单独训练模型,难适应新颖或复杂风格。
(4)个性化:个性化迁移风格,不完全依赖参考图像[12]。利用机器学习技术根据用户输入或反馈调整风格,用参数或选项控制风格强度、范围、比例等。传统方法需遵循参考图像,难灵活或细致控制。
基于大数据和机器学习的AI 导演电影风格迁移方法有优势,如快速、高质、多样和个性,但也有局限和问题,如失真、伪影、不协调和不连贯等。
(1)失真:合成图像与内容图像细节或结构失真,影响内容保留或表达。原因是方法忽略或破坏内容图像的重要信息或特征,如面部表情、轮廓、透视等。
(2)伪影:合成图像有不真实或不自然的现象,影响风格表达或美感。原因是方法引入与内容图像或风格图像不匹配或不协调的元素,如颜色饱和、纹理平滑、噪声增强等[13]。
(3)不协调:合成图像与原始视频动态或音频不协调,影响视频流畅或感染。原因是方法忽略或破坏原始视频的运动或音频,如动作、轨迹、节奏等。
(4)不连贯:合成视频时间不连贯,影响视频完整或逻辑。原因是方法对每帧图像独立风格迁移,没考虑帧间关联或一致,如光照变化、场景切换、情节发展等。
上一节分析了基于大数据和机器学习的AI 导演电影风格迁移方法所面临的挑战和问题,本节将继续探讨另一个重要的话题——如何评估这些AI 风格迁移方法的效果和性能。下文将从多个维度入手,评估的方法包括定量指标、定性指标、对比分析,以及讨论可能存在的问题等几个方面。
3.4.1 定量指标
定量指标是一种用数值指标度量合成图像与内容图像和风格图像的差异或相似度的方法。在神经风格迁移中,常用的定量指标有:
(1)峰值信噪比(PSNR):度量两个图像亮度的相似度,计算公式为:
其中,MAX是图像最大像素值,MSE是两图像均方误差。PSNR越高,两图像越相似[14]。
(2)结构相似性指数(SSIM):度量两个图像结构的相似度,计算公式为:
其中,x和y是两图像局部窗口,μx和μy是窗口均值,σx和σy是窗口标准差,σxy是窗口协方差,c1 和c2是避免分母为零的常数。SSIM 越接近1,两图像越相似[15]。
(3)风格相似性指数(SSI):度量两个图像风格的相似度,计算公式为:
其中,x和y是两图像,Gx和Gy是它们的Gram 矩阵,||·||是矩阵范数。SSI越接近1,两图像越相似。
3.4.2 定性指标
定性指标是一种使用一些主观化的指标来评价合成图像的艺术性、表现力、感染力等的方法。在神经风格迁移中,常用的定性指标有:
(1)内容保留度(Content Preservation Degree,CPD):评价合成图像在内容上与内容图像保持一致的程度的指标。CPD 越高,表示合成图像越保留内容图像的信息。
(2)风格表达度(Style Expression Degree,SED):评价合成图像在风格上与风格图像表达一致的程度的指标。SED 越高,表示合成图像越表达风格图像的特征。
(3)视觉美感(Visual Aesthetic,VA):评价合成图像在视觉上是否具有美感或者吸引力的指标。VA 越高,表示合成图像越具有视觉美感。
3.4.3 对比分析
对比分析是使用一些传统的或基于优化的方法作为对照组,来比较不同方法的优劣的方法。在神经风格迁移中,可采用以下对比方法:
(1)基于优化的方法(Optimization-based Method,OBM):使用迭代优化算法来实现风格迁移的方法,其基本思想是将一个随机初始化的图像作为输出图像,并通过最小化内容损失和风格损失来更新其像素值。这种方法可以实现较好的风格迁移效果,但速度慢,计算量大[15]。
(2)基于人工智能技术(Artificial Intelligence Technology-based Method,ATM):使用人工智能技术来实现风格迁移的方法,其基本思想是将一个预训练好的模型作为转换器,并通过输入内容图像来生成输出图像。这种方法可以实现较快的风格迁移速度,但可能会牺牲一些风格迁移质量或者多样性。
讨论分析是一种分析实验问题、解决方案和结果的方法。在神经风格迁移中,常见的问题和解决方案有:
(1)选择内容层和风格层:影响风格迁移效果的因素,内容层选高层特征,保留内容信息;风格层选低层特征,表达风格特征[16]。可用多个风格层增加多样性。
(2)平衡内容损失和风格损失:影响风格迁移效果的因素,内容损失和风格损失应适当调整,避免合成图像失去内容或自然感。
(3)提高风格迁移速度:影响风格迁移应用的因素,可用以下方法提高速度:用预训练模型作转换器,不用每次迭代优化;用小图像尺寸或少卷积层减少计算量;用GPU等硬件加速计算。
总的来说,评估基于大数据和机器学习的AI 导演电影风格迁移方法的效果是一项复杂而重要的任务。理解并应用这些评估方法能够帮助我们更好地利用这些先进的技术工具,以创造出更具艺术性和吸引力的影像作品。
前文已经讨论了电影风格迁移的基础知识以及人工智能如何在此过程中发挥作用。下文将详细探讨大数据和机器学习在电影风格迁移中所起的独特作用。通过深入探讨这两个技术是如何提高电影风格迁移的效率和质量,拓展其范围和可能性,以及推动新的电影风格和表达方式的创新。同时也对其中的技术细节、应用案例、以及可能面临的问题进行深入的剖析和讨论。
传统的电影风格迁移方法基于优化算法,对每帧图像多次迭代,最小化内容损失和风格损失。这种方法速度慢,质量不稳定,难以适应多样的风格和内容。为了解决这些问题,近年来出现了一些基于深度神经网络的电影风格迁移方法,利用大数据和机器学习的技术,实现快速、高质量、多样化的风格迁移。这些方法主要有:
(1)基于CNN的方法:使用预训练的CNN提取内容图像和风格图像的特征,计算内容损失和风格损失,使用前馈神经网络转换内容图像为目标风格,通过反向传播更新转换器的参数[17]。
(2)基于CIN 的方法:在CNN 的基础上增加CIN层,对每个样本的每个通道进行归一化,使用不同的缩放和偏移参数控制不同的风格。这样,一个模型可以实现多种风格的迁移,并可以调节参数控制风格强度[18]。
(3)基于GAN 的方法:使用生成器网络生成目标风格的图像,使用判别器网络判断生成图像是否真实。同时使用预训练的CNN 计算内容损失和风格损失,并通过对抗训练更新生成器网络和判别器网络 。基于深度神经网络的电影风格迁移方法利用了大数据和机器学习的技术,有助于提高电影风格迁移的效率和质量。相比于传统的优化算法,这些方法可以在短时间内生成高分辨率、低失真、富有表现力的风格迁移图像或视频 。
除了提高电影风格迁移的效率和质量,大数据和机器学习还可以拓展电影风格迁移的范围和可能性,使电影制作者可以更灵活地选择和控制不同的风格,并创造出更多样化和个性化的视觉效果。这些拓展主要有:
(1)任意风格迁移:这种拓展使电影制作者可以使用任意图像作为参考风格,而不需要预训练模型。这样,电影制作者可以自由地尝试不同类型、来源、时期、流派、媒介的艺术风格。
(2)多风格迁移:这种拓展使电影制作者可以同时使用多图像作为参考风格,并通过调节权重或比例控制各个风格的贡献。这样,电影制作者可以灵活地组合或融合不同的风格,创造出新颖和独特的视觉效果[19]。
(3)局部风格迁移:这种拓展使电影制作者可以对内容图像的不同区域应用不同的风格,实现区域特定的风格迁移。电影制作者从而可以精细地控制风格迁移的范围和强度,增加风格迁移的复杂度和多样性[20]。利用大数据和机器学习的技术,有利于拓展电影风格迁移的范围和可能性。相比于传统的全局、单一、固定的风格迁移,这些拓展可以更好地适应电影制作的需求和场景,提供更多的选择和创意空间。
电影风格迁移是一种复杂而创新的艺术实践,涉及多个学科和领域。除了提高和拓展电影风格迁移,大数据和机器学习还可以创造新的电影风格和表达方式,使电影制作不只是模仿或转换已有的风格,而是创造出新颖的风格[21]。这些创造主要有:
(1)风格创新:使用大数据和机器学习生成新的风格,而不依赖已有的参考图像。电影制作者可以超越现有的艺术范式,探索新的美学和表现形式。
(2)风格融合:使用大数据和机器学习融合不同或相似的风格,产生新的风格。电影制作者可以跨越现有的艺术边界,实现新的美学和表现效果。
(3)跨媒体风格迁移:使用大数据和机器学习实现不同媒介间的风格迁移,如从图像到视频、从视频到音频、从音频到文本、从文本到图像等。电影制作者可以跨越现有的媒介限制,实现新的美学和表现手段[22]。
上述创造都利用了大数据和机器学习的技术,创造了新的电影风格和表达方式。相比于传统的模仿或转换已有的风格,这些创造可以更好地体现电影制作的原创性和创造性。综上发现,大数据和机器学习将在电影风格迁移中扮演重要角色,但这个领域还有许多问题和挑战。在下一部分将讨论这些批判和挑战,特别是人工智能与电影风格迁移的局限性和可能问题。
如上文所见,人工智能,特别是基于大数据和机器学习的技术在电影风格迁移领域已经取得了许多进步,然而,任何技术的发展都是伴随着挑战和问题的,人工智能导演的电影风格迁移也不例外。本节将从伦理、技术和评价三个角度来分析这些挑战,并针对每个角度提出相应的问题和可能的解决方案。
基于大数据和机器学习的AI 导演电影风格迁移方法所涉及的一些伦理问题,包括老生常谈的几个方面,如版权、创意、责任等。这些问题在今年1 月底上线的人工智能协助生成影片《犬与少年》上便已初露端倪。具体来说就是AI 导演电影风格迁移方法可能会侵犯原始电影或者风格参考电影的版权,导致法律纠纷或者道德争议;AI导演电影风格迁移方法可能会削弱人类导演的创意和主观性,导致电影艺术的贫乏或者同质化;AI导演电影风格迁移方法可能会造成人类导演和观众之间的责任分歧,导致信任危机或者道义困境[23]。
基于大数据和机器学习的AI 导演电影风格迁移方法也面临一些技术问题,主要包括:数据、算法、模型等。例如,AI导演电影风格迁移方法需要大量的高质量的数据来进行训练和测试,但这些数据可能难以获取或者存在噪声和偏差;AI导演电影风格迁移方法需要复杂的算法来进行优化和生成,但这些算法可能存在不稳定或者不收敛的情况;AI导演电影风格迁移方法需要高效的模型来进行表达和转换,但这些模型可能存在过拟合或者欠拟合的情况。
在探讨基于大数据和机器学习的AI 导演电影风格迁移方法所缺乏的一些评价问题是无法绕过标准、指标、反馈等方面的。具体来说,AI 导演电影风格迁移方法没有一个统一的标准来定义什么是好的电影风格或者好的电影风格迁移,导致结果难以比较或者评价;AI导演电影风格迁移方法没有一个完善的指标来度量合成图像与内容图像和风格图像之间的差异或者相似度,导致效果难以量化或者优化;AI 导演电影风格迁移方法没有一个有效的反馈机制来获取用户或者专家的意见或者评价,导致结果难以改进或者满足需求。
通过对人工智能导演的电影风格迁移方法的深入批判和分析可以看出,虽然这种方法具有许多先进的优点,但也存在许多严重的问题和挑战,包括伦理、技术和评价问题。为了克服这些问题和挑战,我们需要寻找和尝试新的解决方案和改进方向,例如增强版权保护、优化数据处理和算法设计、提高评价系统的完整性和有效性等[24]。
经过对电影风格迁移及其挑战的初步认识,分析AI 在电影风格迁移中的影响力,深度解读大数据、机器学习在电影风格迁移中的角色,以及批判性地审视基于这些技术的AI 导演的电影风格迁移方法后,本文得出如下结论:
在电影风格迁移这个充满挑战且充满艺术魅力的领域,AI给人们展示了一个前所未有的可能性。它不仅开拓了电影制作和欣赏的多元化途径,也预示着未来电影艺术和电影产业的巨大变革。然而,从静态图像到动态电影的风格迁移,将不得不面对一系列复杂的挑战,如版权、创新、责任等伦理问题,以及数据、算法、模型等技术问题。
人工智能,特别是基于大数据和机器学习的AI导演,为电影风格迁移提供了全新的解决方案。凭借对大数据的精准处理,以及复杂的机器学习算法,AI导演能有效地实现电影风格迁移,并通过一系列量化或定性的指标,对迁移效果进行评估。但AI 导演在带来进步的同时,也带来了新的问题和挑战,如伦理、技术和评价标准等方面的问题。
未来,我们需要继续批判性地探讨和挑战基于大数据和机器学习的AI导演电影风格迁移方法,提出问题,寻找解决方案,并尝试各种可能的改进方向。这种批判性的思考,既能推动科技和艺术的创新发展,也能警惕人们防范其可能带来的风险。电影风格迁移与AI导演的结合是一场科技与艺术的完美碰撞,这场碰撞孕育着无限的创新可能。而这场科技与艺术的融合将给人们的生活带来更多的惊喜。