薄一航
北京电影学院美术学院,北京 100088
电影是艺术,更是技术。纵观电影自诞生至今,每一次质的飞跃都离不开技术的突破与进步,从默片到有声,从单声道到立体声,从黑白到彩色,从平面到3D,再到今天的球面、全景以及虚拟现实电影等,处处可见新的科学技术给电影的发展进步所带来的生机。对于电影美术的创作也不例外,从最早借鉴舞台的单片绘画布景到多层的立体空间布景,从实景搭建到实景与虚拟场景的结合以及纯虚拟空间场景的制作等,技术的迭代更新也一直在推动着电影美术的发展和革新。到了今天虚拟现实 (VR)、人工智能 (AI)、5G、人机交互、显示技术等各种新兴技术迅猛发展的年代,尤其是在虚拟制片技术逐渐成熟的时刻,如何将这些新技术融合到电影美术的创作当中,提升创作效率,拓宽创作思路,将电影美术创作推进到一个新的历史阶段是一个值得思考和探索的问题。
机器学习方法里程碑式的发展突破了人工智能(Artificial Intelligence,AI)多年来难以逾越的瓶颈,将其推进到了一个新的历史阶段。人工智能技术也越来越广泛地应用到了工业、医学、军事、航天、教育、文化、艺术等各个领域,在很大程度上帮助和辅助了人们的工作与生活,同时也极大程度地提高了我们的工作和生活效率。尽管如此,现阶段的人工智能依旧还处于模仿复制的弱人工智能阶段,机器仍然不具备人的思维、意识、灵感,以及理解能力等。然而,人作为艺术创作的主体,是任何一种艺术创作形式的核心,离开了人的因素,艺术作品也便失去了自身的价值和灵魂。换句话说,艺术作品更多地是艺术家或者创作者情感的一种表达和释放。近年来,AI作曲、AI绘画、AI作诗等各种人工智能艺术形式层出不穷,不得不说,人工智能技术的融入的确提升了这些新的艺术形式的生成效率,而这些作品是属于机器的,是对原有规则的一种模仿与复制,无所谓创意和创新,是制作而非创作。真正的艺术创作是离不开人的,创作者、艺术家才是艺术创作的核心与灵魂。
早在20世纪80年代,钱学森先生就提出了“人-机结合”的重要性和必要性。无论到什么时候,人始终是认识和改造世界的主导者,我们不能忽略掉人的主观能动性的重要作用。随后,戴汝为院士在第七次全国院士大会上正式提出了 “人-机结合”这个新的科学研究领域。2019年 《新一代人工智能发展规划》中确定了我国未来人工智能的总体要求与战略目标,并将人机协同的混合增强智能作为我们重要的发展方向之一。目前,人机协同已经应用于人机共驾、在线智能学习、平行管理与控制等多个领域。在高效快速的虚拟制片时代,如何利用人工智能、机器学习、人机交互等技术,在提升电影创作效率的同时,又确保了以人为中心的创作地位,依旧由创作者来主导整个创作过程,充分利用机器的运算与存储能力来提升创作效率,是现阶段电影创作过程中亟需考虑的问题。
电影分镜头画面设计是整个电影创作过程中至关重要的一步,是将剧本文字视觉化的第一步,可以说,剧本是美术部门一切工作的起始点,也是激发美术师创作灵感的源泉。美术师通过分析剧本从中挖掘出形象的潜质,并通过认真解读对剧本中的环境以及人物进行视觉化的思考,进而引发创作灵感,形成视觉语言。除此以外,美术师还要与导演和摄影师围绕剧本共同展开分析与讨论,确定整个影片的视觉风格,以及场景、人物、道具等各个细节,达成一致,以满足各个视觉创作部门的要求与需要。尤其是在步入虚拟制作时代的今天,各种前期预览、实时预览的需求给美术部门的工作提出了更多、更高的要求。如何在确保美术师、导演以及摄影师创作主导地位的同时,大大提升分镜头画面设计的效率与质量是本文主要探索的问题。
人们在将文本转化成图像时,通常要在大量的学习训练的基础上才能实现,通过对不同对象的学习,而形成关于颜色、纹理、形状、语义以及空间布局等知识基础。对于给定的文本描述,我们便会利用这些学习过的先验知识来形成一个视觉印象。
目前,从文本到图像的生成方法在图像编辑、视频游戏、生成艺术,以及计算机辅助设计中都有应用。鉴于其广泛的应用领域和前景,已有许多从文本到图像生成的方法 (Text-to-Image),旨在将一段抽象的文字描述转化成具象的视觉表达。文本与图像之间存在着明显的语义差异,因此,这一转化过程最难,最关键的问题在于如何让计算机从非结构化的文字描述中学习其属性特征,并将这些属性特征与相应的视觉属性特征一一对应,生成相应的视觉元素。
通过深层生成模型进行文本到图像生成的方法有很多种,比如,近似Langevin采样,变分自动编码器方法,pixelCNN方法,以及生成式对抗网络(Generative Adversarial Network,GAN)方法等。其中,最常用,也是最有效的机器学习方法莫过于生成对抗网络深度学习模型。Gauthier等人对GAN模型进行扩展,提出了一种条件化的GAN模型用于人脸的生成。Xu等人采用跨模态注意的方法,通过提升文本中某些字或词的注意力,提出了一种逐步细化的多阶段生成框架,更为注重所生成图像的细节信息。文章 [15]提出一个 “镜面”的方式,通过在所生成图像生成文字标题来强制原始文本与生成图像的一致性。上述方法虽然在准确度、分辨率以及真实性上取得了可观的结果,但这些方法更适用于简单场景的情况。针对复杂场景的情况,文章 [16][17][18][19]根据文本描述,推断其语义布局,并对其中的对象进行建模,形成一个从布局 (Layout)到遮罩 (Mask),再到图像的框架。为了更进一步模拟人的文字到图像的处理过程,Zhang等人提出了一种基于视觉记忆的创意对抗网络来解决复杂场景的情况,在图像生成过程中适当地利用外部视觉知识记忆。还有一些研究者将对比学习用于GAN模型,通过对比正对和负对来提升图像表示的一致性。场景图 (Scene Graph)的提出对解决复杂场景问题又更近了一步,从文本分析中生成对应的场景图,并根据场景图以及目标与目标之间的关系最终合成相应的图像。
前面我们提到,深度学习方法的出现打破了人工智能多年以来发展的瓶颈,将人工智能技术推进到了一个具有里程碑意义的新阶段,也已经成功地应用于众多领域。尤其是在艺术领域,出现了一种新的艺术形式——人工智能艺术 (AI Art)。无论是AI作曲、AI作诗还是AI绘画,都已相对成熟,借助人工智能技术,可以生成完全符合人们作曲、作诗以及绘画规则和规律的作品,让我们也深深体会到这种新的艺术形式的魅力所在。而谈到艺术创作,艺术作品的诞生离不开创作过程,而艺术创作的主体离不开艺术家,即人的因素。艺术家或者创作者经历了艺术经验、艺术构思以及艺术传达来完成整个作品的创作过程。从另一个角度讲,艺术作品的创作过程是艺术家、创作者情感、心理、人生阅历以及思维方式的表达过程,任何一种形式艺术作品的创作都不能忽略人作为艺术创作者的核心和引领作用。然而,目前的人工智能依旧处于弱人工智能的阶段,换句话说,即使深度学习方法极大地推进了人工智能技术的发展,但当下机器所能做到的还停留在模仿和复制的水平,只能起到辅助作用,而无法完全取代人的位置,距离具有创造性思维的强人工智能还有很长的路要走,这也是人工智能在发展道路上的又一个新的瓶颈。
“以人为中心、人-机合作的人工智能”方法的提出,无疑引导人工智能朝着更加合理、更加人性化的方向发展。混合增强智能的人机协同系统的提出试图将人的认知能力引入到人工智能系统中,在利用好机器强大的运算与存储能力的同时,还可以充分地发挥人的认知与思维能力,进而产生 “1+1>2”的合力效果,也弥补了目前机器学习算法中所存在的限制与不足。
关于混合增强智能系统主要有两种形式的模型:人在回路的增强智能和基于认知计算的增强智能。其中,人在回路的增强智能模型中,人也作为模型的一部分,通过人机交互的方式参与到模型运算当中,换句话说,人也是该智能系统的一部分,计算机通过机器学习算法生成中间运算结果,对于置信度较高的结果可直接作为最终结果输出,而对于置信度较低的结果,人会针对该结果提出判断、修整指令,机器在接收到这些反馈指令后会重新学习并调整机器学习模型,以生成新的运算结果,重复该过程,形成一个能够不断提升整个系统智能的反馈回路,双向的信息流将人的认知与思维和计算机强大的计算与存储能力有力结合,达到智能增强的效果。而基于认知计算的混合增强智能则是通过模仿人脑的功能,来建立具有像人脑感知、推理以及决策能力的智能模型。无论哪种模型,都着重强调了“人”在其中的重要作用。如今,混合增强智能模型已经成功地应用到了人机共驾、在线智能学习以及平行控制与管理等多个领域,人工智能技术也正在迎来一场新的历史性变革。
哈佛大学的Kochhar等人提出了一种人机协作的方法,通过人机交互的对比描述对图形目标进行建模,即对图形目标进行设计与表达。其中的设计过程其实为创作过程,单独依靠计算机自身的力量只能完成生成过程,而达不到创作的高度。人机协作的工作模式融入了人对整个设计过程的指导与控制,将人的认知与思路通过人机交互的形式传达、反馈给计算机,从而指导计算机完成设计过程。从艺术创作的角度讲,这种方法的提出对于真正将人工智能用于艺术家们的艺术创作又向前推进了一大步。Sun等人设计开发了一套基于GAN模型的共同创作绘画系统,进行卡通景观的绘制,可以得到较高质量的卡通绘画作品。人机合作的人工智能将会是未来艺术创作的一种新方式。
在电影虚拟制作技术日益成熟的今天,对整个制作过程中视觉前置、实时预览的效率和质量提出了越来越高的要求。电影美术设计是将抽象剧本文字视觉化的第一步,也是关系着整个影片风格和视觉效果至关重要的一步,可以说电影镜头画面的设计是一部影片能否吸引观众的最主要因素。对于镜头画面的设计,传统的手绘方式已经逐渐被各种绘图软件所替代,无论从视觉效果上,还是在创作效率上均有了不同程度的提升。而高效的虚拟制作流程给视觉设计提出了更高的要求,能否在保留人作为创作者的领导核心地位的同时,借助人工智能的方法,运用机器学习算法,充分发挥机器的高速运算能力与强大的存储能力,将创作者的创意、情感和灵感与机器的算力和存储能力有效地融合起来,实现人机协同,来共同完成电影镜头画面的设计,进而达到 “1+1>2”的创作效果,是本文所要探索的主要问题。
分析剧本是将电影视觉化的第一步,导演、美术师以及摄影师等负责视觉创作的主创人员会围绕剧本展开讨论,初步确立整部影片的视觉风格和方向。美术师会根据讨论结果设计并绘制出多种分镜头画面,继续与主创进行分析讨论,直至最终确定一套大家满意度最高的分镜头画面。为了提升整个分镜头画面创作过程的效率与质量,我们提出了一种人机协同的电影分镜头画面创作框架,如图1所示。剧本文本作为整个系统的输入,经由深度学习算法生成一组可能的分镜头画面,对于其中置信值较低的生成结果,创作者们通过人机交互的方式输入调整建议,针对这些建议,机器重新训练学习生成模型,进而继续生成新的分镜头画面,该过程重复执行,直至输出令创作者满意的设计结果。
图1 人在回路的人机协同电影分镜头画面创作方法框架图
我们可以把整个创作框架定义为一个过程(Process):
P={I,I,I,G,O,O,C,D}
其中,I为输入剧本文本,I={i,i,…,i} 为电影数字资产库,这里包括角色、场景、道具、声音等各种不同的数字资产,机器以及创作者可根据需要调用和修改资产库中的各类资产。I为创作者的需求,即创作者创作时的一些个人习惯、风格以及具体要求等。G为生成模型,该模型会根据具体输入内容生成一组中间设计结果,即G(I,I,I)=O,这 组 中 间 结 果 O={o,o,…,o} 经过美学度量之后会输出给创作者进行选择和评价,创作者会将个人的修改建议以及新的需求反馈给机器进行重新训练学习,调整算法模型,进而生成新的中间结果。该过程循环执行,直至输出令创作者满意的结果O:
其中,D为决策函数,C为创作者的理想结果,有助于通过决策函数确定最终的输出结果。
这其中主要包括以下几个关键问题。
对于导演或者美术师而言,从剧本 (文字)到分镜头画面的转换是一个从抽象到具象转换的复杂过程。同一段剧本文字,对于不同的导演或者美术师而言会产生出截然不同的画面。不同的人生阅历,不一样的思维方式,甚至不同的时间节点,所产生的灵感都会有所不同,美术师、导演和摄影师会作为创作者参与到我们的人机协同的创作系统当中。
在分镜头样本库中主要包含两类数据,即分镜头画面图和其对应的分镜头脚本文字,如图2所示。样本库中,以下列几种类型的影片分类,包括动作片、战争片、灾难片、爱情片、喜剧片、悬疑片和科幻片等。为了生成更符合人类视觉和心理认知与构图的分镜头画面,对于每种影片而言,将分镜头画面分为特写、近景、中景、全景和远景等五种不同的景别。
图2 分镜头画面样本库示例图
另外,应将剧本文字中的关键信息标注在对应的每一张分镜头画面中,如图3所示,分镜头脚本文字中出现的具体表示某个人物或者物体的名词“1900”“琴”和 “香烟”等。以及分镜头脚本文字中出现的表示动作的动词所对应的人物应具有的动作或姿势等。同时,还要考虑不同景别镜头的构图规律、不同类型影片的色彩色调,以及纹理特征等。
图3 数据库标注示例图
从最早卢米埃尔兄弟在巴黎放映的第一部短片《工厂大门》开始至今,电影美术的品质体现在 “景物与人物的关系互动、个别形象与整体形象之间的并列、环境的形式、画面构图、视线体的运动等”各个方面,主要包括以下几种形象:人物、景观(场景)、道具与视效。其中,人物是镜头画面的核心,也是故事的核心,场景是人物动作发展的外部环境,是故事的空间元素,可以说,道具支撑了人物动作的发展,是引发人物动作关系的条件,而视效则负责渲染场景的氛围,往往起到画龙点睛的作用。
数字资产库按照时代分类进行建立,主要分为古代、现代、幻想和混合四个大的类别,如图4所示。不同的类别均包括人物、场景、道具和视效四种形象。其中,对于人物来讲,以性别分类为根本,按年龄阶段分为老年、中年、青年、少年、幼年和婴儿,不同的年龄段又可以包含有不同的职业等。对于场景,主要分成室内与室外两种,室内场景可分为居家、办公、商业、娱乐、医院、学校等若干不同地点,而室外场景则可以大致分为自然场景、街景以及建筑场景等几种。道具,按照其具体用途与出现的场景,分为陈列型道具与戏用型道具。视效则按照其具体内容与功效分为光学类视效、化学类视效和物理类视效几种。
图4 电影数字资产库分类示意图
数字资产库本身应既包含各类资产的三维模型,还包括各类皮肤、贴图等。对于数字资产库中的各类资产,创作者们不仅可以随时调用,还可以根据具体的需要调整和修改。与此同时,修改或调整后的资产可以作为新的资产存在于资产库中。因此,对于数字资产库而言,其资产是不断更新、完善和与时俱进的。
近年来,在绘画、作曲、作诗等多种AI艺术中,随处可见生成式对抗网络 (GAN)的身影。在生成式对抗网络中,包含两个子网络,即生成器网络 (Generator)和判别器网络 (Discriminator)。Goodfellow等人将GAN模型定义为:
其中,
这里,D:χ→ [0,1]为判别模型,将来自数据分布的概率分配给给定样本x∈χ,即来区分由生成器生成的图像和来自于训练集的真实图像。G为生成模型G:Z→χ,Z为输入数据,即通过学习努力生成近似于训练集中的图像。判别器D对生成器G所生成的图像进行真假的判断,并将判断结果反馈给生成器G,直至判别器D无法判别出生成器G所生成结果的真假,二者博弈过程结束。
与传统的GAN模型不同,我们所提出的人机协同的GAN方法是在传统GAN模型的基础上融入创作者的指导因素,以保证最终的设计结果仍以人的创意为引领,是创作的结果,而非模拟生成的结果。
我们提出一种基于外部记忆的生成网络模型,如图5所示,主要包括四个组合模块,即场景图模块、角色掩膜模块、景别注意模块以及外部记忆模块,分别用来控制画面构图、人物角色与场景的层次关系、镜头的景别以及整个画面的视觉注意区域。根据所生成的分镜掩膜图,调用数字资产库中相应的数字资产生成分镜图画面。
图5 生成器网络示意图
判别器网络要对生成器生成的分镜图与真实的美术师绘制的分镜样本进行比较和判断,如图6所示,主要包括三个方面的判断:美学判断、风格判断以及与剧本的匹配程度判断。对于评分较低的结果,创作者会根据自己的创作经验通过人机交互的方式将修整建议反馈给生成网络以及判别器网络,其中包括色调、构图、层次关系等。生成器与判别器在接收到创作者的反馈之后,会重新学习训练和调整生成模型与判别模型,进而生成更加理想的分镜头结果。
图6 判别器网络示意图
这一部分是整个系统的核心,也是引领着整个创作过程朝着更加人性化方向发展的关键问题所在。如图7所示,人机协同系统中主要包括人、人机接口和计算机三个重要组成成分。其中,人机接口起到了连接和沟通人与计算机的桥梁纽带作用。人们通过观测,分析、推理并决断出自己的判断结果通过人机接口输入给计算机,对于计算机而言,有其自己对应的数据库、规则库和进程方法库,根据人们的反馈输入,推理计算出满足人们输入需求和意见的结果,仍旧通过人机交互接口反馈给人。对于计算机反馈的结果,人们重复之前的决断过程将新的反馈输入给计算机。如此循环,直至产生令创作者们满意的结果为止。
图7 人机协同系统示意图
在我们的人机协同创作系统中,最关键的问题在于其中人机接口的形式,即对于计算机生成的结果以什么样的形式输出给创作者,而创作者又以什么样的形式将自己的决断结果反馈输入给计算机。这里的创作者包括美术师、导演以及摄影师等与视觉设计相关的主创人员。
为了给创作者提供更加直观、便捷的中间结果,且便于创作者反馈自己的决策意见,可以通过多通道的人机交互接口来共同实现。主要包括五个不同的通道:视觉注意通道 (图8(a))、构图通道(图8(b))、特征通道 (图8(c))、极性通道(图8(d))与强度通道 (图8(e))。其中,在构图通道接口,创作者可以使用手绘板通过构图线条对生成结果的构图进行调整,或者通过构图线条给出新的构图,计算机会根据创作者输入的线条重新学习和调整画面的层次结构与布局。特征通道通过滑动特征按钮来调整颜色、饱和度、亮度、光影等图像的各种底层特征,计算机会根据创作者的输入来重新学习各种底层特征,调整模型参数,以生成更理想的结果。视觉注意通道最为重要,视觉注意中心是整个分镜头画面中最能吸引观众眼球的区域,也是画面中突出强调的部分,创作者根据自己的认知将更符合人们视觉感知的视觉中心反馈给计算机,计算机根据创作者反馈的新的中心重新调整画面结构和关系。
图8 人机交互通道示意图
创作人员的参与能够极大地提升对抗网络的博弈效率,快速准确地生成符合主创人员要求的分镜头设计结果。在此过程中,既保留了艺术创作过程中创作者创作的主导地位,充分发挥了创作者的创作灵感、创作理念以及创作情感和创作习惯,还最大程度地利用了计算机超强的计算能力与存储能力,将人与机器的能力与作用均发挥到最优状态。
艺术创作离不开人,离不开人的灵感与情感,可以说,人在艺术创作中起到了灵魂核心的作用。在人工智能、互联网、人机交互、5G以及电影虚拟制片技术快速发展的今天,如何将这些新兴技术手段融合到电影美术创作的过程中,以契合电影虚拟制片技术实时、高效的新需求,是我们必须要思考和解决的问题。传统的手绘分镜头画面的方式显然已经无法满足创作者们的需要和脚步,深度学习算法、人机交互技术的进步给电影美术的创作带来了直接的创作工具。本文提出了一套人机协同的电影分镜头画面创作系统,创作者在回路中针对机器产生的结果及时反馈给机器自己的想法与意见,让机器进一步重新更新、学习生成模型,进而生成更优的、更令创作者满意的结果,如此循环,直至产生最优的,让创作者们最满意的结果。该系统不仅保留了创作者在整个创作过程中的灵魂核心地位,还最大程度地利用了机器的计算与存储能力,让二者融合协作,进而达到 “1+1>2”的最终效果。在未来的工作中,我们将针对文中所提到的各个主要问题具体展开实验和测试,建立分镜头样本库、建立电影数字资产库,测试调整生成模型与判别模型,并根据具体情况选择最佳的人机交互通道和交互方式来完成整个系统的搭建。