赵海城 陈昌业
从大数据到人工智能,“算法”背后的可量化、可预测、可“模仿”甚至对人工的可取代都在对电影的创作、生产、发行、营销的各个领域产生影响,也给行业的未来带来丰富的想象。特别是创作方面,艺术的个人化表达通常被认为是以“复制”为代表的机器最难侵入的领地,但人工智能对这一领域的“学习”正在以不可阻挡的趋势发生着。
随着2016年3月谷歌的阿尔法狗(Alpha Go)在围棋对弈上完胜人类,这一曾经只是科幻电影里想象的事物前所未有地逼近了我们的现实。中国的互联网影视公司随后也纷纷跃跃欲试,对外发布或介绍了各自在人工智能方面或正在研发或已初步应用的产品。在一定程度上,可以将这一轮人工智能的浪潮看作是2013年在全球掀起的“大数据”产业浪潮的继续。
一方面是观众能够“享有”或选择的电影量越来越大,另一方面是内容可以触达的观众在规模上越来越大,内容所能依托的视听媒介也变得越来越多。这些“大”和“多”看上去令产业的容量和体量不断扩展,也令积累在电影行业里的可供分析的数据量在不断增大,甚至是几何级地膨胀。但“大数据”面对的重要问题随之而来,“大”就是有意义的吗?在“大”之后,该如何处理和显现出“大数据”的意义、价值和神奇?德国巴伯尔斯贝格大学教授苏珊妮•斯图莫(Susanne Sturmer)博士于2016年在德国举办的“大数据,大电影”(BigData.BigMovie)论坛上曾指出,“不仅仅是收集所有的数据,更重要的是需要以有意义的方法去处理数据,这非常必要,行业因此才能有所突破。”
人工智能(AI)似乎为“大数据”指出了新的方向。目前包括电影行业在内的几乎所有领域的数据来源和内容量都达到了空前水平,无论是学术领域还是工业领域,都将目光投向了大数据的挖掘与知识发现——从海量数据中提取揭示隐含的、先前未知的并具有潜在价值或规律性的信息与知识的过程。在方法上,则正由数学统计方法向机器学习演进。机器学习(Machine Learning)是近年来再次大热的人工智能的一种技术手段,也是人工智能的一种研究领域,即从有限的观测数据中学习(或“猜测”)出具有一般性的规律,并将这些规律应用到未观测样本上的方法。深度学习是机器学习的一个子问题,其主要目的是从数据中自动学习到有效的特征表示,是人工智能最先进的领域。在大数据时代,适应数据分析需求由常规分析向深度分析的转变,智能分析(Intelligent Analysis)成为大数据分析发展的必然趋势,其核心技术是文本智能分析和机器学习。值得一提的是,近年来人工智能得以再次勃兴,很重要的一个原因是因为算力的提升,即图形处理器(Graphics Processing Unit,简称GPU)的技术突破。算力的显著提升,为处理大量的数据提供了可能性,也因此将过去大量基于深度学习的研究成果的落地和演进提供了更大的可能。
人工神经网络(简称神经网络),是一种受人脑神经系统的工作方式启发而构造的数学模型。从生物学角度来讲,人的神经系统是通过神经元的不断传输连接的。它的结构有很多层,这些深层结构使人具有强大的学习能力。与计算机的结构不同,人脑神经系统是一个由生物神经元组成的高度复杂的网络,是一个并行的非线性信息处理系统。人脑神经系统可以将声音、视觉等信号经过多层编码,从最原始的低层特征不断加工、抽象,最终得到原始信号的语义表示。由于神经网络模型一般比较复杂,从输入到输出的信息传递路径一般较长,所以复杂神经网络的学习可看成是一种深度的机器学习,即深度学习。现如今,技术允许我们建造更大、更深的神经网络,这推动了深度学习的新一轮发展,可供机器学习的数据规模也越来越大。
电影的开发工作通常需要制片企业建立专门的部门并配相当数量的编辑团队去阅读大量的剧本,筛选后对可供备选的剧本形成审读报告。而人工智能的神奇很容易让人联想到如果这些审读的工作由计算机来完成会是什么效果。虽然这在目前以及较近的将来仍然是无法实现的,但基于深度学习的人工智能技术在长文本的阅读方面,当下确实已经取得了一些令人可以向更远处眺望的进展。
机器阅读理解是自然语言处理(NLP)研究领域当中的一个重要分支,该领域有一项世界顶尖的赛事,文本理解挑战赛(Stanford Question Answering Dataset),通常被简称为SQuAD,是机器阅读理解领域公认的标准水平测试。这一赛事由斯坦福大学于2016年9月发起,在2018年1月3日以前,人类始终保持着领先的优势,还没有任何一个团队能够设计出一种答题正确率超过人类的算法。然而,微软亚洲研究院自然语言计算组提交的新模型在这一天获得了82.650的精确匹配分数,超过了人类得分82.304。两天后,阿里巴巴的iDST-NLP团队也拿到了82.440的精确匹配分数。微软亚洲研究院院长洪小文在接受媒体采访时谈到:“这对微软和自然语言处理(NLP)研究领域来说,是一个重要的里程碑。计算机文本理解能力首次超越人类,预示着该领域的研究将会有更大的突破。”这一里程碑的突破是一次质的突破,为机器继续接近人类的阅读理解水平提供了一个积极的信号。
对于人类而言,小学生就能够完成的语言学习过程在计算机上的实现却是十分复杂和困难的。因为人类语言有其特殊性,它是一个离散的、象征性的、绝对的信号系统,这意味着人们可以通过使用不同的方式传达相同的含义,例如演说、手势、信号等。人类大脑对这些符号的编码是持续激活的模式,在这个模式中,符号通过声音和视觉的连续信号实现传输。正是由于其复杂性,使计算机理解人类语言成为了一项艰难的任务。直到20世纪90年代之前,人们还在试图让计算机学会人类语言的规则,从而理解其背后的含义。但由于人们日常使用语言时往往并不严格按照规则,而机器则无法处理偏离规则的内容。后来,人们开始尝试让机器自己进行学习,获取语言知识。发展到今天,自然语言处理领域的研究已经基本达到可以应付单个句子,以及理解句子成分的水平。近十年来,计算机性能的大幅度提升和机器学习理论的兴起使得计算机已经能够编写短新闻、创作诗词,并且能够与人类对话。各大手机及智能电子产品的人工智能语音系统已经可以识别并完成用户的指令,并且能够进行简单的对话与交流。
然而,机器对于中文(汉语)文本的阅读理解比对英文的阅读理解更加困难,有关长文本的机器阅读理解所取得的进展也几乎都是在英文领域。这在很大程度上是由于表义(字形)系统的中文与表音(字音)系统的英文这两种语言系统截然不同所造成的。如何正确地根据语义完成中文句子切分就是一个具有挑战性的任务,一旦分词发生失误,会导致后续的文本处理产生连锁问题,给正确理解语义带来障碍。如“乒乓球拍卖了”,将语句切分为“乒乓/球拍/卖了”和“乒乓球/拍卖/了”都是可行的。因此,就要通过上下文语境来选择正确的语句切分方法。
除了切分词语之外,还有语素提取、词性标注、标点符号、词汇粒度等多个方面都是中英文在自然语言处理上存在较大差异的关键。中文尽管是世界上使用人数仅次于英文的语言,但英文自然语言处理的研究由于在技术积累和科研力量方面均领先于对中文自然语言处理的研究,因此中文机器阅读理解方面的进展目前还达不到英文机器阅读理解的技术发展高度。因此,就阅读剧本而言,无论是英文还是中文,人工智能目前能够实现机器阅读的程度还非常有限。目前较为集中的技术突破是对长、短文本进行情感分析方面的机器学习研究。全球的软件工程师目前都在机器翻译和情感分析方面做着不懈努力。所谓情感分析,是指识别出文本所反映的情绪,例如机器能够很容易地判断出一条关于电影的微博评论是积极还是消极的,这在营销领域里对于分析舆情有着重要的应用价值。但是像人类那样能够理解复杂文本,现在的计算机技术还远远做不到。
2017年8月,迪 士 尼 研 究 院(Disney Research)发表了一篇论文,介绍了迪士尼在短文本叙事评价上的一项最新研究成果,“这是针对叙事质量自动化评估的第一次大规模的深入研究”
。该研究的数据集来自于从Quora(类似中国的“知乎”)上收集的54484份回答,通过主动学习算法将其中28320个回答标记为“故事”(stories)。为了能够预测不受社交网络特点所影响的点赞数量,研究团队创建了一种可以模拟文本区域(textual regions)以及各区域间相互依赖关系的人工神经网络(neural networks)——这是该论文发表之前针对叙事质量自动化评估的第一次大规模的深入研究。该研究的贡献主要有两方面:一方面是将社交媒体中的点赞数视作一种评价叙事质量的替代方法,并且为评价叙事质量创建了一个数据库;另一方面,利用基于区域嵌入(regional embeddings)和区域内部相互影响设计的神经模型,为质量评价的任务打下了坚实的基础。论文显示,该研究的模型相比于“随机森林”(random forest)的基线(baseline),可以平均减少18.10%的误差。为了能够评价叙事的质量,就需要对叙事有充分的理解。难度之一就是缺少人工注解,即对于一个故事的审美评价,其本质上是主观的。所以,为了获得可靠的大众辨识力,就需要有大量人的判断结论以帮助机器学习,而人工标注会带来高昂的成本。在Quora上的一个问题通常会被人们贴上一些话题标签,研究人员通过人工识别了其中21个更有可能会在回答中出现故事的话题,并创建了一个可以主动学习的分类系统,将有故事性的答案与那些没有故事性的答案分离,最终在742个问题下面,选出了28320个故事文本。难度之二是理解那些叙事中的复杂语义(semantics)。Quora中的故事往往较短,这看上去让问题简单了些,但并没有完全解决这个难题。一个故事常见的算法模型是一系列事件相互影响,然后共同揭示更深层次的语义,例如人物意图。下表1就说明了事件之间的相互影响。
表1 一个有着复杂相互性事件的故事(A story with complex interaction among events)
看起来这个故事是关于欺骗和出卖的,但是无论移除事件一还是事件三,故事的意义都会完全改变。当移除事件一时,这是一个复仇的故事;当移除事件三时,又变为买凶杀人的故事。从这个例子中可以看出,一个故事中包含了多个文本块(textual chunks),并且,文本块间的相互影响会产生更深层次的语义。因此,研究者打算建立一个可以理解文本区域(textual regions)的表达内容,并根据它们之间的相互影响再来评价这些文本的人工神经网络。
叙事的质量评价在研究故事的产生(story generation)和故事的理解之间架起了桥梁。研究者通过从Quora上提取故事并统计其点赞数,从而为质量评价的任务建立起了一个数据系统。研究人员将从Quora上收集的28320个故事文本分为三部分:21230(75%)个故事文本属于训练部分,2832(10%)个故事属于验证部分,4258(15%)个故事属于测试部分。尽管研究人员从这个复杂的任务中得到了一些积极的结果,但也注意到社交媒体中的点赞数量会被除了内容质量以外的很多其他因素影响,如Quora的排名功能等。这就需要更多的研究去识别并纠正这些由于社交媒体所引发的偏差。
虽然对于故事生成系统的纯自动化评价仍然是难以实现的课题,但是鉴于目前的研究成果以及人工神经网络的原理,应该说基于人工神经网络对短叙事文本的评价将会有更加长远的进展。
基于人工智能当下的现实,机器创作小说、剧本的可能性越来越大。斯坦福大学的计算机博士Andrej Karpathy在2015年发表了其使用循环神经网络(RNN)完成机器“书写”小说的成果。Karpathy使用了一种所谓的“以字母为基础的语言模型”(Character Based Language Model)来训练 RNN。简而言之, 该模型是通过不断阅读大量文字,让RNN自己可以较为准确地估计下一个字母出现的概率(类似搜索引擎输入框里对下一个输入的猜测)。当概率模型培训得慢慢成熟之后, RNN就逐渐可以自己写出流畅通顺的文字。
Karpathy用托尔斯泰的小说《战争与和平》来训练RNN。每训练100个回合后,让RNN输出一段自己创作的文字,检查其学习效果。
100回合: tyntd-iafhatawiaoihrdemot lytdws e ,tfti, astai f ogoh
此时机器知道加空格,有时要加逗号,但文字都是乱码。
500回合: we counter. He stutn co des. His stanted out one ofler that
此时机器知道区分大小写,可以正确拼写一些短的单词。
1200回合: he repeated by her door. "But I would be done and quarts, feeling, then, son is people...."
此时机器可以使用复杂的标点符号,可以拼写出较长的单词。
2000回合: "Why do what that day," replied Natasha, and wishing to himself the fact the princess, Princess Mary was easier,
此时机器已经可以正确拼写复杂的语句。
在机器学习过程中,机器并不知道(被输入)具体的语法以及标点符号的使用规则,一切都是直接用原始数据训练的, 时间久了,机器自己就可以逐渐掌握单词、空格、引号和括号等使用规则。Karpathy在博客中写道:“有时我的模型的简单程度, 和高质量的输出相比,反差如此之大,远远超过我的预期。”
2016年5月,斯坦福大学、CICS大学及谷歌大脑项目的五位研究者发表了题为《从连续空间生成句子》(Generating Sentences from a Continuous Space
)的论文,研究者用2865部英文言情小说训练机器,让机器学习言情小说的叙事和用词风格。 机器在学习的过程中开始创作输出原创的文字, 具有代表性的一段文字是“Her blouse sprang apart. He was assaulted with the sight of lots of pale creamy flesh bursting out of a hot pink bra ”(作者译“她的上衣撑开了,性感的粉色内衣里呼之欲出的那一对白花花的胸脯让他的视线躲闪不及。”)虽然这段文字在文学性上与人类的创作仍有相当大的距离,但就其表意和基本文法来说,机器的“创作”已足够令人赞叹。在剧本写作方面,人工智能也已在实践上取得了突破。2016年5月,在伦敦科幻电影节(Sci-Fi London Film Festival)48小时挑战赛(the 48-Hour Film Challenge)上,一部由人工智能完成编剧的短片“Sunspring
”技惊四座。 该比赛事先已经给出参赛者短片中所必须包含的设定,如台词、道具、情节等,要求参赛者在两天内完成影片的拍摄。纽约大学的罗斯•古德温(Ross Goodwin)是一名人工智能研究人员,他为此编写了一套长短期记忆网络——递归神经网络(LSTM recurrent neural network),并由此来编写比赛所需的剧本。这套人工智能系统名为“Benjamin”。为了训练Benjamin,古德温使用了十几个经典科幻电影剧本(大部分是上个世纪80年代至90年代的),包括《超时空圣战》(Highlander Endgame
)、《捉鬼敢死队》(Ghostbusters
)、《星际穿越》(Interstellar
)和《第五元素》(The Fifth Element
)。Benjamin将这些剧本全部拆为字母,以学习字母与字母之间的关系和单词与短语之间的关系,这与上文Karpathy博士的方式相类似,不是针对词的学习,而是针对字母之间联系的学习。图1 48小时挑战赛给出的设定(Sunspring短片截图)
图2 Benjamin训练所用的剧本(Sunspring短片截图)
图3 Benjamin完成的Sunspring剧本之部分(Sunspring短片截图)
剧本完成后,影片由奥斯卡•夏普(Oscar Sharp)执导,三位演员分别是托马斯•米德迪奇(Thomas Middleditch)、伊丽莎白•格雷(Elisabeth Gray)和汉弗莱•科尔(Humphrey Ker)。除了剧本,电影里的背景音乐也是Benjamin在学习了拥有 300 万首流行音乐的音乐库后创作出来的。但是,Benjamin在对角色名字的编造方面是一个弱项,三个角色的名字分别被系统设计为 H、H2和C。这也可以看出机器学习与人类学习的实质差别,机器并不会从意思上去掌握和运用,因此在名字的“想象”上才会简单地使用字母。
惊艳之余,对人类而言仍然值得宽慰的是,尽管剧本在体例和格式上完成得还不错,但整体阅读起来感觉就完全不同了。显然,在艺术创作上,人工智能还有很长一段距离要走。
人工智能在电影创作生产领域的探索和实践当然远不止于以上,更多的应用正在从当下技术水平的最大可能性上不断萌芽,从那些近乎幼稚和初级的成果上起步,与前沿科技的迅猛发展一起探求更大胆的可能性。即便以当前的技术条件在近几年内还不能看到人工智能完成对短篇小说或电影短片剧本的创作,但可以想象并相信,在将来,人工智能将会成为包括电影创作在内的艺术创作的重要工具或伙伴。
艺术是人类文明这一王冠上的明珠,是人类智力的最高体现之一,我们都不免会将艺术作品背后那种天才的独特性看作是冷冰冰的科技所永远无法取代的神圣领地,甚至是最后一块领地。但不得不承认的事实是,电影是技术推动的艺术,从诞生之初便是如此。奥斯卡奖的全称即是美国电影艺术和科学学院奖,可见在代表世界电影先进工业水准的好莱坞的电影价值观里科技与艺术是并驾齐驱的。
人工智能早已不再只是科幻电影里的想象,人类与机器对话也不再只是对于未来的想象,如今现实生活中手机、智能电子产品、停车场的车牌摄像头、门禁系统上的人像识别等设备,都已成为我们生活中的一部分。毫无疑问,人工智能也会逐渐地包围我们的艺术创作。这是一个令人遐想的未来,是对艺术发展有着更大可能性想象的重要前提。
中国电影既然已经清楚和明确地把工业升级作为新一轮电影业的发展逻辑,那么电影工业的发展就应把科技的创新和应用放在突出的位置。即使人工智能目前在电影产业的应用还很初级,但是唯有更多的创作者和企业去拥抱新技术,才能够与技术革命一起完成创作上的革新,突破过去的桎梏、藩篱和边界,让电影这一艺术与技术相融的表达始终有着“当代”的质感和“未来”的气息。