李敏 张怡 王善玲
南京航空航天大学经济与管理学院 南京 211106
十四五规划提出将“文化强国”摆在重要位置,在新发展格局下,影视产业建设将成为下一阶段我国的重中之重。近年来中外电影合作不断加强,极大地扩大了电影市场开放程度。2012—2019年,中国电影产业呈螺旋式增长的态势,这反映了我国人文艺术与技术创新的深度融合[1]。2020年上半年,受新冠疫情影响,北美票房遭遇近四十年新低,全球票房锐减2046亿。2020年10月15日,#中国电影票房超北美成为全球第一#冲上微博热搜。中国电影市场成为全球最热门的电影市场。新时代背景下,人们增长起来的精神文化需求未能被充分满足,基于娱乐和社交等的观影需求越来越呈现多样化,复杂性和不确定性等特点。
顾客满意度测量的是消费者消费之后对于消费对象和消费过程的一般性评价[2]。当消费者的实际消费体验与期望一致时,他们便会产生这种满意情感[3]。这种满意情感能够揭示顾客价值创造过程和传递方面存在的问题。Cardozo[4]对顾客满意相关研究做出了开创性的贡献之后顾客满意便成为现代营销学的中心理论之一[5],也是各种商业活动开展时关注的焦点[6]。以往关于电影观众满意度的研究往往采用问卷调查[5,7-9]、深度访谈[10]等,但是问卷调查时采用的最为常见的量表不具有普适性;抽样调查也往往会带来抽样偏差[11],造成左偏;深度访谈或者电话访谈的对象和准实验调查的样本较小不具有代表性,样本容量适中的话又产生了调研成本较高的问题。这些局限性是传统研究方法不可避免的。电影作为一种体验型产品[7],体验构成了消费的关键价值。观影者在观看电影这一体验消费之后会在社交平台上发表自己的看法。好的体验有助于形成良好的口碑,这会对短时间内后续票房的增长[12]、续集以及系列电影[13],甚至是电影相关衍生品[14]都有积极的影响。这些反映消费者想法的文本犹如一扇窗,让市场营销人员能够挖掘出隐藏在这些文本之下的观影者的情感[15]。UGC成为研究消费者满意度的不可或缺的数据来源[11]。随后,Mishra等[16]将基于文本情感分析的方法运用到电影观众满意度的研究当中,以宝莱坞电影为背景进行研究,结果发现愉悦、唤醒等消费者情绪是客户满意度的重要预测因素。随后Yan等[17]、Tang和Yu[18]以及辛雨璇和王晓东[19]纷纷基于影评内容进行情感倾向分析,并取得了不错的成果,但他们并没有很好地实现电影观众满意度的量化。为了更好地改善顾客满意水平,必须准确的测量顾客满意度。因此,王善玲等[20]利用句法依存的方法基于影评内容对中国电影海外满意度进行研究,其结果在一定程度对顾客满意度进行了量化。
以往的研究往往致力于单一来源国电影在单一市场的绩效研究,本文将补充以往研究的空白,基于影评内容利用情感分析的方法对中国电影观众的观影需求发掘到极致。为此,本文提出Word2vec模型与TF-MONO算法相结合的情感分析方法。首先利用Word2vec对影评文本进行电影特征提取,引入情感词典对电影特征进行情感分析。而后结合TF-MONO算法识别中国观众的观影需求所在,并实现中国观众对不同国家电影整体满意度的测算。该方法的主要特点在于基于对影评大数据的挖掘和自然语言处理技术实现中国电影观众满意度的量化,这种量化能够发掘消费者潜在的观影需求和满意度,有助于中国电影工作者了解到海外电影的哪些特质是值得我们学习的,中国电影的哪些特质是我们的优势,是值得继续发挥的。
与产品特征相关的文本一般都是由自然语言组成的。这些自然语言十分复杂,具有模糊性也没有很好的定义[21]。对这些语言进行情感分析主要有两项任务,一是对其进行特征提取,二是对其进行意见倾向识别[22]。产品特征提取对于了解消费者需求特征十分重要。关于产品特征提取的方法已有很多学者对其进行了研究。Liu[23]首次使用Apriori算法从自然语言中提取产品特征。Popescu 和Etzioni[24]在此基础上利用候选特征和产品类别相结合的方法改进了单独使用Apriori算法的局限性,能够考虑对特征词进行修饰的形容词对观点的表达的影响。Quan等[25]将互信息法引入TF-IDF算法中,实现无监督提取产品特征。基于TF-IDF算法的特征提取可以排除一些无关紧要的词语对特征提取的影响,但它并没有考虑文本上下文的语义关系。Zhuang等[26]在对电影评论文本进行特征提取时套用了句法依存模板,识别影评内容的特征词与其对应的观点词两者之间的显式和隐式关系。彭云等[27]利用句法依存关系,将中文评论文本的语言结构和语言特点考虑在内,将语言关系和LDA结合起来提出SRC-LDA模型用以挖掘细粒度产品特征词与观点词的相关性。后来,王学贺和赵华[28]提出的基于Word-2vec和多分类器的影评情感分类方法,并表示Word2vec可有效捕捉词的语义,显著提高情感分类算法的性能。
Word2vec是深度学习领域的一群用来产生词向量的相关模型,它主要是通过映射或者变换的方法对原始特征进行降维,常用于自然语言处理。为了改善关键词的抽取性能,Soujanya等[29]将词嵌入和CNN相结合提出了基于深度学习的提取方法。文秀贤等[30]将Word2vec模型运用到产品特征提取中,对评论文本的关键词进行向量化后引用K-means来确定商品维度,从而提高特征提取的准确性。Word2vec作为一种训练词向量的工具,无需进行人工标注便可实现无监督学习大量文本评论中词语的向量表示。文本内容经过Word2vec的训练,便可以在K维向量空间中来进行向量运算。向量空间上的相似度就相当于文本语义上的相似度[31]。
所以本文拟采用词频统计和Word2vec相结合的方法来实现影评特征词提取,利用Python的gensim模块提供的Word2vec 工具包对某一类特征词进行训练①https://radimrehurek.com/gensim/models/Word2vec.html。这类特征词经过向量空间相似度的运算能够拓展该特征类别下的尽可能多的特征词。
表1展示的是gensim模块中的部分参数表所表达的含义,其中参数表一列等号右边表示默认值。
表1 gensim模块部分参数表含义
术语加权法可以追溯到TF-IDF[32],该方法通过词频对此项进行加权。到目前为止,人们已经提出了几种术语加权方案用于文本分类。如TF-IDF-icf[33]、TF-RF[34]、TF-IDF- icsdf[33]和TF-IGM term[35]等。Dogan等[36]提 出TF-MONO加权策略能够执行类内文档缩放,能够更好地区分同一数量类中不同数量文档中出现的术语。经实比较分析,TF-MONO优于以上集中加权方法[36]。故本文将采用TF-MONO加权法对电影特征进行权重计算。
计算MOit,表示ti发生次数最多的类中的文本文档数量与对应类中的文本文档总量的比值。
NOti表示未发生ti的其他类中的文本文档数量与其他类中的文本文档总量之间的比率。
MOti与NOti的比值乘积。乘积运算的结果被指定为ti项的局部单权重。
最后,计算ti项的全局单权重如下(公式4)。其中,α是作为平衡参数来设置权重周期内全局权重值的范围,取值范围为[5,9]。
由中国观众的影评文本入手探索中国观众的观影需求和满意度。为此,本研究构建基于影评内容的中国观众对不同来源国(地区)电影需求特征的识别与满意度测算模型,如图1所示。
图1中描述了本文的研究流程,在此过程中实现了对中国观众观影需求特征识别与满意度的测算。
图1 中国观众观影需求特征识别与满意度测算模型
首先利用python编写爬虫程序,从豆瓣上爬取影评数据,然后对影评文本进行清洗、筛选、去除停用词、分词等预处理。第二步,利用微词云词频分析软件对上一步处理之后的影评进行词频统计,根据词频统计和特征提取结果可以识别到观众的感知需求所在。第三步,提取电影特征词。利用python中gensim模块实现Word2vec来训练处理之后的影评词组,提取特征类别包含的所有特征词来完成电影特征词典的构建。特征评论的两种形式分别是“特征词+程度副词+情感词”和“特征词+情感词”[37]。所以在第四步中利用word2vec算法对第一步预处理之后的影评数据进行训练构建出电影满意度情感词词典,并引用马风才等[37]构建的程度副词词典,计算出每个电影特征的情感得分。根据情感分析结果可以得到中国观众的观影满意度,我们将会了解到进口电影的哪些特质是值得国产电影学习的,哪些国产电影的特质是我们的优势,值得继续发挥的。最后利用TF-MONO权重计算方法计算特征词权重、识别中国观众感知需求。最终,根据权重计算结果来计算中国观众对各个来源国(地区)电影的整体满意度。
2020年,中国电影票房超越北美票房成为全球最大的电影消费市场。因此本文致力于对中国电影观众的感知需求与满意度展开研究。在艺恩票房网站上搜集到每一年在中国大陆上映的电影,其中数量最多的是中国本土电影、然后是美国电影、日本电影、英国以及法国电影等。英国、法国、德国、意大利这几个国家的电影在中国荧幕上放映的数量有限,样本较少,且该地区具有一定的文化统一性[38],所以本次研究将这几个国家的电影归类为欧洲电影展开研究。
本文利用python爬取豆瓣上2017—2020年中国大陆上映的423部电影,181部中国电影和242部外国电影的影评文本。外国电影包括163部美国电影,41部日本电影,38部欧洲电影。我们的样本涵盖2017—2020这四个国家(地区)在中国电影市场放映的低、中、高票房电影。
其中,豆瓣影评是按照支持度(点赞率由高到低)进行排序的,因此越往前的影评越能代表大多数观影者的看法,更符合大众审美。所以,我们爬取每部电影的前200条影评。排除豆瓣反爬虫影响,最终获得共计75548条文本信息。对收集到的文本信息进行清洗、筛选、去除停用词、分词等预处理之后进行存储,以备下一步特征提取使用。
2.2.1 基于Word2vec的电影特征提取
利用词频统计软件将所获得的影评数据分别按照中国、美国、日本以及欧洲四个国家(地区)分类提取,进一步根据词频统计结果列出了消费者最关注的关键词词频数据如表表2所示。中国观众对四个来源国(地区)电影最在意的就是电影本身,电影所讲述的故事、剧情,演员,导演,特效等。
表2 中国观众对四个国家(地区)电影影评词频统计
由于同类特征词还有其他表达方式,如表中的“故事”和“情节”以及“剧情”等词表达的都是一个电影讲述的内容;特效也有“3D”“IMAX”和“场景”等说法;“演员”、“演技”也可以归为一类…….根据以上词频统计结果我们将电影特征类别分为故事、导演/团队、演员、特效、动作、角色和艺术七类。为了能够更为全面的捕获到观影者影评中的特征主体,本文运用Word2vec神经网络的方法对爬取到的75548条影评进行特征提取。并根据提取结果构建了如下电影特征词词典如表3所示。
表3 电影特征词词典
2.2.2 基于TF-MONO方法的电影特征权重计算
我们选取的国家(地区)分别是中国、美国、欧洲及日本四个国家及地区电影的影评。为了使每个国家(地区)影评文档内影评数量一致便于后续计算,我们结合表2的词频统计结果和表3电影特征词词典,得到特征类别在四个国家(地区)影评文档中出现频数。公式1中的就代表国家(地区)获取的10000条影评中某一特征出现的频数。如表4所示:
表4 特征词类别在四个国家(地区)影评文档中出现频数(每个影评文档含有10000条影评)
利用TF-MONO权重计算方法对表4中的数据进行迭代计算。
2.3.1 电影情感词典构建
目前,我们可获取的且较为常用的中文情感词典主要有知网HOWNET情感词典②http://www. keenage.com/html/c_index.html、台湾大学自然语言处理实验室构建的情感词典“NTUSD”③http://nlg.csie.ntu.edu.tw和大连理工大学情感词典[39]。这些情感词典通用性较好,但其领域适应性较差[40]。本文以知网HOWNET情感词典为基础,运用Word2vec浅层神经网络拓展构建了与电影产品相关的情感词典,包含4761个正向词和4549个负向词。
2.3.2 情感程度副词典构建
在影评中,往往会有不同的程度副词来对该情感词进行修饰,如“非常”“特别”或者是“有点”“稍微”等。根据不同程度副词表达出来的情感强烈程度进行分值区分,我们整理出来了情感程度副词得分如表5所示。
表5 情感程度副词计分
换言之,情感词的正向或负向表达了影评作者的情感倾向,而修饰该情感词的程度副词则表达了这种情感倾向的激烈程度。比如在句中会有这种情况出现,如“剧情设置不是很巧妙!”那么里面的情感词可以是“巧妙”,程度副词为“很”。那么按照计分原则可能会将其判断为正向情感,但它实际上表达的是负向情感。为了防止这种情况的出现以及计算的简便,我们在分析过程中加了一步——识别否定词。否定词一旦出现,情感倾向就发生变化。又由于中文表达中常出现双重否定表肯定,我们引入(–1)n,其中n表示否定词出现的次数,若为两次,则为正,情感倾向不变。
2.3.3 电影特征满意度测算
我们将正向情感词赋为2分、负向情感词赋分为-2分。若分数为正,分值越高则为更为强烈的正向情感,分值越低则为较弱的正向情感;若分数为负,分值越高则为较弱的负向情感,分值越低则为强烈的负向情感。
运用python程序语言,编写程序以实现以下操作步骤。首先依次历遍整个文档定位到特征词,提取临近特征词[-3,3]区间内的词段。然后将整理好的情感词典以及情感副词词典导入。最后计算该特征词所在词段的分值。
具体计算公式如下:
fj为评论中特征j对应的得分,a为程度副词的分值,sj为评论中特征j的情感词分值,n代表否定词出现的次数。该影评文本特征j情感得分时取fj的平均值。
利用表4中电影特征的TF-MONO权重计算结果来计算中国观众对不同来源国(地区)整体满意度得分。计算公式如下:
S表示中国观众对该国电影的整体满意度得分,wj表示电影特征j的权重,表示该国电影特征j的得分。
利用TF-MONO权重计算方法对表4中的数据进行迭代计算,得到七个电影特征得权重如图2所示。该权重计算结果统一了四个国家(地区)的结论,反映了中国观众整体观影的需求偏好所在。
从图2可以看到中国观众对于电影的故事的感知需求最高,其次是角色、演员。中国观众对电影在艺术、特效、导演/团队方面感知需求相差不多,对于动作特征感知需求最低。好故事体现在剧本中,剧本又是电影创作的第一道工序,是一部剧的根本。一部叙事作品是在以故事为中心的基础上展开的虚构的艺术作品。整体来说,往往讲好故事、塑造生动又饱满的角色是提升中国观影者整体满意度的最佳途径。
图2 电影特征权重
我们运用python编程,加入特征提取结果以及整理好的情感词典和情感副词词典,对提取出的词段进行分值计算。计算结果如表6所示。
表6 四个国家(地区)七大电影特征情感得分
为了更为直观地反映出不同来源国(地区)电影特征情感得分比较根据所得数据绘制簇状柱形图如图3所示。
图3 四个国家(地区)七大电影特征情感得分比较
图3显示在故事、角色、演员、特效、动作、导演/团队以及艺术七个电影特征中表现最佳的国家(地区)依次为欧洲、美国、美国、美国、中国、日本和日本。中国动作情感的分较高究其原因在于中国动作电影展示的不仅仅是单一的打斗动作,更是与中华武术精神,中华文化相融合的、有内涵的中华武术。这样的动作电影不仅能将中国武术的精神内核传递给观众,引起观众情感上的共鸣,又能同时激发中国观影的爱国主义情怀。美国拥有DC漫画公司、漫威漫画公司两大漫画巨头。在特效方面,漫威以《钢铁侠》《美国队长》《银河护卫队》等特效超强的电影,最终形成了《复仇者联盟》。DC漫画公司出品的《神奇女侠》《海王》等优秀的电影作品也深受中国观众的喜爱。然而,部分美国大片一直以先进的技术和优质的特效闻名,而忽视了故事的讲述。本文在对日本电影影评进行词频统计时高频出现并且是其他三个国家(地区)没有的就是画面、画风和宫崎骏。日本动漫产业蓬勃发展,已经成为日本的第三大产业,是世界动漫的领军人。真人拍电影往往受限于机位、角色活动以及自然光照和色彩规律。但动画电影可以充分发挥创作者的想象力,色彩的运用和场景的布置可以是极其丰富的,再加之优美动人的音乐背景,以此来满足剧情的需要。
我们将中国观众对该电影特征满意度最高的对应国家(地区)电影的满意影评筛选出来,并对选出来的积极的影评生成可视化云图进行分析,整理使观众满意度高的电影特征的特点,如表7所示:
表7 高满意度特征影评可视化
四个国家(地区)电影的角色特征、导演/团队特征差异不大。就动作这一电影特征而言,中国电影表现突出,得分为1.11分,远远领先其他三个国家(地区)。但是中国电影故事的情感得分较低。所以未来中国电影在涉及动作场景设计时要注重与中华武术的结合,保持中国动作特征的领先优势,同时应注重提升故事讲述、情节设计。
美国电影特效特征表现较其他国家来说较为优秀,其次是欧洲。因此,美国电影应继续将电影特效作为在中国营销的重点,避免依赖续集、系列电影,创作出更多新颖的好故事,努力提升其故事讲述能力。
欧洲电影故事特征情感得分较高,其它六个特征表现平稳。应加大其传播力度,提升其传播至中国电影市场的电影数量、电影类型。
日本电影在特效方面表现平平是因为在我们所选取的2017—2020年的41部日本电影中动漫所占比率约为75%。动漫不需要很复杂的特效,只求画面美观。这也是日本电影艺术特征情感得分较高的原因。日本电影演员特征得分较低,究其原因是动漫中不涉及真人表演,观众对少数上映的真人电影评论热度低,对日本演员不熟悉。从图7中可以看出日本艺术特征和导演/团队特征情感得分领先于其他国家(地区)。日本电影在中国营销时可以注重导演/团队的介绍,海报制作,主题曲的营销传播等,同时应该提升传播至中国电影市场的电影类型。
利用公式6来计算中国观众对各个国家(地区)的整体满意度得分。计算结果如图4所示:
图4 中国观众对四个国家(地区)电影整体满意度对比
整体来看,中国观众对欧洲电影的整体满意度最高。其次是美国电影、日本电影,最后是中国电影。中国电影尽管在动作方面领先其它另外三个国家(地区),但是动作所占的权重是其他电影特质中占比最低的。换言之,中国观众对电影的动作方面关注度不高,他们更偏好拥有好故事、设定好角色以及演员演技和特效制作方面。这使得中国观众对故事方面领先的欧洲电影以及特效方面领先的美国电影满意度更高。日本电影在中国电影市场放映的更多的是动漫,这样就使得演员方面是日本电影较为欠缺的部分,加之中国观众对演员这一特质关注度较高,所以艺术方面遥遥领先的日本电影在整体方面表现不佳。总之,提升整体满意度最有效的途径是抓住观众的最在意的电影特质,即权重最高的电影特质:故事、角色。
本研究利用文本挖掘技术爬取豆瓣上2017—2020年在中国电影市场上映的中国电影、美国电影、欧洲电影以及日本电影的在线影评进行需求挖掘,利用词频统计法与Word2vec特征提取法对所收集到的影评进行特征提取,将电影特征分为故事、角色、演员、导演/团队、特效、动作以及艺术七大类,分别测算不同国家(地区)各个电影特征情感得分。又通过TF-MONO权重计算法计算出七大电影特征的权重,测算出中国观众对四个国家(地区)电影的整体满意度。最终得出如下结论:
(1)中国观众的观影需求有故事、角色、导演/团队、特效、艺术、演员、动作七类。
本文的新发现在于:以往关于电影观众满意度的研究在对电影特质进行分类时往往根据主观判断,本文结合词频统计和word2vec对观众在意的电影特质类别进行了更为系统、客观的分类。并根据TF-MONO权重计算结果识别故事和角色的权重最高。Yu-Chen Hung和关冲[41]对电影梗概进行研究,结果表明,电影剧情中包含的语言线索与消费者在阅读电影梗概时产生的心理预期一致时会在一定程度上促进电影票房增长。观影者之所以关注电影梗概是因为梗概中包含了观影者所看重的故事这一电影特征,这与我们的研究结果是一致的。
(2)根据中国观众对中国电影动作特征表现为高满意;对美国电影的特效、角色、演员这三个特征满意度较高;欧洲电影的故事较其他三个来源国电影表现更为突出。日本电影的艺术、导演/团队特征更能使中国观众满意。整体来看,中国观影者对欧洲电影整体满意度最高,其次是美国电影、日本电影,最后是中国电影。
本文进一步对高评分电影特征的影评进行可视化分析,结果显示高评分的故事具有完整、真实、有趣、幽默、温馨、感动、轻松等特点;高评分的角色具有立体、饱满、真实的特点。中国观众感知需求在于故事、角色,欧洲电影故事特征情感得分在四个国家(地区)最高,使得中国观众对欧洲电影整体满意度最高。因此,把握观众最在意的电影属性类别是提升观众整体满意度的最有效的方式。
本研究的结论为不同国家/地区来源国电影在中国电影市场的营销提供了以下启示:
(1)提升电影观众整体满意度的关键在于讲好故事、塑造好角色。电影的制作往往需要耗费大量的成本,电影制片商应根据电影观众的需求所在进行合理的资源配置,用尽可能低的成本提升电影质量。应该将较多关注故事的讲述、情节的设计、角色的塑造以及自身优势的凸显,还要缩减不必要的成本投入。比如美国电影的演员特征、特效特征评分较高,则可以考虑在这两方面进行高投入,继续以精湛的特效、强大的阵容保持自身的优势。而对于演员满意度较低的日本电影应尽小缩减这方面的成本投入。
(2)不同国家的电影在传播至中国电影市场时要进行有侧重点的营销宣传。简短的宣传片和营销海报要能够突出重点来吸引中国观众。比如日本电影宣传的侧重点可以体现在优美的主题曲,导演、制作团队的宣传,还有欧洲电影的故事情节,美国电影的特效、阵容以及国产电影的动作等,尽可能凸显自身优势。利用中国观众对该国家电影的刻板印象进行有效宣传。
本研究也存在一些不足:首先,本研究的样本中只包含上映数量较多的国产电影、美国电影、欧洲电影以及日本电影,没有考虑一些其他的来源国电影,如印度电影等。未来研究可以将这些来源国(地区)电影也考虑在内,甚至可以考虑未在大荧幕上映的、仅仅在媒体播放平台上播放的更多来源国(地区)电影。其次,本研究仅仅考虑到部分乐意在社交媒体网站(这里特指豆瓣)上发表评论的观众的意见,并没有考虑到一部分没有上网评价的观众的意见。未来的研究可以尝试线上线下相结合的方法获得更全面的样本。