基于文本情感分析方法的电影票房研究

2019-09-10 07:22黑珍珍孙琦
环球首映 2019年4期
关键词:样本文本情感

黑珍珍 孙琦

摘要:本文以豆瓣网为实例,通过爬虫技术,爬取豆瓣网上具有代表性的两部电影的短评数据,对其进行文本情感分析,了解观众评论中的情感倾向对于豆瓣网上电影各个方面数据的影响,电影票房在这些影响下呈现出什么样的状态。

关键词:电影;文本情感;票房

据中商情报网2018年1月31日有关《中国互联网发展状况分析》一文中提到:截止2017年12月,中国网民规模达到7.72亿人,全年共计新增网民4074万人。与此同時根据国家新闻出版广电总局电影局2017年12月31日晚发布的数据显示,2017年全国电影总票房为559.11亿元,同比增长13.45%;国产电影票房301.04亿元,占票房总额的53.84%;票房过亿元影片92部,其中国产电影51部;城市院线观影人次16.2亿,同比增长18.08%。国产电影海外票房和销售收入42.53亿元,同比增长11.19%。[1]

豆瓣网是一个集结了大部分年轻人的社交平台,其用户对于电影的评论,也代表着国内大多数年轻人的想法,这些数据是做文本情感分析的极好的样本。

一、电影和情感文本分析技术现状概述

(一)电影发展史及现状

电影是19世纪美国国民生活水平质量上升,满足温饱的前提下,为了满足大众精神层次上的需求应运而生的娱乐产物。作为政治、经济、文化三位一体的产物,商人看到了电影行业巨大的潜在利益,政治家看到了电影独特的意识形态,创作者将个人的价值思想寄托在电影中传播给世界,每个人都是电影行业发展的推动者。在这样的时代背景中,电影获得了飞跃式的发展。而近些年来由于电脑技术的发展,使得电脑特技在电影领域愈受追捧。

(二)文本情感技术

文本情感分析又可称作意见挖掘、倾向性分析,是人们自身的观点,情绪,评估对诸如产品,服务,事件等实体的态度。大数据时代中互联网上沉淀了大量用户对于人物、事件、产品等有价值的评论信息,而通过浏览这些带有主观性色彩的文本信息,潜在用户便可以了解大众舆论对于某一事件或产品的看法。

在2018 全球人工智能与机器人峰会上秦兵教授说过,人们的情感表达中有20%-30%是没有情感词的,它属于隐式情感,而隐式情感多使用事实型陈述和语言修辞表达。[2]

本文所选择的研究主体为豆瓣网的短评。短评的字数限制在200字以内,而大多数人在短评中仅仅只会提到最直观的感受,所以大多短评的字数都在二三十个字左右。这样简洁却饱含情感倾向的句子是做情感分析的最好的对象。

本文通过基于情感词典的情感分析方法来进行情感分析。计算方法就是通过构建一个包含各类情绪的情感词典,制定评价规则,对文本进行拆句、分析及匹配词典,通过分析文本中的正向情感词和负向情感词数目来计算情感值,从而得到每部电影正向、负向和中立情绪的比例,最后以情感值来作为文本评论数据情感倾向判断的依据。[3]

二、数据采集和处理

(一)数据采集与清洗

利用python爬虫从豆瓣网上爬取《我不是药神》和《李茶的姑妈》两部电影的短评论,以这些数据为基础,在整理和加工之后,做分析。

得到数据之后我们要将获得的数据进行处理,选出有用的部分。使用re正则表达式对数据进行清洗,主要是删除不必要的逗号、句号、表情,只留下中文或者英文内容。在python中,通过内嵌集成re模块,可以直接调用来实现正则匹配,对于不完整的数据和无效数据进行剔除,确保留下来的数据的有效性。

(二)数据可视化

词云是对数据文本中出现的频率比较高的关键词放大,以更加夸张的视觉效果表现出来,形成“关键词云层”或“关键词渲染”,通过过滤掉大量冗杂的文本信息,使浏览的人能非常直观的看出文本中哪些信息的频次较高。我们将整理出来的数据,制作成词云图,这样就可以清晰的看出大多数人对于这个电影的印象。图1就是用爬取下来的数据制成的词云图,主要由数据样本中的高频词汇组成。词语出现的频次代表了单词在图片中字体的大小,图中的字体越大,说明该词汇在数据样本中出现的频次越高。从下图可以清楚的看到,观众对于《李茶的姑妈》的评价的高频词汇大多是负面的。

(三)snownlp库情感分析功能解析

snownlp是一个python写的类库,全称叫Simplified Chinese Text Processing译作简体中文文本处理。该库可以方便的处理中文文本内容,并且自带了一些训练好的数据,主要是买卖东西时用户的评价。它的功能包括分词、词性标注、情绪判断、短句、拼音、繁体转简体、关键词抽取、概括总结文章、文本相似性等。本文的情感分析就是在这个库的支持下完成的。

Snownlp中使用的是朴素贝叶斯的分类算法。依据朴素贝叶斯定律,设训练样本集分为k类,记为C={C1, C2, …Ck},则每个类Ci的先验概率为P(Ci),i=1, 2, …, k。对于新样本d,其属于Ci类的条件概率是P(d|Ci)。根据贝叶斯定理,Ci类的后验概率为P(Ci|d)。则

P(d)对于所有的类都是常数,可以忽略。样本d是一个由特征项W1, W2, ……, Wm组成的向量d=(W1, W2, ……, Wj, ……, Wm)。朴素贝叶斯分类器(Na?ve Bayes classifier,NBC)假设特征对于给定类的影响独立于其它特征,即特征独立性假设。对文本分类来说,它假设各个特征之间两两独立。则

(四)情感分析

判别所获取的数据样本中的情绪偏向性时,我们使用snownlp库中的情绪判断功能,通过大量积极样本和消极样本数据训练过的朴素贝叶斯模型可以很好的预测文本的情感倾向,积极样本:称赏、出众、得宜、合适;消极样本:鄙贱、不周、粗浅、泛泛。图中的横坐标表示的是文本情感为积极的可能性,1.0为最高,0为最低,纵坐标表示的是分析数据的数量。通过观察分析下面的图表,我们可以清楚的看到,图2中《李茶的姑妈》的文本情感分析图中的数据从0到1分布不等,其中聚集在两端的数据量较多,而其中又以聚集在0上的数据最多,我们可以推断不喜欢这部电影的观众居多,但仍有小部分粉丝愿意买账。

三、文本情感与电影票房的关系

(一)文本情感与电影评分的相关性

就目前而言电影《我不是药神》的豆瓣评分为9.0分,而《李茶的姑妈》豆瓣评分为4.7分。通过对比进行数据分析可以非常清晰的看出,当一部电影评论中的文本情感大多都是积极的时候,电影的评分便呈现出一个比较好的趋势。而当一部电影的评论中的文本情感消极情绪占比较高的情况下,电影的评分便显得不尽人意。由此我们可以知道,一部电影的评分与观众的情感是成正相关的,观众评论中的积极情感越多,说明电影越受喜欢,观众评论中的消极情感越多,说明电影越不被人喜爱。

(二)文本情感与豆瓣网上相关数据的联系

通过之前的对比我们可以将《我不是药神》这部电影作为评论中积极情感较多的标志,将《李茶的姑妈》这部电影作为评论中消极情感较多的代表,然后对比两部电影。以此为前提的情况下,分析文本情感与其余数据的相关联系。可以得出结论,对于电影来说,其文本情感中的积极情感和消极情感的占比在一定程度上代表了电影的评分。通过讨论区的讨论条数和整部电影的评价人数进行计算,我们可以大致模糊的得出人们对于电影讨论的一个概率。《我不是药神》为0.003,《李茶的姑妈》为0.002可以得出,评论中的积极情感越多人们对于电影的印象越好,越能调动起人们讨论的欲望。

四、结论

通过这次对于两部电影数据的爬取和分析,本文以豆瓣网为例分析了电影短评中的文本情感和豆瓣网上所呈现的各种类型的数据之间的相关联系。但是本次研究仍然还有许多不足之处需要好好反思:①事前没有做好准备工作,并不清楚出豆瓣网对于短评的数据只开放五百条,导致了数据量太少,不够客观。②选择豆瓣网上的用户作为研究对象并不能代表廣大群众,豆瓣网上的用户较为集中,大多都为白领、学生一族。而电影的受众群体不仅只是学生白领,相对来说研究对象有些狭窄。

参考文献:

[1]2017年全国总票房559.11亿元同比增长13.45%[J].广电时评,2018(1).

[2]2018全球人工智能与机器人峰会在深圳召开[J].信息技术与信息化,2018,No.220(07):8.

[3]冯莎.豆瓣电影评论文本的情感分析研究——基于2017年电影《乘风破浪》爬虫数据[J].中国统计,2017(7):30-33.

猜你喜欢
样本文本情感
用样本估计总体复习点拨
如何在情感中自我成长,保持独立
情感
在808DA上文本显示的改善
基于doc2vec和TF-IDF的相似文本识别
如何在情感中自我成长,保持独立
推动医改的“直销样本”
随机微分方程的样本Lyapunov二次型估计
情感移植
村企共赢的样本