张天佐
摘 要:《后浪》发布以来,在社会上产生了重大的影响。本文使用基于BERT编码的深度情感分析模型来进行视频评论中的情感分析。本文选择B站和YouTube两个视频网站,对两个平台中的《后浪》视频评论进行情感分析,并将结果进行对比,进一步得出了每一类的观点想表达的情感。在此基础上,本文对实验结果得出了一些思考和分析。实验分析结果表明:Youtube网站上的负面评论情绪显著高于B站。其负面情绪者的主要观点在于:现实中青年的平均生活水平与“后浪”们之间存在着巨大差距,即《后浪》视频不够真实。
关键词:《后浪》,BERT,情感分析,视频评论
1.引言
现如今人们在使用B站、Youtube等平台观看视频的同时,也会通过评论表达自己的想法与意见。视频《后浪》自发布以来就成为了社会关注的焦点,截至2020年7月18日为止,B站累计播放量已有2781.4万,巨大的播放量也带来了海量的视频评论信息[1]。本文中,我们研究了人们观看《后浪》视频后产生评论中的情感观点。本文选择对B站、Youtube两个网站上的视频评论进行分析。除此之外,本文对两个平台中视频评论的情感分析结果进行对比,并概括出每类情感想表达的观点。在此基础上,笔者对这些结果给出了一些思考。
2.研究方法
2.1数据爬取
Requests库是基于Python实现的简单易用的HTTP库。Requests是用Python语言编写的,基于urllib3来改写的,采用Apache2 Licensed 来源协议的HTTP库。它比urllib更加方便,可以节约我们大量的工作,完全满足HTTP测试需求[2]。
本文对两网站的爬取均使用基本的requests库进行。对B站的数据爬取过程中,我们需要填入视频的BV号,代码会将BV号转换为视频的AV号,然后组成url进行爬取。而对Youtube的评论数据爬取中,需要先申请google的开发者API,然后将自己的密钥填入代码,就可以进行爬取。
最终,我们获得了B站中的热度最高的评论1969条,Youtube中点赞数大于10的评论1164条。
2.2基于BERT的情感分析模型
本文采用社交媒体预料训练了一个针对社交媒体语料进行情感分析的机器学习模型。
作为2018年自然语言处理领域的新秀,BERT做到了过去几年NLP重大进展的集大成,一出场就技惊四座碾压竞争对手,刷新了11项NLP测试的最高纪录,甚至超越了人类的表现,是未来NLP研究和工业应用中最有潜力的语言模型之一[3]。
本文使用Bert作为encoder,将文本传入Bert后,获得第一个字符[CLS]的表示作为输出,因其已经蕴含了整个句子之中的信息。将其传入一个全连接层,完成分类任务。我们使用第九届全国社会媒體处理大会微博情绪分类技术评测(SMP2020-EWETC)中提供的数据作为训练数据。数据集从微博评论中产生,与本文的应用场景类似,并且不仅标注了积极消极的情绪,也标注了中立的情绪,可以更加方便我们对不同类别情感进行分析。
3.数据分析
3.1不同平台之间的结果对比及其原因
使用情感分析器对我们爬取到的数据进行情感分析。一条数据如果是积极,标为0,中立,标为1,消极,标为2。本文基于BERT的模型的标注结果示例如表1所示。
可见两平台之间的评论情感存在巨大差距,bilibili上的评论偏向积极,Youtube上的评论则偏向消极。
通过调查网上资料,以及阅读评论数据,笔者认为其中的主要原因可能有以下几点:
1)bilibili会手动删除负面评论;
2)Youtube平台上存在大量对中国带有严重偏见的人群,如乱港废青等。
3.2不同情感评论人的观点及其原因
本文通过生成积极、中立、消极三种评论的词云的方式,更加直观的展现三类评论的差别。由于词云将单词在语料库中出现的频率进行了可视化,我们可以更容易的了解出现频率最高的词(已去除常用词)。其结果如图1所示。
从三幅图中可以看出,除“后浪”、“演讲”、“生活”等词在三幅图都出现外,负面评论中,“恶心”、“抱怨”、“韭菜”、“不公”,等词经常被提及,与之鲜明对比的是,积极评论中“希望”、“奋斗”、“奔涌”等词有着较高的出现频率。而中立情感动的评论常常是在评论中记录演员的身世背景、记录视频中部分台词、记录打卡自己看了这个视频。
正面情绪出现的原因是明显的,作为一个歌颂年轻人活力的视频,视频中up主们的“心里有火,眼里有光”确实激人奋进。而一些中立情绪的原因也是明显的,一部分是因为这条评论只是想打卡留念,一部分是因为评论中掺杂着正面和负面情绪。
对于负面的情绪,笔者总结上面词云结果,并且分析部分数据,认为其原因总结如下:
1、认为视频中的生活与现实青年生活严重不符,对比自己惨淡的人生感到无比自卑;
2、认为这个视频只是b站宣传自己的广告;
3、认为这个视频容易误导青年,追求不符合自己收入状况的浮华生活。
4.总结
本文使用情感分析技术,对B站、Youtube评论进行对比,并总结出三种情感的可能成因。
参考文献
[1] 经琦.探析哔哩哔哩《后浪》遇见五四的价值与意义[J].传媒论坛,2020,3(16):133+135.
[2] 岑沛斯. 基于文本分析的互联网视频搜索引擎技术研究[D].杭州电子科技大学,2013.