文/王淮
网络的不断发展催生了多媒体技术的广泛应用,一新的视频评论方式开始逐渐流行。。不同于传统的视频评论,具有长篇幅、基于视频整体的特点,弹幕数据一般比较短而且具有时序性,所表达出来的视频情感趋势和观点会更丰富、更具有参考性。用户可以通过弹幕系统发布与视频情节内容相关的评论,也可以根据弹幕了解潜在的剧情。研究弹幕数据中蕴含的情感,可以帮助用户更愉快的观看视频,而且可以为相关商业机构提供更准确的用户偏好调查解决方案。由于弹幕数据的复杂和诞生时间相对短暂,关于中文弹幕的分析研究还不够充分,也没有很好地进行商业利用,因此本文将从弹幕定义、数据预处理、情感分析和总结五个方面对中文弹幕情感分析的研究现状进行介绍和分析,希望能够推进中文弹幕情感分析的进程。
弹幕指的是从屏幕自右向左划过或停留在顶部、底部等的文字。弹幕一词源自日本,原意指对目标进行密集炮击。弹幕起源于日本niconico,国内AcFun率先引进,并随着弹幕系统越来越完善,国内主流的视频平台如BiliBili(以下简称B站)、腾讯视频、优酷、爱奇艺等以及直播平台如斗鱼、虎牙等也都开通了弹幕服务,一时之间弹幕如春笋般一涌而出。
庄须强等人[4]认为弹幕评论带有时间标签信息,是针对当前播放内容的评论。弹幕数据是依附在视频上由观看者参与讨论产生的,具有时间序列的特征。弹幕评论是网络用户自发产生的,具有独特的风格,区别于传统的中文字词,含有诸多口语化、谐音的网络词语以及表情等。一般而言,单条弹幕长度有限,不会出现类似豆瓣、烂番茄等影评长则上千字的评论。对于视频整体而言,弹幕分布稀疏的,而在某些关键情节会出现爆发式的增长,具有整体稀疏,局部密集的特点。
庄须强等人[2]和邓扬等人[3]都将弹幕定义为一个由弹幕内容、弹幕发送时间和用户ΙD组成的三元组。通过对弹幕的提取,进行了相关的弹幕情感分析。以B站弹幕内容为例,弹幕格式是一个八元组,包括弹幕出现时间,弹幕的类型,弹幕的大小,弹幕的字体颜色,弹幕的发布时间,弹幕池,弹幕发送者ΙD,弹幕的rowΙD。
图1:中文弹幕情感分析流程
在邓扬等人[3]文中,首先对视频片段进行切分,然后提取片段中的弹幕序列,进行文本预处理后对词语进行了编号化处理。庄须强等人[4]对弹幕中每个不同的词都用一个对应的向量表示,建立情感词典,以此去除深度学习可能出现的高纬度、梯度消失等问题。洪庆等人[1]对弹幕中的网络流行词建立了特定词典,对弹幕数据用词进行词性分析;对数据中的颜文字、表情则编写了正则语句,识别后删除。
弹幕词典不同于传统的汉字字典,其来源广泛,具有多样性和时效性。弹幕词典从来源分析主要由两部分组成,一部分是没有意义的词汇,由于社会的发展和从视频的台词中演化出来的,另一部分是原本有确切含义的词,出现了新的含义。弹幕词典从成分分析有两部分组成,一部分是网络流行语,另一部分则是专属于视频领域的弹幕专用词汇,如“打卡”、“火钳刘明”等,只会在弹幕中出现。因此对于构建弹幕词典需要不断地更新和广泛的吸收。
不同于一般的NLP分词,弹幕文本具有口语化、频繁重复、句子较短的特点,需要构建特殊停用词表。王素格等人[5]通过实验发现是否有形容词、动词等的停用词表,对情感分类的影响较大。熊文新等人[6]总结了停用词过滤在信息检索用户查询语句中的使用情况。一般来说专业停用词表是基于统计的自动学习方法,从语料库中统计出高频停用词,然后构建停用词表,之后再由专人进行核查[7]。
弹幕具有口语化和文本较短的特点,一般的中文情感词典只是对生活中的词语进行划分,没有考虑到弹幕的特点 因此需要专业的词典。徐琳宏等人[9]在提出了一种情感分类树,将情感分类为7类,这7类分别是: 乐,好,怒,愁,惊,恶和惧。乐和好属于积极情感,其他的属于消极情感。
4.2.1 MTER算法
邓扬等人[3]认为弹幕的词分布可视作一个概率模型,在同一个视频片段中的词相互之间具有情感依赖,因此提出一种基于多主体的视频片段情感识别(Multi—Topic Emotion Recognition,MTER)算法。
MTER利用每个词的隐含情感主题分布来评估词的情感值,并用情感向量表示弹幕。由于视频片段的情感具有传递性,归属于同一个视频中的视频片段具有一定的情感相关性和相似性,尤其是时间相隔较近的片段,因此作者还对视频片段情感向量进行了调整。
4.2.2 AT-LSTM 模型
庄须强等人[4]分析了多种机器学习模型在聚类时的优劣势,最后使用了基于Attention Model 的AT-LSTM 模型。AT-LSTM模型能够有效的避免长期依赖问题,防止有用数据信息丢失,并且能突显关键评论词,降低非关键词对弹幕情感带来的影响。
4.2.3 计算情感值
郑飏飏等人[8]认为只考虑情感词的分类不够全面,还要考虑到否定词的影响。杜振雷等人[10]在微博短文本的情感分析研究中指出,否定词会对情感值计算产生相反的影响。因此在计算情感值时,需要注意弹幕评论中是否夹杂着否定词,再进行计算。
通过对中文弹幕情感分析的研究,本文将中文弹幕情感分析流程一般化为图1所示。首先构建弹幕词典,以此来支持文本预处理模块,经过弹幕分词、词性标注、人工筛选等过程生成情感词典,利用情感词典对弹幕进行情感分析,并保存到数据库中。用户可以通过客户端查询,选择自己偏好的视频,实现弹幕情感分析的价值。