李 聪,余 梦,汪之舟,李 稚
弹幕这一新型评论方式起源于日本的视频网站“Niconico动画”,我国由AcFun和Bilibili首先引进。弹幕作为一种从2014年开始流行的新媒体评论模式,将评论与视频紧密结合,融合了视频与社交元素。观众在看视频的同时可以对当前视频内容进行评论,弹幕会实时滑动在视频页面上。弹幕评论的内容包括评论语句和相应的视频时间点。因此,与一般的网络视频评论模式相比,弹幕能更精确地反映出观众在浏览视频时的实时情感变化,这些评价和情感可以为其他观众在选择视频方面提供建议。使用七类基本情感从弹幕中提取用户情感信息,可以帮助运营商获取视频整体的情感倾向,以及观众情感的实时变化情况。随着弹幕这一评论方式在国内各大主流视频网站上的推广,弹幕中的评论和情感将更具参考价值。在分析弹幕情感的基础上,可以建立基于用户情感的视频检索方式,为用户定制更加个性化的检索需求。
本质上来说,弹幕评论是一种基于时间序列的短文本,每一条弹幕评论都对应视频的某一时刻。由于弹幕作为新媒体出现的时间不够长,最近数年才开始被中国的视频网站所采用,所以国内针对弹幕数据的研究还比较少。詹雪美等对比了传统视频和弹幕视频评论的区别,研讨了弹幕视频网站的起源和发展。陈松松等根据对弹幕视频网站和用户的观察,探究了这一新兴评论模式的特点。洪庆等人使用Python网络爬虫对网络视频的弹幕信息进行了爬取和预处理,如剔除了含有颜文字、表情类的弹幕,对弹幕信息、模式、字体颜色和大小做了分析,由于其使用数据量小且剔除非文本内容多,可能无法得到很好的分类结果。庄须强等人利用注意力机制挖掘弹幕中的情感关键词,建立LSTM模型提取出基于主题的“高光”网络视频片段。唐紫珂针对传统视频网站推荐模式的不足,提出了RFE模型,更精准的为视频用户进行推荐。
同时,因为信息技术和智能算法运用的局限性,弹幕数据的动态特征与数据背后广大用户的情感表达未能真实有效的反映出来。因此,现有文献中并没有很好的探索数据的深层价值——用户的观影情感,缺乏对用户观影选择行为的把控。而这些数据具有潜在商业价值,对新媒体市场的发展起到决定性的作用。
现有的情感词库是中文文本词库于2014年由大连理工大学建立,一方面,由于近几年新词、网络用语发展迅猛,导致弹幕不是纯文本数据(包含颜文字、表情以及英文符号),而情感词库无人更新,分析起来难度较大且分析过程较为复杂。另一方面,弹幕信息是大数据,现有文献中使用的弹幕信息量严重不足,并且剔除了颜文字和表情等信息,没有涉及大数据处理,也会造成相关分析不准确且较为浅显。弹幕具有动态、实时性、离散性的特点,数据抓取、分析较为困难。对弹幕简单分析后,并没有文献进行商业营销模式的相关研究。为了便于之后的语义情感分析,在现有词库的基础上加入网络流行词汇(颜文字、英文符号、缩写、表情包等非文本数据),建立一个更新的情感词库,并利用更大数据量的弹幕信息,对数据进行商业分析,旨在为运营商企业提供决策支持(更加个性化的广告插播模式、人性化的视频片段推送)。同时,通过使用扩充的词库,分析观看相同视频情节的用户发送的弹幕特征,更加真实贴切地反映用户情感,可以对用户进行分类,研究用户观看视频的心理,对不同的用户采取个性化的营销策略。根据七类情感对新词汇进行评分,便于之后的弹幕分词和情感匹配分析,七类基本情感如表1所示。
表1 基本情感类别
七类情感类别中,乐、好视为正向情感,哀、惧、恶、惊作为负向情感,正向词汇根据情感强弱分为五个得分等级(1,3,5,7,9),负向词汇根据情感强弱同样分为五个等级(-1,-3,-5,-7,-9)。
为了对弹幕用户进行精准营销,首先需要爬取大量用户发送的弹幕数据,以便后续进行数据分析。因此,考虑使用Python网络爬虫技术,对某视频网站中的弹幕进行爬取。通过对爬取的弹幕数据进行预处理,去除噪声数据(如删除人均弹幕发送少于5条的用户所发送的弹幕,以此提高通过弹幕情感分析观众特征的精度)。通常在视频开始时,用户发送的弹幕评论数量较多,随后逐渐减少,这是因为很多观众喜欢在视频开始时“留念”,如“打卡”“二刷”等刷屏类的弹幕。这些弹幕经常出现,但是并没有表达弹幕用户对于视频内容的真实感受和情感取向。因此这类弹幕会成为噪音弹幕,从而影响弹幕文本分析的结论。通过对弹幕语句进行分词,可以编程自动匹配相应情感。
通过对所有弹幕用户发送的弹幕信息进行情感分析,七维的情感分布可以代表该用户的情感特征。利用基于情感距离的自动K-means聚类算法来进行用户智能聚类,从而获取用户看视频的情感取向,如用户喜爱的视频类型和可接受的视频时长等。
通过贝叶斯概率选择模型对各类视频的播放量做预测分析,能够更加准确的进行后续的商业数据分析。显然,用户所发弹幕数量越多,越能精确地掌握其情感。通过掌握用户兴趣偏好,从而可以对用户推送更加合适的视频与广告。
使用更大数据量的弹幕信息,对数据进行商业分析,旨在为运营商企业提供决策支持(更加个性化的广告插播模式、视频片段推送和视频流行度的预测),研究用户的观看心理,对不同类别用户采取差异化营销策略,拟制三种精准营销战略。
通过对某节目所置入的广告类型(如情景广告、赞助冠名广告、贴片广告等)、广告内容、广告插入的视频时间段以及其广告的持续时长、广告是否与其插入前后视频内容、主题相匹配作为属性结合弹幕内容进行大数据分析,从而得到更加精确的广告投放方式和恰当的推送时间点。
通过对弹幕视频网站用户的ID、个性标签、播放记录、收藏夹等海量数据进行情感分析,构建视频用户情感画像,研究用户的观看心理和行为特征等,例如,顾客喜欢的视频类型(综艺、选秀、电影等),对用户推送相应类型的视频节目。
对于弹幕视频网站来说,了解视频用户品位与偏好非常重要。例如,大众偏向于看真人秀类综艺节目,而对恐怖片关注度可能较低。通过对各类型视频热度进行预测分析,网络视频平台可以更有针对性的制作、购买某一类型的视频节目,迎合视频用户需求,从而达到利益最大化。
弹幕这一具有新意的评论方式,正逐渐渗透到其他领域,如植入广告、电影等,很多影院已经开启了观影实时发送弹幕的功能,打破了传统影院无法对电影进行实时评论互动的局限性,使得线上观影效果更佳。而无论是对于弹幕视频网站还是弹幕用户,弹幕评论的需求都在不断增加。因此,弹幕这种新的评论方式具有很大的潜在价值,对弹幕起源进行深入研究变得很有必要。
在已有情感词库的基础上,扩充近年来出现的热词如颜文字、表情包等,并根据七维情感词库给出对应情感评分。使用Python网络爬虫获得网络视频弹幕,清洗噪音数据后进行分词匹配情感,对弹幕用户使用K-means算法进行聚类,并使用贝叶斯概率模型对各类型网络视频的播放量做预测,根据模型为网络视频平台制定相应的精准营销策略,同时也给弹幕视频用户提供了更加个性化的视频检索方式。
紧扣当前大数据分析、自然语言处理、弹幕网络视频等研究热点,角度新颖且具有较大的应用前景。在依据弹幕情感值进行用户分类时,应用的K-means算法是一种通用的分类算法,随着研究的逐渐深入,需要根据具体问题开发新的智能算法进行分类研究,以提高计算效率和分类精度。