杨 丽 秦江涛
(上海理工大学 上海 200093)
近年来,随着互联网技术的发展,网络视频平台已成为互联网用户的核心网络活动[1],最新的CNNIC报告显示,中国网络视频用户规模高达9.27亿且短视频用户占整体网民的88.3%[2]。为了更好地满足用户在观看时的娱乐和互动需求,各大视频平台争先引入弹幕功能,使得弹幕视频成为流行。在大数据时代背景下,用户在很大程度上决定了弹幕视频的传播力度,用户在观看过程中的点赞和发送弹幕等行为会影响播放量,反映了用户对视频的认可和偏好。弹幕视频和传统视频有明显的不同,弹幕视频播放量的预测和影响因素分析相比传统视频来说更为复杂,利用数据挖掘技术对弹幕视频播放量的预测以及影响因素的探究,可以使平台更好地甄别视频质量好坏,从而加大在高质量视频上的推广力度,提升平台的经济效益。
弹幕的兴起使得学者们从文化视角、发展策略和传播学等不同角度对其进行了研究。文化视角下着重分析了弹幕文化东西方发展差异[4]和语言特征等,丁国栋[5]等分析了B站物理教学视频的弹幕,揭示弹幕文本的生成经历了初次生成、接受再生产和高能激发三个阶段且其交互具有吐槽化和去中心化等多个特点,更有效地促进了教师的教学;孙振虎[6]和韩素梅[7]等分别从参与式文化视角下探究了视频触发弹幕文本和弹幕影响视频创作的原因以及参与式文化的新型特征。发展策略方面研究大多聚焦在弹幕对消费者购买行为和购买意愿影响上,李曼宁[8]和李稚[9]等探究用户情感和广告插入机制之间的相关性并创新性的提出情感匹配广告插入机制和动态广告插入机制,为网络视频平台提供新的营销策略思路。传播学视角下,研究热点在传播模式和播放量影响因素等方面。王璐[10]通过分析弹幕的特点,证明弹幕可以满足人们在情感、娱乐和社交三个方面的需求;周洋[11]和张舒涵[12]等分别从多个角度探究了弹幕对军事题材视频传播效果的影响以及官方账号视频传播的即时影响力;陈明红[13]等依据ELM理论,将变量分为两类路径来构建弹幕视频播放量影响因素模型,并验证识别出可以引发视频播放的组合路径。在预测算法的使用上,最为普遍就是利用多元回归算法[14]来建立预测模型,机器学习和深度学习算法也逐渐被应用在预测问题上。在目前的机器学习算法中,随机森林(Random Forest,RF)和XGBoost算法的预测效果最为突出,RF模型实现简单且预测效果较好,不容易产生过拟合现象[15]。任才溶等[16]提出基于RF的PM2.5浓度等级预测方法,结果表明该模型预测具有较好的精确度和召回率;XGBoost算法具有高准确度和可扩展性,可以发现数据间的依赖关系[17],Noh Byungjoo等[18]根据步态特征建立了XGBoost模型来对老年人的跌倒风险水平分类,确定最佳步态特征来预防老年人跌倒。长短时记忆(Long Short Term Memory,LSTM)神经网络模型是目前比较流行的深度学习算法,它是传统的循环神经网络模型的特殊变形[19]。Luo Junling等[20]针对美国的COVID-19每日确诊病例数据,采用LSTM算法和XGBoost算法建立预测模型,证明通过隔离非感染者,降低易感人群和感染者的接触率可以有效减少每日确诊病例。
通过文献调研发现,弹幕视频播放量的预测及影响因素分析的研究还不够深入且模型较为简单,在针对预测问题上大多采用的算法比较单一,缺乏采用不同特征选择和不同算法之间的对比分析。鉴于此,本文以国内弹幕视频网站中最具有影响力之一的哔哩哔哩弹幕网(以下简称B站)作为研究对象,利用特征选择方法对数据样本特征进行筛选,分别采用机器学习算法和深度学习算法对播放量进行预测,比较分析不同算法在预测弹幕视频播放量方面的优劣以及影响播放量的因素。
本研究的总体框架设计如图1所示。对弹幕视频网站进行网页分析并采集视频数据,对文本数据进行jieba分词,利用停用词表和sklearn中的countervectorizer方法把文本数据转化为文本向量,对数值数据进行预处理;其次根据特征变量和预测变量的皮尔逊相关系数进行特征选择;分别构建RF、XGBoost和LSTM模型,探索预测播放量最优算法;最后采用播放量预测最优的算法从弹幕视频自身特征、创作者特征、数值特征、文本特征四个维度探究不同特征对预测结果的影响,按照评价指标对结果进行分析。
图1 弹幕视频播放量研究框架
本研究针对B站反爬虫设置采用分布式访问机制获取日常、生活和VLOG三个关键字下的7832条视频数据,由于用户对其发布的视频可以随时修改,难以对播放量的影响量化,所以选择同一天的视频并对24h后的播放量进行预测。数据集一共包含17列数据,其数据表现形式如表1所示。
表1 获取的数据信息
获取的数据中可能存在不符合要求的数据,所以要对其进行去重、缺失值和数据归一化等预处理。本文利用式(1)来对数据进行归一化处理。
其中X′表示归一化处理后的数据,X表示原始数据,Xmax和Xmin分别表示X中的最大值和最小值。然后利用分词函数和正则匹配对标题和简介两个文本特征进行分词,使用停用词表过滤结果,调用countervectorizer方法把文本数据转换为128维的词向量并用平均值来表示视频文本向量,作为输人预测算法中的特征。经过预处理后,最终选择爬取到的6563条视频数据进行研究,以24h后的播放量作为预测标签探究影响视频播放量的相关因素。
为了降低计算维度,提高模型预测性能,利用特征选择来对特征进行筛选,本文采取皮尔逊相关系数来进行特征选择,对于数据中的特征变量x和y通过实验可以得到若干组数据,记为(xi,yi)(i=1,2,3…,n),其计算公式为
图2 特征变量和预测变量的相关系数
2.5.1 选择模型
RF是一种无监督机器学习算法,本质上是以决策树为基础构建Bagging集成并结合随机子空间的分类和预测算法[21]。基本思想是利用boostrap抽样方法从N个原始样本数据中抽取n(n<N)个样本,重复K次并保持样本容量和原始数据集一致,然后在每个决策树节点分裂时,从全部M个特征中随机抽取m个子特征,再从子特征中选择最优特征作为分裂特征;通过K次训练得到k个决策树模型(f1(X),f2(X),…,fk(X))和K个预测结果,根据结果进行投票决定最终的预测结果,模型表示如下:
其中,F(X)表示组合后的预测模型,Y表示标签特征,I(·)为示性函数,X表示特征变量。
XGBoost算法是在梯度提升决策树基础上对损失函数和特征选择等方面进行了优化,可以有效地构建增强树且并行运行[22]。算法的思想是用后一个模型来校正前一个模型产生的误差,不断重复来达到优化目标函数的目的,整体模型和目标函数分别可表示为
其中,i=1,2,…,n,n为样本数量,yi为预测输出,K是树的数量,fk(Xi)是第k棵树的数量,F是所有回归树的集合,分别表示误差项和正则化项。
LSTM神经网络模型是循环神经网络的特殊变形,在其基础上增加了输入门(i)、遗忘门(f)、输出门(o)三个逻辑控制单元,改进了其容易梯度消失和梯度爆炸的问题,使得网络可以在更长的数据序列中取得较好的结果[23]。LSTM神经网络的神经单元结构如图3所示。
图3 LSTM神经网络的神经单元结构
LSTM神经网络在t时刻的输出Ht为Ht=ot*tanh(Ct),其中:
输入门和输出门的输出:
式中:it,ft,ot分别表示为t时刻的输入门、遗忘门、输出门的输出,tanh为双曲正切函数,Ht和Xt分别表示t时刻的输入向量和隐藏层的输出,σ为sigmoid激活函数,Ct为t时刻的记忆单元状态,w和b分别表示计算时权重矩阵和偏置矩阵。
2.5.2 选择评价指标
为了进一步判断模型的优劣,本文采用拟合优度R2衡量模型拟合精度,使用平均绝对误差(MAE)衡量模型预测精度,计算公式如下:
其中yi是待训练的真实数值,均值是,通过训练得到预测值为,m表示样本量,R2越接近1且MAE越低则说明模型拟合程度越好,预测的准确率越高。
本研究采用五折交叉验证划分训练集和验证集,RF模型利用GridSearchCV实现自动调参,确定模型最优参数分别为max_depth=3,迭代次数n_estimators=80;XGBoost模型的辅助参数学习率、随机采样比例和树的最大高度在模型预测时对算法的性能影响较大,最终确定模型的迭代次数n_estimators=30,任务函数为gamma,学习率learning_rate=0.3,初始预测得分base_score=0.5,且树的最大高度为3。RF模型和XGBoost模型预测值和实际值的对比分别如图4和图5所示。
图4 随机森林模型在测试集上的预测值
图5 XGBoost模型在验证集上的预测值
LSTM神经网络模型需要调节的参数较多,对目标变量在输入层按式(1)进行归一化处理,为了防止过拟合,dropout设置为0.01,使用MAE作为损失函数,adam作为模型的优化器,数据训练设置进行5000个epoch,每次使用16条训练数据进行前向和反向传播,模型在80个epoch以后达到了很不错的效果,图6表示LSTM神经网络模型在验证集上的预测结果。
图6 LSTM神经网络模型在验证集上的预测值
从图4、图5和图6中可以看出,RF模型和XGBoost模型预测值和真实值的曲线最为接近,模型的预测结果和真实值误差较小,模型拟合效果比较好;LSTM神经网络模型预测值和真实值之间的误差比较大,模型拟合效果较差。由表2可知,RF模型的R2为0.967,MAE为215.916,而LSTM模型的R2为0.701,从评价指标可以看出RF模型在测试集上的具有更高预测精度。综合可知,在弹幕视频播放量预测方面,RF模型比XGBoost模型和LSTM神经网络模型预测效果更好,而LSTM神经网络模型表现最差。
表2 不同模型在测试集上的评价指标
在已确定弹幕视频播放量预测采用RF算法的基础上,分别选取视频自身特征和创作者特征来对视频播放量进行预测,通过比较评价指标探究视频自身特征是否对播放量影响最大;其次,特征变量的也可分为数值特征和文本特征两类,比较利用数值和文本两类特征进行预测和利用所有特征进行预测的实验结果,分析视频的文本特征是否可以提升预测效果以及对视频播放量的影响程度。不同特征进行预测的实验结果如图7所示。
图7 选取不同特征预测结果
由图可以看出,视频自身特征进行预测得到的R2为0.966,MAE为215.920,这一结果和候选特征预测结果近似,创作者特征进行预测的R2是0.223,说明其对于视频播放量的影响几乎可以忽略不计,进一步表明视频自身特征对于视频播放量的影响是最大的。其次,分别将选取数值特征和文本特征进行预测的评价指标和候选特征的预测结果对比,可以看出添加了文本特征预测的结果明显比只用数值特征进行预测的效果好,说明文本特征只在一定程度影响视频播放量且影响比较小。所以,弹幕视频网站在进行日常的推广过程中可以重点关注视频自身特征和数值特征这种对播放量影响比较大的变量,进而促进视频播放量增长,提高经济效益。
本研究选取B站弹幕视频作为研究对象,对比传统机器学习方法和深度学习方法在弹幕视频播放量预测方面的优劣,并选取不同的特征进行比较实验,探究影响视频播放量的关键因素。实验结果表明,RF算法在本研究的数据基础上的预测效果要优于XGBoost算法和LSTM神经网络模型,而且LSTM神经网络进行预测的误差比较大。利用RF算法选取不同特征进行预测,比较实验结果发现,弹幕视频自身特征对于视频播放量的影响最大,视频文本特征只是在一定程度上影响视频播放量且影响较小。
后续工作中将深入挖掘视频的评论和弹幕内容并对其进行情感分析,作为特征变量扩展预测模型,并且追踪监测一定时间段内的视频播放量数据,采用时间序列数据并应用相应模型进行预测,深入探索视频播放量影响机制和预测算法。