绍兴市第一中学 陆文昊
电视剧的热度是对其影响力和关注度的综合衡量指标。为了在目前“多屏模式”下找到电视剧热度的影响因素,并且提出更综合、客观的衡量指标,国内外专家学者进行了很多针对性的研究。主要可以分为两类:
(1)单一预测模型,如:梁招娣等基于RBF神经网络对电视收视率进行预测[1],汪洋等基于BP神经网络建立收视率预测模型[2],张春燕等利用ARMA模型对在线电视剧流行度进行预测[3],毋世晓等人利用移动平均法预测网站电视剧视频点击量[4]等等。
(2)组合预测模型,如:张茜等基于TEI@I方法,提出了对综艺节目收视率预测的研究框架,引入了新的解释变量百度指数和新浪微指数,并采用模型集成技术显著提高了预测精度[5]。黄玲莉等基于ARIMA与BP神经网络,建立了收视率组合预测模型[6]。
对比前人的研究成果,我们发现组合模型的效果比单一模型更加出色。因此,本文在前人已有研究的基础上,综合运用了多种机器学习模型,对影响电视剧热度的因素进行了系统的研究。
本研究选取了2015年到2017年期间首播的共23部完结的电视剧作为研究对象,这些电视剧包含了不同种类的收视率变化模式,均属于该种类中较为典型的电视剧,可以比较全面的反应不同的收视率变化情况,确保了模型的广泛性与合理性。
研究中所有的收视率数据均为索福瑞CSM52城收视率统计值,电视剧的基本信息(如首播日期、播出卫视、每天播放集数)等信息来源于百度百科,所有的原始数据都存储在补充材料的excel表格中。
首先,本文使用二阶自回归的时序预测模型,利用电视剧前 集的收视率数据来预测最后三集的收视率。其中该模型的基本假设为:
(1)电视剧收视率变化平稳,不会因为外界因素的临时干扰而发生突变;
(2)不同时间的电视剧收视率统计方法一致,能够反映电视剧的受关注程度。
本文基于以上的模型假设,建立了二阶自回归模型,即AR(2)模型。若假设 代表第 集电视剧的收视率,那么该模型的表达式为:
利用excel自带的数据分析工具进行拟合,此处以2017年收视率榜首电视剧《人民的名义》为例进行模型的训练和求解。其中训练集和测试集分别为:
(1)训练集:《人民的名义》前29天、共47集的收视率作为训练集。
(2)测试集:《人民的名义》最后3天、共5集的收视率作为测试集。
经过excel的拟合分析,得到《人民的名义》二阶自回归拟合的表达式为:
用同样的方法,对其余的22部电视剧建立AR(2)模型,分别作出收视率的预测分析。结果发现,对于部分电视剧来说,该模型的预测性能比较好,如《平凡的世界》RMSE=0.056,《北上广不相信眼泪》RMSE=0.051,《外科风云》RMSE=0.077。
而对于另外一些电视剧,该模型的预测性能比较差,例如《孤芳不自赏》RMSE=0.534,《于成龙》RMSE=0.583,《亲爱的翻译官》RMSE=0.683。
由此可见,最简单的AR(2)时序预测模型仅能实现一定程度的预测功能,其局限性主要体现在以下两个方面:
(1)只能描述数据分布规律中的线性特征,而难以刻画数据分布的非线性关系。这就使该模型对于基本符合线性增长趋势的电视剧收视率与测量好,而对于波动性较大的电视剧收视率难以精准预测;
(2)部分模型存在过拟合的问题,将数据中的噪声当做了信号进行处理,有些参数的p-value不能通过0.05显著性水平检测。
2.3.1 对收视率数据异常点的处理
通过对部分电视剧测试结果的深入研究,发现部分预测收视率与真实收视率差距较大的电视剧,都存在两种不一样的播放模式。例如《武媚娘传奇》有单集播放的、也有三集连播的;《人民的名义》有单机播放的、也有两集连播的。
为确定“收视率异常下降”与“当日单集播放”之间的关系,我们对23部电视剧中有不同播放模式的17部电视剧进行了统计分析,得到了如表格1所示的结论。此处,“收视率异常下降”定义为“该天的收视率明显小于本电视剧收视率的线性增长趋势”。
表1 对17部电视剧“收视率异常下降”天数特征的统计分析
由表格1可以非常明显地看出,在所有的考察对象的单集播放日中,“收视率异常下降”事件出现的概率远远高于所有播放日的平均概率。所以我们认为,“单集播放”是与“收视率异常下降”存在紧密的联系。
所以,我们首先对于研究对象电视剧的所有单集播放日中“收视率异常下降”的数据进行了修正,采用均值插值的方法,替换掉原有的收视率异常点。修正后的收视率等于单集播放日前后的收视率平均值。
2.3.2 将AR(2)模型优化为ARMA(2,3)模型
在完成对单集播放日异常点的修正后,部分电视剧依然存在比较大的波动性。因此,进一步优化模型,引入移动平均的优化计算,对波动剧烈的曲线进行平滑滤波,从而降低波动性带来的影响,更容易地把握住数据分布的线性趋势。因此进一步将AR模型优化为ARMA模型。
在ARMA(p,q)的模型识别和定阶过程中,我们以《人民的名义》电视剧为样例,对p、q两个参数采取逐步试探法以获得最佳值。经过多次尝试,确定收视率预测的最佳模型为ARMA(2,3)。在对单集播放日的异常点修正后,利用matlab实现ARMA的预测功能,再次对表2-4中曾经对AR(2)模型表现不佳的电视剧进行预测,得到新的预测结果为《孤芳不自赏》RMSE=0.235,《于成龙》RMSE=0.462,《亲爱的翻译官》RMSE=0.383.
可以看出,经过对数据集的修正和对模型的优化之后,原先AR(2)预测表现不佳的电视剧预测性能都有了一定的提升。改变最大的电视剧《亲爱的翻译官》,其均方误差降低了44%,其他电视剧的均方误差也有10%-30%不等的下降。
本章节采用单一的时序预测模型,对23部研究对象电视剧进行了逐一的预测。在AR(2)模型的基础上,一方面深入分析了异常点的规律和特征,对异常点进行了修正;另一方面在模型中加入了移动平均的过程,将模型优化为ARMA(2,3)。最终可以看到,ARMA(2,3)模型在修正后的数据集上,表现出的预测性能比AR(2)在原数据集上的性能要优秀很多。
虽然目前的预测模型得到了一定的优化,例如《人民的名义》预测RMSE从0.3285降低到了0.2376,但该模型依旧存在一定的问题。其最核心的问题在于该模型依旧只能描述数据的线性变化趋势,对于变量之间非线性的变化关系十分无力。
为了进一步提高预测的精确程度,我们从前人的工作中得到启发,尝试采用组合模型来进行预测,一方面利用ARMA模型的线性描述能力,另一方面利用BP神经网络的非线性预测能力,二者相结合地展开后续的预测工作。
经过前文的分析和预测,我们发现节目的收视率会受到很多因素的影响。哪怕对一些异常点进行修正和调整,节目的收视率也会有一定的波动性和无序性。所以,仅凭线性的模型是无论如何也无法进行精准拟合的。由于基于回归的分析方法能够提取出数据的线性特征,而神经网络对非线性关系有很强的逼近能力。所以我们在前人研究的启发之下,选择使用ARMA模型与BP神经网络相结合,进行收视率的预测分析。
对目前要预测的收视率序列rate来说,每个数值都可以表示为:
其中Lt表示该序列中规律的线性部分,对该部分ARMA模型有很好的拟合能力;而NLt表示该序列中的非线性部分,这部分能够使用 BP神经网络来逼近求解,因此该组合模型的整体构造思路分以下几步:
(1)用一个样本电视剧确定ARMA(p,q)模型的阶次,通过逐步试探的方法进行识别、定阶。在2.3.2节中,我们利用了《人民的名义》作为样本电视剧,确定了该模型最佳的阶次为 ARMA(2,3)。
(2)用ARMA(2,3)模型进行ratet预测,假设预测的结果为。这代表了第 个点的预测值,而代表了该点的预测残差。
(4)利用ARMA(2,3)与BP神经网络两种模型的预测结果组合后作为最终的预测结果,即在 点的预测结果为
整体构造过程如图1所示。
图1 ARMA-BP神经网络构造流程图
以《人民的名义》电视剧为例,利用1—26天的收视率作为训练集,27—29天的收视率作为测试集,检验该模型的预测性能。
首先利用2.3.2节中提到的ARMA(2,3)模型,用前26天的收视率进行训练。利用matlab完成模型训练过程,计算出第5天至第26天的真实收视率与预测收视率。之后,将22个预测残差作为BP神经网络的期望输出。然后将原始收视率数据以最大收视率为基准进行归一化处理,归一化后的数据设为 。之后对归一化后的数据进行相空间重构,根据实际情况,确定重构阶数为5阶,即通过生成一组5维的收视率空间向量。将重构后的数据作为BP神经网络的数据输入。
利用matlab实现3层BP神经网络,利用 newff 函数构建网络,其中隐含层数目经过多次试探验证设置为8。隐含层传递函数为tansig,输出层的传递函数设为 purein,训练函数采用 trainm。经过282次学习后,精度达到了预设的0.001的要求。
将训练后的ARMA(2,3)模型和BP神经网络模型共同用于对《人民的名义》最后三天收视率的预测,结果显示组合模型能够的均方误差为 ,预测性能超过之前所有的单独预测模型。由此可见,ARMA-BP神经网络模型通过分别拟合线性部分和非线性部分,实现了更加精准的预测性能,更适合用于电视剧的收视率预测中。
[1]周小普,韩瑞娜,凌姝.多屏发展背景下网络收视度的影响因素研究——以热播电视剧为例[J].国际新闻界,2014,(12):114-129.
[2]侯卫星,高建中.基于因子分析法的城市低碳经济实证评价——以太原市为例[J].企业经济,2012,(06):15-19.
[3]张辉,王雯聪.基于多元统计分析方法研究电视剧收视特征及影响因素[J].现代传播(中国传媒大学学报),2011,(06):101-103+126.
[4]耿金花,高齐圣,张嗣瀛.基于层次分析法和因子分析的社区满意度评价体系[J].系统管理学报,2007,(06):673-677.
[5]何跃,蔡博驰.基于因子分析法的微博热度评价模型[J].统计与决策,2016,(18):52-54.
[6]刘志.模糊层次分析法在电视剧评价中的应用[J].安徽广播电视大学学报,2014,(02):57-60.