基于回归模型的流行电视剧数据分析

2017-11-20 14:53王一鸣
电脑知识与技术 2017年25期
关键词:电视剧数据挖掘

王一鸣

摘要:为了探究不同电视剧数据之间的关系,发现出这些数据背后的价值,该文基于一元线性回归模型,使用从中国网络视频指数、爱奇艺指数、央视索福瑞等权威网站获取的多部热播电视剧的点击量、收视率等数据,建立模型并进行分析。最终发现电视剧相邻两集之间的收视率存在着一元非线性的关系,而单集电视剧的点击量与评论数存在着一元线性关系,同时单集电视剧的收视率随集数增大而缓慢上升,点击量则迅速下降,最后该文对此结果做出了分析并提出一些合理的建议。

关键词:数据挖掘;电视剧;一元线性回归模型

中图分类号:TP3 文献标识码:A 文章编号:1009-3044(2017)25-0235-04

近几年中,各个领域都出现了大规模的数据增长,数据的蓬勃发展在社会经济和科学研究方面具有前所未有的推动作用,对挖掘潜在于数据背后的价值具有重要的意义。前几日刚开始播出的电视剧《楚乔传》,以其上线20分钟点击量破亿的佳绩轰动全网。但其实这并不是国产电视剧第一次有如此出色的表现了,从最早的《还珠格格》到之前的《三生三世十里桃花》,都曾创造过惊人的数据,那么,这些数据背后是否存在着某种关系呢?

在此之前,陈春燕教授等人的文章《基于ARMA模型的在线电视剧流行度预测》和毋世晓教授等人的文章《基于时序分析的视频点击量预测》中,都采用时序分析的方法来预测未来电视剧的走向,本文也采用了相关的思想。此外,本文将在他们研究的基础上,以国内电视剧的热播为背景,通过采集多部电视剧的数据,以一元线性回归模型的理论为基础,从相邻集数的收视率、点击量与评论数、点击量和收视率与集数三方面探究这些数据背后的关系,并提出相关的建议,从而促进电视剧行业的蓬勃发展,提高社会效益。

1 数据

1.1 数据收集

本文共收集了包括《楚乔传》《人民的名义》《夏至未至》等八部正在更新或已经更新完的电视剧的单集点击量,收视率,评论数等数据。采用的电视剧每集点击量,评论数来自于中国网络视频指数(index.youku.com)和爱奇艺指数(index.iqiyi.com),网站提供视频上线之后的每集电视剧的点击量总数,电视剧每天至少更新一集。播出时段的收视率来自于央视索福瑞(www.csm.com.cn),其中有同一天晚上播出多集的使用同一个收视率数据,同步更新的电视剧使用收集数据当天之前的数据,之后的数据不再进行统计。

1.2 数据预处理

为了避免因播放源不同而引起的数据之间难以考虑到的误差,本文所使用的八部电视剧均为湖南卫视同一时段播放的,且网络点击量的数据均来自于中国网络视频指数。此外,为了方便数据的使用,本文将点击量的单位定为百万次,收视率的单位为%,评论数的单位为千条。此外,本文还会去掉一些因为上线时间较短等其他因素导致的一些异常值,以求得更精准的模型。(如图1和图2)

2 理论基础

一元线性回归模型具有简单易行的特点,且经过多次数据处理和计算后发现拟合度较高,所以本文所使用的模型的理论基础均为一元线性回归模型的理论。对于一元线性回归模型

3 模型的建立与处理

3.1 基于一元非线性时间序列预测模型对收视率的预测

收视率,指在某个时段收看某个电视节目的目标观众人数占总目标人群的比重,以百分比表示。收视率越高,则该电视剧与同期节目相比受到的关注度就越高,一般来说,当t-1时刻的电视剧收视率越高时,观众对t时刻的电视剧的期望就越高,t时刻的收视率就越高。因此本文猜想,t-1时的收视率与t时刻的收视率存在某种关系。本文以t-1时刻的收视率为自变量来预测t时刻的收视率,进行了多次数据分析。以《楚乔传》为例:

如图3是真实的t时刻与t-1时刻的电视剧收视率的关系:

由上图可以看出,t-1时刻的收视率与t时刻的收视率基本符合一元二次的函数关系,得到的模型拟合程度较高。之后以上图中得到的回归方程,预测最后5集电视剧收视率,得出结果后再与前面几集的收视率做回归分析,得到如下图4:

该数据同样得到了拟合程度很高的模型,与真实结果相比差距很小。其中,实际结果得出的二次项系数为负而上图中二次项系数为正,可能是因为使用的数据量过少。同时本文对当时电视剧播出的背景做过调查后发现,最后五集播出时处于工作日。很多人因为工作的原因不能及时收看电视,这也可能是造成预测结果偏大的一个原因。

最后本文经过多次验证得出该模型可以很好的拟合数据,对任一时刻的收视率,该模型都具有很好的预测效果。因而本文可以认为,热播电视剧的收视率与上一集的收视率存在一元二次的函数关系。

3.2 一元线性模型预测单集电视剧评论数

通常来讲,对于一部热播电视剧,如果某一集相比较其他更加吸引观众,便更会引起人们对他的关注,反映到数据上的一方面就是该集的评论数就会越多。而在收视率和点击量两个可能可以预测评论数的因素中,本文猜想点击量能更好地预测评论数,并通过数据验证了本文的猜想。以《人民的名义》和《三生三世十里桃花》为例(如图5和图6)

从下图可以看出,不论是单集还是整体,在收视率这一方面《人民的名义》远超《三生三世十里桃花》,而点击量方面的结果恰好相反,《三生三世十里桃花》则是更胜一筹,但如果本文比較两部电视剧的评论数(如图7),《三生三世十里桃花》占据了绝对优势。

造成这种结果的原因是因为两部电视剧收看的人群年龄段不同,《人民的名义》的观众群体年龄相对较高,多通过电视收看电视剧,很少会到网络上发表对这部电视剧的看法;而《三生三世十里桃花》的观众群体相对年轻,多通过网络收看电视剧,并乐于与其他人商量对这部电视剧的观点。因而造成了点击量与评论数的数据更为相符。通过比较可以初步验证本文的猜想,但这只能说明点击量比收视率能更好地预测单集的评论数,是否点击量就能与评论数很好地契合,这还需要本文进一步的数据分析。endprint

以《择天记》为例,本文以《择天记》的单集点击量为自变量,该集的评论数为因变量,删除一些误差较大的数据后得到20组单集评论数和点击量数据。将这20组数据进行回归分析得到的结果如表1和图8所示:

通过回归分析本文可以看出,这二十组数据间的线性相关性较强,拟合程度较好。本文再以前十五组数据为训练集,最后五组数据为测试集。将预测的五组数据与真实的五组数据作对比,并计算二者的相关系数[ρ],即得表2:

二者的相关系数[ρ]=0.792,即二者的相关性较强,因而本文可以看出电视剧的单集点击量对当集的评论数有着较好的预测能力。当本文把电视剧的数量扩展到6部时,本文先将156组数据进行回归分析,结果如表3和图9所示:

删去这些数据中较大的66组数据,剩余的90组数据中,以其中85组为训练集,另外5组为测试集,计算该模型的预测能力,如表4:

由此可见,当数据更大时,点击量与评论数的线性相关性加强,而点击量对评论数的预测能力也一直十分优秀,所以本文可以推测,当数据数目足够大时,点击量与评论数将符合一元线性回归模型。

3.3 单集收视率、点击量与集数的关系

一般来讲,电视剧开播初期,因为不同电视剧的明星阵容、宣传力度不同,在不知道剧情的情况下,电视剧的收视率与点击量可能会有不同程度的波动,但随电视剧的播出,人们对该电视剧了解进一步深入,这种波动可能会逐渐减小。因而本文推测,随集数的增长,单集电视剧的收视率与点击量都会趋于平缓,且随剧情深入,人们对电视剧的期望应该会越高,因而二者都应缓慢上升。下面本文分别以八部电视剧的集数为自变量,同一集(同为第一集、第二集等)的平均收视率和平均点击量为因变量探究二者的关系,结果如图10和图11。

由图本文不难看出,真实的结果与本文的预期有一定的偏差:收视率与本文的预期基本相符,始终波动较小,且有小幅上升,到最后达到最大值,这也反映了人们对电视剧结尾的期望。但点击量始终保持较大的波动,偶尔会有小幅上扬,但总体来看一直在下降,且在3/10/30集左右都出现了明显的断层情况,一直到最后都没有再大幅回升,不符合人们对大结局的期望值。

探究这种现象发生的原因,本文认为这与二者所代表的受众群体相关:常使用优酷、土豆等网上观看电视剧的多为二三十岁的中青年人,他们的时间相对紧凑,没有时间每天晚上都在电视机前等待电视剧的更新,大多数时候只是通过网络回看已经播出的电视剧,在这种情况下,他们对电视剧的观看就有了选择性,某一集的剧情吸引人,可能该集的点击量会有一个激增,其他的集数点击量可能就较少,也正是由于這个原因,他们更偏爱集数较短的电视剧,因而随集数的增长,电视剧的点击量会逐步下降;而收视率的受众群体多为其他人群,生活更加规律,时间相对宽裕,受众群体稳定因而收视率的变化相对平缓,且随电视剧的深入,知道这部电视剧的人就更多,收看电视剧的人数就会逐步增多,因而电视剧的平均收视率会平缓地上升。本文也从央视索福瑞官网分别找到了电视受众人群分布与网络视频受众人群分布,数据制作为饼形图后如图12和图13所示:

4 结论与展望

在如今电视剧风靡的背景下,本文研究了电视剧的一些数据,以一元线性回归模型的原理为理论基础,发现收视率符合一元二次的时间序列预测模型,即知道某一集的收视率,便能比较好的预测出下一集电视剧的收视率,对于电视剧的出版方来说,合理的安排好剧情精彩的集数,以此大幅带动周围集数的收视率就显得尤为重要。此外,本文还研究了单集点击量与该集评论数的关系,发现某集的点击量与该集的评论数成正相关,因此,网络视频播出方可以加大宣传的力度,提高该集的关注度,以此提高单集点击量。最后,本文发现随集数的增加,收视率平缓上升,而视频点击量则在波动下降,对于集数较多的电视剧更为明显,因此电视台方面可以在收视后期多插播一些广告或延长时长以增加收益,而出版方则要控制好电视剧的长短,既要使电视剧的收视率达到一个令人满意的高度,又要保证点击量不会太低,以求得最大的收益。上述模型经验证后发现拟合程度都很高,能够很好地进行预测,这些问题的研究对于提高出版方与播出方的收益都有十分重要的意义。

在未来对这些问题的深入研究中,通过更多电视剧的数据,以及更高级的算法模型,使得模型能够更加精确,具有更好的现实解释力。

参考文献:

[1] 陈春燕, 张钰, 常标等. 基于ARMA模型的在线电视剧流行度预测[J]. 计算机科学与探索, 2016, 10(3).

[2] 毋世晓, 赵翠. 基于时序分析的视频点击量预测[J]. 电脑编程技巧与维护, 2016(20).

[3] 赵忠仁. 电视剧参数这样读[J]. 成功营销, 2013(4).

[4] 石光. 电视剧收视率在大数据环境下的分析[J]. 西部广播电视, 2017(11).endprint

猜你喜欢
电视剧数据挖掘
基于并行计算的大数据挖掘在电网中的应用
大众狂欢到政治泛化
以《红高梁》为例浅析从小说到电视剧的改编
农村题材电视剧改编设想
IP热潮下网络文学影视化的理性发展
影像圆融:小议多元叙事视角的选择性后置
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
基于GPGPU的离散数据挖掘研究