张方红,李浩,张明辉
(中国传媒大学 理学院,北京 100024)
基于时间序列模型的收视率研究
张方红,李浩,张明辉
(中国传媒大学 理学院,北京 100024)
摘要:收视率是指在某个时段收看某个节目的目标观众人数占总目标人群的比重,以百分比表示。收视率的高低能够反映出节目的观众喜爱程度以及节目所具有的社会影响力。本文采用2006年中国电视收视年鉴中的全国收视数据,以工作日及节假日收视率为研究对象,利用SAS统计软件做时间序列分析,并进行预测。结果显示,节假日收视率数据能够较好的拟合ARIMA(1,2,(1,4))模型,工作日收视率数据则利用ARIMA(1,2,(1,4))模型和AR(1,4)模型拟合结果都较好,但是相对而言ARIMA(1,2,(1,4))拟合效果最好。
关键词:目标观众;收视率;时间序列;SAS软件
1引言
收视率是衡量节目质量好坏的重要指标,现在一般由第三方数据调查公司,通过电话,问卷调查或其他方式抽样调查来得到收视率。通过对收视率高低的分析可以衡量一档节目的观众喜爱程度以及所造成的社会影响力大小。除此之外,电视节目的广告收入是一个无可替代的角色,而收视率是商品厂商付给电视台广告费用的重要依据,收视率越高的节目和时段广告费用越高,反之亦然。近年来,随着电视观众的日益成熟和日益挑剔的眼光,电视媒体竞争更加激烈的挑战,电视收视率存在被不断分流的局面,收视率已确实成为电视媒体生死存亡的生命线。由于收视率一般为时间序列数据,故本文考虑采用2006年中国电视收视年鉴中的全国收视数据,以工作日及节假日收视率为研究对象,利用SAS统计软件做时间序列分析。首先对各时段收视率的趋势进行分析,从总体上研究工作日及节假日收视率的特点。其次,建立时间序列模型,并进行预测。
2数据来源
本文数据来源于2006年中国电视收视年鉴中全国收视数据的全国样本市(县)收视率。
3研究方法
3.1AR模型
具有如下结构的模型称为p阶自回归模型,简记为AR(p):
中心化AR(p)模型:xt=φ1xt-1+φ1xt-1+…+φ1xt-1+εt,引进延迟算子,中心化AR(p)模型又可以简记为Ф(B)xt=εt,式中Ф(B)=1-φ1B-φ1B2-…-φpBp,称为p阶自回归系数多项式。
3.2MA模型
具有如下结构的模型称为q阶移动平均模型,简记为MA(q):
中心化MA(q)模型:xt=εt-θ1εt-1-θ2εt-2-…-θpεt-p,引进延迟算子,中心化MA(q)模型又可以简记为,xt=Θ(B)εt,式中Θ(B)=1-θ1B-…θ2B2-…-θqBq,称为q阶移动平均系数多项式。
3.3ARMA模型
把具有如下结构的模型称为自回归移动平均模型,简记为ARMA(p,q):
中心化ARMA(p,q)模型可以简写为:xt=φ1xt-1+…+φpxt-p+εt-θ1εt-1-…-θqεt-q
引进延迟算子,ARMA(p,q)模型可以简记为:Ф(B)xt=Θ(B)εt,式中Ф(B)=1-φ1B-…-φpBp,为p阶自回归系数多项式,Θ(B)=1-θ1B-…-θqBq为q阶移动平均系数多项式。
3.4ARIMA模型
ARIMA(p,d,q)模型称为求和自回归移动平均模型,实质是经过d阶差分运算后的序列建立的ARMA(p,q)模型。
3.5疏系数模型
ARIMA(p,d,q)模型是指d阶差分后自相关最高阶数为p,移动平均最高阶数为q的模型,通常它包括p+q个独立的未知系数φ1…φp,θ1…θq。如果该模型中有部分自相关系数或部分移动平均系数为零,即原ARIMA(p,d,q)中有部分系数缺省了,那么该模型称为疏系数模型。
4时间序列分析
以2006年全国样本市电视观众周一至周日凌晨2:00到第二天凌晨2:00的24个小时各时段收视率的数据为例做趋势图如图1所示。
从图1中可以看出,一周中每天的收视率走势基本相同,但是周六周日07:30到18:00这一时段的收视率明显高于工作日,且周日最高。这说明周六周日白天是收视率高峰阶段,这是因为周六周日大部分人都会休息,故收视率自然上升。因此,对工作日与节假日收视率分别进行研究。下面以周一和周日的收视率数据为例进行时间序列分析。
4.1工作日收视率时间序列分析
4.1.1白噪声检验
对周一收视率序列进行白噪声检验,结果如表1所示。
图1 各时段收视率趋势图
结果显示,延迟6阶、12阶、18阶的χ2统计量的P值均小于0.05,因此原序列为非白噪声序列。
表1 序列白噪声检验
4.1.2平稳性判断
首先绘制时序图如下:
图2 周一收视率时序图
时序图显示,序列是非平稳的,考虑差分后平稳,经过尝试后发现二阶差分后长期趋势信息被充分提取,时序图如图3所示。
图3 周一收视率2阶差分后时序图
4.1.3模型定阶
为了确定模型的阶数,考察自相关和偏自相关图,如图4、图5所示。
图4 序列自相关图
图5 序列偏自相关图
根据自相关和偏自相关图,有如下考虑和选择,如表2所示。
表2 模型选择
上述结果显示AR模型和ARIMA模型的残差均通过了白噪声检验,因此利用SBC准则和AIC准则对模型进行优化,比较两模型的AIC和SBC的值如表3所示:
表3 SBC和AIC值比较
从比较结果中可以发现,ARIMA模型的SBC和AIC的值均小于AR模型,故选择ARIMA(1,2,4)模型对序列进行拟合。但是由于拟合的参数过多,有部分参数不显著,故删除不显著的参数θ2,θ3,优化模型,得到疏系数模型ARIMA(1,2,(1,4))
根据模型定阶过程可以发现,该模型顺利通过残差白噪声检验和参数显著性检验,拟合结果较好。
4.2节假日收视率时间序列分析
对周日收视率数据进行白噪声检验,结果如表4所示:
表4 序列白噪声检验
结果显示,延迟6阶、12阶、18阶的χ2统计量的P值均小于0.05,因此原序列为非白噪声序列。通过上述分析发现周日的收视率走势与周一类似,因此序列同样为非平稳序列。经过一系列尝试发现,二阶差分后对原序列趋势信息提取最充分。因此,对二阶差分后的序列做自相关及偏自相关图,结果如图6、图7所示:
图6 偏自相关图
图7 序列自相关图
根据自相关和偏自相关图,有如下考虑及选择,如表5所示。
通过上述结果可以发现,只有ARIMA(1,2,4)模型的残差通过了白噪声检验,只是拟合的参数过多,有部分参数不显著。删除不显著的参数θ2,θ3,优化模型,得到疏系数模型ARIMA(1,2,(1,4)):
表5
根据模型的定阶过程可以发现,疏系数模型ARIMA(1,2,(1,4))能够通过残差白噪声检验以及参数显著性检验,拟合效果较好。
5结论
综合上述分析发现,对于工作日收视率来说疏系数AR(1,4)模型和疏系数ARIMA(1,2,(1,4))模型都具有较好的拟合效果,但是通过AIC准则和SBC准则判断发现,疏系数模型ARIMA(1,2,(1,4))的拟合效果最好;而对于节假日收视率而言,只有一个模型的拟合效果最佳,即疏系数模型ARIMA(1,2,(1,4)),从而可以发现,利用时间序列进行分析的优势在于可以利用较少的数据信息得到较好的拟合模型。
参考文献
[1]姚芳.基于时间序列模型的全国30家电台收视率分析[J].数学的实践与认识,2011(13).
[2]陆海英.基于线性回归的电视节目收视率预测模型[J].CONTEMPORARY TV,2012(11).
[3]涂娟娟、刘同明.基于决策树的电视节目收视率预测模型[J].软件时空,2007(9-3).
[4]张晶,白冰,苏勇.基于贝叶斯网络的电视节目收视率研究[J].科学技术与工程,2007(19).
[5]王燕.应用时间序列分析[M].北京:中国人民大学出版社,2012.
[6]中国电视收视年鉴2006[M].北京:中国传媒大学出版社,2006.
(责任编辑:宋金宝)
Study on the Ratings Based on Time Sequence Model
ZHANG Fang-hong,LI Hao,ZHANG Ming-hui
(School of Science,Communication University of China,Beijing 100024)
Abstract:Ratings refers to the proportion of target audience in total population,when they watch a show in a certain period of time,expressed by percentage.The level of ratings can refect the degree of audience avorite and the social influence of the program.Based on the rating number of the whole country,in “2006 chinese television viewers yearbook”,this paper analysed the ratings of working days and holidays,using the SAS system software.The results show that time sequence model ARIMA(1,2,(1,4)) fits the holiday ratings data very well,ARIMA(1,2,(1,4))model and AR(1,4)model fit the working days ratings data both very well.By contrast,the ARIMA(1,2,(1,4)) model is best.
Keywords:target audience;ratings;time sequence;SAS system software
作者简介:张方红(1990-),女(汉族),山东青岛人,中国传媒大学硕士研究生.E-mail:fanghong412@163.com
收稿日期:2015-03-30
中图分类号:F064.1
文献标识码:A
文章编号:1673-4793(2015)03-0035-05