刘永菲,张辉,连聪聪
(中国传媒大学 理学院,北京 100024)
基于ARIMA模型的全国电视收视率实证分析
刘永菲,张辉,连聪聪
(中国传媒大学 理学院,北京 100024)
摘要:现代电视媒体经营中,要想在日益完善的经济竞争机制中增加收益,对于电视媒体来说至关重要,本文通过对全国样本城市的收视率数据进行了周一至周日的走势分析,并在走势相同的情况下对周四的收视率进行了时间序列建模分析,在将原始非平稳序列经二阶差分后进行了ARIMA建模。
关键词:收视率;时间序列;ARIMA模型
1引言
收视率是指在一定时段收看某一节目的人数(或家户数)占观众总人数(或总家户数)的百分比。收视率分为家庭收视率和个人收视率,一般而言,家庭收视率大于个人收视率。收视数据现在一般由第三方数据调查公司,通过电话、问卷调查、机顶盒或其他方式抽样调查来获得收视率。
随着信息在决策中地位的提升及信息化在中国的快速发展,收视率数据在我国电视行业中扮演起了越来越重要的角色,成为业内外人士共同关注的热点话题。电视媒体通过电视受众测量数据确定自身市场位置,进行合理的节目编排和节目评估。节目供应商将电视受众测量数据作为节目定位和内容选择的重要依据,电视受众测量数据成为节目交易市场中的“通用货币”。
本文充分考虑收视率的时间特点,基于统计软件SAS给出ARIMA模型建模方法的具体步骤及算法,在对比各个有可能的模型后,建立最优模型。
2数据来源
本文选择2008年中国电视统计年鉴中的2007年全国样本市(县)电视观众周一至周日各时段收视率进行时间序列分析并建模。
3全国样本市(县)电视观众周一至周日各时段收视率(%)波动特征分析
如图1所示,紫色线表示全国样本县市电视观众周日24小时的收视率走势,黑色线表示全国样本县市电视观众24小时收视率走势,黑色线、橙色线、黄色线、绿色线、蓝色线相重合,分别表示周一至周五全国样本县市的电视观众在24小时的收视率走势。由图1可知:
(1)三条线呈现相似的走势,02:00-05:45走势平缓,收视率在1%上下波动,05:45-12:30呈现增长趋势,并且在12:30左右出现第一个小波峰,从12:30-17:00收视率呈现下降后趋于平缓,17:00-21:00以较高的斜率进行增长,并在21:00出现一天中的最高峰,21:00之后又以较快的速度下降,在图上可以看出,收视率的高峰出现在21:00左右,第二个小高峰出现在12:30,可能的原因是:傍晚五点之后随着人们停止工作开始娱乐休闲,收视率也随之上升,晚上九点之后随着人们开始睡眠,收视率开始下降并趋于平缓。
图1 全国样本市县电视观众一周中各时间段收视率走势
(2)三条线不同的时间段为07:45-17:45,且在这一时间段中同一时间点的收视率大小比较依次为:周日>周六>工作日(周一、二、三、四、五),可以看出在工作日期间每天的收视率的走势基本没有变化,可能的原因是:由于在周末人们有更多的休闲时间,在同一时间点周六周日收视率要高于工作日,而在17:45至第二天早上,没有周末与平时之分,都是晚间娱乐与休息时间,收视率走势在此时间段重合。
4ARIMA模型及分析
4.1ARIMA模型简介
对于时间序列{xt},ARIMA(p,d,q)模型结构为
Ф(B)▽dχt=Θ(B)εt
其中:p为自回归模型的阶数;d为差分阶数;q为滑动平均模型的阶数,B为延迟算子;Ф(B)=1-φ1B-…-φpBp为自回归系数多项式;Θ(B)=1-θ1B-…-θpBp为移动平滑系数多项式;{εt}为白噪声序列,E(εt)=0;Var(εt)=σ2<+∞;▽d=(1-B)d。[2]
ARIMA模型主要分为3种:自回归模型(AR模型)、移动平均模型(MA模型)和自回归移动平均模型(ARMA模型)。其中,求和自回归移动平均模型(简称ARIMA模型)主要是对非平稳序列建模,模型实质就是差分运算与ARMA模型的组合,即对非平稳序列进行适当阶数的差分实现平稳化后,对差分后序列进行ARMA模型拟合。
建立ARIMA模型的具体步骤:
1) 判断序列平稳性;
根据时序图观察数据的基本趋势:围绕某水平线波动;围绕某直线波动;呈指数上升或下降趋势;显示出季节性等。从图形特征初步判断序列为平稳或非平稳的。
2)对序列进行差分运算;
若序列非平稳,进行差分平稳化操作:
①序列蕴含显著线性趋势,1阶差分就可以实现趋势平稳;
②序列蕴含曲线趋势,通常低阶(2阶或3阶)差分就可以提取出曲线趋势影响;
③序列蕴含固定周期,通常进行以步长为周期长度的差分运算可以较好提取周期信息。
3)对平稳序进行白噪声检验;
4)研究平稳非白噪声差分序列自相关系数和偏自相关系数的性质,选择阶数适当的ARMA模型进行拟合;
5)对初步拟合的模型进行参数估计及白噪声的检验;
6)用通过检验的最优模型进行预测。
4.2疏系数模[3]
ARIMA(p,d,q)模型是指d阶差分后自相关最高阶数为p,移动平均最高阶数为q的模型,通常包含p+q个独立的未知系数:φ1,…,φp,θ1,…,θq。若该模型中有部分自相关系数φj(1≤j
ARIMA((p1,…,pm),d,(q1,…,qn))
4.3模型应用与分析[4]
由于周一至周日全国样本市县电视收视率走势基本相似,本次分析选取周四数据进行分析,具体分析如下:
(1)时序图
图2 全国样本市县电视观众周四各时间段收视率走势
观察原始时序图(图2),时序图显示,该序列有显著地曲线趋势,为典型的非平稳序列。
(2)数据的平稳化处理
由于对原序列进行一阶差分效果不明显,不能改善序列的曲线趋势,这里对原序列进行二阶差分,得到结果如图3所示。
图3 对原始序列取二阶差分后数据时序图
图4 二阶差分后序列的趋势及相关性分析
时序图3显示,二阶差分后的序列在均值附近比较稳定地波动,为进一步确定平稳性考察差分后的序列自相关性如图4所示,自相关图显示序列有很强的短期相关性,所以可以初步认为2阶差分后的序列平稳。
(3)对平稳的2阶差分序列进行白噪声检验。
表1 白噪声的自相关检验
在显著性水平位0.05的条件下,由于延迟6阶的χ2检验统计量的P值显著小于0.0001,则该差分序列不能视为白噪声序列,即差分后序列蕴含不容忽视的相关信息可以提取。
(4)对平稳非白噪声差分序列拟合ARMA模型
二阶差分序列Z满足平稳非白噪声的条件,可以利用ARMA模型进行建模,根据序列Z的自相关和偏自相关图4可知,除了4阶自相关系数和1阶偏自相关系数大于2倍的标准差之外,其余的都在2倍标准差范围内,从自相关系数衰减到零的过程,可以看到有明显的正弦波动轨迹,说明自相关系数衰减到零不是一个突然的过程,而是一个连续渐变的过程,是自相关系数拖尾的典型特征;从偏自相关系数衰减到零的过程,不能直接确定其阶数、截尾或者拖尾特征,需要对p=1,2,3,4进行比较,最终确定合适的值。故可选模型为AR(4),ARIMA(1,2,4),ARIMA(2,2,4),ARIMA(3,2,4),ARIMA(4,2,4)。
表2 模型的检验信息
分析上述表格,最小信息量检验显示无论是AIC准则还是SBC准则,都要优于其他模型,因此最终选择ARIMA(1,2,4)为最优模型,SAS软件操作的结果为:
表3 最小二乘估计
(5)对残差序列进行检验
根据表4结果显示,拟合检验统计量的P值都显著大于显著性检验水平0.05,可认为该残差序列即为白噪声序列;根据表3结果可知,参数θ2、θ3不显著,删除不显著的参数优化模型,最终得到疏系数模型:
5结论
本文利用时间序列建模的方法对2007年全国样
表4 残差自相关检验
本市县的电视收视率进行了分析,发现收视率的走势与现实生活中人们的生活作息息息相关,周日白天的收视率高于周六高于工作日,收视率至高点为晚上九点半左右,且收视率最高时间点不随着节假日而改变;在对周四的数据进行时间序列建模过程中,通过二阶差分将非平稳序列变为平稳序列,成功建立了ARIMA疏系数模型,在实际的应用中,应用该模型方法可以利用较少的数据信息对收视率进行预测,对需要在电视台购买广告时间的企业客户和希望通过电视更好的宣传自己的企业来说,较为精确的预测收视率具有不可估量的经济和现实意义。
参考文献
[1]刘辉.电视收视率预测算法研究及软件研制[D].上海:上海交通大学电子信息与电气工程学院,2008:1-7.
[2]赵肖肖.基于ARIMA模型的时间序列建模算法和实证分析[J].桂林电子科技大学学报,2012,32(5):410-415.
[3]李战江.内蒙古第三产业增加值得研究-基于ARIMA疏系数模型[J].内蒙古农业大学学报,2009(3):213-217.
[4]王燕.应用时间序列分析[M].北京:中国人民大学出版社,2012,144-151.
[5]张辉,王雯聪.基于多元统计分析方法研究电视剧收视特征及影响因素[J].现代传播,179(6):101-103,2011.
[6]张辉.基于多元统计分析的我国电影消费者群体特征研究[J].经济与管理评论,173(6):65-68,2012.
(责任编辑:宋金宝)
Empirical Analysis of the National TV Ratings
Based on the ARIMA Model
LIU Yong-fei,ZHANG Hui,LIAN Cong-cong
(School of Science,Communication University of China,Beijing 100024)
Abstract:It is important for the TV media to increase revenue in the economic competition mechanism.Based on the national sample city’s TV ratings data which is from Monday to Sunday,the article gives out the trend analysis.Under the condition of the same trend,the data of Thursday are analyzed in time series modeling and after using the second-order difference method to make the original non-stationary time series to become stationary,ARIMA model was made.
Keywords:TV ratings;time series;ARIMA model
作者简介:刘永菲(1987-),女(汉族),山东青岛人,中国传媒大学硕士研究生.E-mail:qingdaoliaocheng@126.com
收稿日期:2015-03-30
中图分类号:F064.1
文献标识码:A
文章编号:1673-4793(2015)03-0029-06