基于季节性ARIMA模型的移动APP用户活跃度分析

2015-03-31 12:47佘宏俊胡梦缘
中国经贸导刊 2015年5期

佘宏俊+胡梦缘

摘要:APP日活跃人数是一个核心的APP运营评价指标,且具有明显的周期性效应。本文通过季节性ARIMA模型对APP中的日活跃用户数进行建模分析,并基于已有历史数据进行预测能力评价。模型估计结果表明,季节性ARIMA模型能够很好地拟合APP日活跃用户数,有效地刻画了数据中的周期性特征,并对未来趋势给出了较为准确的预测结果。该预测模型可以对APP未来市场运营和营销策略的制定提供一定的数据参考。

关键词:季节性ARIMA模型 日活跃用户数 预测分析

一、引言

随着移动互联网的高速发展,智能手机的日益普及,越来越多的用户开始从传统的PC端上网方式转移到了移动设备上网,手机已经成为第一大上网终端。同时,网民在手机电子商务、休闲娱乐、社交通讯等应用的使用率都在快速增长,移动互联网的快速发展带来了整个APP移动应用发展的高峰期。同时,基于移动APP的第三方数据统计平台也逐渐兴起,如Flurry、友盟,以及TalkingData,APP开发者可以根据它们提供的运营数据了解市场需求及产品运营情况。衡量APP运营的统计指标有APP启动次数、日新增用户数、用户留存率、日活跃用户数及用户付费比率等,其中APP日活跃人数始终作为一个核心的软件评价标准,它度量了该软件的受欢迎程度和未来的发展潜力,是计算用户留存率及软件收入的基础指标。每日活跃用户的变化可以反映以下信息,如趋势走向,人气波动及产品质量。因此,基于日活跃人数指标的建模分析对APP未来市场运营和营销策略的制定有着重要的指导意义。

目前,在移动APP领域,常用的数据分析方法以描述性统计分析、聚类分析、相关性分析等静态分析方法为主,而从动态预测角度对APP运营数据进行分析的文献很少。时间序列理论中的ARIMA模型理论充分利用历史数据及其自身规律,建模简单,预测精度高,非常适合单变量时间序列动态分析,且已在诸多领域得到了广泛的应用。张勃采用ARIMA模型对甘肃省1949—2009年的生态足迹及生态承载能力进行了动态分析,并在此基础上预测了该指标2010—2015年的变化趋势。[1]芮少权等考虑高速公路月度交通量周期性特征构建了一个ARIMA预测模型。[2]张华初、林洪利用ARIMA模型建模分析了我国1978—2005年间社会消费品零售额趋势,并对其成因进行了深入剖析。[3]本文以ARIMA模型作为分析方法,选择APP中用户日活跃人数作为研究对象进行统计分析,同时由于用户日活跃人数具有明显的周期性效应,因此还需进一步考虑季节性ARIMA模型。

二、季节性ARIMA模型

在时间序列分析中,某些数据序列例如公司股票的每股季度收益,宏观经济中的GDP增长率、失业率等,往往会呈现一定的循环或者周期性特征,这类时间序列被称为季节性时间序列。季节性变动的周期间隔可以长至12个月、4个季度或者短至1周,这些周期性特征可能是由气候、节日、政策等因素造成。在实际分析中,季节性因素会掩盖数据序列中的真实变化原因,给研究该序列的发展趋势带来一定的阻碍。因此,有必要在数据分析过程中考虑季节性因素,范维等对宏观经济数据中运用的季节性调整方法进行了综述。一般而言,剔除季节性因素主要有两类方法:一类是直接回归建模,包括虚拟变量法,及使用含有季节因素的计量模型。例如,栾惠德,张晓峒借鉴 X—12—ARIM A 季节调整程序中的复活节模型建立了春节模型, 实证结果表明该模型能够很好地消除季节调整中的春节效应。另一类方法是两步法,即对原始数据首先进行季节性平滑处理或者移动平均,剔除含有的季节性特征,然后再对调整后的数据进行建模分析。例如,Engle处理高频数据中普遍存在的日内效应问题时采用的三次样条函数拟合方法。[4]

由于APP数据具有明显的周效应,因此本文直接采用含有季节性因素的ARIMA模型对APP数据进行建模分析。季节性ARIMA模型与ARMA模型的思路相似,利用差分的方法剔除时间序列中的周期性特征。其中s是序列的周期,αt是白噪声序列,该模型的AR部分就是由正规差分和季节差分两部分构成,而MA部分wt 考虑滞后t期的移动平均项与滞后s期的季节移动平均项,例如wt=(1-θB)(1-ΘB7),|θ|<1,|Θ|<1,表示滞后1期的移动平均项与滞后7期的季节移动平均项的交互影响。通过估计该模型可以很好地解决季节性因素影响下ARIMA模型的建模预测问题。

三、样本数据及实证分析

本文数据样本采自友盟移动应用数据统计分析平台,以一款名为“利市”的财经类APP为例,该软件主要为广大投资者提供股票市场的每日要闻及公告信息。样本的时间段为2014年8月2日至2015年1月23日。为了简化讨论,暂时不考虑节假日因素带来的影响,因此本文剔除国庆和元旦期间的假日数据,剩余共计154个观测值,同时选择R语言为分析平台。图1(a)给出了样本数据的时序图,该数据图是对原数据样本中的日活跃用户数取对数后的结果,从中可以发现该序列存在线性增长的趋势,且有明显的周期性波动。具体而言,利市APP软件的日活跃用户具有明显的周效应,即在周末时段活跃用户数处于低谷,而从周一开始逐渐上升,周三附近达到本周的峰值,然后开始逐渐回落,这一现象也符合大众的新闻阅读习惯。

令对数化后日活跃用户数为xt,图2(a)给出了xt的样本自相关函数图,其结果表明该数据具有很强的趋势相关性,因此有必要通过一阶差分去除这种相关性。同时从图2(b)中发现样本ACF存在以7为周期的循环模式,这正好是一周的天数,这一模式充分表明了周效应的影响不可忽视。图1(b)和图2(b)分别给出了一阶差分后Δxt的序列图和ACF图,可以发现差分后的序列消除了向上趋势,但是从Δxt的ACF图中仍然可以观察到滞后阶数为7时存在显著的正相关性,说明一阶差分并不能剔除数据存在的周效应。另一方面,单独对xt进行季节性处理后得到Δ7xt序列,其序列图和ACF图分别如图1(c)和图2(c)所示。经过季节性差分处理后,发现原序列的周期性特征已经明显减弱,但是一阶自相关性还是很强,且呈现缓慢衰减的态势。因此,必须通过季节性差分后再次进行差分的方式,同时处理这两类影响。图1(d)和图2(d)给出了最终处理后的数据序列图和ACF图,从图2(d)中可以发现该数据的ACF周期性特征已经消除,同时自相关性也大幅减弱。

然后对变量xt、一阶差分变量Δxt、季节性差分变量Δ7xt及季节性差分后再次差分变量Δ(Δ7xt)进行单位根检验。结果如表1所示,可以发现原始序列xt的P值为0.2128,说明拒绝存在单位根的原假设。而其他变量的单位根检验在5%显著性水平下都拒绝了原假设,说明不存在单位根。

下面运用式(3)季节性ARIMA模型对调整后的变量进行建模分析,并检验该模型的预测效果。在这里,根据式(3)本文分别选择:

模型1:wt=(1-θB)(1-ΘB7),

模型2:wt=(1-θ1B-θ2B2)(1-ΘB7),

模型3:wt=(1-θ1B-θ2B2-θ3B3)(1-ΘB7),

模型4:wt=1-θ1B-θ2B2-θ3B3-θ4B4)(1-ΘB7)

作为四个不同的模型进行比较,从中选出最合适的季节调整ARIMA模型,其估计结果如表2所示。

从表2可以看出,模型3的对数似然值为166.37和AIC值为-322.74,在所有模型中其对数似然值最大且AIC值最小,同时对其残差进行检验发现,残差相关性在较长的滞后期内(Q(10)和Q(15))都是不显著的,说明其残差不具有相关性。综合上述模型评价指标,可以得出结论,模型3是所有模型中拟合最优的。图3给出了模型3的残差诊断图,图3(a)为标准化残差图,用于检验残差的iid假设,可以发现除了在9月初由于软件版本更新出现一定的异常波动现象,其他时间段都较为平稳。图3(b)为残差的ACF图,所有的残差ACF都在两倍标准误差范围内。图3(c)是残差序列Ljung-Box统计量的p值,如果模型能够很好地拟合数据中的序列相关性,其残差序列的这些p值应该都大于0.05,即残差不存在序列相关性,而图中的结果验证了这一结论,所有Ljung-Box统计量的p值都在0.05以上,残差的诊断结果也说明模型3很好地拟合了APP日活跃用户序列。

下面进一步考察上述模型3的预测性能,本文将154个观测值划分为两部分,前147个观测值为训练样本,后面7个观测值作为测试样本进行预测评价。模型3为(1-B7)(1-B)xt=(1-0.3221B-0.1489B2-0.231B3)(1-0.9999B7)αt,以h=147为预测原点计算超前1—7步预测值和它们的标准误差。首先给出了模型1—7步预测的结果值,其1步预测至7步预测的均值分别为454、575、793、811、828、814、741。图4给出了模型3的预测结果图,为方便论述,只给出了最后21个训练观测值和7个预测值区间内的效果图,其中实线表示原始的数据序列,预测区间的真实值用“o”标识,点预测值用“*”标识。虚线表示95%的区间预测。从图中可以看出,预测值与实际观测值相近,有着较强的周期性特征,真实值都位于区间预测范围内。上述分析充分说明模型3对于APP的日活跃用户数有着良好的预测效果。

四、结论

本文通过季节性ARIMA模型对利市APP中的日活跃用户数进行了建模分析,并基于已有历史数据预测了未来一周的用户活跃数。利市APP日活跃用户具有明显的周效应,受节假日影响较大,由于样本区间处于我国股票市场的牛市行情阶段,因此该财经类APP有着稳定上升的趋势。模型估计结果表明,季节性ARIMA模型能够很好地拟合APP日活跃用户数,有效地刻画了数据中的周期性特征,并对未来趋势给出了较为准确的预测结果。该预测模型能够为APP开发和运营者制定未来市场战略提供一定的数据参考。

参考文献:

[1]张勃,刘秀丽.基于 ARIMA 模型的生态足迹动态模拟和预测——以甘肃省为例[J].生态学报,2011, 31(20):6251—6260

[2]芮少权,匡安乐.高速公路月度交通量ARIMA预测模型[J].长安大学学报:自然科学版,2010,30(4):82—85

[3]张华初,林洪.我国社会消费品零售额ARIMA预测模型[J].统计研究,2006 (7):58—60

[4]Engle R F,Russell J R. Autoregressive conditio-

nal duration: a new model for irregularly spaced transaction data[J]. Econometrica,1998:1127—1162

[5]Tsay R S. Analysis of financial time series[M]. John Wiley & Sons,2005

(佘宏俊,1985年生,湖北武汉人,东北财经大学数学与数量经济学院博士研究生)