基于变量选择的网络直播影响因素分析*

2019-06-25 06:02张亚伦许明月邵星铭
通信技术 2019年6期
关键词:子集惩罚准则

张亚伦,许明月,邵星铭,吴 棣,刘 聪

(曲阜师范大学统计学院,山东 济宁 273165)

0 引 言

网络直播是一种新兴的网络社交方式,它吸取和延续了互联网的优势,利用视讯方式进行网上现场直播,其具有内容丰富、交互性强、地域不受限制的特点。近年来的发展呈愈演愈烈之势。据艾瑞咨询统计,2019年中国在线直播用户已突破4.9亿人,可见市场潜力非凡而且受众人群数目庞大。网络直播何以有如此巨大的发展规模和潜力,有哪些影响因素促进和加速了它的发展,本文就基于变量选择的方法力图对此问题做详细的定量分析。

截至目前,国内有关网络直播的研究主要包含三个方面:(1)对网络直播平台的运行模型、运营状况的研究(张永第等[1]),(2)对网络直播的传播学研究,主要涉及网络直播的传播者、传播过程、接收者等(赵梦媛[2]),(3)对网络直播平台相关法律问题的研究(徐蒙,祝仁涛[3])。但从整体上看,研究多为宏观层面,且仅涉及定性的研究方法,缺乏有力的数据支撑和必要而科学的定量分析。关于定量的分析,目前仅有《网络直播发展因素研究及前景预测》一文,其中也缺乏基于不同变量选择方法的对比分析,本文将对网络直播发展因素的选择进行细致阐述。

本文基于不同的变量选择方法探究影响网络直播的显著因素。曾津、周建军[4]对高维数据变量选择方法进行了综述,这些变量选择的方法都是致力于解决针对数据特征满足维数小于样本数(p<n)的情况。王大荣、张忠占[5]对子集选择法进行了较为详细的阐述。李根、邹国华等[6]也对线性模型的变量选择问题进行了综述。主要的变量选择的方法包括两类:(1)基于S/E(Selection & Estimation)方法的Cp统计量准则(Mallows’s Cp,Cp准则)、赤池信息准则(Akaike Information Criterion,AIC准则)、贝叶斯信息准则(Bayesian Information Criterion,BIC准则)等(2)基于惩罚函数的变量选择方法的套索算法(Least Absolute Shrinkage and Selection Operator,LASSO)、自适应套索(Adaptive Least Absolute Shrinkage and Selection Operator,ALASSO)算法等。我们希望通过不同方法的比较,找到适当的变量和模型对影响网络直播的因素进行拟合。

文章结构安排如下:第1节对两类变量选择方法进行综述,并介绍其应用条件和评判准则;第2节我们在不同变量选择方法下进行数据分析,得出影响网络直播火爆发展的显著性因素,并建立模型进行拟合;第3节进行小结,就影响网络直播的因素进行总结,并给出相关建议。

1 变量选择方法综述

1.1 子集选择法(Subset Selection Method)

在线性模型中,每一个变量的子集对应一个模型,通过子集选择法选出一个“最优”子集拟合回归模型,这里的“最优”都是针对特定的准则而言的。在子集选择法中,一方面,基于预测误差的评判标准,产生了Cp准则等;另一方面,基于信息论的准则,产生了AIC及其一系列衍生准则;另外,基于Bayes方法,有BIC准则等。下文将针对这三个角度进行阐述,并且提出变量评价的标准。

1.1.1 基于预测误差的Cp准则

在这一类中,目前广泛使用的是由Mallows提出的Cp准则[7]。选择使得Cp达到最小的变量集合为最佳子集Cp准则是评价最小二乘法为前提的线性回归模型的优良性。值得注意的是,Mallows的Cp准则被证实与下文提到的AIC准则是近乎等价[8]。表达式为:

1.1.2 基于信息论

来自日本的Akaike[9]提出了著名的AIC准则(赤池信息准则)。该准则目前在变量选择上广泛通用。AIC准则在R中的car包的regsubsets函数可以实现基于AIC的变量选择。线性回归模型中,习惯选用:

其中,k是参数的个数。

AIC准则是由kullback-leibler信息量推倒而来。其中,第一项表示模型拟合的优良性,其值越小,拟合越好,也就是模型包含的变量越多,就能拟合的更好。第二项表示对模型中所含变量个数,也就是模型的复杂程度的一种惩罚。

1.1.3 基于Bayes方法

Schwarz提出了BIC准则[10](贝叶斯信息准则),BIC相较AIC增加了惩罚力度,从而在变量准入上更为严苛。BIC方法研究成果较多,理论上使得BIC达到最小的变量子集为最优的。在R中的leaps包中的regsubsets函数,可以使这一选择过程图像化,其表达式为:

其中,k是参数的个数,n为样本量。

1.2 系数压缩法(Coefficient Compression Method)

基于惩罚函数的变量选择方法的原则是在最小二乘或者极大似然的函数基础上,增加惩罚项。对新的函数求最值,直接将部分系数压缩为零,一般形式是:

其中,R(β)表示损失函数,其中常见的损失函数有:R(β)=||Y-Xβ||2、R(β)=|Y-Xβ|,常见的惩罚函数为:为调整参数,惩罚函数的差异关系到解的差异,有以下五种情况(见表1)。

表1 惩罚项中m的不同情况

1.2.1 LASSO方法

Tibshirani基于非负绞刑(Nonnegative Garrote,NG)方法提出LASSO[11]。NG方法同时进行S/E两个步骤,并且能得到相合的参数估计。NG方法避免了通过传统子集选择法的“固定电阻”只产生一组固定的子集解。NG方法这种“滑动变阻器”,通过调整不同的“阻尼”λ,使得产生多组子集解,且λ越小,惩罚力度越大。NG方法适用于维数小于样本数(p<n)的情况,但这种方法最大的劣势是:NG过度依赖原始的最小二乘估计,如果样本容量较少或者自变量之间存在严重的多重共线性,就会干扰后面估计的进展。LASSO方法的参数估计是在下的最小二乘估计,λ为调整参数,假设所有样本都已经中心标准化。则在约束条件

λ是调整参数,λ0=Σ|βj|,决定对参数估计的压缩程度,存在两种常见情况(见表2)。

表2 λ参数的关系

LASSO是岭回归的一种改良,由于惩罚函数在零点处导数的奇异性,实现“重要变量轻压缩,次要变量重压缩”的压缩模式,以保持参数估计的准确。另外,类似于子集选择法的预测误差平方和(Prediction Error,PE)、预测误差平方和(Prediction Errorof Square Sum,PRESS)和Cp准则等,LASSO也能给出高精度的预测。

与子集选择法不同,LASSO开辟了一个参数估计由离散到连续,从无序到有序的过程。但是LASSO不具备Oracle性质且不适用于维数大于样本数(p>n)的研究。在处理此种类型的数据时只能选定n个变量,所以不适用于基因数据研究,这种数据往往样本量较少,却是超高维数据。而ALASSO方法可以改进LASSO使其拥有Oracle性质,下文介绍ALASSO方法时,将介绍Oracle性质。DS方法可以克服维数大于样本数(p>n)的缺点[12]。由于本题不研究维数大于样本数(p>n)的情况,有兴趣的可以翻阅相关DS方法的文献。

1.2.2 Adaptive LASSO方法

Zou提出的Adaptive LASSO[13]改进的LASSO具有Oracle性质,且是一个凸优化问题,Adaptive LASSO在R中也有相应的msgps包,其中的msgps函数可以实现Adaptive LASSO的变量选择过程。其惩罚项为(其中λ和θ为惩罚参数):

Adaptive LASSO使其惩罚函数所得估计具有Oracle性质,即同时满足以下三条的优良模型所具有的性质,但该条性质是逐点意义的,不具有一致评估模型的功能,下面简述该性质:(1)无偏性:参数估计为渐近无偏或无偏,(2)稀疏性:在该模型选择方法下,一些次要的变量系数变为零,(3)连续性:参数估计对于样本数据是连续的。

1.2.3 LARS方法

最小角回归(Least Angle Regression,LARS)[14]方法集合了逐步向前变量选择法和逐段向前法的优点,可以用来计算Lasso的估计。在R中有相应的lars包,其中的lars函数可以实现其变量选择的过程。以下简述LARS方法的步骤:(1)令所有的变量系数为零;(2)找出与响应变量的相关性最大的变量xi;(3)沿着xi取最大步长,直到另一个变量xj与当前的残差具有等量的相关性;(4)沿着两个向量的等角线向前运动,直至第三个变量xk与当前的残差具有等量的相关性;(5)继续沿着这三个变量的等角方向运动,以此类推。

2 基于网络直播数据的不同变量选择方法的比较

2.1 技术接受模型及变量

本文将基于以上变量选择的方法,在SPSS和R中对逐步回归、AIC准则、Cp准则、BIC准则、LARS算法和ALASSO方法进行实现,并得出相关结论。

本文选取了在各个领域都已经得到广泛使用的技术接受模型(Technology Acceptance Model,TAM)同时结合理性行为理论、计划行为理论以及个人创新理论,引入主管规范、感知娱乐性、个人创新性和个体特征四个变量来提取影响网络直播火爆发展的因素。本文借鉴之前学者在传播学、心理学等方面对网络直播影响因素的研究成果,与技术接受理论等相结合提取出可能影响我们网络直播行业发挥职能的影响因素(见表3),为研究网络直播发展影响因素,在此我们选取每天平均观看直播的时间作为衡量网络直播火爆状况(因变量),学历、好奇心等其他因素作为影响因素(自变量)(见表4)。

表3 基于网络直播的技术接受模型

2.2 基于逐步回归方法

由数据分析知各影响因素之间存在一定程度的多重共线性,故此处采用逐步回归方法进行线性回归模型的建立,运用SPSS分析得到如表5所示的结果(调整后的R2:0.07469,AIC=9.76)。

表5 多元线性回归结果

由回归分析结果表我们得到以下回归方程:

通过对方程的分析可知:通过逐步回归方法进行变量选择,得出网络直播发展的主要影响因素为社会舆论潮流、学历。为了了解基于逐步回归这一种方法得到的变量在后续的方法中是否也同样显著,也为增加结论的说服力,由此我们另寻找其他统计方法进行变量选择,如下。

2.3 基于AIC准则的变量选择过程

经过R的运行,整个过程经历了四步变量筛选,每一步选择变量的最终结果如表6所示。

表6 AIC准则结果

通过逐步回归法选出使AIC值最小的模型,共经过了4步回归(见表6)。

通过R的运行结果,可以看出初始模型为全变量模型,每一步回归剔除一个变量,直到达到AIC最小值-138.58,所对应的入选变量为:年龄、学历、释放压力、与偶像互动、消磨时间、消费欲望、潮流和舆论、提高学习技能这8个变量,其中仍然包含学历和社会舆论潮流。在R中的stepAIC函数可以这一变量选择的过程。但由于基于AIC准则的变量选择,该模型本身易出现过拟合的现象。多出来的6个变量很有可能是过拟合的结果。

2.4 基于Cp准则的变量选择过程

基于Cp准则进行R模拟,使得Cp值达到最小的模型为最优模型,我们可以在图1的左下方找到最优变量为:x2、x10,得到的结果与2.1节中的逐步回归的结果一致,即影响网络直播火爆发展的因素有:学历、社会舆论潮流。

图1 Cp准则下的变量选择结果

2.5 基于BIC准则的变量选择过程

通过R的模拟,理论上我们知道,同样使得BIC达到最小的模型为最优模型。从图2中我们可以看出,随着该图由底部到顶部,模型的BIC值(纵坐标)逐渐减小,减到最小至-0.46。从横向看,深色表示该变量入选,浅色为未入选变量,最终只剩下了x10。但最后几步中得到的结果包含x2和x10,此时的BIC值很小,同样可以判定模型拟合效果很好。由此可以近似判定,BIC准则的结果与Cp准则得到的结果高度一致,即影响网络直播火爆发展的因素有:学历、社会舆论潮流。这也与2.1中的逐步回归的结论一致。

图2 基于BIC准则的变量选择结果

2.6 基于LARS算法

下面将使用系数压缩方法进行变量选择,变量选择的路径如图3所示。首先使用LARS方法进行变量选择。图3是LARS算法在R中的实现,得到的显著变量如表7所示。

图3 基于LARS方法的变量选择

表7 经LARS方法选择的变量与网络直播观看时长的回归结果

由结果可知,使用LARS方法进行变量选择时效果比逐步回归有所改善,R2为0.139,大于逐步回归的R2值,Cp值为9.570 7。LARS方法进行变量选择得到影响直播火爆的显著变量依次为潮流舆论、提高技能,学习提高技能、消磨时间、学历、释放压力、好奇心、年龄。

注:在2.1和2.5两种方法的R2都较低,伍德里奇在《计量经济学导论》中提到在社会科学中,回归方程的R2过低是很正常的,一个显著较低的R2并不意味着回归方程没有用。使用LARS方法进行变量选择为与目前业界从定性方面研究得出的结论相一致,为研究网络直播发展影响因素提供了定量分析方法参考依据。

2.7 基于ALSAAO的变量选择过程

改进的ALASSO具有Oracle的优良性质,这样通过ALASSO的R实现,通过7步选择,可以得到最终入选变量为x2和x10,其系数分别为:-0.128 78、-0.138 6,其参数路径图见图4,模拟的过程以及相应的AIC见表8。

图4 Adaptive LASSO的变量选择

表8 基于ALASSO的变量选择过程

3 结 语

综合以上上述方法,如表9所示,可以得到x2和x10是影响网络直播火爆原因的最重要的变量,这在各个方法无一例外地均有体现。尤其是在逐步回归、BIC准则、Cp准则、ALASSO的方法下,筛选变量最终只有x2和x10。在基于AIC准则和LARS方法中,还有其他变量参与其中,但可以明确的是,通过AIC准则下的AIC值(-138.58)大于ALASSO准则的值(-142.38),这在某种程度上表明x2和x10这两个变量确实是影响网络直播火爆发展的关键因素。

表9 不同变量选择方法的比较

由此,通过不止一种变量选择方法的结果,充分说明学历、社会舆论潮流是影响网络直播火爆发展的关键要素。这也与目前业界的研究分析相一致并为其提供的科学的定量方法的证实。如今各大网络直播平台应主要从关注低学历人群需求,关注社会舆论和潮流入手做起,争夺更大的网络直播市场份额。ZENG Jin,ZHOU Jian-jun.Variable Selection for Highdimension Data Model:A Survey[J].Journal of Applied Statistics and Management,2017,36(04):678-692.

猜你喜欢
子集惩罚准则
拓扑空间中紧致子集的性质研究
IAASB针对较不复杂实体审计新准则文本公开征求意见
Carmichael猜想的一个标注
关于奇数阶二元子集的分离序列
神的惩罚
Jokes笑话
内部审计增加组织价值——基于《中国内部审计准则》的修订分析
学学准则
真正的惩罚等
每一次爱情都只是爱情的子集