黄鑫+朱同林
摘 要: 选取影响手机网民规模的30个变量,借助于主成分分析方法进行降维,以降维后的5个主成分变量作为手机网民规模预测模型的输入层变量,采用BP和RBF神经网络分别对手机网民规模进行分析和预测。研究结果显示,采用BP神经网络,预测2016年12月与2017年6月的手机网民规模分别为69046(万人)和72359(万人);采用RBF神经网络,预测2016年12月与2017年6月的手机网民规模分别为68702(万人)和71972(万人)。
关键词: 移动电子商务; 主成分分析; BP神经网络; RBF神经网络
中图分类号:TP183 文献标志码:A 文章编号:1006-8228(2017)02-09-04
0 引言
移动电子商务已成为电子商务发展的主流模式之一,从最初的短讯、语音到如今的视频聊天、微信、支付宝等[1-2],促使人们传统的生活方式发生了较大改变,给人们的各项活动带来了较大的便利[3-7]。移动电子商务的三个基本条件为手机、网民和应用[8],其中手机是网民规模发展的重要载体,其持有比率持续上升,网民的规模也持续上升,手机网民规模综合反映了手机和网民的增长趋势。
截至2016年6月,中国网民规模达7.10亿,半年新增网民2132万人,半年增长率3.1%,我国手机网民规模达6.56亿,较2015年底增加3656万人。网民中使用手机上网的比例由2015年底的90.1%提升至 92.5%,手机在上网设备中占据主导地位。2016年上半年,我国新增网民中手机网民规模为 1301万人,占新增网民的61.0%,其中新增手机网民中有2355万人是由原有PC网民中转化而来,这一规模较2015年底增加了1202万[9]。
1 原理与方法
1.1 基于主成分分析的影响指标降维
在手机网民规模预测模型中,影响手机网民规模变量的因素较多,且各影响指标间存在较强的相关性,部分参数信息量之间存在一定的重复。因此,需寻找一种筛选主要影响因素变量和提取关键信息的方法。主成分分析是一种针对相关性变量进行降维,保障原始数据丢失最少的方法,将多个指标变量简化成少数几个综合性指标,让简化后的指标尽可能地反映原始数据指标的绝大部分信息[10]。
设影响手机网民规模因素变量p,各变量样本个数n,构成n×p阶的原始数据矩阵X,详细表示如下:
⑴
式⑴中,当p较大时,需要对原始数据矩阵进行降维处理,将原始变量指标进行线性组合,构成少数几个综合指标,它们相互独立。令原始指标x1,x2,…,xp,新变量指标z1,z2,…,zk(k
⑵
式⑵中,系数lij表示原变量xi在各新变量指标zi上的载荷(i=1,2,…,k;j=1,2,…,p),其计算需借助于普通最小二乘回归法[11]。
1.2 基于BP的手机网民规模预测模型
BP神经网络是一种单向传播的多层前馈神经网络,其三个基本要素为连接权、求和单元、传递函数。连接权反映神经元间的连接强度;求和单元用于求取各输入变量的加权和;传递函数起非线性映射作用。Sigmoid型函数是常见的传递函数,其表达式如下:
⑶
式⑶中,λ是函数增益,决定了函数非饱和段的斜率。
BP网络中的信息是单向传递的,同一层中的神经元不存在相互联系,层与层之间采用全连接方式,连接程度由每层连接权值表示,隐藏层节点输出模型和输出层节点输出模型分别见公式⑷和公式⑸。
⑷
⑸
式⑷-⑸,f(.)为非线性作用函数,是式⑶的一般表达式,q是神经单元阈值。针对含有m个训练样本集,其网络模型构建按照以下步骤[12]:
⑴ 初始化设计合理的网络结构,将BP网络的各个权重wij和阈值θj初始化为介于区间(0,1)中的随机数,同时设置最大迭代次数M(M>m)和目标误差,网络误差平方和SSE初值为0;
⑵ 从训练集中随机取出样本输入向量x和期望输出向量T;
⑶ 计算所有隐含层或输出层各神经元相对上一层i的输入向量Ij,同时选定公式⑶中的传递函数,将各神经元j的输出向量Oj映射到[0,1]区间,其中输入向量表达式:
⑹
⑷ 检验网络误差平方和SSE;
⑸ 根据样本输入向量x所对应的期望输出向量Oj,计算输出层各神经元的误差向量:
⑺
⑹ 将网络中各权重wij和阈值θj分别进行调整,其中α为学习率,有:
⑻
当SSE等于或小于目标误差时,网络收敛,否则,重新返回步骤⑵。
1.3 基于RBP的手机网民规模预测模型
RBF径向基函数神经网络可以任意精度逼近任意的非线性函数,具有全局逼近能力,它包括一个输入层、一个输出层和一个隐含层。输入层节点将输入数据传递到隐含层节点,其激活函数常采用高斯函数,其表达式:
⑼
式⑼中,x=(x1,x2,…,x3)是RBF网络输入向量,uj是第j个隐含层神经元输出,uj∈[0,1],cj是高斯函数的中心值,σj是高斯函数的方差,h是隐含层神经元数目。
RBF网络模型构建按照以下步骤[12]:
⑴ 根据已知类别个数确定隐层节点数目k,并分别在各类别中随机选取一个样本作为该类的中心C,初始化ωij,宽度σ,设定误差限ε(ε?0),学习率ηω,ηc,ησ,假设目前可用的最大训练样本数为MaxS(MaxS?1),设定循环变量t初始为1;
⑵ 输入第t个训练样本,得到网络实际输出y;
⑶ 计算实际输出与期望输出间的误差E;如果误差,则该样本不需要调整网络参数,直接跳到第⑹步骤,否则进行下一步骤;
⑷ 对于i=1,2,…,m,j=1,2,…,k,计算Δωij,ΔCj,Δσj并对各连接权值ωij,中心矢量Cj,核函数宽度σj,其计算公式分别参考式⑽、⑾、⑿;
⑽
⑾
⑿
⑸ 基于新的网络参数、、,转到步骤⑵;
⑹ t=t+1;如果t>MaxS,即无新样本,则整个学习过程结束,否则转到步骤⑵。
2 分析与预测
手机对移动电子商务发展影响力巨大,网民中,手机网民占比达到92.5%,故分析和预测未来手机网民规模具有重大意义。数据分析可反映现阶段网民的增长趋势[9,14],进而预知未来手机增长趋势。
2.1 手机网民影响指标的选取
模型因变量选取手机网民规模,SY(万人),自变量分别从基础数据、网民规模、性别年龄、学历水平、职业状况、收入水平以及上网情况共七大类,30个自变量[9]。考虑到同类变量指标中,各个指标量纲互不相同,为了计算方便及部分模型使用需要,在后续模型建立及数据分析中,对已有量纲的变量的输入进行归一化处理。31个变量(含因变量,手机网民规模)中,部分变量需进行归一化,其余变量均无量纲,无需归一化处理,归一化采用式⒀。
设样本自变量原始输入数据矩阵为pN×M,则归一化公式为:
⒀
经过归一化处理后的变量分别为:手机网民规模,Y;IPv4,A1;IPv6,A2;网站数量,A3;国际出口宽带,A4:农村网民规模,B1;城镇网民规模,B2;网民男性,C1;10岁及以下,C2;10-19岁,C3;20-29岁,C4;30-39岁,C5;40-49岁,C6;50-59岁,C7;60岁及以上,C8;小学及以下,D1;初中,D2;高中/中专/技校,D3;大专,D4;大学本科及以上,D5;学生,E1;个体户/自由职业者,E2;其他职业,E3;2000元以下,F1;2001-3000元,F2;3001-5000元,F3;5000元以上比例,F4;手机上网,G1;台式电脑上网,G2;笔记本上网,G3;平均每周上网时长,G4。
2.2 手机网民影响指标的降维
分析因变量和自变量之间相关性时,通常可采用多元线性回归分析方法进行定量描述。考虑模型自变量较多,且预估数据量之间存在一定程度的相关性,需借助于主成分分析方法对自变量进行降维处理。
考虑数据量变量较多,针对30个指标,仅选取其中11个指标,A1、A2、B1、C1、C2、D1、D2、E1、F1、G1、G2进行相关性分析,借助于SPSS17.0平台,采用Pearson相关性双尾检验,得到person自变量相关性,11个自变量大部分存在较为严重的相关性,除变量A1与其余部分变量之间不存在相关性外,其余指标之间几乎均相关。因此,需要对自变量指标进一步处理,针对变量之间强的相关性,可采用主成分分析方法。
為方便后续预测模型的建立以及数据量简化计算等方面因素,预测模型的输入变量均采用主成分PC1-PC5,目标变量为手机网民规模Y。
2.3 BP和RBF神经网络预测
在神经网络预测模型中,隐含层数的选择是一个难点,常用的公式有:
⑴ 隐含层神经元数=输入层神经元数×2+1;
⑵ 隐含层神经元数=log2n,n为输入层神经元数;
⑶ 隐含层神经元数=(输入层神经元数×输出层神经元数)1/2。
采用试错法,尽管运算量较大,但能较好的保证网络学习的精度。MATLAB神经网络工具箱中,隐含层神经元个数默认上限为20个,设定隐含层神经元个数在3-20内,经测试发现,当隐含层神经元个数为13时,网络具有较高的训练精度。
从图1可清晰观察到BP神经网络和RBF神经网络预测方法的有效性,预测结果与实际结果十分接近。采用BP神经网络,预测2016年12月与2017年6月的手机网民规模分别为69046(万人)和72359(万人);采用BP神经网络,预测2016年12月与2017年6月的手机网民规模分别为68702(万人)和71972(万人),具体数据结果见表5。
3 结束语
本文在手机网民规模预测模型的建立中,采用主成分分析方法,对30个自变量进行降维,采用BP和RBF神经网络,分别预测2016年12月与2017年6月的手机网民规模。本文中数据采集和数据来源还有待进一步完善,由于样本数据量不足,所选择的数据指标个数会有一定片面性;此外在预测和前瞻性上,需进一步提高精度。
参考文献(References):
[1] 方美琪.电子商务概论(第3版)[M].清华大学出版社,2009.
[2] 黄京华.电子商务教程[M].清华大学出版社,2010.
[3] 刘电威.我国电子商务发展现状问题与对策研究[J].特区经
济,2011.12:233-236
[4] 贾丹阳.电子商务对传统商业模式的影响[J].电子商务,
2013.1:15-16
[5] 王冠男.3G背景下的电子商务发展前景分析[J]. 中国商贸,
2011.17:34-39
[6] 李哲平.“新常态”下电子商务发展战略与体制保障[D].天津
师范大学,2015.
[7] 牟少霞.基于智能终端的移动电子商务商业模式研究[D].山
东师范大学,2014.
[8] 彭博.APP视角下的移动电子商务发展潜力研究[D].重庆工
商大学,2015.
[9] 中国互联网络发展状况统计报告[C].中国互联网络信息中
心,2016.7.
[10] S. Weisberg著,王静龙译.应用回归分析[M].中国统计出版
社,2009.
[11] 何晓群,刘文卿.应用回归分析[M].中国人民大学出版社,
2007.
[12] 葛哲学.神经网络理论与MATLAB R2007[M].电子工业出
版社,2007.
[14] 叶新梅.我国移动电子商务发展研究[J].科技致富向导,
2011.12:26-29