(扬州大学 信息工程学院,江苏 扬州 225127)
基于BP神经网络的用户评论意愿预测研究
李丹丹,李亚琴,朱雨晴
(扬州大学 信息工程学院,江苏 扬州 225127)
本文基于BP神经网络建模、预测电商平台用户评论意愿,测试结果表明BP网络可以很好地用于用户评论意愿建模和预测。
BP神经网络;用户评论;意愿;预测
随着web2.0技术的广泛应用,用户生成内容的网络社区得到了前所未有的快速发展,但同时我们注意到在电商平台的用户往往在购物前乐意参考其他用户分享的消费体验,而不愿意主动贡献自己的购物经验。对于电商企业和电商平台而言,如何有效识别用户分享购物体验或消费评论背后的动因,具有非常重要的理论和实践意义。基于此,本研究试图运用神经网络的方法识别预测用户评论意愿。
神经网络模型是一种基于机器学习的非参数回归方法,可以较好地处理非线性问题,具有适用面广,抗噪能力强的特点,无需假定变量的分布,适合解决无先验分布假定条件下的预测问题。现有研究表明,影响电商平台用户在线消费评论意愿的因素众多(如电商平台技术因素、用户心理因素、社会因素、跨文化因素等),运用传统的统计回归分析方法往往很难达到预期的分析目的,而BP神经网络模型的自身特征和较强的学习功能,通过对历史数据样本的学习,掌握预测对象与影响因素之间的函数映射关系,能够较好地达到评估预测电商平台用户在线消费评论意愿倾向的研究目的,同时还可用于分析不同影响因素的重要性程度。本文将集中运用神经网络强有力的学习和联想泛化能力,在电商平台用户在线消费评论系统中运用BP神经网络来建模,以甄别不同用户评论意愿。
1、数据预处理
本文根据现有相关研究结果,以九个影响因素:感知有用性(PU)、感知易用性(PEOU)、互惠(RE)、声誉(REP)、社交(SI)、乐于助人(EH)、感知乐趣(FE)、经济报酬(ER)和评论成本(RC)作为自变量,评论意愿(INT)为因变量,样本采用用户评论意愿问卷调查取得的中美两国用户数据。在对所有变量相应测度项的值取平均后,对数据进行归一化(标准化)处理。处理的目的是将输入输出数据限制在[0,1]区间内。常用的变换式为:
式(2-1)中,Xi表示输入或输出数据,Xmin表示输入(出)数据的最小值,Xmax表示输入(出)数据的最大值。
本文为便于评估电商平台用户在线消费评论意愿,对评论意愿因变量测度项值取平均后的数值,重新进行了分类和编码。将用户评论意愿分为两类:愿意和不愿意,凡均值小于4的表示不愿意(重新用编码“0”表示),凡均值大于等于4的表示愿意(重新用编码“1”表示),数据处理后的评论意愿因变量用符号BPint表示。
2、网络参数设置
(1)网络结构。BP神经网络往往由网络结构(神经元间的连接)、激活函数和学习规则决定。本研究以九个影响因素(自变量)为神经网络的输入层神经元节点,用户评论意愿(INT)为因变量即目标输出层,输出层节点数为2(本文将评论意愿与否,设为二值分布),建立用户在线消费评论意愿神经网络预测模型。网络结构往往较难确定,其中输入层和输出层节点数根据影响因素和研究目的确定即可,而隐含层节点数的确定则相对较困难,因为隐含层神经元节点数过多可能出现网络过度拟合现象,如果神经元节点数过少的话,则可能出现网络无法达到学习收敛性与函数逼近精度的要求。目前隐含层节点数确定常采用试凑法,即从较少的隐含层节点数开始,然后逐渐增加节点数训练网络,从中选择网络误差最小时对应的神经元节点数。在试凑时也可以借助于一些经验公式来粗略估计节点数,常用的几种估算隐含层神经元节点数的经验公式有:
上式(2-2)、(2-3)和(2-4)中,m为隐含层神经元节点数,n为输入层神经元节点数,L为输出层神经元节点数,a为1~10间的常数。对隐含层数的确定,通常先考虑设一个隐含层,当一个隐含层的神经元节点数很多仍不能改善网络性能时,才考虑再增加隐含层数量。本文经过多次试验,发现当一个隐含层且其神经元节点数为7时,网络具有很好的学习收敛效果,并且误差最小。
根据现有文献对电商平台用户在线消费评论意愿影响因素的研究,结合BP神经网络特点,本文最终采用快速训练法的网络结构:输入层神经元节点数n为9,一个隐含层,其神经元节点数m为7,输出层节点数L为2,即9-7-2的网络结构。
(2)激活函数。根据本研究样本数据特点,本文输入层到隐含层的传递函数采用S型双曲正切函数(tanh-sigmoid)。由于本研究的因变量为分类变量,所以隐含层到输出层的激活函数选用柔性最大值函数(Softmax),以柔化输出值,减小值之间的差。
(3)学习规则。为确保模型的泛化能力,本研究采用调整的共轭梯度优化算法,允许误差为 (即训练错误的最小相对变化),最初学习率为0.4。
3、网络测试
本文运用SPSS神经网络分析功能中的多层感知器(multilayer perception, MLP)方法评估预测电商平台用户在线消费评论意愿。为防止网络训练过度,将中国和美国样本数据随机分成训练集、测试集和验证集三部分。其中训练集主要用于估计网络参数,进行网络建模,测试集主要用于防止网络训练过度,而验证集则用于检验评估最终网络模型。
由于本研究样本数据量相对较少,因此采用批处理的训练方法,以使总误差最小。相应地采用调整的共轭梯度优化算法估计权重值。中国和美国样本网络训练结果见表1,对于中国样本,表1中表明123位愿意发表评论的受试用户中有115位分类正确,42位不愿意发表评论的受试用户中有28位分类正确,整体上86.7%训练个案分类正确,三部分样本的错误预测率大致相同(10%左右);而对于美国样本,64位愿意发表评论的受试用户中有56位分类正确,38位不愿意发表评论的受试用户中有22位分类正确,整体上76.5%训练个案分类正确,三部分样本的错误预测率大致相同(20%左右)。
本文基于BP神经网络预测电商平台用户评论意愿,结果表明BP网络可以很好地用于用户评论意愿建模和预测。这对于电商企业和平台充分利用和合理激励用户参与消费评论,从而促进商品销售,具有非常重要的实践意义。
[1] 李亚琴.电商平台用户在线评论意愿研究[D].南京大学,2016.
[2] (澳)尼格内维特斯基.人工智能:智能系统指南(英文版第2版)[M].北京:机械工业出版社,2005: 176-188.
[3] 韩力群.人工神经网络教程[M].北京:北京邮电大学出版社,2006: 74-75.
(责任编辑:高 博)
扬州大学2016年大学生学术科技创新基金项目,“社会化商务平台用户在线消费推荐意愿研究”,项目编号:20160412;“电商平台用户评论意愿影响因素研究”,项目编号:20160443。
李亚琴