王志峰 , 冯锡炜, 贾 强, 朱 睿, 秦 航
(1.辽宁石油化工大学 计算机与通信工程学院, 辽宁 抚顺 113001;2.辽宁省抚顺市望花区教师进修学校, 辽宁 抚顺 113001)
多特征神经网络微博转发预测
王志峰1, 冯锡炜1, 贾 强1, 朱 睿1, 秦 航2
(1.辽宁石油化工大学 计算机与通信工程学院, 辽宁 抚顺 113001;2.辽宁省抚顺市望花区教师进修学校, 辽宁 抚顺 113001)
随着社交网络的快速发展,微博已成为一种信息扩散传播的平台。鉴于微博信息扩散的特点,挖掘微博转发过程中的潜在规律对于舆情监控、热点话题追踪、产品营销等有着重要意义。以新浪微博作为数据源,以用户和微博内容作为特征源,引入机器学习中的神经网络预测算法建立预测模型,实现对微博的转发预测。结果表明,与传统预测方法的对比,对微博转发可以做出较高准确率的预测。
神经网络; BP算法; LDA; 预测建模
近年来,微博作为一种实时信息分享平台,越来越得到人们的认可。摩根士丹利针对微博发布的一项预测报告显示,在2017年内,微博的月活用户将达4亿。随之而来的,越来越多的学者、机构加入到微博用户、内容的研究队伍当中。通过对微博的分析挖掘,能够对产品的营销、热点话题追踪、个性化推荐、网络舆情引导等提供技术支持。
分析研究微博用户、微博用户网络结构、微博内容对微博转发情况以及转发规模的预测。曹玖新等[1]提出基于用户属性、社交关系和微博内容5类综合特征,使用机器学习的分类方法,对给定微博用户转发行为进行预测;张旸等[2]以Twitter为例,通过对微博不同特征的重要性进行分析,提出了基于特征加权的预测模型;李英乐等[3]在分析影响用户转发行为因素的基础上,提出了基于SVM算法的利用用户影响力、用户活跃度、兴趣相似度、微博内容重要性和用户亲密程度5项特征进行转发行为预测的模型;S.Petrovic等[4]从社会因素和微博内容基础上提出了基于Passive-aggressive算法的人工实验方法并以此来预测微博传播;谢婧等[5]基于贝叶斯算法选取合适的用户特征预测微博的转发概率;吴凯等[6]从发布用户、接收用户、微博内容3个维度进行用户特征提取,将处理后的特征输入到逻辑回归算法当中,实现对微博转发概率的预测输出;D.M.Blei等[7]提出基于兴趣相似程度、社会关系影响、文本特征与用户属性影响、用户受激活次数的影响4种指标的一种行为预测的信息传播模型。
神经网络在函数逼近以及算法拟合方面有着相当的优势,考虑到微博结构以及微博特征与转发之间的非线性关系,用BP(Back Propagation)神经网络[7]作为预测模型。从发布用户、转发用户、微博文本与用户兴趣相似度3个方面切入做特征提取,输入预测模型,得出微博转发概率。
分析微博网页结构,选取种子用户后,以该用户为根节点,按广度优先的顺序将该用户的粉丝群以及该用户的关注列表加入到待爬取队列,抓取一定时间段内的数据,最后将爬取数据分为训练数据和测试数据。
要想让用户对一篇微博产生兴趣,继而发生转发行为,那么微博得尽可能地符合用户的兴趣口味。通过接收用户以前的微博来生成接收用户的兴趣特征,计算用户兴趣特征与微博特征相似度。
从爬取到的数据中提取出接收用户的微博记录M={m1,m2,…,mn},考虑到微博短文本的特性,将M整合成一篇大文本,预处理之后,通过LDA(Latent Dirichlet Allocation)[8-9]方法,提取出接收用户的特征向量V={c1,c2,…,cm},用同样的方法提取出微博的特征T={w1,w2,…,ws},两者之间的兴趣相似度S的计算公式为:
(1)
(2)
用户之间的亲密度I,反映用户之间的交互频繁程度,按公式(3)计算:
(3)
式中,cuv、cvu表示用户u、v之间相互评论数;ruv、rvu表示用户u、v之间的相互转发数;suv、svu表示用户u、v之间的相互点赞数。
用户的重要程度P(ui)表示一种认可程度,按式(4)PageRank算法[10]计算。
(4)
式中,F(ui)为用户ui的粉丝集合;L(vj)为用户vj的粉丝数量;d为阻尼系数,d=0.85。微博用户的认证与否都被纳入用户特征当中。
从微博内容看,是否包含视频、图片、URL,是否@他人,以及是否包含主题(#主题#)均影响到微博的转发,预测模型将以上5个特征纳入微博特征当中。从用户、微博内容的角度切入,提取用户重要程度、用户间的亲密度、用户活跃度、是否认证、兴趣相似度、@他人的次数、包含主题的个数、是否包含URL、是否包含视频9大特征作为模型的输入。
三层的神经网络可以实现任意的非线性逼近,使用BP神经网络[11-13]作为转发预测模型,来预测微博的转发情况。微博转发预测网络结构如图1所示,文中箭头所示方向为信号传播方向。
图1 微博转发预测网络结构
输入层神经元的个数由输入特征向量的维度决定;网络性能受隐含层神经元的数量的影响,过多会导致训练时间太长,甚至出现过拟合的情况,过少使得结果不收敛或者收敛太慢[14-15],用公式(5)确定隐含层神经元的数量;由于输出层只有1个输出,因此输出层只有1个神经元。
(5)
式中,h为隐含层神经元数量;n为输入层神经元数量;m为输出层神经元数量;α为调节常数,α∈1,10。实验得隐含层神经元最佳个数为10个。
(6)
(7)
(8)
(9)
为了模型训练更高效,对特征向量的每一个维度,按公式(10)进行了归一化处理。
(10)
对所有爬取到的用户数据、微博数据按照上面所示的特征提取方法进行特征提取,兴趣相似度S、用户活跃度Ar、用户亲密度I、用户的影响力P(ui)、是否包含视频、是否包含图片、是否包含URL、是否@他人,以及包含话题的数量共9个特征。为了提高模型精度,同时为了减少模型的训练时间,对提取到的特征按照式(10)进行了归一化处理,预测模型输出的转发预测混淆矩阵如表1所示。
表1 转发预测混淆矩阵
通过混淆矩阵,可以得出预测模型的3个评价指标,分别是准确率P=TP/TP+FP、查全率R=TP/TP+TN、调和平均F1=2PR/(P+R)。特定话题转发预测如表2所示。由表2可知,多特征神经网络微博转发预测时的高效性。
表2 特定话题转发预测 %
为了验证算法的有效性和准确性,分别与朴素贝叶斯算法和逻辑回归算法两种经典算法作比较,模型性能对比如表3所示。
表3 模型性能对比 %
由表3可知,在相同实验环境下,多特征神经网络模型的预测准确率比朴素贝叶斯算法高出约12%,比逻辑回归算法高出约3%,相比之下,多特征神经网络算法在预测准确度上较前两种预测方法有一定的优势。
通过对微博网络信息的转发规律的挖掘研究,提取出用户活跃度、用户的重要程度、用户之间的亲密度、是否为认证用户、是否@他人、是否包含URL、是否包含话题、文本兴趣相似度、用户活跃程度9个特征,运用多特征神经网络微博转发预测模型,实现对微博转发的概率输出,即微博转发行为的预测。研究结果可以为微博营销、舆情监控、热点话题追踪以及微博推荐等方面的应用提供参考。然而预测模型在个性化方面做得还不够,特征的提取也不够完备,随着对微博的进一步研究,综合考虑个性化因素,尽可能全面地挖掘提取用户及微博的特征,以获得更高的预测准确率。
[1] 曹玖新,吴江林,石伟,等.新浪微博网信息传播分析与预测[J].计算机学报,2014,37(4):779-790.
[2] 张旸,路荣,杨青.微博客中转发行为的预测研究[J].中文信息学报,2012,26(4):109-114.
[3] 李英乐,于洪涛,刘力雄.基于SVM的微博转发规模预测方法[J].计算机应用研究,2013,30(9):2594-2597.
[4] Petrovic S, Osborne M, Lavrenko V. RT to Win! predicting message propagation in Twitter[J]. ICWSM, 2011, 11:586-589.
[5] 谢婧,刘功申,苏波,等.社交网络中的用户转发行为预测[J].上海交通大学学报,2013,47(4):584-588.
[6] 吴凯,季新生,刘彩霞.基于行为预测的微博网络信息传播建模[J].计算机应用研究,2013,30(6):1809-1813.
[7] Blei D M. Probabilistic topic models[J].Communications of the ACM,2012,55(4):77-84.
[8] 李湘东,巴志超,黄莉.基于加权隐含狄利克雷分配模型的新闻话题挖掘方法[J].计算机应用,2014,34(5):1354-1359.
[9] 邓青,马晔风,刘艺,等.基于BP神经网络的微博转发量的预测[J].清华大学学报(自然科学版),2015,55(12):1342-1347.
[10] 黄德才,戚华春.PageRank算法研究[J].计算机工程,2006,32(4):145-146.
[11] 邓万宇,郑庆华,陈琳,等.神经网络极速学习方法研究[J].计算机学报,2010,33(2):279-287.
[12] 杨伟,倪黔东,吴军基.BP神经网络权值初始值与收敛性问题研究[J].电力系统及其自动化学报,2002,14(1):20-22.
[13] 饶浩,陈海媚.主成分分析与BP神经网络在微博舆情预判中的应用[J].现代情报,2016,36(7):58-62.
[14] 高玉明,张仁津.基于遗传算法和BP神经网络的房价预测分析[J].计算机工程,2014,40(4):187-191.
[15] 王赟松,许洪国.快速收敛的BP神经网络算法[J].吉林大学学报(工学版),2003,33(4):79-84.
Micro-Blog Retweet Prediction Based on Multi-Feature Neural Network
Wang Zhifeng1, Feng Xiwei1, Jia Qiang1, Zhu Rui1, Qin Hang2
(1.SchoolofComputerandCommunicatingEngineering,LiaoningShihuaUniversity,FushunLiaoning113001,China; 2.TeacherContinuingEducationSchoolofWanghuaDistrict,FushunLiaoning113001,China)
With the rapid development of social networks, microblog has become a platform for the spread of information dissemination. In view of the characteristics of microblog information diffusion, mining the potential law of microblog forwarding process is of great significance for public opinion monitoring, hot topic tracking, product marketing and so on. In this paper, the Sina microblog is used as the data source, the user and microblog content are used as the characteristic source. The neural network prediction algorithm in machine learning is introduced to establish the prediction model to realize the forward prediction of microblog. The results show that, compard with the traditional prediction method, the microblog forwarding can make a higher accuracy prediction.
Neural network; BP algorithm; LDA; Predictive modeling
1672-6952(2017)06-0047-04
投稿网址:http://journal.lnpu.edu.cn
2017-03-13
2017-04-11
辽宁省教育科学“十三五”规划2016年度课题(JG16DB253);辽宁石油化工大学2016年教育教学改革研究项目(20165230060003)。
王志峰(1990-),男,硕士研究生,从事分布式计算、数据挖掘相关研究;E-mail:kruskr@sina.com。
冯易炜(1970-),男,博士,教授,从事语义网·分布式计算与计算机网络方面的研究;E-mail:feng.xw@163.com。
TP391
A
10.3969/j.issn.1672-6952.2017.06.010
(编辑 陈 雷)