融合兴趣和行为的用户转发行为预测

2017-03-22 22:20刘清
电子技术与软件工程 2017年3期

微博转发是微博网络中信息得以传播的基础,对用户影响力评估以及网络营销等具有重要意义。现有的方法在考虑影响用户转发行为的因素时,大多只考虑微博以及用户属性等特征,没有考虑用户兴趣和用户历史行为规律等个性化特征,本文提出了基于LDA主题模型的用户兴趣与微博相似度计算方法,将计算结果作为用户兴趣特征,还提出了基于用户转发率、与上游用户交互频率的用户历史行为特征,最后融合用户兴趣特征、用户历史行为特征、上游用户特征、微博特征,建立基于几种常见分类模型的预测方法,在真实数据集上的实验结果表明,该方法能够有效提升预测准确性,取得较好的预测效果。

【关键词】微博转发 LDA主题模型 用户兴趣 用户历史行为规律 分类模型

1 引言

微博,作为web2.0的典型应用之一,是近年来兴起的信息交流与传播平台,表现出非常强劲的发展势头。由于具有庞大的用户规模以及便捷快速的消息发布与传播方式,微博已发展成为当前信息传播与舆论扩散的重要平台。如何对微博的信息传播机制进行有效的检测与管控,增强对热点事件的预见性,使其能够更好地服务于社会是当下亟需重视的问题。因此,微博转发作为微博信息传播的重要过程,研究其具有重要意义,现有的研究将用户转发问题看成是二分类问题,但大多没考虑用户的兴趣和用户的历史行为对用户转发行为的影响。

2 问题描述

若给出了用户的历史转发或不转发微博集合,对用户转发行为的预测问题可看成是机器学习中的二分类问题,通过对微博集合进行训练,可得到用户转发或不转发微博的分类结果。

3 融合兴趣和行为的用户转发行为预测

3.1 用户兴趣特征

本文通过LDA主题模型去建立用户的兴趣并计算用户兴趣与微博的相似性,再将计算结果作为用户兴趣特征。

3.2 用户历史行为特征

用户的历史行为包括用户转发活跃度以及用户与上游用户的交互强度。

本文按如下方式定义用户的转发活跃度frr:

其中,nrepost表示用户最近发布的微博中转发微博的数量,npost表示用户最近发布所有微博的数量,frr越大说明用户最近发表的微博中转发微博的比例越高。

本文按如下方式定义用户的接受用户与上游用户之间的交互强度fuv。

其中u表示上游用户,v表示接受用户, nv表示一段时间t内接受用户转发微博的次数,nuv表示一段时间t接受用户转发的微博中上游用户微博的数量。

3.3 上游用户特征

上游用户的特征包括上游用户的粉丝数、注册年限、上游用户身份、认证状态。

3.4 微博内容特征

微博内容特征包括微博中是否@他人,是否含有主题标签,微博发表时间段以及是否含有超链接。

4 实验分析

4.1 实验数据集

本文基于新浪微博开放平台提供的API来抓取所需的数据,实验数据整体分布见表1。

表1:实验数据集分布

转发微博 不转发微博 总数

62,966 497,130 560,126

4.2 实验结果及分析

轉发行为预测结果如图1所示,使用不同的分类模型将有不同的预测效果,其中使用逻辑回归进行预测时准确率达到0.73,召回率达到0.75,F1度量值达到0.75。

为了证明本文考虑的用户兴趣和行为特征的有效性,将结果和Zhang等人的工作进行比较,都使用逻辑回归模型进行预测,比较结果如表2所示。

表2:预测结果对比

分类方法 准确率 召回率 F1度量值

本文的方法 0.735 0.752 0.752

张的方法 0.708 0.733 0.735

可以看出本文所提出的的方法预测结果更加准确,能够将准确率提升将近3%,说明本文考虑的用户兴趣和行为特征能够提高预测准确性。

参考文献

[1]Xu Z,Yang Q.Analyzing user retweet behavior on Twitter.In:Proc.of the ASONAM 2012.Washington: IEEE Computer Society,2012.46-50.[doi: 10.1109/ASONAM.2012.18]

[2]张旸,路荣,杨青.微博客中转发行为的预测研究[J].中文信息学报,2012,26(04):109-114

[3]曹玖新,吴江林,石伟,刘波,郑啸,罗军舟.新浪微博网信息传播分析与预测[J].计算机学报,2014,37(04):779-790.

[4]Zhang J,Liu B,Tang J,Chen T,et al.Social influence locality for modeling retweeting behaviors[C]//Proceedings of the 23rd International Joint Conference on Artificial Intelligence (IJCAI),2013: 2761-2767.

作者简介

刘清(1993-),男,江苏省淮安市人。工学硕士,同济大学学生。主要研究方向为社交网络数据挖掘研究。

作者单位

同济大学 上海市 201800