微博中转发行为的预测技术综述

2021-07-23 06:38曹世鸿李保滨朱廷劭
中文信息学报 2021年6期
关键词:社交预测特征

曹世鸿,叶 青,2,李保滨,朱廷劭

(1. 中国科学院大学 北京 100049; 2. 中国科学院 文献情报中心 北京 100190;3. 中国科学院 心理研究所 北京 100101)

0 引言

近年来,随着互联网的快速发展和智能终端的普及,微博已经成为了互联网空间中重要的网络社交平台。在微博平台上,每个人都可以通过发布不超过280个字符(中文为140个字)的 “推文(tweet)”来自由地分享包含url、表情符号、照片和视频等的信息内容,也可以关注或者订阅感兴趣的用户,通过点赞、评论和转发实现与朋友互动。最新的新浪微博用户活动报告表明: 每天有超过2亿活跃用户,发布和转发的虚拟话题超过1.3亿[1]。这些话题数据在一定程度上反映了用户的兴趣、行为和社交关系,利用这些数据研究网络空间信息扩散机制、舆情监测及心理健康等问题逐渐成为计算机科学、心理学、管理科学和社会学等学科领域中的研究热点。

评论、转发、点赞和分享给指定好友是微博平台的四种行为(图1),其中转发是微博信息传播的主要方式,也是一种重要的传播机制[2-9]。评论和点赞是微博用户表达自身对某种信息看法的方式。但由于平台的原因,这两种方式不会让信息出现在他/她的个人主页,因此关注他/她的用户很难发现这条信息[2]。同样地,分享传播的方式由于次数限制,对好友的影响也比较有限。而转发传播则不同,它是建立在用户“关注与被关注”网络上的[3],这有助于用户间形成交流分享的状态[4]。这意味着,在知识分享的时代,用户转发分享消息将很容易被关注他/她的用户阅读。因此,通过转发能够在短时间内吸引大量的用户,使得信息在微博中沿“关注与被关注”网络一级级地快速传播[5]。另一方面,转发的层级性让传播路径清晰,可研究性增强。由此可见,转发是微博平台的重要用户行为,对研究微博信息的传播和应用是必要的[6]。目前已有大量研究工作探讨转发行为和信息经转发扩散后的转发量问题,以此深入研究信息传播的各种性质。

图1 Twitter平台的四种行为

预测用户转发行为和消息的转发量在舆情监控、微博个性化推荐与微博市场营销等方面具有重要的研究和应用价值。由于微博的开放性和共享性,每时每刻都有许多微博信息被转发传播。当一个话题被转发的频率远远高于其他话题,即达到一定的转发量的时候,就会成为一个热点话题[7]。这些微博热点会对现实世界中的舆论产生重大影响,并有可能带来一些不良后果,例如网络谣言和虚假的科学信息等[8-9]。利用微博转发行为的预测研究可以提前了解和监控潜在热点话题的转发和传播趋势,对于那些有可能产生大影响的不良信息发布舆情预警。同时也可以分析使不良信息成为热点话题的相关因素,以便对症下药,及时采取针对性措施净化网络环境,打击犯罪行为,避免恶性事件发生[10-11]。相反地,对于弘扬社会正能量、宣传美好的道德品质和普及科学知识等有益话题,则可以因势利导,在整个社会中树立正确的价值导向[12]。另外,微博转发行为的预测研究以用户的网络行为和个人兴趣为研究基础,深入分析是否会转发和传播微博话题,以及偏向于转发具有什么内容特征的微博信息,也为微博的个性化推荐提供了可能。对于基于微博的市场营销公司,便可以利用预测技术挖掘潜在客户的转发偏好,精确地投放广告和制定宣传计划[13-14],实施个性化推荐和营销的高效性。

基于以上讨论,本文在系统梳理已有研究工作的基础上,对转发行为和消息转发量的预测过程进行详细的描述,包括用于预测的数据集、特征选择、建立预测模型和评价指标,并讨论和展望未来的研究方向。

1 相关文献和研究现状

关于微博平台中的转发行为,目前已有大量研究工作和相关结果[6,15-18]。根据这些研究的主要目的和目标,大致可以分为两类: ①预测转发与否; ②预测转发量。本节将按照这两个方面简单梳理一下相关研究工作,部分文献分类见表1。

表1 相关论文分类

预测用户的转发行为,旨在预测微博话题是否会被转发,属于二分类问题。预测可视为回归或分类任务,通过探索相关因素,运用标准回归或分类方法做预测。也可将转发动态视为时间序列,通过将这些时间序列拟合到某类函数中进行预测。Yang等人[19]提出了一种基于用户、消息、时间等因素的半监督因子图模型,使用最大和算法训练,以此来预测用户的转发行为。Zaman等人[20]改进并训练了一个概率协同过滤模型来预测用户未来的转发行为。Petrovic等人[21]提取了相对较少的内容特征和作者的社交特征,使用passive-aggressive算法预测推文的可转发性。另外,由于24小时内,不同时间的转发行为有差别,故除了全局模型,还建立了24个不同权重的局部模型。Hoang等人[22]基于话题病毒度、用户病毒度和用户对用户转发决策的敏感性这三个行为因素,提出了一种将转发表示为三维张量因子分解的转发行为预测模型V2S。Zhang等人[23]提出一个从层次的狄利克雷过程转变为基于文本内容、作者、社交和时间信息的预测转发行为的非参数贝叶斯模型。Wang等人[24]提出了两个基于矩阵分解的转发行为预测模型。一个是利用用户之间的社会关系强度来生成基于用户的有效函数,另一个预测模型是基于内容特征的,最后根据错误率融合这两个模型。Zhang等人[25]设计了基于注意力的深度神经网络转发行为预测模型,将用户的兴趣和用户信息结合起来。深度神经网络自动学习最优特征的能力帮助他们建立了一个先进的预测模型,而不需要复杂的特征工程。Liu等人[26]提出云RBF(C-RBF)神经网络预测转发行为,该方法将传统的RBF神经网络与云理论相结合,可以模拟用户属性与用户转发行为之间的非线性关系。

从分类的角度看,消息转发量的预测则是多分类问题。在实际研究背景中,转发量也往往用来衡量消息的流行度。Hong等人[27]对于内容使用TF-IDF和LDA提取特征;对于微博网络拓扑结构提取用户出入度的分布;对于元数据提取推文是否被转发以及被转发次数作为特征。最终将这些作为输入,采取逻辑回归分类器,预测一个信息的未来转发量的范围。Lu等人[28]修改MACD模型(股票技术分析中最简单、最有效的动量指标之一),给出两种不同尺度的时间窗移动平均线,将较短的周期移动平均线和较长的周期移动平均线的差值定义为一个主题的趋势动量,利用趋势动量来预测话题流行度。Gupta等人[29]用各种机器学习算法,如SVM、决策树、朴素贝叶斯、线性回归、AR、ARMA和VAR等,估计下一个时间间隔内事件的受欢迎程度,旨在研究url、社交关系、事件内容、前期流行度和比率等特征在预测趋势方面的性能。侯凯[30]使用SVM实现信息的有效过滤,提取了用户和微博两方面的特征;使用S形传播规律刻画话题的传播,研究各个阶段用户特征和微博特征的变化规律;采用基于“潜在基底”假设的分类模型,提出时序信号表示话题趋势的方法,预测消息的流行度。Wang等人[31]将经典的SIS模型扩展为SISe和SISe+,给定几段训练时间窗口,利用微博的初始数据,预测某些时间点的转发量。Gao等人[32]提出了一种基于时间映射的扩展增强泊松过程模型来模拟转发动态,并根据一条消息在前期的转发动态来预测其未来的流行度。Wu等人[33]只考虑微博网络中的超节点,即微博中的大V。他们基于一种通用的随机过程方法,从人类活动和用户界面信息(如用户微博更新率的集合)来模拟用户的转发行为,快速预测出一条新闻的最终转发量。实验发现,新闻的负性情绪与转发有一定的相关性,而新闻的正性情绪与转发没有明显的相关性。Zhang等人[34]利用推文的图像信息、关注者数量和单位时间,设计了一种专用的混合卷积神经网络Hybrid CNN。Wang等人[35]对微博消息的内容进行建模,不仅包含文本信息,还包括图片信息。对于图片使用CNN模型提取视觉特征,使用LSTM提取文本特征,提出了一种联合嵌入的神经网络,将视觉、文本和社交等特征结合在一起,并使用泊松回归方法,预测消息的转发量。社交网络通常以图形形式表示,Vijayan等人[36]便利用图卷积神经网络GCN挖掘信息传播的特征,预测转发数。以上的研究工作主要集中在探索不同的机器学习和深度学习技术来设计一个良好的预测模型上,下一节将着重讨论如何选择和建立一个预测模型。

2 预测转发行为的基本模型

类似于一般数据挖掘和机器学习处理过程,预测微博转发行为的基本模型也包含三个部分: 数据采集、特征提取和建立预测模型,图2给出了对应的流程图。简单地说,对于收集到的微博数据,借助NLP技术,提取出相应的用户、社交等特征,然后利用机器学习、深度学习等方法建立预测模型。

2.1 数据采集

微博平台的数据是转发行为研究的基础。可以根据自己的研究需求构建爬虫程序,获取对应的微博数据。以Twitter为例,研究人员可以使用其提供的APIs获取诸如用户的推文内容、用户的粉丝和关注者,以及用户的认证状态等数据信息。Twitter还提供了这些APIs的企业版本,允许升级访问它们的数据,所有Twitter APIs的必要信息都可以在它们的开发者平台网站上找到。

图2 预测微博转发行为的流程图

另外,Twitter 和新浪微博也提供相应的公共数据集。MBI-1M[35]是2013年收集的微博图像数据集,包含了1百万条Tweets。其中转发次数和收藏次数是在2014年收集的,可用于分析图像内容对转发的影响。Sina Weibo Data Set[37]共有178万用户,3.08亿用户关系,包含这些用户30万条热门微博转发的信息级联,适合用于分析特定用户群体的转发行为和相应的信息级联。

2.2 特征提取

预测的准确性在很大程度上取决于使用了哪些特征,以及这些特征在预测时是否有效。用户特征、社交特征和内容特征是研究者探索的共同因素,也是研究和建立预测转发行为模型中重要的特征集合。这些因素可以反映用户的影响力和兴趣对转发行为的影响,表2中列出了这三个因素的具体特征。

表2 三个因素所包含的具体特征

续表

2.2.1 用户特征

这里的用户包含了发布原始微博的作者及其他普通用户。已有的研究表明,可以将信息在网络中的传播视为级联活动[38]。信息从作者到用户,视为一级传播;从用户到用户,视为N级传播,其中N≥1。N越大,说明信息传播深度越深,影响也就越大[39]。原创微博的作者在整个级联传播中显得尤为重要,Cha等人[40]的研究就着重讨论了这一点。他们表明,主流媒体机构发布的微博,能引发大量的转发。特别是社会各界的名人,他们发布的微博也常常有高转发量,这与微博自身的价值并没有太大的关系,仅仅是因为他们的影响力。

微博中也存在着转发量在一级传播后的某一级爆发的情况。所以,不管是原创微博的作者还是其他普通用户,使用他们的某些特征去衡量他们的影响力,从而开展预测转发的工作是可行的。诸如我们表2中所提到的,用户账号的注册年龄、用户的总微博数、用户的每天发微博频率、用户的微博被转发的比例、用户的微博被回复的比例、用户是否是验证用户、用户个人简介标签,甚至是用户的受教育程度等特征[21,41-45]。

另外,Lee等人[46]研究发现: 影响转发的特征主要与用户的活动有关。他们通过一些特征来定义用户的活跃度,比如每天平均微博转发数、当天每小时转发的可能性、发微博的稳定性和状态信息的数量等,同时还可以从用户的帖子中得出个性评分,以描述用户的个性对其转发的影响。

2.2.2 社交特征

除了考虑用户特征,我们还需要考虑用户间社交关系的特征。Xu等人[42]将Twitter中的社交关系描述为以下的特征: 用户之间是否关注、用户之间是否为列表关注、用户间互相转发的次数和用户间互相@的次数。Petrovic等人[21]考虑的社交特征有用户关注者的数量、粉丝的数量及用户被列出的次数等。Gupta等人[29]结合他们的分类模型,只考虑了社交关系中的关注关系,同时将关系有向化为单向关注和双向关注。

在所有的社交关系中,朋友关系[33],即在关注列表中的亲密度高的关注者,在预测微博转发方面较为重要[47]。Wang等人[24]就定义了社交关系强度函数,以此量化用户之间的亲密度,使其作为预测转发的一个特征之一。Zhang等人[48]也发现在一个大型微博网络中,用户的行为主要受亲密朋友的影响。他们使用新浪微博的数据,将社交影响区域定义为一个函数,来衡量用户的转发决定如何受到其活跃的朋友的影响,同时分两方面设计了基于两两影响和结构多样性的两个实例化函数。他们的实验表明,所定义的影响局域函数具有较强的预测能力,在不增加任何特征的情况下,通过训练一个基于已定义函数的逻辑回归分类器,即可达到比较理想的效果。

除了微博平台给定的社交关系及用户自身的社会关系,研究人员也尝试建立用户之间的相似度[19,42,49-51]。当我们知道了某个用户转发了相关微博,另一个用户和他相似性极大,即使他们间不存在明面上的关系,那么我们也可以认为另一个用户有极大的概率转发同类型的微博。用户间相似度的计算方法可以用余弦相似度,其得到的结果一般都比较精确。

2.2.3 内容特征

用户的转发行为与其兴趣有关,不仅是对作者或者转发用户的兴趣,也可能是对微博内容的兴趣。微博特征可以分为显式和隐式特征,它们都可作为预测模型的特征。基于内容的显式特征是可以直接统计和测量的,比如推文中是否有标签、url、时尚的表情符号和图片[24,35,44,52-53]。也可以是微博的语义特征,比如微博语种、肯定/否定词、标点符号、专有名词和人称代词,甚至是微博的文本长度等[35,49]。但是,隐式特征是不能直接统计的,需要使用算法提取,这些特征包括术语及其TF-IDF分数、微博主题、微博主题的新颖性和传播力、微博的情绪等[24,27,45,49,54-58]。

隐式特征相对显式特征而言,它们能反映用户的个体兴趣,更具有实际意义。下面介绍几种提取隐式特征时常用的算法和工具。LDA算法[59]可用于确定用户感兴趣的微博主题和过往转发微博的主题分布。它是一种生成式模型,可将每篇文档的主题以概率分布的形式给出,用于发现文档中的潜在主题[60]。当创建基于主题的用户相关数据时,用户过去所有的微博视为单个文档,LDA用于查找该文档的主题分布[48]。但LDA算法是针对长文档开发的,由于微博的长度较短,而且通常只涵盖单一的主题,这可能会导致经典LDA算法的性能较差。Zhao等人[61]拓展LDA算法,提出了Twitter-LDA。它修改了底层的概率模型,从每个用户的角度考虑,他们每个人有一个主题分布矩阵,然后每一个推文的生成都是根据这个矩阵选出来的主题,再利用伯努利分布,一个一个地选择推文的单词。

词频逆文档频率TF-IDF是一种用于确定文档集合中某个单词对文档的重要性的算法[62]。单词的重要性随着它在文档中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。简而言之就是,如果某个词或短语在一篇文档中出现的频率高,并且在其他文档中很少出现,则认为此词或者短语具有很好的类别区分能力。研究人员可以使用这种方法来生成用户的单词包配置文件,这个配置文件可以代表用户基于内容的兴趣。根据文献[24],用户的转发行为与用户个人资料和推文内容的相似程度相关,因此可以计算用户的兴趣和推文潜在主题分布之间的余弦相似度,作为预测转发的特征之一[42,51,63]。

不仅是微博内容本身,与微博相关的情感和情绪也可能对用户的转发决策产生影响。语言探索与字词计数LIWC是一种可以对文本内容的词语类别进行量化分析的技术[64],用来挖掘不同的基于文本的特性。这些类别包括简单的语言因素,如字数和人称代词,也可以包括表明积极或消极的情感和情绪[45,53,65]。基于字典的方法也可以发现微博的情感[55],在英语单词情感规范中给出了1 000多个单词的情感数值,其包含三个属性: 单词从不满到愉悦的程度、从软弱到强硬的程度和从平静到兴奋的程度。一条微博的情感数值是微博中每个单词的三个属性值的总和。微博的情绪也可以通过感知强度法来确定,该方法使用语言规则来发现微博的积极和消极情绪得分[66]。

2.2.4 小结

在这些众多的特征里,并不是所有的特征都能对预测结果产生较大的影响,因此找到那些影响用户转发行为的因素,是至关重要的。Suh等人[41]发现在内容特征中,url和标签与可转发性相关;在上下文特征中,粉丝和关注者的数量以及账户的年龄也会影响可转发性。Xu等人[42]的实验表明用户相关的特征对于转发预测非常的重要,尤其是社交关系的特征。Zhang等人[48]也证实了社交特征的重要性,用户转发的概率与活跃好友的数量正相关。Vougioukas等人[50]建立的预测模型仅用10个特征便得到了较高的预测准确率,这些特征分别是: 用户在前一周转发的相似微博、作者之前发布的相似微博、作者的Klout score(即作者的影响)、作者发布的微博数量、用户转发过的相似微博、微博被转发者的邻居转发的次数、作者是否一个邻居用户、用户之前是否转发过作者的微博、用户发布的相似微博、用户是否提到作者。在内容特征方面,Pfitzner等人[67]研究发现,情绪高度多样化的推文被转发的概率是普通推文的五倍。Firdaus等人[58]得出结论: 特定于话题的情绪可以提高转发预测的准确性,即主题和情绪等特征在相互作用下进行预测时能表现出更好的分析效果。Celayes等人[57]将隐式内容特征和社交特征相结合,发现该方法的预测效果最为理想。寻找最优的特征,将是预测转发行为和消息转发量的关键。

2.3 建立预测模型

预测转发或者转发量是典型的分类任务,由特征提取和机器学习两个步骤组成。预测转发量是多分类问题,因为很难准确预测转发量的具体数值,只能是某个范围或者级别。而预测转发属于二分类问题,要么待转发,要么不待转发。在这一节中,我们将讨论一些建立转发预测模型的策略。

2.3.1 机器学习模型

常用的机器学习分类模型有逻辑回归、SVM、决策树、随机森林、朴素贝叶斯等,这些传统的机器学习在有效的特征下,也能很好地满足预测任务。研究人员需要根据研究目的和实验数据形式,设计合适的特征输入,使这些分类模型适合预测转发行为和信息转发量。Suh等人[41]采用广义线性模型(GLM)研究各式特征对转发预测准确率的影响。常用的GLM模型是逻辑回归(logistic regression, LR)模型,用于处理因变量为分类变量的回归问题,非常适合用于二分类问题。Zhang等人[48]根据用户的转发行为受自我网络中好友的影响的特点,用定义的函数建立社会局部特征,以此训练LR模型来预测转发行为。Vougioukas等人[50]也使用LR建立了一个全局但又个性化的转发预测模型,研究作者、用户和内容特征的有效性。由于LR的简单性,其预测准确率往往不是很高。支持向量机(support vector machine,SVM)是一个经典的分类算法,其找到的分割超平面具有更好的鲁棒性,因此被广泛使用,并表现出了很强优势。Celayes等人[57]采用SVM分类模型,研究用户的社交邻居对其转发行为的影响。实验表明,在不考虑推文内容的情况下,仅基于社交特征的预测模型,其预测结果也很好。他们为了加入内容特征,将文本转换成特征向量,整个过程包括: 文本的规范化和清理、标记化、生成单词包特征向量,以及使用LDA主题模型和Twitter-LDA对它们进行降维。结合了社交特征和内容特征,SVM分类模型能使F1值有不错的提升,但整体预测效果还需要在模型中添加更多的特征,才能达到较高的水平。

决策树(decision tree,DT)是一种描述对实例进行多分类的树形结构。从根结点开始,递归地对实例的某一特征进行测试并分配,直至实例被分到叶结点的类中。Xu等人[42]创建用户配置文件,将此与目标推文之间的余弦相似度作为内容特征,增加作者特征和社交关系特征,使用三种机器学习技术开发了三种不同的预测模型:DT、SVM和LR。他们发现,用户相关的特征对于转发预测有很高的重要性,尤其是社交特征。在这些特征的基础上, DT的性能要好于SVM和LR,但要达到更好的转发预测精度,可以将时间因素合并到用户模型中,以捕获用户兴趣的变化。随机森林(random forest,RF)是通过集成学习的思想将多棵树集成的一种多分类算法,它的基本单元是决策树。Firdaus等人[58]在三个方面讨论转发预测: 仅主题特征、仅情感情绪特征和同时基于主题与情感情绪。他们使用Twitter-LDA提取主题模型,定义情感情绪计算函数,采用RF作为预测模型,发现单独使用主题或情感情绪进行转发预测,效果均一般,但主题和情感情绪特征在相互作用下进行预测时能表现出更好的分析效果。隐式内容特征往往更有效,结合良好的分类器,如BF,会得到较好的预测效果。同样地,也可以探索更多关于用户的潜在特征,比如个性、价值观、信仰等,这些在用户的转发决策中起着重要的作用。朴素贝叶斯模型(naive bayes,NB)是基于贝叶斯定理和条件独立性假设的一种分类方法。Huang等人[68]使用NB将用户推文分为不同的类别: 科技、政治、生活、体育、娱乐、健康、旅游和金融,并计算了某条推文属于特定类别的概率。如果概率大于用户对特定类别的兴趣,则预测用户会转发该推文,否则不会。Zhang等人[23]提出了一种新的非参数NB模型ASC-HDP,该模型采用了分层的狄利克雷过程,结合文本内容、作者、社交特征,同时纳入时间信息,增加近期话题的权重,计算推文转发概率。ASC-HDP由于能结合不同的特征,与原始的NB相比,提高了预测准确率。使用上述的传统机器学习方法(LR、SVM、DT、RF和NB),需要配合有效的特征才能得到有效的预测结果。也由于它们的易实现性,通常用来研究影响转发的相关因素,对比各个特征之间的差异。

Passive-Aggressive(PA)是一种增量学习算法,不需要学习率,适用于大规模学习的算法。为了考虑时间信息,Petrovic等人[21]使用PA算法预测推文流的可转发性。24小时内,不同时间的转发量有差别,包含特定词的推文在早上被转发的概率可能比在晚上高。因此他们建立24个局部模型,它们有各自的权重。实验表明,根据推文创建的时间而建立的时间敏感模型,其效果比普通的PA算法要好。但Bunyamin等人[69]的实验发现,在使用RF算法预测转发的时候,时间敏感建模的好处是有限的。因此是否加入时间敏感性特征,需要考虑预测模型是什么,在适当调整的机器学习方法上,时间敏感性特征不那么有效。

Gao等人[32]便从时间序列角度出发,提出了一种基于时间映射的扩展增强泊松过程模型PETM来模拟转发动态并预测未来的流行趋势。该模型捕获了一个幂律时间松弛函数,该函数对应于消息吸引新转发的能力的老化和一个指数增强函数,该函数描述了“富者益富”的现象。时间松弛函数和函数都是由实际数据导出的。此外,他们观察到用户活动的每小时变化会在早期影响推文转发动态,因此引入了微博时间符号,并应用时间映射过程将转发动态中的时间瞬间转换为微博时间。实验表明,他们提出的模型在流行度预测问题上表现优秀。单纯的时间序列模型无法反映用户转发的内在因素,可以加入更多的相关因素来丰富模型,例如用户网络的结构因素和消息本身的内容因素等。对于更为复杂的网络,则可以使用信息级联模型[70-73],即在一些情况下当用户好友的转发行为提供给用户的信息可能比用户自己通过其他途径了解到的信息更有说服力时,用户会忽略自己的信息而加入好友中,选择转发,并认为其很合情理。Zhao等人[74]便在Galton-Watson树中将信息级联建模为自激点过程,并提出了一个建模信息级联和预测最终规模的信息级联的灵活框架SEISMIC。该模型不需要特征工程,且与给定推文的转发次数成线性关系,这使得在线实时环境下预测数百万帖子信息传播成为可能。由于信息级联的领域影响特点,其通常与自激霍克斯过程以及下节将提到的GNN相结合,建立转发相关的预测模型。

2.3.2 深度学习模型

近些年,深度学习方法因其高效和自动学习最优特征的能力而倍受青睐。卷积神经网络(CNN)便是其中应用最广泛的一种方法,其不管是文本分类还是图像分类,都有很好的表现。如何设计CNN与转发网络的结合,是研究人员应用这种方法的关键。Zhang等人[25]提出了一种基于注意力的深度神经网络转发预测模型SUA-ACNN。在他们的方法中,通过两个步骤来计算用户的注意力兴趣: 将用户的历史推文聚类成一些簇,然后使用簇的中心推文来代表用户的所有不同兴趣。然后,通过一个注意力层来计算每个兴趣的注意权重。用一个相似矩阵来计算用户的注意力兴趣和推文之间的相似度。最后将用户编码、用户的注意力兴趣编码、相似度评分、推文编码和作者编码到一个固定的特征向量中,用连接层生成隐藏状态,并使用完全连接的Softmax函数进行转发预测。在CNN中使用注意力机制,能够从特征向量中快速筛选出高价值的信息用以预测转发行为。从本质上讲,基于注意力的CNN极大地提高了特征提取的效率和准确性。由于CNN目前在图像领域的应用非常广泛,能够很好地采集图像信息,可以用于拓展传统的文本内容特征。Wang等人[35]便考虑视觉特征对预测转发的作用,提出了一种联合嵌入神经网络,它将视觉、文本和社交线索结合在一起。整个联合嵌入组件由两个分支组成,每个分支使用全连通层、整流线性单元激活层、第二全连通层、批处理规范层和L2规范层依次处理输入的图片和文字特征。最后他们用一种新的泊松回归损耗优化方法来训练网络和预测消息转发量。由于影响转发的因素很多,如果单纯地结合多模态特征并不能很好地改善预测性能,联合嵌入网络只是结合的一种方法。为了更好地探索视觉内容对预测的影响,Zhang等人[34]仅利用图像信息和两条附加信息——关注者数量和单位时间,设计了一种专用的混合卷积神经网络Hybrid CNN,结构见图3。在CNN中,他们设置了四个层。第1层和第3层是卷积层,第2层和第4层是最大池化层。对于卷积层,使用整流线性单元(ReLU)作为卷积层的激活函数。在全连接网络中,设置了两层,每一层都包含一些完全连接的神经元。两条附加信息作为其他信息的输入,这样图像特征和上下文信息被合并到一个单独的网络中,最后将输出累加到最终节点,得到预测值。他们的Hybrid CNN方法使用图像特征预测转发数,可以与基于文本特征的最新方法相媲美。因此,加入图像特征的关键是如何提取图像中影响转发的因素,例如,一张明星的图片,可能会带来更多的转发数量。

图3 基于CNN预测转发数的模型结构[36]

图神经网络(GNN)是近几年主流的神经网络方法,其网络拓扑结构近似于在线社交网络,也可以拓展到预测消息流行度领域。特别是GNN通常遵循邻域聚合策略,即通过递归聚合其邻域节点的表示来更新节点的转态,这能很好地描述追随者对用户选择转发信息的影响。Vijayan等人[36]引入了一种新的用于预测转发数的图卷积神经网络GCN,包括两个GCN层和一个完全连接层,利用图卷积层结合了网络层特征和网络中更高密度的推文层特征,用以预测消息的未来转发数。联级效应在GNN中也能得到体现,Cao等人[37]便提出了CoupledGNN模型预测消息的流行度。其中一个GNN通过用户的激活状态来模拟人际影响的传播,另一个GNN通过其邻居的人际影响对每个用户的激活状态进行更新,其结构见图4。由于GNN具有邻域的迭代聚集机制,自然地表现出沿网络结构的级联效应。用GNN做转发相关预测是这个领域的最新方法,因其能反映微博网络的结构而不断被探索,后续关于GNN的改进研究都可以借鉴过来,提升预测性能。除了CNN和GNN外,其他的深度学习方法也可以用来做预测。Liu等人[26]将传统的RBF神经网络与云理论相结合,形成云RBF(C-RBF),不仅可以充分表达用户转发行为的模糊性和随机性,而且还有效地模拟了用户属性与用户转发行为之间的非线性关系,具有良好的非线性逼近能力。他们采用颜色离散化和时间切片的方法,预测热点话题的发展趋势。虽然实验结果证明了该方法的有效性,不仅能准确预测用户的转发行为,还能动态检测话题人气的变化,但传统的RBF神经网络对样本数据要求严格,预测性能有限,后续可以考虑用其他深度学习来改进此方法。

图4 基于GNN预测转发数的模型结构[37]

2.3.3 其他模型

研究人员也根据自己的预测任务,改进已经在某些领域有出色表现的模型,使其适合完成转发预测的任务。概率协同过滤模型——Matchbox[75],使用三种类型的输入来学习: 用户特性、项目特性和二元反馈,其最初是基于电影元数据来预测用户的电影偏好的方法。Zaman等人[20]为了使Matchbox适用于转发预测,他们提取了三种类型的特征,分别是: 用户特征、转发特征和推文内容特征。如果转发者在某个时间窗口内转发了推文,则二元反馈为1,否则为0。他们发现,有一半的转发,发生在源推文出现的一个小时内。Matchbox方法比较灵活,后续允许整合,如某个主题的推文转发率或者其他与转发相关的信息,以提升预测准确率。在股票技术分析中,由Gerald Appel开发,被广泛使用的指标MACD,也可以用来做转发预测。Lu等人[28]基于MACD的特点,监测Twitter上的主题关键词,并使用较长的移动平均线和较短的移动平均线,分别跟踪它们的较长和较短的趋势。同时根据Twitter话题的发展特点,用两条移动平均线重新定义趋势动量,并利用它来预测趋势。MACD方法简单有效,但依赖于Twitter特征,比如没有考虑不同的用户在不同的时间发布推文,其影响是不一样的。

由于传染病的传播与微博信息的传播具有相似性,经典的传染病模型SIS也能带来启发思想。Wang等人[31]认为与SIS模型中感染只能来自被感染的人不同,但由于微博环境的开放性,外部用户可以自发地阅读和转发一条消息,而不需要关注任何转发用户。因此,他们增加外部访客自发以某个速率转发一条微博,不遵循任何转发(感染)的用户。同时,又由于受感染的转发用户可以根据自己的意愿多次转发同一消息,便引入了多次转发转换操作。经此扩展的SIS称为SISe和SISe+模型,这两个模型比传统机器学习方法更有效。由于SISe和SISe+是从传染病模型变化而来的,因此它们蕴含了微博网络中的社交特征,要想提高预测精度,可以考虑将更多的与推文相关的特征纳入此模型。

在推荐系统中广泛应用的矩阵分解技术同样也可以适用于转发预测模型。矩阵分解是指将一个矩阵分解成两个或者多个矩阵的乘积。根据推荐算法原理[76],对于用户-消息矩阵,记为Rm×n,可近似分解成两个矩阵Pm×k和Qk×n。其中,矩阵Pm×k表示的是m个用户与k个特征之间的关系,而矩阵Qk×n表示的是k个特征与n个消息之间的关系。主要目标是找到潜在特征k,它定义了潜在用户和消息之间的关系。Wang等人[24]基于用户状态的时间序列,构建了内容的特征。其次,根据用户网络拓扑结构和交互频率来推断社交关系特征。将预测问题分别转化为基于用户维度的非负矩阵因子分解和基于内容维度的非负矩阵因子分解,根据错误率融合了两个模型,即一种基于多维非负矩阵分解的转发行为预测模型。该方法可以有效地提高具有协同特征的预测模型性能,但没有进一步了解时间信息对网络的影响,同时预测算法时间复杂度较高,需要改进矩阵分解的算法。

2.3.4 小结

预测模型的选择与特征的提取是相辅相成的。当提取的特征合理且有效时,即使是采用传统的机器学习方法,也能得到不错的预测结果。但筛选特征具有十分巨大的工作量,使用深度学习的方法便可自动地提取最优特征,同时也可以实现微博文字、图片等多模态特征的提取。其中GNN是具有图结构的神经网络方法,能表示转发网络的结构,非常适用于转发行为和转发量的预测,为目前该领域的前沿方法。除了常用的预测方法,研究人员也能根据实验需求,设计和改进模型。关键在于,如何将微博上信息传播的特点合理地纳入到模型当中,这是建立预测模型的核心思想所在。

3 面临的挑战

转发是微博平台上用户的重要行为,也是一种信息传播扩散的重要机制。理解用户的转发行为并进行预测,对信息推荐、预防突发事件和舆情监控等应用具有重要的意义。

现有的研究工作有的集中在寻找合适的特征,其中用户的社交特征和推文内容特征至关重要。Celayes等人[57]采用SVM分类模型,在不考虑推文内容的情况下,仅基于社交特征的预测模型,得到平均的F1值约为88%。Vougioukas等人[50]建立的转发预测系统,仅用10个特征便得到了较高的F1≈90%,其中半数以上为社交特征。在此基础上加入内容特征,特别是隐式特征,因能反映用户的潜在兴趣,更具有预测效果。Zhang等人[23]提出的ASC-HDP模型,结合了社交特征与内容特征,在F1值、精确度和召回率上均表现最佳。但要挖掘用户转发行为的深层原因是不容易的,其面临的挑战是多方面的,主要体现在以下几个方面:

第一,所转发的微博是有字数限制的,只包含少量的显式特征。虽然Zhao等人[61]提出了针对推文的主题提取模型Twitter-LDA,但显然并不能很好地满足转发预测所需要的内容特征。对此,如何从推文中提取有用的潜在信息是一个挑战,需要深入探索和研究。

第二,用户的转发行为是受邻居,即关注者与粉丝影响的,所以在做转发预测时,社交特征往往占据更大的比重。不同于传统媒体,微博上的每个用户都可能是信息源,他们可以随时随地分享或者转发信息。这意味着,整个转发网络规模大而复杂,要准确地进行预测是困难的。

第三,非活跃用户由于没有足够多的数据,要预测他们的转发行为,是一个不小的挑战。过去的研究大多不包括非活跃用户数据,它们还假设,包含不活跃用户的数据可能会降低模型的准确性。

第四,人类行为始终是一个无法完全解决的复杂难题,很难找出决定他们转发的潜在原因。比如,有些用户的兴趣是随时间改变的,而有的却不会;有的更愿意转发亲密好友的微博,而有的不喜欢影响彼此的线上生活。有的用户甚至是随性地转发微博,我们很难说出其深层原因来。也就是说,即便确定了影响某个用户群体转发行为的因素,但也不能很好地泛化到整个微博用户。

4 总结与展望

本文通过梳理已有的相关研究工作,按照微博内容是否转发和转发量两个方面,较为系统地介绍了预测微博转发相关的各种研究工作,着重阐述了基于用户特征、社交特征和内容特征的预测模型建立的过程和评价其预测性能,希望新研究者在已有研究工作的基础上建立更有效的预测模型。

目前有很多关于在线网络的信息传播模型,但这显然不够去描述一个复杂的网络,明白信息传播的机理将对预测工作产生很大的帮助。事实上,网络是可以动态变化的。Myers等人[77]研究了Twitter中用户的发帖和转发行为与网络结构之间的动态关系发现: 由于信息级联效应的存在,会极大地改变用户的局部结构(即订阅关系),并表现出突发性。而以往基于动力学系统建立的传播模型,认为社交网络是一成不变的,因此,设计新的传播模型,比如考虑时变的社交网络便是一个有价值的研究内容。

在预测模型方面,以往大多数研究建立在传统的机器学习方法上,具有一定的局限性。随着深度学习在人工智能领域的深入应用,CNN和GNN会逐渐成为这个领域的主要研究方法,比较先进的图神经网络结合信息级联模型和霍克斯过程是值得研究的方向[37]。在提取文字特征方面,可以利用自然语言处理领域的先进方法,特别是应对短文本的技术,来寻找微博中影响转发的额外潜在因素,如价值观、宗教信仰、对话题看法等。Mao等人[78]针对微博内容的简短性和随机性,以及属于同一主题的推文通常有很多共享词的特点,扩展了传统上基于RNN的编/解码器结构,提出了具有注意力机制的微博特征生成模型LSTM-AE。从简单的微博内容中挖掘有效信息,同样是具有重要研究价值的。

微博产生的数据是规模巨大而又多元化的,每天新产生的消息可达数亿条。对于如此庞大的数据,现有的计算机体系结构和算法面临着不小的挑战。未来的转发和信息流行度预测算法有赖于规模文档快速聚类算法和大规模社交网络信息传播算法的发展。在收集数据的过程中,可以考虑第三方平台的数据,如其他社交网站或用户的在线活动,作为理解用户的附加信息。为了达到更好的预测效果,对预测过程的每一步进行改进都至关重要。

猜你喜欢
社交预测特征
无可预测
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
社交牛人症该怎么治
聪明人 往往很少社交
社交距离
如何表达“特征”
不忠诚的四个特征
你回避社交,真不是因为内向
抓住特征巧观察