丁晟春 包舟 刘笑迎
关键词: 突发事件; 舆情; 用户行为; 信息传播; 行为预测
DOI:10.3969 / j.issn.1008-0821.2023.09.010
〔中图分类号〕G203 〔文献标识码〕A 〔文章编号〕1008-0821 (2023) 09-0111-13
大数据时代, 在线社交网络的发展加速了信息的传播, 也使得人们表达观点的方式与渠道更加便捷多样, 网络舆情作为发展的产物, 同样反映了公众的心声。同时, 互联网技术的发展使得当前数据获取十分便捷, 用户的信息与行为能够在社交网络中留下痕迹, 可以便捷地使用其中的数据来分析用户的行为, 分析舆情背后反映出来的问题, 帮助掌握信息传播的态势。因此, 研究影响在线社交网络中突发事件舆情信息传播规律的因素, 对于了解网络舆情传播的规律, 促进有利于社会稳定的舆情信息的传播是十分必要的。
然而, 现有研究多停留在针对传播模型或者预测模型的研究上, 对用户行为的研究始终处于被动的问题解决层面。如果在突发事件舆情信息传播过程中, 预测出一条信息或者一个事件出现后, 用户做出了什么样的反应以及信息的传播路径, 即可及时对该类用户进行定向引导。
本研究探索影响用户行为的多种因素, 针对用户交互行为构建预测模型, 并总结揭示用户对于突发事件舆情传播的行为规律。从理论意义上来说,反映了在线社交网络中用户交互、信息传播之间的联系和规律, 为互联网的舆论导向和舆论掌控提供理论依据。从现实意义上来说, 监控舆情并根据当前态势对信息进行分析, 既有助于提高政府的管理水平, 又可以帮助企业准确预见可能形成关注效应的商机或危机。因此, 对用户的交互行为进行分析与预测具备一定的前瞻性。
1相关研究
1.1舆情传播相关研究
舆情事件中信息传播预测是指获取相关数据,然后结合其他方法将已有的数据进行处理与分析,并通过获得的规律, 进一步预测未来信息传播的态势。下面将分别从研究目的和研究角度进行分析。
从研究目的来看, 现有研究多数利用社交网络平台中可获取到的大量数据, 通过大数据处理、文本内容分析、网络结构分析等, 获得热门话题、传播热度及传播效果等。如裴可锋等[1] 明确了话题序列具备非线性、时变性等特征, 提出了离散话题热度预测模型来预测话题的热度。刘超等[2] 在一项关于新浪微博中的“转发” 行為研究中, 对转发者与粉丝之间的关系进行了构建, 提出了基于“关注网络” 的转发预测模型。Zhang L 等[3] 主要研究了微博中广告类型的博文, 把微博传播的效果用快慢、深浅和广狭来表示, 构建了树形的传播模式, 最终得到的结论是广告类型和博文发布者入度和出度等对提出的3 个维度均有影响, 但效果不完全一致。
从研究角度来看, 国内外学者大都基于传播模型视角、复杂网络视角以及用户行为视角这3 个角度对信息传播情况进行研究。如Anderson R M 等[4]提出, 以SIR 模型为基础, 加入潜伏节点表示在某时刻潜伏者在网络中的比例, 该模型被称作SEIR模型, 使之更加符合现实世界中人们看到消息时会对传播信息有犹豫不定的状态。Liu Q M 等[5] 基于异质网络视角, 提出在SEIR 传播模型中接触到谣言的节点具有被删掉的概率, 总结了谣言传播阈值的计算公式, 对谣言的传播行为进行了动力学分析。Wu S M 等[6] 把推特平台的用户分为普通和精英两类, 对这些不同类型的用户进行了被关注程度、信息传播方向、信息热度等问题的探究, 结果发现精英更易被关注, 更能控制信息的传播方向。
由此可见, 国内学者大多以微博作为舆情传播研究的主要平台, 现在也开始逐渐拓展到微信公众号、抖音短视频等新的平台, 而国外学者大多以Twitter 作为研究舆情的平台, 同时也在扩展Face?book 等平台。现有研究多停留在针对传播模型或者预测模型的研究上, 对用户行为的研究尚处于被动的问题解决层面。
1.2用户行为预测相关研究
预测模型本质上是通过已有的数据去推测未知的或者未来某个时间的数据, 有助于揭示已知话题的内在规律, 并且能够为未来的决策提供依据。
研究发现, 从预测对象来看, 当前对于用户行为的研究一种是从用户群体角度进行研究[7] ; 另一种是从用户个体角度对用户传播信息的意愿进行研究[8] 。从预测方法来看, 当前对于在线社交网络上的用户行为进行预测的方法大致分为两种, 一种主要是通过构建传统的传染病模型, 大多用于对用户群体的行为预测, 结合仿真工具去模拟[9] ; 另一种是通过选择对应的特征变量, 结合机器学习相关算法构建或改进模型, 用于网络舆情中对用户转发信息行为的预测或者用于企业为用户选择推荐算法等[10] 。
当前对于用户信息传播行为的预测大多为二分类, 主要预测用户是否会对帖子进行转发, 在方法的使用上有所不同, 也都有各自的优缺点。支持向量机具有较好的泛化能力, 适用于小样本或者非线性数据的处理, 比较适合用于二分类, 多分类的运算较复杂并且误差较大; 神经网络能够处理十分复杂的非线性关系数据, 且学习能力强, 但是要注意参数的选取, 这对于学习过后的预测结果十分重要; 随机森林在处理大样本中具有一定优势, 但在某些噪音较大的数据分类问题上可能存在过拟合问题; 贝叶斯原理简单易懂, 能够增量式处理数据,但是无法处理特征组合的数据情况。
综上, 从用户行为视角做的研究多为转发这一个行为的预测, 也大都基于传统的传播动力学模型仿真的方法, 这都不足以反映用户行为。因此, 通过分析用户行为视角的舆情传播, 本研究认为, 用户的行为一方面受到用户个人的影响, 另一方面可能受到平台中其他各种属性的影响, 从而做出转发、点赞、评论3 种行为。对点赞、评论和转发的预测属于多分类问题, 在线社交网络中的网民用户数据量大, 多种特征指标可能会有权重的计算, 因此,用神经网络方法进行预测, 并辅以机器学习方法进行对比, 最终采纳更具有泛化能力的方法。
2用户交互行为预测模型构建
2.1模型构建与预测思路
本文模型构建与预测思路框架如图1所示, 主要包括用户行为影响因素理论基础、用户属性与交互行为分析、特征选取、预测实验与结果分析等过程。
1) 数据采集: 根据突发事件的相关定义, 结合事件的影响力, 选取事件, 并对其中做出交互行为的用户及用户属性数据进行采集。
2) 用户属性与交互行为分析: 主要研究点赞、转发、评论这3 种交互行为, 从地域分布、关注数、粉丝数和微博数等用户属性方面对做出交互行为的用户进行统计分析, 获取用户行为规律, 得到有效用户属性。
3) 用户兴趣倾向分析: 根据文献梳理得到在线社交网络用户行为影响因素, 并对用户标签属性进行采集处理, 采用LDA 算法进行兴趣主题聚类,得到用户兴趣指标。
4) 特征选取: 根据用户属性与交互行为统计分析得出的有效用户属性, 以及用户兴趣倾向分析得出的结果, 选取特征, 明确各特征内指标的含义和计算方法。
5) 预测实验: 实验首先进行数据的处理, 包括随机欠抽样、数据标准化、二级指标权重的计算, 接着采用BP 神经网络与随机森林两种方法进行预测, 得出BP 神经网络模型预测效果更优。
6) 结果分析: 使用BP 神经网络模型进行进一步的实验分析, 包括两类事件预测结果差异分析、预测失误分析、两类事件中用户行为类别及其特征表现。
2.2用户交互行为定义
一个复杂的在线社交网络中一定存在一张巨大的社交关系网, 而每个用户的社交关系网又是通过自己使用社交软件并在其中做出各种行为的基础上产生的, 其中包括人际信任关系、交互行为关系等,主流的用户行为如图2 所示。
从用户角度出发, 用户可能会产生一种组建或者加入某个团体的行为, 如喜欢某个明星或者网红的用户可能会关注博主的超级话题或者加入其粉丝群; 另外, 用户会主动去发布原创微博、从其他平台分享链接到新浪微博中或者发起直播, 这是用户表达态度、传播信息的一种方式; 用户与用户之间还会产生情感互惠的交互行为, 如A 对B 所发布的微博进行认同评论, A 为B 的微博增加了流量的同时, B也获得了情感上的认同。
本研究主要从用户与用户之间的关系和行为的角度, 對用户交互行为进行研究。旨在预测单个用户的具体行为, 而由于微博平台数据采集的局限性,浏览量数据无法具体到单个用户, 且做出交互行为过程中必然包含了浏览行为, 因此, 本研究的选取行为类型为点赞、评论、转发这3 种, 主要行为及其描述如表1 所示。
2.3数据获取
为了避免单一事件的特殊性, 本研究选择两种热度不同、类型不同的突发事件作为主体, 选择对这两类事件做出交互行为的用户作为研究对象, 分析做出不同交互行为的用户的特征, 包括对以点赞、评论、转发3 种行为进行突发事件舆情信息传播的用户进行对比, 得到在线社交网络中突发事件用户交互行为的相关规律, 将两种突发事件类型的相关用户行为与属性进行对比, 更加全面地分析突发事件的用户行为影响因素。
本研究结合突发事件的分类以及事件的影响力两方面, 综合考虑选取了发生于2021 年3 月15 日的#北京沙尘#事件(下文简述为“事件一”), 与2021 年3 月28 日的#山东发现1 例南非变异株无症状感染者#事件(下文简述为“事件二”)中做出交互行为的用户, 对这些用户的属性与交互行为进行统计分析以选取模型特征。其中, #北京沙尘#属于突发事件中的自然灾害事件, #山东发现1 例南非变异株无症状感染者#属于突发事件中的公共卫生事件。经调查发现, 新浪微博官方认证过的用户发布的帖文更容易产生信息的传播, 即用户的交互行为更多, 因此选择话题下被认证过的大V 用户所发表的热门帖子作为研究对象。经过筛选后, 事件一选择了“新京报我们视频”“王石”“沸点天际线” 发布的北京沙尘相关微博, 时间跨度为2021 年3 月15 日—4 月13 日, 事件二选择了“都市快报”和“你好泰安” 所发布的有关变异病毒的微博, 时间跨度为2021 年3 月28 日—4 月18 日, 将同一话题下热门微博的同一行为数量加和得到该类交互行为总数。为了避免个体样本产生差异, 所选话题事件中3 种交互行为任意一项用户量小于20 的微博均不考虑在内。
经调查发现, 新浪微博具有反爬虫机制, 点赞用户仅被允许查看一部分, 转发用户的获取过程中也会显示“由于部分用户进行定向转发, 你无法查看剩余转发内容” 这种警示话语, 评论内容可以获取到完整的信息, 评论数据是通过向下滑动而获得, 滑动至显示“查看更多”, 多次点击, 直至滑动到底部, 则会发现显示的评论数量指的是一级评论和二级评论的加和, 在此只考虑一级评论, 即信息的首次传播。在用户信息数据获取过程中还发现, 部分用户所发表的微博数量极高, 转发方式全部为一键转发, 不会发表任何观点和言论, 并且其转发间隔时间也相近, 经查阅发现, 这类用户属于“机器人”, 在预处理过程中将所有无法获取到的用户、“机器人” 用户、广告用户等全部排除在外, 不做分析。
截至数据采集当天, 所选事件话题的热门微博获得的做出交互行为的用户数量如表2 所示。
2.4用户属性—兴趣—交互行为分析
2.4.1用户属性—交互行为分析
1) 地域—交互行为分析
地域是影响突发事件传播的一个关键要素, 身处不同地区的用户对同一突发事件的关注度与做出的传播行为都会有差别。用户在注册时可以自主选择填写或不填写以及填写哪个地区。本文默认用户填写地区信息真实, 在此前提下进行地区分布的分析。
根据上述数据处理规则将地区数据做出统计,并且将事件一、事件二的地域分布情况作图, 如图3、图4 所示。
从图3 中可以看出, 对“北京沙尘” 事件微博博文做出交互行为反应的用户, 所在地比例差距较大。横向来看, 3 种行为地区分布综合比例最高的地区分别为北京、广东、上海, 综合比例最低的为贵州、澳门、青海。纵向来看, 转发用户的比例差距较大, 北京地区的转发比例高达27.00%, 而澳门地区用户转发比例为0.00%; 点赞用户的地区分布相对来说比较平均, 极差仅为13.20%; 评论用户的地区分布处于点赞和转发用户之间。
从图4 中能够看到, 3 种互动行为所占比例最高的都是山东的用户, 点赞行为中有超过一半都是山东用户, 而评论和转发用户分布相对较为平均。综合来看, 整体比例较高的地区除山东和海外以外, 还有北京、广东、江苏、上海; 除山东、北京和广东, 其他地区的用户做出的行为分布比较平均, 都在10%以内。
很明显, “北京沙尘” 这一突发事件发生在北京, 并且波及到了几个邻近的省市地区, 因此, 北京用户3 种行为的综合互动程度最高。点赞这一行为付出的行为代价是最低的, 各个省份的用户几乎都可以轻易对这一突发事件做出点赞的行为反应。由于“海外” 这一地点包括了除中国以外的所有国家和地区, 或者一部分人为了不暴露自己真正的地点而选择随意填写海外, 故以下分析均将其排除在外。
此外, 从图4 中可以看出, 除北京外排名前六的有广东、江苏、上海、河南、山东、河北, 对于评论行为, 排名前六的和点赞的城市完全重合, 但排名顺序有所差异, 转发城市在前五名的基础上新增了浙江省, 河北省排名第七位。统计发现, 以上城市或是发展较快的地区, 推测北上广的用户更加关注时事, 或是与北京的地理位置距离较近的地区,很可能为北京沙尘事件的见证者或者亲身体验者,更容易通过点赞和转发行为去为话题增加热度, 也对此更有发言权, 倾向于在评论区发表言论。
同样地, 南非变异病毒株样本是在青岛被检测出来的, 山东的用户对此事件反应较大, 对于点赞行为, 除了山东以外, 比例最高的省份有北京、广东、上海、四川、福建, 均是2020年人均GDP 排名前6 的省份, 可见同北京沙尘这一自然灾害事件一样, 身处经济发展快速的城市的用户行为比较活跃, 更容易对突发事件发表意见, 为事件增加热度。
综上, 热度高的自然灾害类事件中做出点赞行为用户主要分布在全国各地和事件发生地, 评论和转发行为用户主要发生在较为发达的地区; 热度低的公共卫生类事件中做出点赞行为的主要分布在事件发生地及其周边地区, 做出转发和评论的主要分布在发达地区。因而推测城市发达度和与事发地距离两方面可能会对用户传播信息的交互行为产生影响。
2) 活跃度—交互行为分析
在其他数据中, 用户在该平台内的关注数、发布微博数等属性也包含了用户行为的部分信息。关注是指用户在新浪微博平台中发出的一种主动行为; 发布微博是用户自主在该平台发表的个人观点或者对自己感兴趣的微博进行转发, 最终在个人主页进行展示, 并且能够被自己粉丝看到。本部分对这些数据进行统计分析。
做出交互行为的用户的其他属性分布情况均以气泡图的形式进行展示, 由于不同事件及不同行为间数据量差别较大, 故以区间比例的形式进行等比缩放后作图展现其分布情况, 其中, 纵轴表示3 种交互行为, 横轴表示做出行为的用户属性, 气泡大小表示该区间内用户占比, 并且其数据区间为左开右闭。
兩个事件的关注数情况如图5、图6 所示。对于两件突发事件而言, 事件一的关注数最小为0,最大为10000, 而事件二的关注数极差达到了20 000。由于微博机制的限制, 大部分用户的关注上限是2 000, 两个事件均有95%以上的用户关注数在2000以下。
将3 个行为分开来看, 进行点赞的用户关注的用户整体集中在300 以下, 说明发出点赞行为的用户并没有关注过多的上级用户; 做出评论行为的用户所关注的上级用户分布集中在500 以下, 比点赞用户的关注数量整体偏多, 而转发行为的用户比以上两行为所关注的用户又偏多一些, 表现为关注数超过1000的占比较大。
综上分析可以看出, 两类突发事件绝大多数用户的关注数集中在500 以下, 说明这些用户是真实的社交网络的活跃用户, 反而关注数太多的用户有“机器人” 的嫌疑。点赞用户、评论用户和转发用户所关注的上级用户呈现出递增趋势, 说明在用户互动方面, 点赞用户不是非常活跃, 评论用户的活跃度一般, 转发用户的活跃度最高, 关注人数整体偏多。
图7和图8展示了做出3种交互行为的用户自注册以来所发布微博数量的比例分布情况。可以看出, 两事件整体分布相似, 均是随着微博数的增加, 更易做出传播力度较大的交互行为。两事件在细分区间的分布上有些许不同, 如事件一的转评赞行为分布中, 分布小于等于100 条微博的用户和大于1 000条的用户几乎呈中心对称分布, 而事件二则是发布微博超过1 000条的用户整体多于小于等于100 条的用户量。
将行为分开来看, 发布微博数量小于等于100的用户更倾向于做出点赞和评论行为, 而微博数大于1000的用户则更倾向于做出转发行为, 其他发布量在100~1 000条微博的用户, 做出3 种交互行为的比例都较少。
根据统计分析可知, 事件热度会影响用户整体质量, 同时, 当用户极少发布微博时, 说明其整体行为活跃度都较低, 更容易做出传播力度较小的交互行为。而当用户发布微博较多时, 则更容易做出传播力度较大的行为, 这与关注数和粉丝数属性的分析结果相同并且表现更加明显。
3) 影响力—交互行为分析
粉丝数指的是用户在新浪微博平台中别人对自己的关注数量。用户在社交网络平台主动发布微博、参与话题讨论、与他人微博进行交互互动做出转评赞等行为之后, 会有和自己关注领域或者关注用户相似的其他用户与自己进行互动和关注。在微博评价机制中, 粉丝数在一定程度上代表了用户的影响力和受欢迎程度。本文对两事件的交互行为用户做出了粉丝数的统计分析, 如图9、图10 所示。
从图9、图10 可以看出, 两事件所涉及的交互行为用户整体比例均呈现“头重脚轻” 或者两边高中间低的形状, 即绝大多数用户要么粉丝数小于等于100, 要么大于1 000, 很少有粉丝数处于中间位置的用户。
但两事件所涉及的交互行为用户还存在一定的差别, 一方面在于粉丝数在1~100 之间的用户中,事件一的点赞用户最多, 评论和转发的用户几乎相同, 而事件二粉丝数在这个区间的用户从高到低分别是点赞、评论、转发; 另一方面在于粉丝数大于1 000的用户的分布, 事件一和事件二中的粉丝数小于等于100 的用户占比从高到低分别是点赞、评论、转发, 大于1 000的用户分布则与其完全相反。
由此可见, 对自然灾害类突发事件产生交互行为的用户, 甚至新浪微博中的绝大多数的用户, 粉丝量都较少; 公共卫生类突发事件的衍生事件由于没有受到足够多用户的关注, 导致粉丝质量参差不齐。
4) 用户属性—交互行为相关性分析
在广大用户群体中, 部分用户不屑于填写一些非必要信息, 昵称和个人简介是可能重复的文字信息, 并且若干官方媒体是一个集体而非个人, 因此, 不便于作为独有的特征进行分析, 不將昵称和个人简介作为用户属性继续进行后续的分析。由于微博平台数据采集的局限性, 是否与博主互粉等属性数据难以采集, 且事件话题下存在多条微博, 与某位博主互粉对整体事件互动行为研究影响较小,故不将互粉作为用户属性纳入后续分析。最后, 选择剩余的有效属性, 考虑交互行为内部有3 种类型的区别, 按照对微博的贡献程度, 将3 种行为按照点赞、评论、转发的顺序分别打上标签, 同时不包括随机选择的未对话题微博做出任何交互行为的用户, 此时得到的用户属性与3 种行为种类的相关性如表3 所示。
根据表3可以看出, 注册时间均与两事件的交互行为类型没有显著相关, 而其余用户属性均与交互行为类型呈现显著相关。具体表现为, 在两类事件中, 性别与行为类别呈负相关, 即男生更容易做出偏转发等传播信息的行为, 而非通过点赞去传播一条突发事件信息。关注数、粉丝数和微博数越多, 说明用户更容易做出对原微博贡献率大的行为, 即传播这一突发事件信息的概率越高。此外,与事发地距离越近、人均GDP 数字越大, 越容易传播信息。因此, 本研究将前6 个属性作为用户行为预测的备选特征。
2.4.2用户兴趣倾向分析
已有文献研究表明, 用户兴趣与其做出的交互行为间存在一定联系。席林娜等[11] 在基于计划行为的微博用户行为预测研究中指出, 用户兴趣是影响其转发行为的因素之一, 陈姝等[12] 研究得出,微博文本与用户兴趣的语义相似度对用户转发行为影响显著。赵丹等[13] 研究得出, 新媒体环境下的网络舆情传播在一定程度上符合兴趣驱动、兴趣衰减及周期性规律。考虑到用户历史文本内容所表现出的兴趣往往根据外界环境与自身情况的不同而变化, 而突发事件类的微博倾向于陈述客观事实和真实情况, 因此, 本文不考虑用户历史发表的文字信息与突发事件发博用户历史发表微博内容之间的相似程度, 而是考虑用户长期稳定关注的领域来体现用户兴趣, 在微博的用户信息中表现为“标签”。相关研究表明, 背景信息代表了用户的整体偏好,稳定且不易改变[14] , 且通过分析用户填写个人信息的行为特点与内容分布规律, 发现背景信息可以直观体现用户兴趣偏好[15-16] 。
在对标签进行采集和预处理后, 本文采用LDA(Latent Dirichlet Allocation)算法对填写了标签数据的用户进行兴趣主题的聚类, 采用困惑度作为选择最优主题的评价标准, 经过计算和实验发现, 确定5 个主题类别当作用户兴趣的指标, 得到每个用户标签属于某类主题的概率及主题下包含的关键词,其分类结果如表4 所示。
2.5特征选取与计算
根据文献梳理以及用户属性统计分析, 突发事件用户3 种交互行为的影响因素即预测模型的特征指标如表5 所示。
其中, 地域计算公式中α 和β 分别为地理距离和人均GDP的权重, 活跃度计算公式中θ 和γ 分别是被关注数和发微博数的权重。
3实验及其结果分析
3.1数据处理
针对2.3所示的两类事件中做出交互行为的用户数据集进行处理, 其中事件一做出行为用户总量为50 659, 事件二做出行为用户总量为9084。
1)抽样
由于不同类别的样本量的比例差距较大, 如事件二中转发数只有394, 而点赞数达到了8 077, 点赞用户大约是转发用户量的20倍, 为了避免因为样本的比例差距大而导致分类效果差的可能性, 本文使用随机欠抽样方法多次调整样本量的比例, 最终调至1∶14进行预测。根据新浪微博提供的主页信息, 可以获得的用户数据主要包括: 用户昵称、性别、个人简介、关注数、粉丝数、微博数、所在地、生日、注册时间、标签。结合选取的特征, 对采集的数据进行集成整理, 得到如图11 的数据。
2) 标准化与权重分配
之后, 对集成数据进行统一处理, 得到标准且可用的数据, 具体处理方法主要包括数据标准化和权重计算两部分。其中, 数据标准化采用log法,权重计算采用熵值法, 公式分别如式(1) ~ (3)所示。
对两事件分别按照以上步骤进行计算, 为了令其适应全部的突发事件, 将结果进行平均, 最终得到地域指标及活跃度指标的权重结果, 如表6所示。
3) 处理结果
将数据预处理后的两个事件的用户信息分别存储在两个表格文件内, 部分数据组成如图12所示。
3.2实验过程与设计
为保证模型效果评价的准确性与科学性, 实验针对两组突发事件分别进行BP 神经网络预测模型与随机森林模型的预测, 根据模型中的用户属性来预测做出点赞、评论、转发3 种交互行为的类别。
在BP 神经网络实验中, 输入层为5 个节点,分别是性别、影响力、活跃度、地域指数、兴趣类别, 对应数据中的第2、3、4、5、6 列, 输出层为3, 分别为点赞、评论、转发这3 种行为种类, 对应数据最后一列, 但在神经网络构建时修改为100、101、001 代表用户交互行为的3 个类别, 构建出预测网络。根据经验公式算得初始单层隐藏层节点数设为23, 将学习率设为0.005, 最大迭代次数设为500, 隐藏层和输出层的激活函数分布采用Tansig 和Logsig 函数。
在随机森林实验中, 随机抽取80%样本作为训练集, 剩余样本为测试集。使用RandomForest?Classifier 分类方法进行分类, 为了避免3 类行为的样本分布不平衡而对结果产生不利影响, 使用class_weight = ‘balanced 增加样本少的类别的权重。同时, 为了获得效果最佳的模型, 采用网格搜索法进行交叉验证来获得最优超参数, 最终得到n_estimators为150, max_depth 为9 时, 参数最优。
由于样本是随机根据比例进行选择的, 每次实验所得结果略有差别, 故采用进行多次实验取均值的方式得到预测结果, 最终根据公式计算得到两个事件的精确率和宏平均的对比, 如表7 所示。
從表7 中可以看出, 两种预测方法均具有不错的分类精度, 但从整体结果来看, BP 神经网络模型在两类突发事件用户行为中的预测结果略优于随机森林模型, 这是因为预处理后的特征值多为连续值而非离散值所导致的, 并且在实验中随机森林交叉验证较为耗时。所以, 在同样样本量的情况下,本研究认为BP 神经网络具有更好的泛化能力, 由训练数据集训练得到的预测模型也能很好地适应测试数据, 加之在未来随着在线社交网络用户群体更加庞大, 预测数据量也将更大, 故认为BP 神经网络是更适合的突发事件用户交互行为预测的模型。
3.3实验结果分析
为了进一步探究3种用户传播信息行为各自的预测情况, 本文基于BP 神经网络对用户传播信息行为类型具体预测结果进行了分析, 结果如图13、图14 所示, 可以看出, 3 种行为预测结果略有差别: 事件一除转发行为外, 其余行为的精确率和宏平均F1 值整体都略低于事件二的预测结果; 做出评论行为的用户的预测结果较为平稳; 做出点赞和转发行为的用户的预测准确率有所波动。
事件一和事件二之间预测结果存在偏差的原因主要是事件类型与事件热度的不同: 事件一属于热度高的自然灾害类事件, 做出3 种交互行为的用户量大, 导致了参与预测的样本量较大且不同用户之间的特征差异小; 事件二属于热度较低的公共卫生事件, 做出3 种行为的用户之间的特征区别度较大,这两个原因导致了两类事件用户群体的来源差异,因此, 事件一整体预测效果略差于事件二。
本文对两类事件预测正确的和预测错误的数据分别整合对比, 得到了不同交互行为的不同表现,并且总结了其中的原因, 主要有以下几点:
3.3.1第一类事件的实验结果分析
1) 事件一的评论和转发行为预测具有较好的效果, 而点赞行为的预测效果相对较差。经分析发现, 事件一话题在当时一段时间内热度很高, 尤其是该话题曾经位于“微博热搜榜”, 各类用户浏览到信息的可能性都比较高, 习惯于通过热搜榜来关注热点话题的用户都为此贡献了一定的点赞量。从用户属性—交互行为的统计分析结果也可以看出,其点赞用户的地域分布较为平均, 表明来自全国各地的不同比例的用户都对这一个事件做出了点赞行为, 并且由于北京既是事件突发地, 又属于经济发达地区, 导致地域指标出现一定偏差, 进而对结果产生了一定影响。
2) 对预测分类的结果进行比较分析发现, 评论与转发行为预测错误的原因可能在于部分评论用户和转发用户存在重合的情况, 微博在评论时有“同时转发” 的选项可以勾选, 在转发时有“同时评论” 的选项可以勾选, 导致训练集中存在指标完全重合的样本, 最终导致测试集的评论和转发数据中有部分用户互相预测错误。如用户“今日黄村”实际做了评论行为, 但最终结果把其预测为做出转发行为, 调查后发现, 该账号对话题微博的评论内容为“转发微博” 4 个字, 如图15 所示, 说明他并没有对该话题产生有用的评论, 只是转发时勾选了“同时评论” 的选项。
3.3.2第二类事件的实验结果分析
事件二点赞和评论行为预测具有较好的效果,而转发行为的预测效果相对较差。经分析发现, 事件二做出转发行为用户中有很大一部分账号用户相对其他用户属性有些偏离, 如图16 和图17 所示,类似“襄阳旅游” “襄阳校园” 等账号, 日活跃量偏高且账号之间的相似度较高, 其虽然对该突发事件的关注度及关联度不高, 但存在抱团“蹭热度”“蹭流量” 的嫌疑, 导致事件二转发用户中多了一部分偏离模型的属性, 进而使得预测结果出现了一定的偏差。
3.3.3行为类别及其特征表现
对预测正确的各行为中的用户属性进行对比,总结发现, 在热度高的自然灾害类事件和热度低的公共卫生类事件中预测正确的样本中, 对突发事件做出传播的各交互行为所具备的条件如表8 所示。
4结论与展望
本文对在线社交网络中突发事件用户行为提出一种预测模型, 基于文献得出在突发事件中的用户行为影响因素, 结合突发事件用户行为统计分析所得出的结论, 根据用户的特征属性来预测可能做出点赞、评论、转发的信息传播行为类别。为体现突发事件特殊性, 本文将性别和地域指标(与突发事件事发地区的距离和人均GDP)、用户活跃度(关注数和微博数)和影响力(粉丝数), 以及兴趣主题作为预测模型中的重要指标。最终对两个事件分别进行了预测、结果评价以及结果分析, 实验结果显示, BP 神经网络预测效果更优, 与类似研究和预测模型相比, 预测结果在两个不同事件中均体现出较好的准确性, 同时也验证了模型的有效性, 总结了突发事件中做出3 种交互行为的用户属性。
本研究的预测模型具有一定解释意义与可行性,但仍存在局限。首先, 本文仅用两个事件来说明预测方法的可行性, 在统计学方面意义不足; 其次,由于微博平台数据采集的局限性与不确定性, 模型包含的用户属性有限, 未考虑到用户互粉、兴趣真实性等情况。未来研究一方面可通过增加实证案例来提升统计学意义, 提升方法可行性信服度; 另一方面可以依靠更庞大的数据库, 完善数据处理层面, 增加预测过程中的特征变量, 从而实现更精准的预测。