基于URL和PageRank的公安舆情关键人物评估

2019-03-16 08:46张俊豪
铁道警察学院学报 2019年5期
关键词:公安舆情影响力

张俊豪,李 杨

(铁道警察学院 图像与网络侦查系,河南 郑州450053)

随着计算机、互联网技术特别是移动终端技术的快速发展,社交网络已经成为人们线上交流、获取信息、发布信息的一个重要社交平台。社交网络带给人们便利的同时,也给公安舆情的引导和治理提出了很大的挑战。在公安网安部门进行舆情治理过程中,面临的主要问题就是技术手段单一、决策不够科学化。本文所提出的基于URL 和PageRank 的公安舆情关键人物评估算法(Keyman Assessment Based on PageRank and URL,KA-PU),就是根据社交网络中真实的舆论消息传播走向确定某一公安舆情中最关键的核心人物,进而为公安网安部门提供理论指导和技术支持。

一、研究综述

评估公安舆情内关键人物的话题影响力属于社交网络的研究范畴,类似于社交网络中用户影响力的划分。近几年,人们对用户影响力的研究主要集中在Facebook、Twitter、新浪微博、贴吧、人人网以及微信等[1],目前我国的公安舆情监控的重要领域也主要集中于此。

(一)国外研究综述

国外对用户影响力的研究主要集中在用户行为分析、用户交互信息分析以及时间度分析三个主流层面上[2]。

国外最初通过用户的好友数量进行划分用户影响力等级,比如Java 等人最初就是通过用户的粉丝数目来决定用户的影响力[3]。但是随着社会各界重要人物的加入,研究者开始意识到,仅仅依靠粉丝数量衡量用户影响力是远远不够的,比如Kwak等人研究发现,社交网络信息的发酵和传播与用户的粉丝数并无直接的关系,即单靠粉丝数量一个维度衡量用户影响力是没有说服力的[4]。2000 年之后,由于各类学科的大融合,部分研究者开始利用人类行为学分析用户行为(发帖,转帖、评论等),以此得到用户影响力数值,并取得了很好的成效,基于用户行为分析的用户影响力,不仅能够衡量用户的局部影响力,还能够衡量用户的全局影响力,此种研究方法一直沿用到现在,并受到广泛的推崇。用户行为数据的来源非常广泛,其中网络爬虫是最主流的一种方式,另外网络日志也是重要数据来源,Goyal通过用户的日志信息划分各种行为对用户影响力的贡献比重,进而衡量用户影响力[5]。Cha等人从微博用户的粉丝数、微博转发数以及用户提及数三个方面衡量用户影响力,最终发现微博转发数是决定微博用户影响力的最为关键因素[6]。Ye 等人在Cha的基础上细化用户的行为,主要包含评论、转发、回复、提及等等,并进行逐一分析,运用不同的模型得出结论:评论是衡量微博用户影响力的关键因素[7]。Bakshy E等人根据路径追踪的方法提出了一种URL 追踪的用户影响力评估模型[8]。Tang等人根据图论等知识,计算出了微博用户的话题影响力,主要衡量用户在以特定话题下的局部影响力[9]。Agarwal等人分析了用户的博文,并根据博文的传播质量和内容属性评价某一博文的重要性,进而挖掘出社交网络中的“意见领袖”,之后结合用户的行为特征以及博文的综合影响力得到用户的影响力范围[10]。Romero 根据用户之间的微博转发率提出一种新颖的用户影响力评估方法——IP-influence[11]。由于社交网络的时间属性,即用户的影响力会随着时间的推移而改变,所以国外的很多学者在研究用户影响力时将时间作为一个重要参数,比如Alsaedi等人将时间维度加到TF-IDF 方法中来自动提取Twitter摘要,然后对结果进行评估[12]。Steeg根据用户之间的交互信息以及演化过程找出了隐藏在社交网络中真正的“大V”[13]。

(二)国内研究综述

国内对用户影响力的研究基本都出现在2006年之后,主要集中在PageRank算法、用户行为、多学科融合等领域内,并在近两年趋于成熟。基于PageRank 的微博用户力研究模型是其中最早的一种评估模型,杨科根据PageRank算法提出了用于识别微博网络领导小组的LeadersRank 算法,该算法能够识别一组重要的微博用户[14]。李军等人根据微博的特性,提出了一种可以衡量用户传播能力的用户影响力评估模型[15]。丁温雪等人为了避免出现PageRank 算法中存在的主题漂移现象,提出了TSPR算法,该算法引入时间因子,并采用TF-IDF方法计算微博用户之间的相似度,大大提升了微博用户排名的准确率[16]。Zhai等人在微博用户行为关系的基础上,根据PageRank提出了一种微博用户影响力评估算法[17]。毛佳昕等人根据用户行为之间的关系提出了一个能够预测用户影响力大小的分析模型[18]。在国内,随着大数据的出现,多学科开始不断融合,国内的学者开始将社会学、心理学等各方面的知识运用到社交网络上,比如肖云鹏等人根据动力学模型和传染病模型提出了一种新型的用户影响力评估模型[19]。王楠等人根据区域交互模型提出了一种新型的用户影响力评估模型[20]。唐昌宏等人根据张量分解算法提出了一种影响力用户识别算法[21]。

以上用户影响力评估模型都可用于分析计算用户的影响力,但是都没能从宏观的角度考虑用户之间的关系,所以缺乏一定的准确性。本文将从舆情消息的传播路径出发,建立涉警舆情用户的消息转发网络,并在此基础之上更新用户关系网络,真正衡量用户在某一话题下的用户影响力。

二、PageRank算法简介

PageRank 算法是谷歌的核心算法,主要是为了解决网页排名问题,通过网页之间的链接关系,建立马尔科夫矩阵,再经过不断地迭代计算得到网页权值的大小排名,权值越大,网页就越重要。PageRank算法的核心思想主要有以下两点[22]:

(1)网页的链入链接越多,网页越重要;

(2)网页若被某一重要的网页所指向,那么该网页也很重要。

PageRank的计算公式如公式1所示:

公式1 中,e 为单位矩阵,P 代表网页的权威向量值,d 代表阻尼系数,B 是根据网页的链接关系得到的转移矩阵。

三、基于URL和PageRank的关键人物评估分析

通过层次分析法统计分析用户的几种网络行为可知,在公安舆情网络中,真正影响话题发酵程度的核心因素是用户的转发行为,因为转发是话题扩大影响的最根本途径。因此,在考虑公安舆情内的用户话题影响力时,就需要通过消息的流向分析用户的真实转发网络。

(一)微博用户之间的真实网络

通过公安舆情消息的转发网络确定关键人物的话题影响力时,不仅要考虑消息传播的广度,也要考虑消息传播的深度。如图1 所示,其显示的是公安舆情内某一特定消息的转发传播路径。

图1 微博消息的转发路径

在图1 中,假设共有用A、B、C、D、E、F 六名用户,其中箭头指向代表着舆论消息的流向,从图中可以看出,舆论消息以A用户为源头,经用户B、D、E转发,流向用户F。直观地看,用户F是直接深受用户E的影响,但是根据社会学中的行为动力学,用户F 转发该条舆论消息其实是受用户E、D、B、A 共同的影响,只不过每个用户对用户F 的实际作用力有所不同,这就是社交网络中的蝴蝶效应。

在利用PageRank 评估网络用户的话题影响力时,首先要确定的就是用户的网络关系图,图1是六名用户的消息转发关系图,根据行为动力学可知,通过这种网络关系简单得到的用户影响力是不够准确的,比如在计算用户的话题影响力时,根本就考虑不到用户F 对用户A 的影响,所以在评估用户的话题影响力时,需要建立真正的用户网络关系图。

为突出用户之间的关系,可以把所有用户的“间接关系”变为“直接关系”。如在图1 中,称A→B→D→E→F 为某一特定消息传播的一条URL 路径,这条URL路径上的所有用户都是有“直接关系”或者“间接关系”的,把所有的“间接关系”变为“直接关系”后,图1中六名用户的真实关系将如图2所示。

图2中,实线箭头代表网络用户原始的“直接关系”,虚线箭头代表将“间接关系”转换后的“直接关系”,如用户B指向用户F代表着用户F在接受特定消息时,用户B 起到了桥梁作用,即根据PageRank算法思想可知,用户B的话题影响力受用户F的“间接”影响。在A→B→D→E→F 这条URL 路径中,原本只有4 条用户关系,经转发关系调整后,有10 条用户关系,不难发现,若存在着一条由N名用户组成的消息转发路径,那么存在的“直接关系”和“间接关系”则共有C2N条。

图2 微博用户真实关系网络图

(二)用户之间的影响力分配

在公安舆情网络中,用户的话题影响力是靠消息传播的广度与深度决定的,所以用户的话题影响力将由消息传播路径上的所有用户共同决定,即舆论消息的传播意味着影响力的传播。

由图2 可知,用户的真实网络关系图是由用户的“直接关系”和“间接关系”组成的,虽然“间接关系”也影响着用户影响力权值的分配,但是作用力却不同于“直接关系”。在图2中,用户F转发用户E的微博消息,那么用户F 不仅对用户E 的影响力有所影响,更对用户A、B、D 的用户影响力也有所影响,因为用户A、B、D、E、F 同处于一条URL 路径之上。根据行为动力学以及舆论消息的作用力可知,在舆论消息传播过程中,随着传播深度的增加,消息的反馈作用力会逐渐减弱,即用户F 对用户A 的影响力贡献值要远远小于对用户E的影响力贡献值。

在舆论消息的传播路径URL中,后面用户对前面用户的影响力贡献值会随着关系介数的增加而逐渐减小,其中衰变因子为α,本文根据行为动力学和层次分析法将衰变值α定为0.5。比如在图2中,用户F对用户E、D、B、A的影响力贡献值会依次减半。

根据用户的真实网络关系图以及微博消息的传播路径URL,可确定用户影响力的权值分配比例因子,即如公式2所示:

公式2 中B(u,v)代表用户u 贡献给用户v 的话题影响力分配比例因子,n代表最开始节点到节点u的URL 路径长度,(u,v)代表用户u 到v 的路径长度。比如在路径A→B→D→E→F中,用户F贡献给用户A的话题影响力分配比例因子为公式3所示:

同理,用户D 贡献给用户A 的话题影响力分配比例因子为公式4所示:

值得注意的是,本算法还能有效剔除“僵尸粉”对用户话题影响力的影响,因为本算法中用户真实网络结构是根据用户的消息转发关系确定的,并不是通过关注关系得到的。

(三)算法核心

基于URL 和PageRank 的算法核心可总结为如下两点:

(1)用户的舆论消息传播的广度越大,用户的话题影响力就越强;

(2)用户的舆论消息传播的深度越大,用户的话题影响力就越强。

故本文KA-PU算法的核心可用公式5表示:

公式5 中,KA-PU(v)代表用户v 的话题影响力,B(u,v)代表舆论消息的转发者u 贡献给用户v的影响力分配比例因子,B为KA-PU算法中的转移矩阵。URL(v)代表以用户v 为起始节点的舆论消息传播路径上的所有节点集合。

综上所述,KA-PU的核心算法如表1所示:

本算法中,根据Google 给出的阻尼因子d,取值为0.85,根据PageRank 迭代60 次与59 次的权值阈值差值,ε取值为0.0001。

四、实验及结果分析

(一)实验数据说明

本文的实验数据来自于新浪网微博2018 年10月份的一个20人社区,话题为辽宁两名重刑犯脱逃案件,本次公安舆情在该社区内共出现了有代表性的10条微博消息,产生了856条“间接关系”。

表1 KA-PU算法

(二)实验对比算法

本实验采用PageRank 和基于用户的粉丝数衡量关键人物评估算法(Keyman Assessment Based on the number of User’s Fans,KA-UF)作为对比算法,进行综合的分析比较,采用P@N 作为实验分析指标,衡量KA-PU 算法的准确性,P@N 的计算公式如公式6所示:

公式6 中,AN∩BN代表算法A(B)得到的前N 名用户话题影响力的交集量,通常关注的是比较靠前的用户排名,所以本文N的取值分别为5,10,15。

(三)实验结果分析

采用KA-PU对用户的话题影响力进行排序,最终的排序结果如图3所示。本文中每一条微博都会产生一个话题影响力,最后将10条微博的话题影响力进行加权融合得到最后的话题影响力,具体参数由层次分析法确定[23]。

图3 KA-PU排序结果

采用PageRank对用户的话题影响力进行排序,排序结果如图4所示。

图4 PageRank排序结果

采用KA-UF对用户的话题影响力进行排序,排序结果如图5所示。

图5 UIA-UF排序结果

从上面三个实验结果来看,KA-PU排序结果与PageRank的排序结果具有一定的相似性,但与KAUF排序结果看似完全不同。

若以UIA-UF为基线模型,以PageRank和KA-PU为对比模型,那么对比模型所得结果在P@N指标下的表现如表2所示。

表2 以KA-UF为基线算法的P@N值测试结果

若将PageRank 为基线模型,以KA-UF 和本文的KA-PU算法为对比模型,那么对比模型所得结果在P@N指标下的表现如表3所示。

从以上两表中可以看出本文的KA-PU 算法在准确性上都有所提升,并且通过具体的分析可知本文算法与对比算法的调整幅度非常大。这可以得出两个结论:第一,PageRank 与UIA-UF 更为相似;第二,KA-PU比两个对比算法都准确。

表3 以PageRank为基线算法的P@N值测试结果

在KA-PU 中,粉丝最多的ID18 用户排名第4位,在PageRank中排名第10位,这说明了在KA-PU算法中,仅仅依靠粉丝数量并不能准确发现关键人物。另外,在PageRank算法和本文的算法中,ID4的排名都是第1 位,主要是因为在PageRank 算法中ID4用户的粉丝影响力较高,粉丝数也较多,而在本文的算法中,ID4用户的特定舆情消息(包含转发的舆情消息)在传播的广度和深度上都比较大。在PageRank 中,ID7 用户排名较为靠后,这是因为ID7用户的粉丝影响力都不强,而在本算法中,排名较为靠前,这是因为ID7 用户的粉丝以及粉丝的粉丝等转发了用户ID7的8条消息,类似的还有ID5用户等。通过本算法可确定在本次公安舆情中,ID4 和ID7为最关键的核心人物。

从上面的分析可得知KA-PU 算法能够从消息传播的角度全面衡量用户的话题影响力,结果更具有说服力。

KA-PU 算法能够为公安网监部门在舆情导控中提供建议,比如在进行舆情监控时,可根据该算法确定影响公安舆情发展的关键人物,并对其进行实时监控,另外通过本算法可以提取出公安舆情传播的主体框架,借此,可对舆情的下一步发展以及舆情的导控做出科学的判断。

五、小结

本文提出的基于URL和PageRank的KA-PU算法,能够根据实际的舆情消息转发路径确定用户之间的“间接关系”,并以此衡量公安舆情中关键人物的话题影响力,同时也能够很好地避开“僵尸粉”的影响。实验结果证明KA-PU具有更高的准确性和更好的说服力,能够为公安舆情管控提供决策支持。

猜你喜欢
公安舆情影响力
博物馆:上海公安史图片展
“疫情当下,我们上前”——抗击新冠肺炎战“疫”中的港航公安掠影
Frequent attacks on health workers in China: social changes or historical origins?
天才影响力
“10岁当公安”为何能畅通无阻
数字舆情
数字舆情
黄艳:最深远的影响力
消费舆情
3.15消协三十年十大影响力事件