余 韦 朱梦丽 李红岩 余 娜 李晓明 杨小平
(浙江越秀外国语学院国际商学院 绍兴 312069)
近年来,复杂网络科学相关理论广泛应用于解决社会复杂系统中的各类问题,如城市道路交通拥堵疏通[1]、病毒或谣言传播控制[2]、个性化推荐[3]、情报分析[4]等。面对这些实际问题,复杂网络科学的有效性越来越得到体现,尤其在情报分析领域,如重点人员识别[5]、关系预测[6]、行为预测[7]、异常检测[8]、事件检测/预测[9]等。其中,迈阿密大学Wuchty教授团队[4]研究发现叙利亚科巴内遭遇恐怖突袭事件与巴西爆发大规模抗议运动事件在发生的当天均导致社交网络社区演化发生突变。其工作的亮点是基于人的关系挖掘出关于事的情报信息,从网络分析层面指出了遏制恐怖主义发展的方法,为反恐人员指明了情报分析研究方向。同时,证实了复杂网络分析方法可有效解决社会复杂系统中的事件检测问题,为情报分析方法提供了可靠的思路。
在现实生活中,很多情况下所能获取的数据往往只是简单描述人类行为的关系型数据(如社会网络),并不能洞察其中的异常行为,这给情报分析工作带来了巨大挑战。例如,公安机关所能获得的手机数据,往往只包含用户之间的通信关系信息,即使犯罪分子之间发生异常通信行为也难以发现。而社会网络可表征着现实生活中复杂多变的关系型数据,基于复杂网络分析方法研究社会网络的内在结构,挖掘社会系统中的情报信息,是目前复杂网络应用研究领域的重要研究方向[10]。其中,尤为令人期待的是,如何基于动态复杂网络[11]分析方法,探究社会复杂网络演化模式,发现真实事件发生征兆,追踪事件演化趋势,以获得事件的重要情报信息。这些情报信息一方面有助于相关职能部门及时有效地掌控事件发展态势,另一方面可辅助决策者进行信息不完备情境下的战略决策。
据此,本文面向社会复杂系统中的情报分析场景,关注于复杂网络动态演化分析下的事件检测应用,挑选两个典型真实场景下的动态社会网络,基于前沿的动态社区演化模型展开了事件检测实证研究。具体地,爬取主流社交媒体平台中的非结构化数据,抽取社会复杂体系中实体间的复杂关系,构建动态社会网络。进一步,应用动态社区演化模型,分别基于“美国Enron公司破产”与“‘司马3忌’举报韩红基金会”典型场景下的动态社会网络,挖掘社会网络社区演化模式,并分析社区演化突变与其背后真实事件的对应关系。
大量复杂网络分析方法,如关键节点识别[12]、链路预测[13]、异常检测[14]、社区检测[15]等,成功应用于各类情报分析问题,有效促进了情报分析的发展。本节主要针对复杂网络分析在情报分析问题中的应用研究展开综述性介绍。
关键节点识别的方法能够根据复杂网络拓扑结构,挖掘出其中具有重要作用的节点,通常被应用于挖掘社会复杂系统中具有关键作用或重要影响力的个体或群体等。例如,Taha等[5]基于移动通讯网络识别出犯罪团伙中核心人物;Ozgul等[16]基于恐怖组织网络识别出其中关键成员;Bright等[17]基于多关系网络识别了毒品交易网络中的重要人员;Hung等[18]基于社会网络识别出具备重要传播影响力人员;Yu等[19]基于社会网络识别出贡献最大的领导者。链路预测的方法能够根据现有的网络结构,预测缺失或未来的链接,通常被应用于预测实体间存在的隐藏关系或是即将产生的关系。例如,Lim等[20]面向犯罪人员网络,基于前沿的深度强化学习方法提出了链路预测模型,预测出了犯罪人员隐藏关系;Hu等[21]首次从链路预测的角度提出了一种混合量子群智能索引方法(HQSII),有效地融入了网络节点演化信息,实现了情报分析中的事件检测。
异常检测的方法通常是针对网络结构信息,以发现网络中的异常节点、异常子图或异常演化等,通常应用于情报分析中的事件检测、异常群体发现、异常个体识别等。例如,Moriano等[22]通过研究动态社区之内和之间的节点演化规律,发现其中演化异常以检测动态过程中的事件;Neil等[23]基于扫描统计量的方法在线检测流量信息结构的异常,发现网络入侵者。
社区检测的方法通常基于网络拓扑结构信息,发现具有内部链接紧密外部链接稀疏的子图,通常应用于发现具有相似属性的群体。例如,Liu等[24]发现各个科研方向的研究群体,并可追踪其演化规律,把控科学研究的发展方向,预测科研方向的发展趋势;Johnson等[4]基于社交网络,发现恐怖组织在线支持者群体,进一步分析其演化规律,有效地支持恐怖事件检测。
2.1事件描述为了介绍本文实证研究的事件背景,本节针对本文所研究的两类事件中的两个典型真实事件展开了详细调查,具体描述如下:
2.1.1 Enron公司破产事件 美国Enron公司曾是世界上最大的能源、商品和服务的公司之一,名列《财富》杂志“美国500强”的第7位。然而,2001年12月2日,Enron公司突然向纽约破产法院申请破产保护,该案成为美国历史上企业第二大破产案。为了证实本课题提出的动态社区演化模型在情报分析方面的有效性,面向Enron公司员工的真实邮件通讯网络—Enron-Email,通过动态社区演化模型检测Enron-Email网络的动态社区演化过程中的演化模式,以检测演化的异常时间点,并验证Enron公司在异常时间点的发生重大事件。
2.1.2 “司马3忌”举报韩红慈善基金会事件 2020年2月,网名为 “司马3忌”(真名:杨宏伟)的大V在新浪微博上公开举报韩红慈善基金会存在私自接收民众善款的行为,在网上引起热议。截止2月19日,“司马3忌”一共写了《明人不做暗事》等16篇文章,炮轰韩红基金会“完全不透明”,声称“在韩红的基金会信息公开层面,别说你找不到一包方便面,就是捐进去一头大象,你也别想找到”。对此,网民们也众说纷纭,很多举报支持者与反对者,在网上掀起了舆论的热潮。对此,我们爬取了关于“‘司马3忌’举报韩红慈善基金会”事件的腾讯微博帖子,构建了微博转发网络、评论网络以及点赞等动态网络,并基于本文提出的动态社区演化模型,挖掘了动态网络的动态社区结构及演化模式,发现了舆论中话题的演化过程,并证实了社会网络结构演化突变的驱动力来源于背后的真实事件。
2.2数据描述针对以上两个真实事件的实证研究需求,收集对应事件的数据集,并构建相应的动态社会网络。相应数据集具体描述如下:
数据 I:针对Enron公司假账被调查之后,联邦监管委员会公布了Enron公司的大量电子邮件[22],包括184名公司员工在1991年1月1日至2002年4月30日期间的125 000封电子邮件数据。本节以Enron公司2001年中12个月的邮件数据,以公司员工为节点,邮件通信关系为边,1个月为时间间隔,构建了动态通讯网络为实例,基于ONMF-EEP模型进行动态社区挖掘,并检测背后的演化异常时间点。如图1所示,给出了2001年10月份Enron公司的网络结构及社区划分的可视化图。从图上来看,该网络快照具有14个社区结构(不同灰度代表不同社区),且图中圆点的大小代表节点的节点度的大小。
图1 2001年10月份Enron公司邮件通讯网络结构及社区划分的可视化图
数据 II:针对新浪微博热点话题——司马3忌举报韩红基金会事件,爬 取了2020年2月6日至2020年3月2日 (共计26天) 的新浪微博相关发帖数据,共涉及13 780条微博发帖数据文件,包括原帖数据、转贴数据、评论数据以及点赞数据。数据中,主要字段包括:a.微博链接、发帖时间、发帖内容、用户id、用户昵称、转发数量、评论数量、点赞数量;b.转贴时间、转贴用户id、转贴用户昵称、转贴内容;c.评论时间、评论用户id、评论用户昵称、评论内容;d.点赞时间、点赞id、点赞用户昵称。其中,遴选出9868条高质量微博帖子的相关数据,涉及微博用户共计8 099个账户,涉及关系类型包括转贴、评论、点赞3类,共计54 692条关系记录,其中转贴、评论、点赞分别为:13 115,15 241,25 835条记录。
表1 主要符号说明
本文选取前沿的动态社区演化模型框架ONMF-EEP[25],进行真实事件场景实证研究。具体地,ONMF-EEP模型假设动态社区结构每对相邻快照间各服从一种局部演化模式LEP,而所有快照间隐藏着同一个全局演化模式GEP。根据该假设,ONMF-EEP可构造为以下两步(见图2):
图2 ONMF-EEP模型框架示意图
步骤1: LEP提取。使用扩展的ONMF,在正交约束下H(t)TH(t)=I,获得每个网络快照的低维表示H(t)。同时,基于演化聚类[19]的思想结合K×K维的LEP表示矩阵序列Z(t-1)(t=2…T)用于刻画社区演化光滑约束。
步骤2: GEP提取。为了获取动态网络隐藏的GEP,融合步骤获取的各快照LEP表示矩阵序列,使用ONMF模型提取一个全局共享GEP表示矩阵Z。
方法的核心思想是最小化Z和每个Z(t-1)的距离和。以下选用正交SymNMF(ONMF)为例拓展到ONMF-EEP模型,用于动态复杂网络中的社区演化建模。根据文献[25],基于梯度下降的优化方法,可得步骤1中模型的优化规则为:
(1)
Z(t)←H(t)TH(t+1)
(2)
其中,α是平衡参数,通常基于重复实验的经验以获得较优参数。同理,基于梯度下降的优化方法,可得步骤2中模型的优化规则为:
Z←Z⊙
(3)
其中,β是平衡参数,同样基于重复实验的经验以获得较优参数。
具体地,参照模型ONMF-EEP,设置方法输入为:动态网络邻接矩阵A(t)(t∈[1,T]);参数设置α=10和β=0.4;社区个数K设置为N/8取整。ONMF-EEP的输出包括社区局部演化矩阵式Z(t)、社区全局演化矩阵Z、社区隶属度矩阵H(t)。基于公式
(4)
解析H(t)以获得各个快照的节点社区标签向量C(t)(t∈[1,T]),即实现动态社区发现。然而,Z(t)和Z分别表示局部演化模式和全局演化模式。因此,根据等式
(5)
可得表示社区结构演化强弱得指标D(Z(t),Z)。
另外,考虑到网络演化不但包括本文所关注的社区结构演化,而且包括整体的拓扑演化,如网络度的演化。据此,构造一种综合的网络结构演化强度指标(Evolution Weight, Ew),具体定义如下:
Ew(t)=σ·norm(D(Z(t),Z)+(1-σ)·norm(Dnet)
(6)
式中norm(·)表示归一化,D(Z(t),Z)是社区演化强度指标,Dnet则是网络的平均度,且σ表示比例参数(默认设为0.5)。
本文针对真实社会复杂系统中的两个典型场景,构建了对应的动态社会网络,应用本课题的动态社区演化模型挖掘了隐藏在事件背后的动态网络社区结构演化模式,验证了社会网络演化突变与真实事件发生的对应关系。本节具体描述实验过程,展示了实验结果,并进行相应的讨论分析。
3.1场景一:美国Enron公司破产案为了证实ONMF-EEP模型在情报分析方面的有效性,面向真实世界的邮件通讯网络数据(见数据I),构建了动态邮件通讯网络,通过ONMF-EEP检测Enron-Email网络的动态社区演化过程中的演化模式,以检测演化的异常时间点,并验证Enron公司在异常时间点的发生重大事件。
图3为演化强度Ew值从2001年2月到12月的变化曲线图。图中给出了中位线和均值线,在8、10和12月具有较大的Ew值,可视为演化异常。通过求证,发现造成这个演化异常是由以下3件事所驱动的:a.8月3日Skilling发表了一个公开言论,且当日下午解雇了300名员工;b.10月16日Enron公司报告第三季度亏损了6.18亿美元,并宣称从其资产负债表中扣除10.1亿美元的非经常性支出,且在当日分析师会议上Lay也宣称削减12亿美元的股东权益;c.12月2日Enron公司根据美国破产法第11章申请破产保护,这成为美国历史上第二大破产案。出乎意料的是在2月份也具有较大的Ew值,造成这个现象的原因很可能是ONMF-EEP挖掘快照1到2的演化模式时,利用到快照1中的社区结构信息。而由于快照1缺少历史网络信息,ONMF-EEP所获得的快照1的社区结构精度难以保证。总之,ONMF-EEP获得的演化模式可用于演化异常检测,能够应用于社会复杂系统中的事件检测,体现了其在情报分析方面的有效性。
图3 Enron公司破产场景下邮件通信网络结构动态演化分析
3.2场景二:“司马3忌”举报韩红慈善基金会为了验证真实事件的发生与群体关系结构的演化突变之间的对应关系,本节构建新浪微博用户之间的动态关系网络,基于动态社区演化模型ONMF-EEP,挖掘事件驱动下社会关系网络结构的动态社区结构及其演化模式。针对新浪微博热点话题“司马3忌”举报韩红基金会事件,基于爬取的新浪微博相关发帖数据(见数据II),分别构建了热词共现动态网络、互动关系动态网络、评论关系动态网络、点赞关系动态网络以及多关系动态网络;进一步地,基于动态社区演化模型ONMF-EEP,挖掘各个动态网络的动态社区结构及其动态演化模式,分析事件下舆情发展演化模式,为相关职能部门的舆情追踪提供有力的情报信息。
3.2.1 热词共现动态网络分析 为了挖掘“司马3忌”举报韩红慈善基金会场景下舆情的主题(高热主题如图4(a))及其演化趋势,构建了热词共现动态网络,并基于ONMF-EEP模型,从复杂网络分析的角度分析了舆情演化的情报信息。具体地,首先,基于python工具包jieba(https://pypi.org/project/jieba/)对所有微博帖子内容进行切词处理,删除停用词,并计算各个关键词的tfi/df值且排序。然后,截取最高的500个高频关键词作为网络的节点(词云如图4(b)所示),抽取帖子中高频关键词之间的共现关系(共同出现在同一个帖子中)。最后,以高频500关键词为节点,以共现关系为边,以1天为时间间隔,构建了1个连续26切片的词共现关系动态复杂网络Net.1。
(a)
(b)
进一步,基于ONMF-EEP,检测词共现关系动态复杂网络Net.1的社区结构,以挖掘其中的热点话题及其演化模式。由于篇幅限制,本文只给出了“司马3忌”举报韩红爱心慈善基金会过程中最为关键的4个快照(2020年2月13日-2020年2月16日)的动态社区结构(如图5所示),对应于Net.1中的第8~11个网络切片。从图中来看,每个词代表一个节点,且词的大小由节点的度决定。事实上,这里每个社区其实就代表着新浪微博中的一个热点话题,通过分析解析图中社区的节点语义,各社区的话题可总结为如下:
No.1:讨论“司马3忌”举报韩红慈善爱心基金会;
No.2:赞扬韩红多年从事爱心慈善事业;
No.3:支持韩红爱心慈善基金会;
No.4:宣传韩红团队抗击疫情;
No.5:韩红慈善基金会往武汉捐款;
No.6:韩红慈善基金会被举报挪用雅安地震善款;
No.7:网民回复/谩骂“司马3忌”(杨宏伟)
从图5中来看,社区结构发生了较为剧烈的演化。具体地,从2020年2月13日(见图5(a))到2020年2月14日(见图5(b),社区No.1和社区No.3合并为同社区No.1,社区No.6消失,且衍生出社区No.7。经调查发现,造成这个原因可能是因为2020年2月13日“司马3忌”首次在新浪微博上公开给北京市民政局发布关于韩红爱心慈善基金会违法的《举报材料》。这一举动引起了的网民热议,导致热点话题发生变化,在共次关系网络中表现出来的则是网络社区结构发生演化。从2020年2月14日(见图5(b))到2020年2月15日(见图5(c)),受到《举报材料》的冲击,舆情继续升温导致社区结构不稳定,继而社区No.1发生分裂,一部分节点加入了社区No.2,另一部分节点则又回到了社区No.3;社区No.5和社区NO.7合并为社区No.5,同时衍生出社区No.4。从2020年2月15日(见图5(c))到2020年2月16日(见图5(d)),社区No.2和社区No.3转出大量节点又重新形成了社区No.1,且大量节点转入社区No.5使之继续壮大。造成这个剧烈演化的原因,很可能是因为“司马3忌”继续发布了《补充举报材料》的帖子,引发了网络们的连续质问,产生了巨大的声浪。
(a) 2020年02月13日切片网络 (b) 2020年02月14日切片网络
(c) 2020年02月15日切片网络 (d) 2020年02月16日切片网络
3.2.2 社交关系动态网络分析 为了验证真实事件的发生与群体关系结构的演化突变之间的对应关系,构建新浪微博用户之间的动态关系网络,基于本课题的动态社区演化模型,挖掘事件驱动下社会关系网络结构的动态社区结构及其演化模式。具体地,抽取微博数据中的微博用户动态关系:转贴关系(用户转载另一用户的帖子)、评论关系(用户评论另一用户的帖子或评论)和点赞关系(用户点赞另一用户的帖子或评论),以用户为节点,以一天为时间间隔切片,分别构建了转贴关系动态网络Net.2、评论关系动态网络Net.3、点赞关系动态网络Net.4。由于社会网络的过于稀疏,进而将Net.2、Net.3和Net.4融合构建了一个统一的多关系动态网络Net.5。
图6中展示了动态网络Net.2~5从2020年2月6日至2020年3月2日期间结构演化强度Ew(t)的值。从图中来看,在2月16日,Ew(t)值有明显的凸起,这主要是因为02月13日“司马3忌”首次在新浪微博上公开给北京市民政局发布关于韩红爱心慈善基金会违法的《举报材料》,并在2月14、15和16日产生了大量转载、评论、回复等,且其在16日又发布了《举报材料》的补充材料。整个过程使得新浪微博上舆情暴热,同时驱动着社会网络结构演化突变,即造成16日演化强度激增。另外,图中显示在2月22日网络结构演化也出现一个小凸起,而这很可能是因为2月20日至02月22日“司马3忌”多次发布《行政复议申请意见》的相关帖子,引起了网民们的热议。同理,图中2月26日网络结构演化强度的小凸起,正是“司马3忌”多次发布韩红爱心慈善基金会2018年度财务审计的相关帖子,同样掀起一波热浪。总之,社会网络结构的演化突变总是对应着背后的真实事件,即事件驱动着社会网络结构突变。
图6 “司马3忌”举报韩红爱心慈善基金事件下动态社会网络结构演化分析
本文针对复杂社会系统中的真实场景,应用前沿动态社区演化模型,提出了一种动态社会网络演化强度量化方法。具体地,首先分别面向公开邮件数据集和爬取的微博数据集,构造了5个动态社交网络;然后选用一个前沿的动态社区演化模型ONMF-EEP,分别挖掘出相应的动态社区演化模式;最后基于本文构造的动态网络演化强度量化指标,利用获取的动态社区演化模式分别计算相应网络演化强度趋势曲线,验证演化突变与事件发生的对应关系。以上5个动态社交网络的实验结果,有效验证了复杂社会关系结构骤变预示着事件的发生,同时也验证了动态社区演化模型在事件检测问题上的有效性,此为情报分析中的事件检测研究问题提供了新思路。
另外,本文的研究仍存在不足:该方法虽然从实证的角度应用动态复杂网络分析方法实现了真实事件征兆预测,但仅仅只是时间维度上的征兆识别。如何基于动态复杂网络分析方法挖掘复杂社会网络中的情报信息,同时洞悉事件的发生时间及类别?该问题研究具有更为重大的研究意义和应用价值,能够智能地为相关职能部门提供更为精准的情报信息,这也是我们将来要进一步研究的重要内容。