于凯 杨富义
摘要:通过构建突发事件网络舆情事理图谱,揭示舆情事件之间的逻辑关联与演化路径,为突发事件的分析与应对提供参考。首先,基于规则模板提取突发事件网络舆情中的事件逻辑关系,构建事理图谱。其次,将事件向量化表示后进行泛化处理,采用 K-Means++算法对相似事件进行聚类和抽象以构建网络舆情抽象事理图谱,最后在此基础上对目标事件进行推演和预测。结果表明:突发事件事理图谱中的事件关系类型主要为因果、并列和顺承关系,大部分事件的逻辑链条较短,且与其他事件无明显关联;构建突发事件事理图谱有利于分析事件的演化脉络、把握关键事件节点并预测事件发展方向。
关键词:突发事件;网络舆情;事理图谱;演化路径;规则模板
中图分类号:G 35; TP 391 文献标志码:A
Construction of an evolution model of emergency network public opinion based on event knowledge graph
YU Kai1,2, YANG Fuyi1
(1. School ofInformation Management, Xinjiang University ofFinance and Economics, Urumqi 830012, China;2. School ofPublicAdministration, Xinjiang University ofFinance and Economics, Urumqi 830012, China)
Abstract: The event knowledge graph of emergency was constructed to reveal the logical correlationand evolution path between public opinion events, and provide reference for emergency analysis andresponse. Firstly, based on the rule template, the logical relationship of events in the network publicopinion of emergencies was extracted, and the event knowledge graph was constructed. Secondly, theevents were vectorized and generalized, and the K-Means++ algorithm was used to cluster and abstractsimilar events to build an abstract event knowledge graph of network public opinion. Finally, the targetevents were deduced and predicted on this basis. The results show that the types of event relations in theemergency event knowledge graph are mainly causality, coordination and sequence, and most of theevents have short logical chains and no obvious correlation with other events; The construction of theemergency event knowledge graph is conducive to analyzing the evolution of the emergency, graspingthe key event nodes and predicting the development direction of the events.
Keywords: emergency; network public opinion; event knowledge graph; evolutionary path; ruletemplate
突發公共事件是突然发生,造成或可能造成严重社会危害,需要采取应急处置措施予以应对的事件,具有突发性、严重危害性等特点。党的二十大报告指出,提高公共安全治理水平,必须坚持安全第一、预防为主,建立大安全大应急框架,完善公共安全体系,推动公共安全治理模式向事前预防转型。当前我国正处于社会转型期和改革攻坚期,面对错综复杂的社会环境中发生的各类突发公共事件,如何实现事件的科学分析及预测,并及时采取妥善的应急管理措施,已成为新时代的重大议题。
事件是人类社会的核心概念之一,人们的社会活动往往是事件驱动的[1]。1978年,钱学森、许国志等首次提出“相当于处理物质运动的物理,运筹学也可以叫做“事理”[2]。2011年,顾基发提出了“物理–事理–人理”系统方法论[3]。2018年,哈工大刘挺团队提出事理图谱的概念,并用于金融领域事件预测[4]。事理图谱是以事件为中心的知识图谱,其聚焦事件间的动态演变关系,在挖掘事件潜在关联、揭示舆情传播演变规律方面具有很大优势。伴随着互联网时代的到来和信息传播方式的变革,线下发生的突发公共事件经互联网的传播发酵多表现为复杂多变的网络舆情。要实现网络舆情的科学管控,除把握其传播特征和演化规律外,还需分析事件的前后关联与发展路径。
1相关研究
1.1知识图谱与事理图谱
知识图谱最初是由谷歌公司为优化搜索质量而提出的语义知识库,传统模式的知识图谱大多以实体为中心,无法满足对复杂事件多样化进行描述的需求。因此,需要将事件作为中心,并且结合事件相关语义特征去构建知识图谱。事理图谱可以为揭示和发现事件演化规律提供支持,对推动人工智能的发展具有非常重要的意义[5]。
相比于国内,国外提出事理图谱的时间更早,目前国外研究主要关注事件及事件关系抽取模型、算法的创新及金融、航空、灾害等领域事理图谱的构建。如Rospocher等[6]提出了一种从新闻文章中自动抽取知识生成事件知识图谱的方法。 Gottschalk 等[7]提出了一个多语言的以事件为中心的时序知识图谱。 Deng 等[8]利用知识图谱技术来辅助机器人传动系统进行高效有序的故障诊断。 Yang 等[9]将历史金融事件链作为神经网络模型的输入,预测未来事件。
国内研究侧重于将事理图谱与大数据、人工智能与机器学习等技术融合应用,以实现事理图谱的自动构建、事件的分析与预测等。王慕华等[10]以通用事件表示模型(simple event model ,SEM)为基础,构建了暴雨预警事件图谱模型,实现了以事件影响为目的的智能推理服务。陈越等[11]构建了一个面向高中地理因果简答题的抽象事理图谱,实现了多源知识集成和多跳因果推理。刘政昊等[12]基于知识驱动的事件关联与演化视角,构建具有双层结构的事理知识图谱,并结合案例分析了突发事件的演变逻辑。此外,学者们还探索了事理图谱在政治、历史、旅游等领域的应用[13-15]。
1.2事理圖谱构建技术
事理图谱的构建过程主要分为事件表示、事件抽取和关系抽取3部分。事件表示方法主要包括结构元组表示、框架模板表示、本体表示及分布式表示方法。当前研究者多使用本体在领域中共享信息并采用自上而下的方法构建事理图谱。Ehrlinger等[16]从理论和实践中总结出7条功能性要求和两条指导准则,描述了事件本体构建和选择的标准。 Van Hage等[17]提出的 SEM 模型因具有良好的事件表示和泛化能力,常被作为事件建模的基础。
事件抽取是构建事理图谱的关键环节,目前广泛应用的事件抽取方法主要有基于规则、基于特征学习以及基于神经网络3种[18]。事件关系的抽取任务主要有时序关系抽取、事件因果关系抽取和共指关系抽取。其中事件时序关系抽取可追溯到 Chambers等[19]的研究,即从新闻数据中自动抽取统计脚本,并用“挖词填空”方法来评估模型。关于事件间因果关系的抽取与应用的研究成果则比较丰富。单晓红等[20]通过构建事理图谱并进行抽象,实现了对网络舆情事件的演化路径分析和预测。 Ning 等[21]构建了基于整数线性规划的时序和因果关系联合抽取模型。
1.3网络舆情演化与预测研究
针对网络舆情演化的现有研究主要从演化阶段、演化规律及演化动因3个方面展开。李志鹏等[22]从事件预测的形式化模型与性能度量指标出发, 将数据驱动的事件预测技术分为8类,对事件预测关键技术的研究和发展进行了分析与总结。网络舆情的预测研究集中于舆情风险等级、网民情绪及舆情发展趋势的预测。连芷萱等[23]通过构建多维指标体系,预测舆情的风险级别。兰月新等[24]对网络舆情中网民情绪演化机理和趋势进行了预测,得到不同类型情绪的网民数量变化。Jin等[25]将事件预测问题转化为时序事件图谱上的链接预测问题, 提出了一种自回归的循环事件网络架构模型。
综上所述,针对网络舆情的现有研究更多集中于事件某方面的属性,而非事件本身的演化路径。事理图谱在网络舆情领域的应用还不成熟,研究涉及到的关系类型主要是因果和顺承关系,其他事件关系类型较少。此外,由于大规模标注的突发事件关系数据集稀缺,在该领域上的关系推理及事件预测研究适用范围较为有限。本文聚焦于突发事件网络舆情的演化路径分析及事件预测,试图在大量的突发事件中寻找出更具代表性的事理逻辑,分析不同类型事件间的发展规律与演化特征,为管理部门对网络舆情的分析和管控提供依据。
2模型方法介绍
首先,提取突发事件网络舆情中事件的因果、顺承等关系,构建事理图谱以揭示事件的发展脉络。其次,将事件向量化表示后进行泛化处理,以构建网络舆情抽象事理图谱,利用抽象事理图谱中的方向和概率大小对新事件进行推演和预测。具体研究模型如图1所示。
2.1网络舆情事理图谱构建
事理图谱的构建包括事件抽取、事件关系抽取两部分。其中,事件抽取主要借助哈工大语言技术平台( Language Technology Platform , LTP )进行处理,事件关系抽取则采用规则模板匹配的方式提取事件三元组,具体步骤如图2所示。
构建中文规则模板进行事件关系判定,提取网络舆情中的事件关系三元组用于构建事理图谱。其中,事件关系包括转折、顺承、并列、条件和因果关系,部分规则模板如表1所示。
2.2网络舆情抽象事理图谱构建
抽象事理图谱中揭示了领域内较为核心的事件知识,事理图谱泛化为抽象事理图谱的过程是对事理知识的凝练[26]。本文在构建抽象事理图谱时主要包括事件向量化、事件泛化及抽象等过程,具体步骤如图3所示。
2.2.1事件向量化
研究采用腾讯 AI Lab 中文预训练词向量对事件文本数据进行向量化表示。该数据集包含800多万中文词汇,其中,每个词对应一个200维的向量。它通过 Directional Skip-Gram 方法训练而成,可使用gensim模块调用,相比于现有中文词向量数据,其覆盖率和准确性有较大提升。事件的向量由各词向量平均得到。
2.2.2事件泛化
运用 K-Means++算法对事理图谱中的具体事件进行泛化,即先对事件进行归并处理,将同类事件用一个抽象事件来表示。该算法确定初始质心原则是聚类中心之间的距离尽可能大,具体步骤如下:
a.将事件进行向量化表示,每一个向量作为聚类的一个样本点;
b.随机选择一个点作为第一个聚类中心;
c.对于数据集中任意点 x ,用欧式距离计算它与最近聚类中心的距离 D(x);
d.选择与原聚类中心 D(x)较大的点作为新的聚类中心;
e.重复 c 和 d 直到确定 k 个聚类中心;
f.利用这 k 个初始的聚类中心来运行标准的 K-Means 算法。
3實证分析
3.1数据来源与处理
由于突发事件语料库较少,本研究在复用上海大学构建的 CEC(Chinese Emergency Corpus)语料库[27]和武汉理工大学构建的突发事件公共数据集[28]的基础上,再爬取部分热点事件数据作为补充,最终数据量为10349条。爬取的热点事件来自于互联网社会热点聚合平台?“知微事见”,针对舆情事件库中影响力指数较高的突发事件,采用八爪鱼数据采集软件对该网站页面内容进行爬取,爬取时间为2022年9月30日,事件时间跨度为2017年1月至2022年9月。共爬取数据17332条,经筛选后保留有效数据8735条。采集字段包括事件分类、时间、事件名称、内容、影响力指数和标签,如表2所示。
3.2网络舆情事理图谱构建
为了进行事件抽取,需要对数据进行标注处理,采用哈工大 LTP 平台对数据进行预处理,具体包括句子切分、分词、词性标注、命名实体识别、语义角色标注和依存句法分析。研究用到的依存关系类型如表3所示。
根据图2所示的事件抽取步骤,对所有事件数据进行处理后得到事件三元组共7654条。在事件抽取的基础上,结合上文构建的规则模板对事件间关系进行抽取,将抽取到的结果以( pre_ event, relation, post_event)三元组的形式存入 Mongo- DB 数据库中。其中:“pre_event”代表前序事件;“post_event”代表后序事件;“relation ”代表事件间的逻辑关系类型。关系抽取结果如表4所示。
3.3基于事理图谱的网络舆情演化与预测
3.3.1突发事件网络舆情演化路径分析
通过构建网络舆情事理图谱,有利于剖析具体舆情事件的演化路径,总结某一领域网络舆情的演化规律。根据上文得到的事件三元组构建事理图谱,结果如图4所示。
从事件发展角度来看,事理图谱可以明晰事件各要素之间的关联与逻辑特征。由图4可知,突发事件事理图谱中除少数事件逻辑关系复杂且形成较长逻辑链条外,大部分事件传播链较短,且与其他事件之间关联较少。其原因可能是研究所爬取的事件数据不够完整,造成数据稀疏,或不同事件类型之间无明显关联。除链状结构外,图谱中还有大量环状结构和中心发散的结构,这类结构中往往有度较大的节点,即具有代表性的关键事件。重点关注这些事件的关联关系和演化特征,可以更容易定位热点和焦点问题,有利于把握事件的未来发展方向。如图4中部分关键节点分别表示“交通事故”、“媒体报道”、“人员伤亡”、“气候影响”等内容,其对于突发事件的应对和处理具有导向性作用,在关键节点处进行把控,有助于引导事件的后续走向,避免造成不良影响。
突发事件事理图谱共包含事件关系三元组共20115条,各类关系的数量及占比情况如表5所示。
若以事件类型进行区分,事理图谱能刻画出特定类型事件的演化路径,有助于对比分析各类事件演变规律的异同。以社会安全事件为例进行分析,如图5所示为“唐山烧烤店打人事件”事理图谱。
由图5可以看出事件的逻辑关联与演化路径,该事件主要产生了4个逻辑链条: a.事件的缘起及发展过程。事件施事者因暴力殴打他人导致受害者受伤送医,警方介入调查后发现嫌疑人团伙存在恶势力组织,最后7人均被逮捕拘留。 b.事件的处置结果。嫌疑人因数罪并罚被法院判处罚款和有期徒刑。 c.事件造成的不良影响。该事件触碰了法律底线,危害了公共安全,引发了社会广泛的讨论。 d.事件产生的其他影响。唐山市开展社会治安整治专项行动,通过多种方式发动群众举报各类违法犯罪线索。除以上4个主要链条外,事件的演化方向还存在分化现象,如对该案件保护伞问题的质疑、对公共安全和社会道德的讨论。这些事件在一定程度上也会造成民众安全感的缺失和社会情绪的极端化,潜在危害难以预估。在实践中,有关部门应结合事理图谱,梳理出事件关键路径,重点关注演化过程中涉及的关键对象;并且可以采取一些防范措施,预防潜在风险事件的发生。
3.3.2抽象事理图谱构建
按照上文的步骤构建抽象事理图谱。首先,使用 python 软件调用gensim模块中的KeyedVectors函数,使用腾讯 AI Lab 中文词向量对事件三元组进行向量化表示,取词向量的平均值作为事件向量,将事件向量存入 MongoDB 数据库用于后续聚类处理。
其次,对事件进行泛化,将相似度较高的事件进行归并处理。由于泛化后无法自动为每一事件类生成标签,因此,通过 Embedding Projector 应用程序进行高维数据的可视化,辅助寻找聚类后具有代表性的标签。Embedding Projector 是2016年谷歌开源的用于交互式可视化和高维数据分析的网页工具,它提供 PCA ( principal component analysis)、 T-SNE ( T-distributedstochastic neighbor embedding)和自定义线性投影3种常用的数据降维方法,辅助用户实现复杂数据的可视化[29]。本文采用 T-SNE 对向量数据进行处理和聚类,该方法用于探索局部近邻值和寻找聚类,可以确保一个嵌入保留了数据中的所有含义,结果如图6所示。
由图6可见,运行 T-SNE 方法后,向量形成了一些聚簇,聚簇表示事件向量间的余弦距离较为接近,即簇内事件大致属于同一类别。
如图7所示,左侧每个圆点表示一个事件向量。选中任意事件,右侧部分是查找出的与之最接近的100个邻居节点。节点颜色越接近源节点,表示两个向量相似度越高。将这些相似节点的标签中的高频词作为事件聚簇整体的标签,则可以得到一个抽象化描述。
结合前文构建的事理图谱和事件向量聚类可视化结果,可以梳理出不同类型事件的演化路径,即抽象事理图谱。抽象事理图谱展现了事件之间的关联关系,暗含了事件未來可能演化的方向,事件间转移的概率则代表某事件未来发生的可能性。以自然灾害事件中的地震为例,如图8所示,可以得到“地震”这一原因事件可能造成房屋受损、人员伤亡等结果事件,事件间连边概率大小是根据每一事件占“地震”后序事件的比重来确定的,概率越大,说明该事件越可能出现。图中:与“地震”直接相连的事件表示该事件为直接结果,如“应急救援”、“人员伤亡”;而与“地震”间接相连的事件则为其次生结果,如“经济损失”、“传染病”。在实际应用中,当收到某地的地震预警信息,应首先针对可能发生概率最大的直接结果事件迅速采取应急举措,同时还应该预防一些潜在危机的发生,如传染病的预防和交通秩序的维护,尽可能减少灾害造成的各种损失。由此可见,抽象事理图谱的构建有助于识别一般性事件中的一些关键节点,为有关部门抓住重点问题、有的放矢地进行突发事件应对提供有效的决策参考。
3.3.3网络舆情事件预测
在得到抽象事理图谱的基础上,可以对突发事件领域内任意一个新发生的网络舆情事件进行预测,具体步骤为:首先,将该事件进行向量化表示,计算该事件与事理图谱中各事件之间的相似度值,选择相似度最高的事件作为预测的起点事件;其次,在突发事件抽象事理图谱中找到起点事件的泛化事件;最后,遍历抽象事理图谱,找到泛化事件的后续事件节点及其权重,根据权重判断哪些是最有可能发生的事件。
4结束语
互联网时代,由社交网络产生的大量舆情信息存储在无结构化数据中,传统的以专家经验为主的舆情治理模式已经无法满足多样化和精细化的管理需求,亟需一种先进的知识组织方式来对复杂事件进行描述与处理,提升应急管理水平。本文通过构建突发事件事理图谱来揭示事件演化规律并预测后续事件。研究发现,利用事理图谱辅助突发事件的分析和管控,有利于揭示该领域事件的演化规律与特征、识别关键事件并挖掘潜在事件关联。在实际应用中,构建抽象事理图谱可以基于大量以往案例预测后续事件,优化管理部门的应急处置和预防工作,减轻突发事件给人们带来的损失。本文通过对突发事件领域事理图谱构建及应用的研究,丰富了知识图谱在突发事件领域的应用场景。不足之处在于: a.本文的数据来源为各平台上关于事件的报道信息,并未爬取完整事件文本及评论内容,丢失了部分关联事件; b.对于事件间关系的抽取,采用基于规则模板的方式进行匹配,准确率和有效性有待提高。下一步将重点提升知识抽取及泛化算法的准确性和有效性,以优化事件预测效果。
参考文献:
[1]李忠阳.面向文本事件预测的事理图谱构建及应用方法研究[D].哈尔滨:哈尔滨工业大学, 2021.
[2]钱学森, 许国志, 王寿云.组织管理的技术——系统工程[J].上海理工大学学报, 2011, 33(6):520–525.
[3]顾基发.物理事理人理系统方法论的实践[J].管理学报,2011, 8(3):317–322,355.
[4] DINGX,LIZY,LIUT,etal. ELG: aneventlogic graph[EB/OL].(2019-08-07)[2023-01-02]. https://arxiv. org/abs/1907.08015
[5]王兰成, 张思龙, 许和旭.网络舆情事理图谱构建及应用[J].中华医学图书情报杂志, 2021, 30(5):17–23.
[6] ROSPOCHERM,VANERPM,VOSSENP,etal. Buildingevent-centricknowledgegraphsfromnews[J]. Journal of Web Semantics, 2016, 37–38:132–151.
[7] GOTTSCHALKS,DEMIDOVAE. EventKG: a multilingual event-centric temporal knowledge graph[C]// Proceedingsofthe 15thEuropeanSemanticWeb Conference. Heraklion: Springer, 2018.
[8] DENG J, WANG T, WANG Z W, et al. Research on eventlogicknowledgegraphconstructionmethodofrobottransmission system fault diagnosis[J]. IEEE Access, 2022,10:17656–17673.
[9] YANG Y Y, WEI Z Y, CHEN Q, et al. Using external knowledge for financial event prediction based on graph neuralnetworks[C]//Proceedingsofthe 28thACM InternationalConferenceonInformationand Knowledge Management. Beijing: ACM, 2019.
[10]王慕华 , 王天岳 , 李雁鹏 , 等.基于通用事件表示模型(SEM)的暴雨预警事件图谱研究[J].灾害学 , 2021, 36(4):74–78.
[11]陈越, 何宇豪, 孙亚伟, 等.基于抽象事理图谱的因果简答题求解方法[J].中文信息学报, 2022, 36(4):124–136.
[12]刘政昊, 曾曦, 张志剑.面向应急管理的金融突发事件事理知识图谱构建与分析研究[J].信息资源管理学报 , 2022, 12(3):137–151.
[13]白璐, 周子雅, 李斌阳, 等.面向政治领域的事理图谱构建[J].中文信息学报, 2021, 35(4):66–74.
[14]刘忠宝, 党建飞, 张志剑.《史记》历史事件自动抽取与事理图谱构建研究[J].图书情报工作 , 2020, 64(11):116–124.
[15]邓君, 彭珺, 孙绍丹, 等.基于事理图谱的游记文本知识发现——以康养旅游为例[J].现代情报 , 2022, 42(7):105–113.
[16] EHRLINGERL,W??W. Towardsadefinitionof knowledge graphs[C]//Joint Proceedings of the Posters and DemosTrackofthe 12thInternationalConferenceon SemanticSystems - SEMANTiCS2016 andthe 1st International Workshop on Semantic Change & Evolving Semantics (SuCCESS'16) Co-Locatedwiththe 12thnternationalConferenceonSemanticSystems(SEMANTiCS 2016). Leipzig: CEUR-WS. org, 2016.
[17] VAN HAGE W R, MALAIS? V, SEGERS R, et al. Designand use of the simple event model (SEM)[J]. Journal of Web Semantics, 2011, 9(2):128–136.
[18]王毅, 沈喆, 姚毅凡, 等.领域事件图谱构建方法综述[J].数据分析与知识发现, 2020, 4(10):1–13.
[19] CHAMBERS N, JURAFSKY D. Unsupervised learning of narrative event chains[C]//Proceedings of ACL-08: HLT. Columbus: ACL, 2008.
[20]单晓红, 庞世红, 刘晓燕, 等.基于事理图谱的网络舆情事件预测方法研究[J].情报理论与实践 , 2020, 43(10):165–170.
[21] NING Q, FENG Z L, WU H, et al. Joint reasoningfor temporal and causal relations[C]//Proceedings of the 56thAnnualMeetingoftheAssociationforComputational Linguistics. Melbourne: ACL, 2018.
[22]李志鵬, 杨阳朝, 廖勇, 等.数据驱动的事件预测技术最新研究进展[J].信息安全学报, 2022, 7(1):40–55.
[23]连芷萱, 兰月新, 夏一雪, 等.面向大数据的网络舆情多维动态分类与预测模型研究[J].情报杂志, 2018, 37(5):123–133,140.
[24]兰月新, 夏一雪, 刘冰月, 等.面向舆情大数据的网民情绪演化机理及趋势预测研究[J].情报杂志, 2017, 36(11):134–140.
[25] JIN W, QU M, JIN X S, et al. Recurrent event network: autoregressive structure inferenceover temporal knowledge graphs[C]//Proceedings of 2020 Conference on Empirical MethodsinNaturalLanguageProcessing. Stroudsburg PA: Association for Computational Linguistics, 2020.
[26]刘雅姝, 栾宇, 周红磊, 等.基于事理图谱的重大突发事件动态演变研究[J].图书情报工作 , 2022, 66(10):143–151.
[27]刘炜, 王旭, 张雨嘉, 等.一种面向突发事件的文本语料自动标注方法[J].中文信息学报, 2017, 31(2):76–85.
[28]邱奇志, 周三三, 刘长发, .等基于文体和词表的突发事件信息抽取研究[J].中文信息学报, 2018, 32(9):56–65.
[29] SMILKOVD,THORATN,NICHOLSONC,etal. Embeddingprojector: interactivevisualizationand interpretationembeddings[EB/OL].of(2016-11-16)[2023-01-02]. https://arxiv.org/abs/1611.05469
(编辑:丁红艺)