基于政务微博的自然灾害知识图谱构建

2024-03-18 04:20王志宇刘雨薇
现代情报 2024年3期
关键词:知识可视化政务微博自然灾害

王志宇 刘雨薇

关键词:政务微博:自然灾害;LDA主题模型;知识图谱:知识可视化

自然灾害是当今世界人类最为关注的全球性问题之一,人类社会面临着很多自然灾害的威胁。如何有效做好防灾、减灾、救灾工作,最大限度地降低自然灾害造成的财产损失和人员伤亡,是目前普遍关注的焦点之一。据《应急管理部发布2022年全国自然灾害基本情况》显示,2022年我国各类自然灾害共造成1.12亿人次受灾,因灾死亡失踪554人,紧急转移安置242.8万人次,直接经济损失2386.5亿元。在此情形下,分析灾害信息,加强对自然灾害的管理显得尤为重要。面对自然灾害事件,社交媒体往往承担着信息交流平台的作用,现如今,微博已经成为推动我国社会公共事件爆发式传播的重要力量,政务微博作为国家机关发布政务信息的平台,在政务信息传递及与用户的交流中发挥重要作用,能发布关于灾害事件的第一手信息,是人们了解灾害事件的重要平台。但由于各个政务平台发布的信息较为分散,用户要了解某一灾害事件的全貌还需要从多种渠道获取信息,且内容信息冗余度比较高,这样不仅不利于用户阅读,而且也不利于政务机关对灾害事件的信息资源进行管理与利用。知识图谱的概念是由谷歌公司于2012年首次提出的,知识图谱通过对数据整合与规范,向人们提供有价值的结构化信息,已被广泛应用于信息搜索、自动问答、决策分析等领域,是推动数据价值挖掘和支撑智能信息服务的重要基础技术。因此,将知识图谱技术应用在政务微博发布的关于自然灾害事件的信息组织与可视化利用中,对研究政务微博关于灾害事件的信息组织与开发具有重要意义。

1相关研究

一方面,结合政务微博与自然灾害事件信息展开的相关学术研究,首先集中于微博舆情方面,例如,安璐等以政务微博的博文及评论数据为研究对象,通过构建政务微博舆情引导能力评价指标体系,对突发事件情境下的舆情引导能力进行成熟度诊断,研究影响舆情引导效果的关键因素。刘晓娟等以政务微博的新冠肺炎疫情信息为例,分析了信息公开与舆情演化之间的关系;其次,也有学者对政务微博灾害事件的信息特征进行分析,如翟冉冉等采用内容分析法对政务微博的突发公共事件回应样本的规律和特征进行分析,从而为政府网络舆情的应对工作提供理论参考。杨光等以《人民日报》发布的河南省暴雨信息为例,探究其发布信息的极值特征、发布特征与关键词特征,研究政务微博在重大公共事件中发布信息的特点和规律:最后,部分学者结合系统模型对微博灾害信息进行识别与抽取,Basu M等提出了识别与提取微博平台发布的内容流中对灾后救援有用信息的方法。YunH W构建了灾害事件检测系统,并展示从Twitter数据中检测目标灾害事件的方法。Ye P等构建了一个考虑信息多颗粒性和动态特性的台风事件信息模型,能够全面检测台风事件过程中任意时空节点上的不同对象的信息。

另一方面,围绕知识图谱在图情档领域开展的相关研究中,学者们更集中于将知识图谱技术应用在领域中实现知识的细粒化挖掘。在图书馆领域,彭博构建了网络文物信息资源知识图谱,实现信息资源中的文物实体关系抽取、文物知识抽取与文物命名实体识别等应用研究。陈海玉等以徽州文书为例,构建了徽州文书知识图谱,实现文书知识信息的可视化呈现与检索。沈旺等构建了面向梅兰芳的民国报纸知识图谱,实现面向梅兰芳的知识挖掘。在情报领域,王阮等构建了口述记忆资源知识图谱模型,实现了口述记忆资源的实例可视化展示与多维语义查询。宋雪雁等构建了清代祭祀礼器知识图谱,清晰地呈现了清代祭祀礼器间的知识关联。高晨翔等构建了基于主题划分的区域政务微博知识图谱,实现区域政务微博内容的知识组织与可视化展示。在档案领域,赵雪芹等构建了可视化的工程档案知识图谱,实现工程档案数据知识层面的数据融合与集成。舒忠梅等构建了中大记“疫”档案知识图谱.实现抗疫专题档案实体的知识关联与推理。

综上所述,对于结合政务微博与自然灾害事件的研究,学者们多集中于对微博舆情和信息特征等方面,虽然有学者对微博灾害信息的识别与抽取进行研究,但较少结合本体、知识图谱等技术实现对微博灾害信息的知识组织与可视化,相关研究成果中关于社交平臺信息的知识组织与挖掘方面的研究仍有一定的探索空间。因此,结合知识图谱技术,对微博平台的自然灾害信息进行知识的深层组织与挖掘成为当下该课题研究的重要趋势。基于已有研究成果,本研究首先使用LDA主题模型对微博平台的灾害信息进行主题划分,再利用知识图谱技术,对各主题下的内容进行知识组织与知识图谱的可视化展示,深入挖掘每个主题下各信息之间所隐藏的知识,分析组织机构发布信息的规律与特点,从而实现对政务信息资源的高效利用,加强用户对灾害事件的了解,同时对政府机关加强灾害事件的管理、保障社会安全和促进国家经济平稳发展具有重要现实意义和科学意义。

2政务微博的特性及知识图谱的适用性

知识图谱技术在信息的组织与应用中使用较为广泛,包括对媒体信息的组织与探索。而对于该技术是否可以应用于政务微博灾害事件的知识组织,还需要结合政务微博的特性进行探讨。

2.1政务微博的特性

政务微博是指由党政机构或者党政机构官员开通的经过实名认证的发布政务信息、促进政府信息公开、加强官民交流、塑造新型政府、加强公共服务等内容的微博。政务微博具有内容形式多样化、信息总量大与信息动态性的特点,将知识图谱技术应用在政务微博资源时要充分考虑政务微博的特性,使自然灾害知识图谱的构建能够适应其特性。

首先,政务微博资源具有内容丰富性的特点。政务微博资源中,形式上不仅包含文本形式,还具有图片、视频等多种形式;内容上不仅有实事报道、政务公开与解读等内容,还包括知识科普、励志名言等。这些资源虽然有利于政务信息的传播与利用,但是这些信息资源都是非结构化的信息,内容复杂且形式多样,不利于信息的组织与开发。

其次,政务微博具有信息及时性的特点。政务微博能够实时跟进动态,发布具体的政务信息,尤其在遇到突发事件时,政府会在第一时间通过政务微博发布相关信息,并持续跟进事件的进展,满足公众的知情需求,为用户提供公开畅通的信息渠道,及时了解事件的过程,既有利于提升政府行政的透明度,保障公众的知情权,也有利于为突发事件的处理与后续工作开展提供必要的帮助。

最后,政务微博具有文本简洁性的特点。微博网站对微博字数有着一定的限制,这就决定微博比其他媒体的文本篇幅要小。政务微博是由政府部门发布的政务信息,以简洁的语言传达紧要的信息,有利于用户快速便捷地查看政务信息,迅速掌握政务信息的主要内容。

2.2知识图谱在自然灾害事件微博资源中的适用性

将知识图谱技术应用在政务微博发布的自然灾害事件信息组织中,一是能够实现自然灾害事件微博资源的知识挖掘。自然灾害事件的微博资源包含文本、图片等多种形式,每种形式的微博资源都涵盖大量数据,而现有的微博资源的组织方式不能全面揭示微博资源的多元化知识。因此.知识图谱技术的应用能够实现对自然灾害事件微博资源的细粒化抽取与加工组织,从而实现自然灾害事件微博资源的有序化、条理化、系统化的知识组织,为用户提供结构化知识。二是能够实现自然灾害事件微博资源的知识关联与聚合。自然灾害事件微博资源的发布来源、发布形式、发布内容虽然不同,但其中存在较强的关联性,将知识图谱技术应用于自然灾害事件微博资源的知识组织与可视化中,能够直观体现其关联关系,建立能够提供语义检索的知识图谱,使自然灾害事件微博资源的知识体系更加智能。三是能够实现自然灾害事件微博资源的动态更新。由于微博的及时性与动态性的特点,当自然灾害事件发生时要将新发布的微博资源及时补充到知识体系中,因此需要对补充的微博资源进行实体和关系的抽取,为知识图谱添加新的节点和关系,实现知识图谱的动态更新。

3研究设计

3.1构建流程

本研究采用自上而下的方式构建知识图谱,整体的构建流程分成4个步骤,分别为数据采集与主题划分、概念层的构建、数据层的构建、应用层的实现。首先,使用爬虫技术爬取政务微博账号发布的自然灾害事件的微博资源组成数据源,并使用LDA主题建模对数据源进行主题聚类,划分微博主题;其次,通过对数据源的主题内容进行分析,确定知识图谱模式层的本体类目及属性关系定义,使用Protege本体构建工具构建自然灾害知识图谱的本体;第三,在数据层,对数据源进行预处理后,对微博资源的实体、关系进行抽取,规范化处理后形成微博三元组语料库,将微博三元组语料库导人Protege工具构建的本体中,导出owl文件转换成RDF三元组文件进行RDF序列化后,形成微博关联数据集;最后,将RDF三元组存人Ne04j图数据库中实现知识图谱可视化,并使用Ne04j图数据库的Cypher语句实现对自然灾害知识图谱的语义检索,整体的构建流程如图1所示。

3.2数据采集

森林火灾作为世界八大灾害之一,持续燃烧的森林火灾严重威胁人类社会的生命财产和生态安全。近年来,森林火灾事故频发,为有效防控森林火灾,本研究选取微博平台政务部门官方发布的“森林火灾”主题相关资源作为数据源进行组织与分析,使用Python程序采集相关数据,采集的时间范围为近一年,即2022年6月25-2023年6月14日,采集检索词为“森林火灾”,获取字段包括微博发布者名称、微博发布者网址、发布时间、发布内容等数据,通过对这些数据进行人工筛选,只保留政务微博发布的信息资源,如“四川消防”“甘肃森林消防”等政务微博,并去除政务微博信息资源中重复及无价值的信息,最终选定1061条有效数据,为后续知识图谱的实现建立数据基础。

3.3主题划分

获取数据后,首先对数据内容进行分析。本文构建的自然灾害知识图谱需要按照主题分类的方式,展示自然灾害信息的各个类别以及类别之间的关联,因此,首先要使用LDA主题建模对微博资源进行主题划分。LDA模型是David M B等于2003年在潜语义分析LSA和概率潜语义分析PLSA的基础之上提出的一种主题模型,采用非监督的机器学习方法,能有效地提取大规模文档集和语料库中的隐含主题,具有良好的降维能力、建模能力及扩展性。LDA模型中文档被表示為潜在主题的随机混合,每个主题都是以词语的分布为特征,因此,该模型包括3个层次,分别为文档、主题和词汇,在一篇文档中生成单词的概率为“文档一主题”和“主题一单词”的联合概率分布,每个词的生成概率如式(1)所示,其中w、t和d分别表示词汇、主题和文档。

对于微博内容这类短文本,使用LDA主题建模可以很好地对文本内容进行向量化来计算文本间的相似度,更好地挖掘文本中的隐含主题。

本文通过困惑度(Perplexity)评价指标确定微博信息的最优主题数,在概率语言模型中,困惑度是用来评估语言模型优劣的指标,较小的困惑度意味着模型对新文本有较好的预测作用。本文设置最大主题数为7,得到的主题数对应困惑度的值如图2所示。通过图2可知,当主题数为4时出现拐点,结合文本内容的分析,选取4作为微博主题数值最为合适。确定主题数后,计算每个主题和每个主题下主题词的概率矩阵,完成对微博文本的主题划分,并抽取每个主题对应的TF-IDF值前十的高频词,如表1所示。

为更准确地分析划分后的主题数据,对部分数据的主题进行人工调整,最终确定4个主题对应的主题名称,分别为防灾常识、防灾措施、灾情预测和灾情通报。通过LDA主题建模对微博内容进行主题聚类,为后续知识图谱的构建厘清了脉络,有利于实现对微博内容的进一步挖掘。

4自然灾害知识图谱的构建

4.1自然灾害知识图谱模式层的构建

模式层的构建是知识图谱构建的核心,在构建知识图谱的模式层时,首先要对数据源的内容结构及其关联关系进行梳理,确定本体类目及类目之间的关系。本文通过对数据源的内容进行分析后,围绕自然灾害知识的组织与管理,参考借鉴自然灾害领域的知识概念,选择复用DCMI Terms、FOAF本体以及自建本体词表(FMO)的方式,实现自然灾害微博资源类目的构建。本文将微博文本内容进行主题划分后,首先进行模式层主题类目的构建,主题类目下共包含4个主题子类,具体构建的内容如图3所示。

图4中展示本体构建全部类目及属性关系,共包含25个类目,其中“主题”和“机构”兩个类目复用DC本体,“发布者”类目复用FOAF本体,其他类目使用自建本体词表(FMO)进行描述。对划分的4个主题,包括常识类信息、灾情类信息、预测类信息和措施类信息,每个主题的类目进行具体划分,尽可能地从灾害信息中提取更详尽的知识信息,有望对政府机构、消防领域及相关群体在制定决策、了解灾害信息方面提供更多帮助。

其中,关于对象属性共设置3个类别,分别为子类(subClassof)、动作类(actionClassof)及具有类(hasClassof),具体构建的关系如表2所示,同时对个别类目设置数据属性,具体概念及属性如表3所示。

根据前文构建的类目及关系,借助Protege本体建模工具实现自然灾害知识本体的程序化,其具体结构可视化如图5所示。

4.2自然灾害知识图谱数据层的构建

数据层的构建主要基于已经构建的模式层,通过对数据进行预处理后,进行实体关系三元组的抽取,具体的构建过程如下:

4.2.1数据预处理

本文采集了微博平台的微博发布者名称、微博发布者网址、发布时间、发布内容等数据,由于微博文本带有符号、标签、超链接等内容,因此需要对文本数据进行清洗。首先使用Python的外部库Jieba中文分词工具对微博文本内容进行分词处理、停用词的过滤和词性标注,其次根据火灾消防领域的知识概念,创建自定义词典,加入相关的专有名词以提高数据分词的准确率。对数据进行预处理后,形成微博文本语料库。

4.2.2实体抽取

本文根据概念层定义的本体结构,分别对每一主题下的语料库进行命名实体识别,实现各类目实体的抽取。命名实体识别是指识别语料库中具有特定语义的实体,包括人名、地名、组织名等实体。本文使用哈尔滨工业大学语言技术平台(LanguageTechnology Platform,LTP)提供的模型对微博语料库进行命名实体识别,LTP模型不仅能很好地实现分词,而且能有效地识别文本中地名、人名、组织机构名等命名实体。由于本文是以政务微博发布的森林火灾事件为研究对象,该事件中会涉及大量的组织、地点、人物和机构,因此,使用LTP模型对微博语料库进行命名实体识别,可以提高实体关系三元组的精确度,获取到的部分实体结果如表4所示。

4.2.3关系抽取

本研究使用基于依存句法分析与语义角色标注的方法进行实体关系三元组的抽取。依存关系语法认为谓语中的动词是句子的中心,其他成分与动词有直接或间接的关系,依存句法分析通过分析句子中词汇之间的关系确定句子的句法结构,包括主谓关系(SBV)、动宾关系(VOB)、定中关系(ATT)等。语义角色标注是浅层语义分析的一种重要实现方式,该方法并不对整个语句做详细的语义分析,而只是标注句子中给定谓词的语义角色,语义角色描述了一个谓词和它的参数之间的关系,对表面的句法构架进行抽象。语义角色标注方法是以句子的谓词为中心,分析句子的其他成分和谓词之间的关系,即分析句子的谓词一论元结构,并用语义角色来描述这些结构关系。

本文首先使用依存句法分析句子的关系类型,利用依存句法分析对句子中的动宾关系以及并列关系进行提取,再使用语义角色标注获取微博语料中的主语和核心谓词,主语作为该句的施事者,以核心谓词为出发点,根据依存句法分析的结果,对句子的宾语即受事者进行识别与提取,组成实体关系三元组。图6展示基于LTP对采集的微博文本信息进行依存句法分析与语义角色标注的过程,在该图中,“联合”这一谓语动词为该句中的根词项,各个词项之间的键值对表示各个词项之间的依存关系,首先找寻与“联合”谓词存在动宾关系(VOB)的词语,即“大队”,而“大队”和“救援队”存在并列关系(C00);再找寻与“联合”谓词存在并列关系(C00)的词语“开展”作为句子谓词,找寻动宾关系(VOB),即“活动”。因此,“高新区应急管理局”作为本句的施事者(标记为A0),根据依存句法分析的动宾关系及并列关系,提取受事者组成的实体关系三元组为(高新区应急管理局,联合,高新区消防大队)、(高新区应急管理局,联合,蓝天救援队)、(高新区应急管理局,开展,应急教学活动)。

4.2.4数据融合

通过对数据的实体关系三元组抽取后,将抽取的三元组中不重要的内容删除,并将表述不清、不完整的数据补充完整,对内容表述重复的数据进行数据融合,人工调整部分三元组数据。首先是部分数据不完整的问题,通过查询相关信息补充完整数据,例如21日、28日等日期信息不完整,补充为“2022年8月21日”“2022年8月28日”以及“泸州市”“宣汉县”等机构名称不完整,补充为“泸州市人民政府”“宣汉县森林防灭火指挥部”等:其次是发布的应急措施名称不同但内容相同的问题,即内容表述重复性的问题,例如“森林防灭火巡查工作”“巡防森林火情”和“巡逻防护工作”都为森林防火巡查的措施,可以将这些措施名称融合为“森林防灭火巡查工作”。最终将获取的三元组数据实例批量导入Protege构建的本体中,并将导出的owl文件转换成RDF文件,实现RDF序列化。

5自然灾害知识图谱的应用

本研究使用Ne04j图数据库及Cypher查询语句实现知识图谱的检索与可视化,构建的知识图谱能够从宏观及微观层面反映出主题下各类目实体之间的语义关联关系。最终形成的知识图谱共包含657个实体节点和755个关联关系,呈现的图谱如图7所示。

在知识图谱的可视化方面,从宏观角度来看,自然灾害知识图谱中,共包含防灾措施、灾情通报、灾情预测和防灾常识4个主题的图谱,图7展示了各主题的发布者以及主题下的类目信息。首先,绿色节点为发布者节点,从4个主题的发布者数量来看,发布者发布防灾常识、灾情通报以及防灾措施主题数量较多,体现各地政府十分重视森林火灾的防控以及预防工作,关于森林火灾的微博内容发布得较为全面,但较多的发布者只集中于发布其中某一主题的相关内容,涵盖较多主题的发布者较少。从微观角度来看,自然灾害知识图谱共包含4个主题,在这4个主题图谱中,防灾措施主题图谱展示了应急机构针对森林火灾事件所发布的应急措施:灾情通报主题图谱展示了森林火灾发生的地点与灾害时间、灾害起因、救灾组织、救火方式等关联关系:防灾常识主题图谱展示了预防常识和逃生常识的相关知识:灾情预测主题图谱展示了相关机构发布的可能引起灾害事件发生的天气以及社会环境预警信息。以灾情预测主题为例,使用Cypher语句对其进行展示,可以看到该主题关联了很多相关的天气及社会环境预警信息节点,如图8所示。

在图8中可以了解到灾情预测这一主题发布的天气预警信息包含“深圳市森林火险黄色预警”“蕉岭县森林火险红色预警”等森林火险预警信息,以及“江西省高温红色预警”“衢州市干旱黄色预警”等高温干旱预警信息;社会环境预警信息包含“野炊、吸烟等违规用火”以及“进山人数激增”等内容。通过获取天气以及社会环境预警信息,能够及时了解导致灾害事件发生的因素,并对可能发生的灾害事件进行监测,从而对灾害事件的防范起到一定的辅助作用。

在知识图谱检索方面,自然灾害主题知识图谱可以通过Cypher语句实现相关节点及关系的查询与检索,如对灾害发生地点节点“内蒙古锡林郭勒盟东乌珠穆沁旗萨麦苏木北部”进行查询,使用Cypher查询语句“match

data=(na:‘FMO:Dis-aster_location{uri:“内蒙古锡林郭勒盟东乌珠穆沁旗萨麦苏木北部”})-[r]->( nb) return data”得到的查询结果如图9所示,可以了解到该地点发生的灾害事件类型、灾害发生级別、灾害发生时间和结束时间、灾害起因以及受灾范围等信息。

从知识图谱的查询过程与可视化结果可以看出,知识图谱的检索功能可以帮助用户便捷地检索与查阅关键主题词的相关信息,不仅节省了用户翻看微博的时间,而且大大提高了用户查询灾害信息的效率。另外,对微博资源进行主题划分能够使信息以更准确精练的方式被提取利用,不仅能够协助政府机构全面了解灾害事件微博信息发布的核心内容与主题类别,进一步提高信息的利用率与信息查询的准确度,同时也可以帮助政府机构了解灾害事件微博发布的规律与特点,为其完善灾害事件的管理与预防、发布后续的微博信息提供较为重要的参考与支持价值。

6总结

本文以“森林火灾”事件为例,构建了基于政务微博的自然灾害知识图谱,首先将微博信息进行LDA主题划分,再通过本体构建、数据预处理、实体关系抽取、数据融合等过程提取RDF三元组,最终通过Ne04j图数据库实现自然灾害知识图谱的构建,同日寸对知识图谱的可视化与检索的过程进行实证。本研究将离散的微博信息整合成主题清晰、关联性强的可视化知识,进一步挖掘隐含主题并将相关主题的信息聚合在一起,梳理各主题下所包含的类目信息,实现了从分散信息到关联知识的转化。对灾害信息进行可视化知识组织,不仅可以帮助政府部门、消防组织等做好决策部署与政策工作安排,还可以满足社会用户的相关信息需求,为多元主体提供知识服务,同时对保障社会安全和促进国家经济平稳发展具有重要现实意义和科学意义。鉴于本文对微博信息选取研究的数据量相对有限,在今后的调查研究中可以再选取微信、网媒等信息资源丰富的数据量,进一步扩大自然灾害知识图谱的主题与实体节点,从而加强数据之间的关联程度,更好地实现防灾信息的开发与利用,提升自然灾害知识图谱的利用价值。

猜你喜欢
知识可视化政务微博自然灾害
思维可视化在教学《函数的图象》中的应用
小学低段语文教学中知识可视化的策略探析
小学低段语文教学方法探析
基于生态位理论的中国电子政务发展研究
区域发展存在的问题及其思考
我国政务微博参与公共管理的问题及对策研究
巧用政务微博,回应民众关切
三年困难时期的背景原因分析与思考
海运平安险承保范围争议探析