COVID-19地理知识图谱构建分析
——以江苏省为例

2022-06-22 10:59张雷雨
连云港职业技术学院学报 2022年1期
关键词:结构化病患时空

张雷雨,刘 杰

(1.连云港职业技术学院建筑工程学院,江苏 连云港 222006;2.江苏海洋大学海洋技术与测绘学院,江苏 连云港 222005)

2019年12月以来,新型冠状病毒肺炎(coronavirus disease 2019,COVID-19)疫情在国内外蔓延。疫情数据具有庞杂特性,传统数据分析方法缺乏对疫情动态性和时空特征的描述,难以完成对疫情微观层次的剖析[1]。因此,综合利用知识图谱技术和地理学理论以有效地揭示疫情动态传播的时空分布规律。该领域学者研究了COVID-19相关的病例活动、医用物资等知识库构建。陈晓慧等通过对COVID-19病例活动关键节点回溯,完成了微观层面上疫情传播过程的推理和验证,从模式层、数据层与原型验证系统三方面对COVID-19病例活动知识图谱进行了多样化描述[2]。向军毅等采用自顶向下与自底向上两种方式完成了COVID-19医用物资的半自动化知识图谱构建[3]。金安楠等研究表明COVID-19传播过程具有时空特征,经典分析手段未能刻画其时空演化与人地互动的地理过程[4]。陈江平等利用空间自相关方法对H1N1传播路径进行分析,认为疫情聚集重心并未伴随时间转移[5]。余正等利用DBSCAN自适应聚类算法,细粒度地分析温州市疫情时空演化,发现疫情在青壮年人群更易传播,采用一定措施可以有效遏制疫情传播[6]。

地理知识图谱通过引用时空关系和语义特征,利用语义网络对地理概念、实体及其间关系进行形式化的描述,不仅能够清晰表达数据的层次信息,还能体现出实体间的时空关系和语义信息[7-9]。笔者将海量的患者信息整合成结构化的知识,同时从地理学视角开展疫情时空分析、重点城市疫情传播过程时空回溯等方面的研究,能够实现对COVID-19地理知识图谱的构建和可视化分析。

1 研究数据

本文以江苏省为研究区域,研究数据来源如下。

(1)空间数据来源于国家基础地理信息中心(http://www.webmap.cn/commres.do?method=result100W),包括江苏省矢量边界图、道路网分布图。

(2)每日病例确诊情况为江苏省及其13个地级行政区卫生健康委员会(http://wjw.jiangsu.gov.cn/)通报的确诊病例,包括每日新增确诊、现存确诊、疑似、死亡人数。

(3)确诊患者的详细信息及其时空活动轨迹数据,笔者利用爬虫技术从互联网中(周边疫情、同行查询等小程序)获得,包括性别、年龄、所属地、居住地、与其他病例关系、出行方式、出行时间及轨迹、发病时间、确诊来源、就诊医院、确诊时间,然后通过人工判读爬取到的确诊病例详细信息,对数据进行整合、去重、纠错处理。本研究采用2020年1月23日至2020年2月19日的江苏省疫情数据,其确诊患者的空间分布如图1所示。

图1 江苏省确诊分布图

2 研究方法

2.1 总体研究方法

本文采用自顶而下的方法构建确诊病患的地理知识图谱[10-11],包括互联网疫情数据获取、病患信息抽取及其本体构建和病患实体融合与入库三部分。采用爬虫程序从微信小程序(疫情小区地图、周边疫情、同行程查询)、江苏省卫生健康委员会官网及各市级卫健委官网公布的疫情信息中获取疫情数据及其轨迹信息,将获取的半结构化和非结构化数据进行清洗与整理,通过提取病患实体并对其进行本体构建,完成病患实体间的属性与及其时空关系的抽取,对众多实体进行融合,最终实现新冠肺炎疫情病患地理知识图谱。研究总体技术路线如图2。

图2 研究总体技术路线

2.2 数据采集与预处理

本文研究数据包括OpenKG-COVID-19(http://openkg.cn/group/coronaviru)数据库等结构化数据,卫生健康委员会公示网页、微博网页等半结构化数据和专业文献资料、文本数据等非结构化数据。针对多种来源的数据信息,使用多策略数据获取方法[12-13]。对于结构化数据直接提取其相关数据,利用网页爬虫技术提取半结构化数据,非结构化数据则采用人工处理的方式来整合[9]。

由于确诊患者数据库中的病患信息来源复杂,病患数据质量存在良莠不齐、不同数据源信息冗余、病患间关联关系模糊等问题,需要对病患数据进行剔粗取精,增强病患数据库内部的逻辑性和表达能力,建立有效的实体关系以填充新冠肺炎疫情病患知识图谱。江苏省各地级市确诊患者数据概况见表1。

表1 江苏省各地级市确诊患者数据概况

2.3 关系抽取与本体构建

本文将获取到的确诊患者信息实体关系定义为五元组

图3 本体链接结构化示例

本文采用关系数据库存储病患数据和部分结构化语义信息,同时采用图数据库存储语义关系以及提取病患实体空间关系,最后利用Protégé工具进行确诊患者信息本体库构建[13-16]。

3 结果分析

3.1 COVID-19地理知识图谱综览

本文采用自顶而下的方式构建确诊患者地理知识图谱。首先,从整合后的患者数据中抽取患者实体、患者关系及患者时空活动轨迹信息;其次,利用Protégé构建本体模型,并将采集的患者数据资源与实体关系进行知识融合;最后,使用图数据库Neo4j实现江苏省COVID-19确诊患者地理知识图谱数据的存储与访问。

图4为江苏省部分确诊患者地理知识图谱概览,通过节点链接网络图展示江苏COVID-19确诊患者地理知识图谱,其中圆圈代表实体,线为病患-病患、病患-地区、病患-事件、病患-交通工具、地区-地区等关系。

图4 江苏省部分确诊患者地理知识图谱

3.2 COVID-19疫情时空分析

国家卫健委公布信息《新型冠状病毒感染的肺炎防控方案(第二版)》表明COVID-19潜伏期最长14天,多为3~7天。本文以7天为一个时间段,将江苏省确诊患者数据划分为4个时间序列,各时间段内所有地级市的确诊患者变化如图5和图6所示。在疫情暴发初期,江苏省出现的确诊患者大多为从武汉返乡人员,集中在交通便利的苏南地区,如南京、苏州、无锡。在苏北地区,徐州作为重要交通枢纽,人口多且流动频繁,感染风险较大,确诊人数位列江苏省第三。虽然苏中地区相比苏南地区交通通达度低,但由于在2月1日至2月19日期间淮安暴发酒店公众性聚集案例,最终确诊人数高于苏中地区其他城市。此后,在江苏及地方政府及时采取相关防控措施后,疫情传播得到了有效控制。

图5 江苏省病患时序分布

图6 江苏省城市病患时序

3.3 重点城市疫情传播时空知识溯源

南京既是江苏省省会,同时也是全国重要的交通枢纽,是江苏省常住人口较多、省内人口流动较大的城市,导致确诊患者人数居全省首位。春节后大量返城人员回南京,增加了南京地区的疫情传播风险,因此,本文对南京市的疫情传播过程进行回溯。从图7可以看出南京市病患分布情况,多集中在疫情传播风险较高的江宁、鼓楼、建邺、栖霞、浦口、玄武、六合、雨花台、江北新区、秦淮等地区,有病例在不同区县流动导致跨区域传染,其中南京市交通枢纽中心江宁区患者人数较多,由于高淳区与溧水区人口密度稀疏且人口流动不频繁,因此疫情传播风险较低。从性别、年龄、确诊来源、分布地区四个角度追溯南京市病患信息,由图8(a)得出病患年龄分布跨度较大,30~40岁之间人数最多,占总人数24%;病患性别特征如图8(b)展示,总体分布趋近平衡;南京市病患多为密切接触型,如图8(c);由图8(d)可知在南京市所有区县中,江宁区病患最多,高达19例。

图7 南京市病患分布

图8 南京市病患属性

通过知识图谱构建完成病患确诊前活动轨迹回溯,图9(a)为病患27确诊前活动轨迹图谱,图9(b)为该病患在南京市内轨迹回溯图。病例27为一名居住在江宁区的33岁男性,常住武汉。1月20日乘坐高铁(武汉-南京南站),然后乘车回江宁岳父家中,中午12时,病例27乘坐私家车从家中到达软件大道站,12时22分乘坐地铁1号线前往鼓楼站,骑共享单车到达中信银行,17时病例27乘公交到达荔枝广场,18时30分乘地铁1号线(鼓楼站-软件大道站),然后步行回到家中。1月21日8时病例27开车到达朝明生鲜超市,门口逗留30分钟后乘车回家。1月22日8时病例27开车到达华润苏果购物广场,购物约2小时后开车回家后未外出,2月11日被确诊为新型冠状病毒肺炎。

图9 病例27轨迹回溯

4 讨论

COVID-19疫情呈现时空快速扩散规律,综合运用时空理论与知识图谱构建方法,能够有效挖掘疫情传播过程地理知识和传染扩散规律。本文选取江苏省为研究区域,基于官方卫生健康委员会发布的确诊病例数据,结合相关的时空活动或事件数据,整合病例之间的时空关系,构建了新冠肺炎疫情地理知识图谱。在COVID-19地理知识图谱的可视化分析方面,分别进行了疫情时空分析、重点城市疫情传播时空溯源。对确诊患者的时空分布与疫情的传播过程进行知识回溯,以便从宏观和微观两个角度把握疫情状况,推动全国疫情阻击战走向胜利。本文构建的新冠肺炎疫情地理知识图谱不仅限于COVID-19方面,未来还可在其他传染病方面提供一种可行分析手段。

猜你喜欢
结构化病患时空
跨越时空的相遇
促进知识结构化的主题式复习初探
改进的非结构化对等网络动态搜索算法
镜中的时空穿梭
结构化面试方法在研究生复试中的应用
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
分析严重创伤患者并发精神障碍的心理疏导及护理体会
玩一次时空大“穿越”
高原地区脑囊虫病杀虫治疗期的观察及护理措施
制度变迁与明代官员病患叙事的演变