◆魏自强 郑伟伟 许永康
基于百科知识的医疗数据知识图谱构建
◆魏自强 郑伟伟 许永康
(贵州航天计量测试技术研究所 贵州 550009)
为解决医疗数据分布庞杂,数据间缺乏良好管理与组织,基于高质量的百科数据和医学本题库,通过网络爬虫技术获取百科数据,然后对医疗知识图谱构建过程中的知识抽取、知识融合等关键技术研究,最后,在Neo4j图数据库中存储并对其进行可视化展示。
医疗知识图谱;网络爬虫;图数据库
大数据时代的到来,医疗领域的数据呈现爆炸式增长。这些医疗信息蕴含着大量的有价值的信息,然而,医疗人员在面对海量的医疗数据时,可能无法快速准确地从中获取关键信息,导致无法高效的诊断疾病,甚至误诊。造成上述问题是医疗数据缺乏紧凑有效的组织结构与形象直观的可视化查询方式,没有形成相应的医疗知识体系,并且国内外医学标准不尽相同,许多医学无法直接应用[1],难以深层次的数据挖掘及应用。
知识图谱(knowledge graph KG)能有效解决上述问题,2012年知识图谱由谷歌公司提出[2],并将其应用到搜索引擎中。知识图谱已在学术界等领域得到了广泛应用,并在推荐系统,智能搜索等方面发挥者不可替代的作用[3]。国外方面,文献[4]根据知识图谱将医学概念与非洲传统医学的知识工程方法结合,对复杂的信息需求进行了适当建模。文献[5]从Web内容中提取的知识并和现有知识库中获得的先验知识进行信息融合。文献[6]对知识图谱的提取方法及评估方法做了研究。国内方面,文献[7]结合万方医学网收录的乙肝领域文献,采用文本挖掘技术构建工词矩阵并绘制乙肝领域的知识图谱,文献[8]研究了中医知识图谱构建方法,并实现中了医药知识图谱的应用,文献[9]研究了中医辨证治疗的知识体系,将知识图谱与失眠辨证治疗结合,构建中医个体诊断知识图谱。与国外向比,国内医疗领域知识图谱处于起步阶段,需构建面向各医疗需求的知识图谱,以提升国内医疗信息的服务。
本文以百科医疗知识如医学概念本题库、寻医问药网等作为数据源,从数据收集、知识清洗、知识存储、图谱展示等方面,构建医疗数据知识图谱。
知识图谱是一种基于图的数据结构,由节点和标注的边组成[10]。本质上是一种实体之间关系的语言网络[11]。知识图谱中节点是不同类型的实体,而图中的边也是实体间丰富的各种寓意关系[12]。
知识图谱基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性-值对,实体间通过关系相互联结,构成网状的知识结构[13]。实体是最基本的组成部分,如疾病、药品、疾病症状、食物等;属性是实体存在的特征如疾病名称、病因、治疗方法、治疗周期等;关系存在与不同实体之间的联系如疾病常用药、疾病宜吃食物、疾病所需检查等。如图1为疾病实体类属性图。
图1 疾病实体类属性图
医学知识图谱的构建主要目标是基于多种数据处理技术,多渠道抽取有价值的医学知识,主要以三元组的形式存储于图数据库中。医学知识图谱的构建技术流程如图2所示。主要通过知识抽取、知识融合、图谱的构建等技术从多源异构数据中抽取其中的实体、属性等关键知识及其关系[14]。
图2 知识图谱构建技术流程
知识图谱的构建主要分为自顶向下和自低向上两种构建方法。自顶向下构建知识图谱在构建过程中需要领域专家构建本题库,从异构数据源中填充到知识图谱中。自底向上的构建方式直接将抽取数据中发现的实体、关系和属性合并到知识图谱中。自底向上构建方式,成本低,自动化程度高。本文根据实际情况,采用自底向上的构建方式构建依赖数据知识图谱。本文在综合考虑医疗数据进行剖析,确定医疗数据基本概念,得到树形结构数据模式图,如图3所示。
图3 医疗知识实体结构示意图
1.2.1医疗数据抽取
知识图谱的构建首要问题是需要抽取医学知识,而医学领域数据,数据结构复杂,既有结构化数据,半结构化数据又有非结构化数据。本文数据来源主要是以垂直型医疗网,如从百科医疗知识、医学概念本题库、寻医问药网;主要通过数据爬虫的方法自动获取医学数据。将数据爬虫获取的数据整合成JSON文件保存,然后对数据进行数据清洗等操作。寻医问药网疾病百科如图4所示。
图4 寻医问药网的疾病百科
1.2.2知识融合
利用数据抽取,可实现从非结构化数据、半结构化数据中得到实体、实体的属性等信息。但这些信息中存在着大量的冗余、错误。可以从实体对齐、实体连接两个方面进行知识融合[1]。
(1)属性对齐
医疗数据来源的多样性,使医疗数据存在知识重复、医疗知识之间的联系不够、多元指代等问题。属性对齐首先判断多源异构数据中的实体是否指向真实世界同一对象。实体对齐可采用成对实体对齐和集体实体对齐两种方式。
(2)实体连接
实体连接是指实体对象连接到知识库中对应的正确对象的操作[15]。实体链接的基本思想是首先根据给定的实体指称项,从知识库中选出一组候选实体对象,然后通过相似度计算将指称项链接到正确的实体对象。
本文以疾病为核心,从检查、科室、疾病、症状等方面构建7类实体。表1为实体统计表。
表1 实体统计表
本文采用Neo4j可数据库进行存储和可视化展示。如图5所示。
图5 医疗知识图谱
对于急性中毒患者家属可根据图6反馈的查询信息,快速采取措施,如“立即脱离现场至空气新鲜处,脱去污染的衣着,并用肥皂水或清水冲洗污染的皮肤,并即时送往医院急诊科;医生根据患者症状,根据图6所示反馈的查询信息,建议该病人进行“血常规”等相关检查,以确定患者是什么类型中毒。
图6 医疗决策帮助的查询实例
知识图谱,可应用于医疗信息搜索引擎、医疗问答系统、医疗决策支持系统。医疗信息搜索引擎结合元搜索引擎和知识库的搜索引擎,聚合权威的知识、医疗、学术网站为用户提供包括维基百科、知乎问答等;医疗问答系统对知识库整合,利用自然语言处理技术的应用来生成和处理问题,最后从知识库中提取答案;医疗决策支持系统以患者的症状描述、化验等数据,为医生提供智能诊断,治疗方案的推荐,转诊指南,还可以针对医生的诊断方案进行分析、查漏补缺,减少或避免误诊。
本文充分阐释了知识图谱的发展、定义及构建。通过网络爬虫技术获取网页中高质量的百科医疗数据,在通过知识融合等技术消除冗余、错误信息。最后利用Neo4j图数据库进行存储和展示。
未来的工作将研究属性对图数据隐私推理的影响。
[1]付洋,刘茂福,乔瑞.心脏病中文知识图谱的构建[J/OL].武汉大学学报(理学版),2020(03):261-267.
[2]Pujara J,Miao H,Getoor L,et al. KnowledgeGraph Identification[C]// International Semantic Web Conference. Springer,Berlin,Heidelberg,2013.
[3]Heiko Paulheim. Knowledge graph refinement: A survey of approaches and evaluation methods. 2016,8(3):489-508.
[4]Kamsu-Foguem B,Diallo G,Foguem C.Conceptual graph-based knowledge representation for supporting reasoning in African traditional medicine[J]. Engineering Applications of Artificial Intelligence,2013,26(4):1348-1365.
[5]Dong X,Gabrilovich E,Heitz G,et al. Knowledge vault:a web-scale approach to probabilistic knowledge fusion[C]. ACM,2014.
[6]Paulheim,Heiko.Knowledge Graph Refinement:A Survey of Approaches and Evaluation Methods[J]. Semantic Web,2017.
[7]刘俊丽,张秀梅,蒋勇青.基于文本挖掘的乙型肝炎相关文献知识图谱分析[J].医学信息学杂志,2014,35(01):48-53.
[8]阮彤,孙程琳,王昊奋,方之家,殷亦超.中医药知识图谱构建与应用[J].医学信息学杂志,2016,37(04):8-13.
[9]李新龙.中医师辨证论治失眠症知识图谱构建方法研究[D].中国中医科学院,2018.
[10]侯梦薇,卫荣,陆亮,兰欣,蔡宏伟.知识图谱研究综述及其在医疗领域的应用[J].计算机研究与发展,2018,55(12):2587-2599.
[11]Nickel M,Murphy K,Tresp V,et al. A Review of Relational Machine Learning for Knowledge Graphs[J]. Proceedings of the IEEE,2016,104(1):11-33.
[12]侯梦薇,卫荣,陆亮,兰欣,蔡宏伟.知识图谱研究综述及其在医疗领域的应用[J].计算机研究与发展,2018,55(12):2587-2599.
[13]刘峤,李杨,段宏,刘瑶,秦志光.知识图谱构建技术综述[J].计算机研究与发展,2016,53(03):582-600.
[14]车金立,唐力伟,邓士杰,苏续军.基于百科知识的军事装备知识图谱构建与应用[J].兵器装备工程学报,2019,40(01):148-153.
[15]Li Y,Wang C,Han F,et al. Mining evidences for named entity disambiguation[C]/ACM,2013.
贵州省科技计划课题(黔科合支持[2019]2004号)