基于临床分布式大数据知识图谱的设计与应用研究

2023-05-24 00:51李宏伟严武
中国医疗管理科学 2023年3期
关键词:图谱实体可视化

李宏伟 严武

“十四五”规划中提出:加快数字化发展,建设数字中国,培育壮大人工智能、大数据、云计算等新兴数字产业,加快构建数字技术辅助决策机制,提高基于高频大数据精准动态监测预测预警水平,提升大数据等现代化技术手段辅助治理能力,推进大数据智能化平台建设。临床大数据中存储了丰富的患者信息,包括患者电子健康记录、过去诊疗结果、此次诊断说明、用药方案等。这些信息提供了患者完整的健康状况和其他有价值的信息[1-2]。随着信息系统的发展,医院的临床大数据也越来越庞大,研究这些信息可以为疾病关联、辅助诊疗、用药推荐等带来重大进步。然而,目前大多数临床数据都是以自然语言形式记录,以结构化如诊断代码、实验室结果等,或非结构化如临床记录、进展记录等格式进行存储,研究人员很难对其进行统计分析和处理。随着信息技术的发展,需要开发一种强大的信息管理工具来收集和分析庞大的临床数据。

知识图谱用于描述现实中存在的各种概念和实体及它们之间的复杂关系,目的在于提升其搜索引擎的性能,优化用户在搜索过程中的体验。由于当前的自然语言处理方法还不够完善,知识图谱的构建往往需要付出很大的代价,完全自动化的构建方式难以得到较为准确的知识图谱[3-4]。针对临床大数据已经提出了几种从医疗记录的自由文本部分提取实体的提取系统和方法[5-6]。目前,在生物医学领域广泛使用的工具是cTAKES[7]和MetaMap[8]。cTAKES和MetaMap 都使用统一医学语言系统(Unified Medical Language System, UMLS)来提取和标准化医学概念,提取医疗实体,如疾病分类、疾病诊断、药物等。cTAKES 结合了基于规则和机器学习技术从临床分布式数据中提取信息,以顺序执行组件的方式来处理临床文本。MetaMap 将生物医学文本映射到统一医学语言系统中的概念,结合自然语言处理和混合方式,发现文本中提到的叙词表和生物医学文献的半自动和全自动索引。临床大数据的数量正以指数速度增长,如何高效地构建领域内准确的知识图谱是亟需解决的一大难题。为了解决这一难题,本文着重于提出一个有效的流程来处理庞杂的医疗数据,并构建一个可靠的医学知识库。

1 知识图谱构建

1.1 构建流程

针对临床大数据中广泛分布的实体,本文设计和实现了临床分布式大数据知识图谱的构建架构和流程。知识图谱构建框架见图1,包括数据获取、实体抽取、关系抽取、实体对齐、本体构建、图谱构建和展示。

图1 知识图谱构建框架

1.2 数据抽取

数据抽取是指从不同来源、不同结构的数据中进行知识提取,形成知识(链接数据)并存入知识图谱。医学文本的数量正以指数速度增长,如何从众多的医疗文本中准确提取医疗实体,如疾病分类、疾病诊断、药物等以及其间的关系是构建高质量图谱的关键。医疗知识抽取按要素类型分为实体抽取、关系抽取和属性抽取。

本文采取自顶向下和自底向上相结合的方法来构建医疗知识图谱。自顶向下的构建方法是以本体作为知识图谱的模式层,通过构建医疗领域本体,为知识图谱的构建提供概念支撑。本体构建的过程比较繁琐,见图2。本文医疗本体的构建过程是通过人工构建方法实现的,并选择当前使用范围最广泛的本体编辑器Protégé 本体构建工具构建医疗本体。

图2 医疗本体示例

1.3 知识表示

由于医学数据种类繁杂,存储方式不一,医疗格式和标准不同,经常涉及交叉领域等特点,导致医学领域与其他领域在知识表示方面有所差异,同时也给医学领域的知识表示带来极大的挑战。本文采用W3C 提出的资源描述框架(Resource Description Frame, RDF)作为知识表示的模型,以便更为丰富地描述和表达网络资源的内容与结构,更有效地实现知识图谱的存储。

由于真实世界中的知识信息可以表达成一系列的RDF 三元组,其构成形式为<主语,谓语,宾语>,其中主语实体和宾语实体表示图模型中的节点,谓语为关系,表示图模型中的边。例如给定医疗中的描述信息“胃癌多表现为右上腹部剑下疼痛不适且胃窦糜烂性炎症”,可以使用RDF 三元组表示为<胃癌,表现,右上腹部剑下疼痛不适>和<胃癌、表现、胃窦糜烂性炎症>。

1.4 知识存储

由于医学知识图谱数据模型的图特性,面对大规模知识库数据时,基于关系数据模型、对象数据模型等传统管理方式难以同时满足低数据冗余与高查询性能这两个要求。若以图方式管理医学知识库数据,不仅可以避免知识库逻辑数据模型与物理数据模型之间的转换,而且可利用成熟的图算法优化知识库数据查询,例如最短路径寻找、N 度关系查找等。

目前主要的原生图数据库有Neo4j、Dgraph 等。Neo4j 是一个嵌入式、基于磁盘的、支持完整事务的数据库。Neo4j 重点在于解决拥有大量连接的传统关系数据库在查询时出现的性能衰退问题。Dgraph是一个可扩展的、分布式的、低延迟图形数据库。Dgraph 的目标是提供生产水平的规模和吞吐量,可以在超过TB 的结构数据里进行操作。本文采用基于Dgraph 分布式图数据库来构建和部署医疗的知识存储,保障知识的存储性能,以支撑后续应用。

本文选用Dgraph 图数据库作为医疗信息的存储方式。首先根据构建好的医学领域本体创建图数据库模式层,通过遍历数据、创建实体、创建实体与实体的关系并添加实体属性完成信息存储。

1.5 知识可视化

知识图谱将复杂的信息处理成结构化表示的知识,所表示的知识可以通过图形绘制而展现出来,为信息的检索提供便利。

本文将所有经过处理的医疗RDF 三元组存入Dgraph 分布式图数据库来构建和部署医疗的知识存储。Dgraph 的数据导入遵循W3C 标准RDF 格式。如图3 所示,在图的场景下表示相当于uid=0x2609a的节点的name 边指向了字符串“直肠癌”,在关系数据库的场景相当于更新记录的name 字段为“直肠癌”。与“直肠癌”节点关联的关系有“挂号”“并发症”和“常用药品”关系,与此关系关联的节点分别是“肿瘤科”“肠梗阻”和“卡培他滨片”等。

图3 医疗知识图谱可视化示意

随着导入到Dgraph 中的数据量逐渐增加,节点数量逐步增多,节点与节点之间的关系也越来越复杂。见图4。

图4 更复杂的知识图谱可视化示意

1.6 图谱嵌入

为了能将图谱进行更广泛的应用,研究将图谱中的实体和关系表示为一个向量,进而方便进行语义计算。见图5。

图5 图谱中的实体与关系研究方法

将上述基于医学知识的图谱与真实世界图谱进行融合,研究图谱融合相关技术,并将该融合知识图谱应用于临床其他决策系统。

2 应用场景及结果

在知识图谱中,医生可以输入我院任意一个疾病进行搜索,系统将会匹配并找到其相关的子类目诊断并进行合并统计,在疾病数据关系图谱中,将会展示与当前搜索的疾病词相关的主要关键词(第一级节点),并且继续透出与之相关的主要关键词(第二级节点),同时一并关联显示该疾病的相关伴随诊断以及所有的检查、检验、用药、手术和症状情况作为其他节点,鼠标移动至节点和分支时,可以显示相应百分比和节点详细信息。

我院抽取了16 个临床业务系统近25 年的数据,建立患者主索引并对医疗信息归一化处理,建立格式化字段8 000 余个,并支持对非结构化数据自我编辑,在此基础上,对我院所有疾病进行了知识图谱的展示。目前医生通过知识图谱建立科研项目60余个,并在此基础上产出SCI 等科研期刊论文10 余篇。知识图谱使用大数据挖掘及数据可视化技术可帮助临床医生更好地从既往真实病历数据中发现临床价值和科研价值,给科研提供了很多医学相关性思路和灵感。

应用场景1:在知识图谱中搜索“糖尿病”,将以图形方式显示出我院所有医疗数据中与“糖尿病”最相关的几个诊断、检查、用药、检验、手术和症状等二级节点,鼠标停留在任意一个节点上时,会显示我院同时具有“糖尿病”和该节点的病例数,在二级节点外面还会关联出“糖尿病”和此二级节点最相关的症状、检验和检查等三级节点,以此类推到四级节点。

应用场景2:在场景1 的基础上,统计疾病特征分布,以图表形式展示出与“糖尿病”相关的年龄、性别、用药手术、检验和检查分布,以及与“糖尿病”相关的排名前10 的伴随诊断和症状。

应用场景3:在场景1 的基础上,统计疾病指标趋势,以图表形式展示出与“糖尿病”相关的近1年的门诊人次、急诊人次、入院人次、平均住院日、手术例数、手术TOP、检验TOP、检查TOP 等疾病指标趋势情况。

此外,我们在知识图谱的基础上对接了万方和PUBMED 文献数据库,根据知识图谱的算法实现了“研究热点趋势河流图”和“作者图谱”。

研究热点趋势图以文库中近10 年相关疾病研究中各个不同重要TOPIC 的河流图为依据,并且每个TOPIC 下的keywords 能够进行点击后查看搜索后的具体文献情况。使用热点趋势图研究疾病,优先选择用户本身的主要诊疗疾病,其次选择用户所在科室的主要诊疗疾病,若用户本身和科室都没有诊疗疾病,则选择医院的主要诊疗疾病作为显示内容。科研热点趋势图最多显示用户的前3 个疾病对应的近10 年文献研究热点,为用户提供热点走势,使其了解专业领域发展情况,为科研提供思路和启发。见图6。

图6 研究热点趋势

作者图谱是根据用户诊疗数据中的擅长疾病进行推荐的,并计算该疾病下万方数据库中文献的作者分布情况。首先,根据作者发表的文献数量及作者之间的合作关系,统计并绘制出该疾病下万方数据库中排在前10 名的作者(以大气泡圆圈展示);其次会计算其他作者的文献数量与合作关系,从而绘制该疾病下完整的作者图谱。另外,在知识图谱右侧区域,展示了文献发表数量前5 名的作者最近发表的3 篇文献,以方便文献的查找。见图7。

图7 作者图谱

3 讨论

本研究设计并实现了临床大数据知识图谱的构建架构和流程,详细描述了医疗知识图谱的构建方法,包括知识获取、知识表示、知识存储和知识可视化等,并提供了可视化的医疗信息查询和展示页面。此外,本研究也为如何构建知识图谱提供了技术支持,具有较大的实用性,且所采取的方法通用,可以用于其他垂直领域的知识图谱构建流程。主要贡献包括以下方面。①设计和实现了临床分布式大数据知识图谱的构建架构和流程,并提供可视化的医疗信息查询和展示页面。②描述了临床大数据知识图谱的构建方法,包括知识获取、知识表示、知识存储和知识可视化等,其方法通用,也可以用于其他垂直领域。③目前领域知识与机器学习结合的主流方式是以深度学习为基础,知识作为前处理、后处理手段或作为深度学习目标函数的约束。但这在医疗场景并不适用,因可解释性、个性化诊断等需求反而要以符号逻辑为基础,以基于数据的统计学习为补充。鉴于此,我们提出了以临床指南为基础构建基础决策框架,针对知识转换为决策模型后存在的问题提出了使用基于数据的模型对其进行补充、细化和强化,最终形成可解释、准确率高、知识和数据双驱动的决策模型。

本研究所提出的方法尚有一些待进一步改进之处,如目前展示的只是一些基础疾病指标,未来需要基于更智能的算法挖掘更多的疾病指标和相关指标数据进行智能分析及实现价值的自动发掘,构建知识图谱中基于远程监督的实体识别、基于神经网络的实体链接等更复杂的技术来增加知识的准确率和覆盖范围等。

总体来讲,基于临床分布式大数据的知识图谱,使用大数据挖掘及数据可视化技术可帮助临床医生更好地从既往的真实病例数据中发现临床价值和科研价值,形象、深刻地展示医疗数据之间的关键联系,为大数据辅助决策提供关键技术支撑,也适用于大数据精准动态监测预测预警,提升大数据等现代化技术手段辅助治理能力,符合国家“十四五”规划对加强健康卫生医疗科技的要求。

猜你喜欢
图谱实体可视化
基于CiteSpace的足三里穴研究可视化分析
基于Power BI的油田注水运行动态分析与可视化展示
绘一张成长图谱
基于CGAL和OpenGL的海底地形三维可视化
前海自贸区:金融服务实体
“融评”:党媒评论的可视化创新
实体的可感部分与实体——兼论亚里士多德分析实体的两种模式
补肾强身片UPLC指纹图谱
两会进行时:紧扣实体经济“钉钉子”
振兴实体经济地方如何“钉钉子”