基于知识图谱的郁病智能辅助辨证知识表示与推理研究

2024-01-27 11:58韦昌法刘东波刘惠娜占艳
现代信息科技 2023年24期
关键词:知识图谱

韦昌法 刘东波 刘惠娜 占艳

摘  要:以郁病辨證为例,开展基于知识图谱的中医智能辅助辨证知识表示与推理研究,提高中医智能辅助辨证模型的构建效率、辨证模型中辨证知识的可视化程度和辨证推理过程的可解释性。以面向智能辅助辨证的郁病辨证知识获取和医案采集工作的成果为基础,构建郁病智能辅助辨证知识图谱,在知识图谱中表示症状知识和证型知识以及二者之间的关系,结合概率推理进行辨证推理测试和分析。构建了刻画19种证型和147个症状之间关系的郁病智能辅助辨证知识图谱,辨证推理测试获得的初步准确率可达79.17%、按证型分组统计的准确率最高可达100%,可根据郁病智能辅助辨证知识图谱对辨证结果进行初步解释。将知识图谱应用于中医智能辅助辨证知识表示并结合概率推理方法进行辨证推理,有助于提高辨证模型的构建效率和模型中辨证知识的可视化程度。

关键词:知识图谱;郁病;智能辅助辨证;知识表示;辨证推理

中图分类号:TP39  文献标识码:A  文章编号:2096-4706(2023)24-0115-07

Research on Knowledge Representation and Reasoning of Intelligent Assisted Syndrome Differentiation for Depression Based on Knowledge Graph

WEI Changfa1, LIU Dongbo1, LIU Huina2, ZHAN Yan1

(1.School of informatics, Hunan University of Chinese Medicine, Changsha  410208, China;

2.Medical School, Hunan University of Chinese Medicine, Changsha  410208, China)

Abstract: Taking the syndrome differentiation of depression as an example, this paper carries out research on knowledge representation and reasoning of intelligent assisted syndrome differentiation for Traditional Chinese Medicine (TCM) based on knowledge graph, to improve the construction efficiency of TCM intelligent assisted syndrome differentiation model, the visualization degree of syndrome differentiation knowledge in the syndrome differentiation model, and the interpretability of syndrome differentiation reasoning process. Based on the achievements of knowledge acquisition and medical case collection work for intelligent assisted syndrome differentiation of depression, an intelligent assisted syndrome differentiation knowledge graph for depression is constructed. It represents symptom knowledge, syndrome type knowledge, and the relationship between the two in the knowledge graph, and the probabilistic reasoning is combined to conduct testing and analysis of syndrome differentiation reasoning. A knowledge graph of depression intelligent assisted syndrome differentiation is constructed to depict the relationship between 19 types of syndromes and 147 symptoms. The preliminary accuracy obtained through testing of syndrome differentiation reasoning can reach 79.17%, and the highest accuracy achieved by grouping statistics according to syndrome types can reach 100%. The syndrome differentiation results can be preliminarily explained based on the knowledge graph of depression intelligent assisted syndrome differentiation. This paper applies knowledge graph to the knowledge representation of intelligent assisted syndrome differentiation of TCM, and combines probabilistic reasoning methods for syndrome differentiation reasoning, which helps improve the efficiency of constructing syndrome differentiation models and the visualization degree of syndrome differentiation knowledge in the models.

Keywords: knowledge graph; depression; intelligent assisted syndrome differentiation; knowledge representation; syndrome differentiation reasoning

0  引  言

郁病是以心情抑郁、情绪不宁、胸部满闷、胁肋胀痛,或易怒易哭,或咽中如有异物梗阻等症为主要临床表现的一类病证,西医学中的抑郁症、焦虑症、癔症等均属于本病范畴[1]。世界卫生组织的报告显示,到2030年抑郁症将跃居全球疾病总负担的第一位[2]。郁病的早预防、早发现和早治疗是摆在研究者面前亟待解决的重大课题,因此本文选取郁病为例开展中医智能辅助辨证知识表示与推理研究。

1  郁病辨证知识获取和医案采集

开展郁病智能辅助辨证知识表示与推理研究,首先需要获取辨证知识。中医内科学教材、中医临床诊疗指南和中医临床诊疗方案中对郁病的辨证论治知识都有所叙述,为了较为整全地获取郁病辨证知识,笔者通过文献研究法全面搜集包含郁病辨证知识的权威文献,选取了《中医内科常见病诊疗指南中医病证部分·郁病》(中华中医药学会2008年发布)等6份权威文档作为郁病辨证知识来源,进而设计了郁病证型分布数据获取方案、郁病症状规范化处理方案和郁病证型与症状关系初步计算方案,以开展郁病辨证知识获取工作。

开展郁病智能辅助辨证知识表示与推理研究,需要建立中医智能辅助辨证模型并验证其准确率,研究过程需要准备大量的配套医案。这些医案一方面可以用于挖掘中医专家的辨证经验,使智能辅助辨证模型能集成专家经验来开展辨证;另一方面可以用于评估智能辅助辨证模型的辨证准确率。笔者研究了郁病智能辅助辨证配套医案智能采集方案,设计了辨证推理测试医案筛选条件和医案数据预处理及自动筛选方案,基于医案数据完善郁病辨证知识,为后续研究奠定基础。

基于上述方案,笔者以计算机程序自动处理结合人工审核的方式,从6个郁病辨证知识权威来源中获取了19种郁病证型的分布数据,计算获得了包含147个症状的郁病证型规范化症状集和19种郁病证型对应的症状子集以及证型与症状之间的关系数据,采集了302例郁病医案,完成了医案信息自动提取,自动筛选出了169例可供智能辅助辨证推理测试使用的医案,完成辨证推理测试数据预处理,为开展基于知识图谱的郁病智能辅助辨证知识表示与推理工作奠定了知识和数据基础。

2  郁病智能辅助辨证知识表示方案

谷歌公司于2012年5月正式提出了知识图谱的概念,知识图谱中的节点代表现实世界中存在的概念或实体,图中的边则代表概念或实体之间的各种语义关系[3,4]。知识图谱目前已经在教育、医疗、金融、工业、农业等领域得到了快速发展与广泛应用[5]。中医药知识图谱能够以图谱的形式对中医药领域知识进行可视化表示,支持知识关联和扩充,为中医药教学、科普等工作提供知识服务,目前已经有不少研究和具体应用[6-9]。

目前,应用知识图谱技术来开展中医智能辅助诊断相关工作的研究相对较少。笔者经过对知识图谱理论进行学习和研究,确定了郁病智能辅助辨证知识图谱构建流程,设计了郁病智能辅助辨证知识图谱模型、郁病智能辅助辨证知识图谱实体和关系抽取方案及郁病智能辅助辨证知识图谱存储方案。

2.1  郁病智能辅助辨证知识图谱构建流程

郁病智能辅助辨证知识图谱属于领域知识图谱,按照自上而下的模式进行设计和构建。郁病智能辅助辨证知识图谱构建流程包括:郁病智能辅助辨证知识表示、知识图谱建模、实体抽取、关系抽取、属性抽取、知识融合、知识存储和知识图谱应用,如图1所示。

郁病智能辅助辨证知识图谱由RDF三元组进行知识表示;知识图谱建模主要是明确郁病辨证相关的概念、实体、关系和属性;知识抽取过程包括实体、关系、属性抽取,知识融合过程对来自各个郁病辨证知识权威来源中的知识和来自郁病智能辅助辨证配套医案中的知识进行融合,将得到的数据以三元组结构的形式保存在CSV文件中;知识存储是将这些三元组导入图数据库Neo4j进行存储,并将节点以图的结构进行连接;最后,郁病智能辅助辨证知识图谱将应用于郁病智能辅助辨证。

2.2  郁病智能辅助辨证知识图谱模型

郁病辨证的知识图谱模型包括概念、实体、关系、属性的明确和定义,如图2所示。郁病智能辅助辨证知识图谱概念包括病症、证型和症状这3个概念类别;包括1种关系类别,即“包含”,如表1所示;包括1种属性类别,即“关注度”。

2.3  郁病智能辅助辨证知识图谱实体和关系抽取方案

本研究的郁病智能辅助辨证知识图谱的实体、关系和属性抽取由笔者以半自动化的方式开展,并进行相关知识融合,最后得到各类实体总数167个,关系总数434个,属性147个。

2.4  郁病智能辅助辨证知识图谱存储方案

知识图谱通常采用圖数据库作为最基本的存储引擎,图数据库是一种基于图形结构进行语义查询的数据库,它使用节点、边和属性来表示和存储数据。郁病智能辅助辨证知识图谱的模型构建好之后,存储在图形数据库Neo4j中。Neo4j是目前最为流行的图数据库之一,它实现了属性图这一图结构表示模型,在查询计算方面具有较高优势[10]。

3  郁病智能辅助辨证知识图谱构建

根据上述的基于知识图谱开展郁病智能辅助辨证知识表示方案,笔者开展了郁病智能辅助辨证知识图谱的构建工作,成功构建了存储于Neo4j图数据库中的郁病智能辅助辨证知识图谱,图3展示了图谱构建过程的核心代码。

图3  在Neo4j图数据库中构建郁病智能辅助辨证知识图谱的核心代码

下面将重点介绍郁病辨证之症状知识在知识图谱中的表示和郁病辨证之证型症状知识在知识图谱中的表示。

3.1  症状知识在知识图谱中的表示

郁病症状在郁病智能辅助辨证知识图谱中被设置为症状节点,笔者依据前期获取到的郁病辨证之症状知识来设置该节点的属性“关注度”。图4展示了症状“胸闷”在知识图谱中的表示,其关注度为94。

如果对前期获取到的19种郁病证型的规范化症状子集进行查询统计,可以发现“胸闷”这一症状出现在8个郁病证型的规范化症状子集当中。然而,在郁病智能辅助辨证知识图谱中上述知识可以被快速地以图形化的方式呈现出来,图5展示了症状“胸闷”出现在“肝气郁结证”等8个证型中。

3.2  证型知识和证型症状关系知识在知识图谱中的表示

本研究前期获取到的郁病辨证之证型知识和证型症状关系知识在郁病智能辅助辨证知识图谱中也可以被快速地以图形化的方式呈现出来,图6展示了知识图谱中“郁病”节点与各个证型节点和症状节点之间的关系,图7展示了知识图谱中“肝气郁结证”证型关联了36个症状节点,它与“胸闷”之间的“证型-症状”概率值为0.8。

4  郁病智能辅助辨证推理测试和结果分析

基于知识图谱开展中医智能辅助辨证知识表示是可行而有效的,但是在推理方面,知識图谱领域的推理概念与中医辨证领域的推理概念是有差别的,而且中医辨证推理机制比较复杂,故需要结合概率推理等推理方法才能在智能辅助辨证知识图谱的基础上取得更好的辨证推理结果。

4.1  郁病智能辅助辨证推理方案

本研究前期获取的郁病辨证之症状知识、证型知识和证型症状关系知识是基于郁病辨证知识权威来源和郁病智能辅助辨证配套医案中所蕴含的知识计算而得的,它们在很大程度上是基于概率的知识。因此,笔者构建了基于知识图谱和概率推理的郁病智能辅助辨证模型,该模型由郁病智能辅助辨证知识图谱和基于概率的辨证推理模块组成,在“中医智能辅助辨证知识表示与推理研究辅助系统”中实现了基于概率的辨证推理模块,该模块依据郁病智能辅助辨证知识图谱中的知识对郁病医案数据进行辨证推理。图8展示了基于知识图谱和概率推理的郁病智能辅助辨证推理方案的流程图。

在辨证推理过程中,最核心的环节是根据郁病医案的核心症状分别计算各个证型的辨证得分。式(1)根据某个郁病医案的核心症状计算该医案被辨证为证型Xi的得分,其中i为证型编号,j为证型Xi的规范化症状子集中的症状编号,其取值范围为1~n,n是该症状子集的症状总数。YZj表示症状Zj是否出现在当前医案的核心症状中,如果出现则YZj的值为1,否则其值为0,此时无须判断PXZij和GZj的值即可得知YZj · PXZij · GZj的值为0。如果YZj的值为1,则进一步获取PXZij和GZj的值来计算YZj · PXZij · GZj的值,PXZij表示证型Xi的规范化症状子集中的症状Zj的“证型-症状”概率值,GZj表示症状Zj的“症状关注度”。

最后,将基于知识图谱和概率推理的郁病智能辅助辨证模型生成的辨证推理结果与郁病智能辅助辨证配套医案的原始辨证结果进行对比分析,依据郁病辨证知识来调整郁病智能辅助辨证模型相应的参数、修正优化郁病智能辅助辨证知识图谱,以进一步提高辨证准确率。

4.2  对单个郁病医案进行智能辅助辨证推理测试

在“中医智能辅助辨证知识表示与推理研究辅助系统”的“辨证推理”页面,将“郁病智能辅助辨证推理测试医案数据预处理”阶段获取的郁病医案核心症状输入系统,即可得到相应的辨证结果。图9展示了基于知识图谱和概率推理的郁病智能辅助辨证模型为单个医案生成的辨证推理结果,从图中可以看出辨证推理得分排序居第1位的是肝气郁结证,因此确定该医案的辨证结果即为肝气郁结证,该辨证结果与医案的原始辨证结果一致;该医案共有15个郁病症状(胸闷、心神不宁、胁胀、胁痛、肋痛、脘闷、脘腹不适、嗳气、纳呆、大便不调、舌质淡红、舌质淡、苔薄、苔腻和脉弦),从图7所示的“肝气郁结证”辨证知识图谱中可以看出,除了舌质淡和脘腹不适这两个症状之外,另外13个症状的节点都与“肝气郁结证”节点关联,说明它们都包含在肝气郁结证的规范化症状子集中,它们为该医案被辨证为肝气郁结证作出了积极贡献。

4.3  快速构建郁病智能辅助辨证新模型

在前期构建的基于知识图谱和概率推理的郁病智能辅助辨证模型中,其郁病智能辅助辨证知识图谱包含了19个郁病证型节点和147个郁病症状节点,知识图谱中存储了这些证型和症状的知识以及它们之间的关系知识。但是,上述19种郁病证型中有13种证型只出现在了某一个郁病辨证知识权威来源中,难免会造成辨证模型对这些证型的辨证知识认识得不够深刻,利用该辨证模型对来自各个医案集、各位医生的郁病医案进行辨证推理,不可避免地会出现辨证结果不够准确的情况。然而,肝气郁结证、肝郁脾虚证、肝胆湿热证、肾虚肝郁证、心脾两虚证和肝郁化火证这6种证型都出现于多个郁病辨证知识权威来源中,使得辨证模型可以更深刻地认识它们。因此,笔者重新构建一个包含肝气郁结证、肝郁脾虚证、肝胆湿热证、肾虚肝郁证、心脾两虚证和肝郁化火证这6种郁病核心证型的辨证知识图谱,基于本论文第1节中所述的工作成果,利用本论文第2节和第3节中所述的方案可以快速完成该知识图谱的构建,与前期已经构建好的辨证推理模块一起组成新的郁病智能辅助辨证模型。图10展示了新建的包含6种郁病核心证型的郁病智能辅助辨证知识图谱。

4.4  对郁病医案集进行智能辅助辨证推理测试

笔者基于上述的郁病智能辅助辨证新模型,开展了对郁病医案集进行批量智能辅助辨证推理测试的工作。基于本论文第1节中所述的工作,笔者已采集了302例郁病医案,自动筛选出了169例可供智能辅助辨证推理测试使用的医案,这169例医案中有48例医案的辨证结果在肝气郁结证、肝郁脾虚证、肝胆湿热证、肾虚肝郁证、心脾两虚证和肝郁化火证这6种证型之中,即这48例医案是一批对应于“6个郁病核心证型”的医案,对它们批量进行智能辅助辨证推理测试。

“中医智能辅助辨证知识表示与推理研究辅助系统”的“辨证推理”页面提供了“对医案集进行辨证推理测试”功能,使用该功能对上述医案集进行辨证推理测试,表2展示了辨证推理测试结果。

从表中可以看出,基于知识图谱和概率推理的郁病智能辅助辨证模型对这48例医案的初步辨证准确率为79.17%,对原始辨证结果为肝胆湿热证和心脾两虚证的两类医案的辨证准确率达100%。其中,原始辨证结果为肝胆湿热证的医案只有2例,其辨证准确率达100%不具代表性;而原始辨证结果为心脾两虚证的医案有13例,其辨证准确率达100%;由于心脾两虚证在6个郁病辨证知识权威来源中的出现率最高(一共出现了5次),故在一定程度上可以反映出:构建辨证模型时获得的辨证知识越多,模型的质量往往会越高。

5  结  论

本文提出了一套基于知识图谱和概率推理的中医数字辨证知识表示与辨证推理方案。开发实现了相应的计算机程序,并以郁病辨证为例开展实验,构建了刻画19种证型和147个症状之间关系的郁病数字辨证知识图谱,以及包含6种郁病核心证型的辨证知识图谱,辨证推理测试获得的初步准确率可达79.17%、按证型分组统计的准确率最高可达100%,可根据郁病数字辨证知识图谱对辨证结果进行初步解释,实验表明该方案有助于提高辨证模型的构建效率和模型中辨证知识的可视化程度。

开展基于知识图谱的中医数字辨证的研究,将有助于提高中医数字辨证模型的构建效率、辨证模型中辨证知识的可视化程度和辨证推理过程的可解释性,促进中医智能辅助诊断的发展和应用,在推动名老中医诊疗经验的传承推广、帮助中医学生学习中医诊断知识和辅助广大群众开展个人健康状态自检等方面都具有重要的意义。

参考文献:

[1] 张伯礼,吴勉华.中医内科学:新世纪第4版 [M].北京:中国中医药出版社,2017.

[2] 张钰群,袁勇贵.2020年抑郁症研究进展回顾 [J].中华医学信息导报,2021,36(4):11-12.

[3] 陈烨,周刚,卢记仓.多模态知识图谱构建与应用研究综述 [J].计算机应用研究,2021,38(12):3535-3543.

[4] 王萌,王昊奮,李博涵,等.新一代知识图谱关键技术综述 [J].计算机研究与发展,2022,59(9):1947-1965.

[5] 张吉祥,张祥森,武长旭,等.知识图谱构建技术综述 [J].计算机工程,2022,48(3):23-37.

[6] 王松,李正钧,杨涛,等.中医药知识图谱研究现状及发展趋势 [J].南京中医药大学学报,2022,38(3):272-278.

[7] 曾子玲,张华敏,于彤,等.知识图谱及其关键技术在中医药领域的研究与应用综述 [J].世界科学技术-中医药现代化,2022,24(2):780-788.

[8] 李琳菊,李亚春,徐宏宁,等.基于知识图谱的中医养生知识智能问答APP构建研究与实践 [J].医学信息学杂志,2022,43(7):50-54.

[9] 蒋川宇,韩翔宇,杨文蕊,等.医学知识图谱研究与应用综述 [J].计算机科学,2023,50(3):83-93.

[10] 陈华钧.知识图谱导论 [M].北京:电子工业出版社,2021.

作者简介:韦昌法(1982—),男,壮族,广西巴马人,教授,硕士研究生导师,博士,研究方向:中医智能辅助诊疗。

收稿日期:2023-06-01

基金项目:湖南省教育厅资助科研项目(20B431);湖南省自然科学基金资助项目(2020JJ4461)

猜你喜欢
知识图谱
国内外智库研究态势知识图谱对比分析
国内信息素养研究的知识图谱分析
国内图书馆嵌入式服务研究主题分析
国内外政府信息公开研究的脉络、流派与趋势
基于知识图谱的产业集群创新绩效可视化分析
基于知识图谱的产业集群创新绩效可视化分析
基于知识图谱的智慧教育研究热点与趋势分析
国内酒店品牌管理研究进展的可视化分析
从《ET&S》与《电化教育研究》对比分析中管窥教育技术发展
专家知识图谱构建研究