中医方剂知识图谱的构建研究综述

2022-10-28 09:57徐丽娜李燕
世界最新医学信息文摘 2022年56期
关键词:医药学方剂图谱

徐丽娜,李燕

(甘肃中医药大学信息工程学院,甘肃 兰州 730000)

0 引言

2012年5月17日,谷歌首次引入知识图谱(Knowledge graph)的概念,以此来提高搜索引擎的能力[1]。知识图谱是一种用图来描述知识的方法,它由节点和边组成,用来描述客观世界中的各种概念、实体和实体之间的关系。知识图谱作为一种知识表示方法,语义表达能力强、结构灵活、效率高,在可解释人工智能中发挥着非常重要的作用。随着知识表示与存储、大数据和机器学习的发展,知识图谱理论与应用取得了一些突破和快速发展。由于这些技术的进步,工业界和学术界对知识图谱产生了广泛的兴趣,并获得了一定的研究成果。

随着信息技术在医疗领域的快速发展及应用,大量的医疗数据必须在该领域进行处理。大量医学数据的有效分析和利用,对于疾病的诊疗、风险评估、新药研发、降低医疗费用、医学知识问答等具有重要作用。大数据分析在医疗领域应用的关键是怎样准确、快速地从大量医疗数据中提取有价值的医疗信息,医学知识图谱构建技术则提供了一种从医学数据中提取知识、挖掘医学信息的途径,具有非常广泛的应用价值和发展前景。同时中医方剂知识图谱的发展也有重要意义,它以知识图谱这种直观简洁的图表述方式展示了方剂本身、方剂中草药的组成、方剂与证、疾病等之间的关联关系,让更多的人更方便的了解方剂,运用方剂,以便更好的使中医学在人类健康问题上发挥重要作用,更全面的推广中医学知识。

2 知识图谱的基本知识

知识图谱的概念是谷歌在2012年提出来改进搜索引擎的,它是一个典型的多边关系图,主要用于描述现实世界中的实体(除了用来指称客观世界中具体对象的概念)、概念(人们在认识世界的过程中形成的客观事物的概念化,如人或动物等)和事件之间的客观关系[1]。由节点(实体)和边(实体之间的关系)组成。它本质上是一个语义网络,用来揭示事物之间的关系。知识图谱的目的是从各类复杂数据中提取概念、实体和关系,是事物关系的可计算模型,它根据知识范围和不同领域的划分,分为了普通知识图谱和领域知识图谱[2]。随着科学技术的不断发展,知识图谱被广泛应用于NLP领域,如语义研究、智能问答、辅助决策等领域,并且也已经成为了人工智能重要的驱动和中心领域。

知识图谱的一般表示是三元组形式,也就是三元组中的头实体、尾实体以及两个实体之间的关系,它表示实体的集合,包含某种实体的概念,并且表示实体之间的关系集,包括不同类型的关系。

知识图谱的体系架构分为三部分,如图1所示,第一部分是源数据的获取,可以从不同的渠道来获取,包括常用关系数据库方式来保存的结构化数据,许多网站和应用日志采用的文本方式记录的半结构化数据,以及使用语音、图片、视频等格式的非结构化数据。第二部分是知识融合,用于关联多数据源的知识,研究怎样将来自多个不同来源的关于同一个实体或者概念的描述信息结合起来,以此来扩大知识的范围。第三部分是知识计算与知识的应用,知识计算是知识图谱能力输出的主要方式,而知识应用是将知识图谱与特定的领域或者业务相结合,提高业务效率。

图1 知识图谱体系架构图

3 中医方剂知识图谱的构建

“天人相应”是中医的核心概念之一,中医的整体观使中得医药知识方面蕴含着丰富的关系知识,另一方面,面对不同得时代、地域、个体,也有各自的特点,如伤寒、温病的时代发展,艾灸在北方和南方九针的发展,正宗药材的概念等,使中医药知识较分散,较难应用,很多隐性知识较难去表述,这也让中医学界期待新的方法出现去解决这一难题。知识图谱类似于人类思维的形式、注重表达关系的结构特征,这与中医药知识来源于个人经验,注重整体关系的特点相吻合。且在知识的关联性、表达性和利用知识方面的优势,使得中医药知识图谱的研究得到不断发展。

“中医药学语言系统(TCMLS)”为构建中医药知识图谱提供了相对完整的框架[3]。中医药学语言系统是基于本体概念和语义网的大规模语言系统。已经发展成为一个包含超过10万个中医概念和超过100万条语义关系的大型语义网络,基本覆盖了中医药的概念体系,在范围和完整性等方面均处于中医药领域的领先地位。

事实上,中医药学语言系统已经有了一个知识库的框架,自然可以通过添加概念属性将其扩展为领域知识库。为了保持中医药学语言系统作为术语系统的简洁性和稳定性,在中医药学语言系统中只添加了概念的定义和摘要,而没有其他信息的概念,根据知识图谱的技术框架,可以将中医药学语言系统或其子本体之一转化为领域知识库,以此来支持知识服务系统的实施。由此可见,中医药知识图谱技术体系实际上是对中医药学语言系统的自然延伸和完善,为传统中医药学语言系统的应用和自我完善提供了必要的技术路径。另一方面,中医药工作者同时也建立了相对完整的数据库系统,包含了疾病、中药、方剂、中药成分等,为进一步扩展及完善中医药知识图谱贡献了丰富的数据。

基于中医药学语言系统来构建方剂知识图谱通常需要以下步骤来完成。首先需要收集相关的数据,中医方剂知识图谱数据主要分为“方剂数据”和“术语数据”,其中方剂数据取自古往今来名医大家总结的经典名方,根据经典名方结合专病用方经验收录的数据,术语数据基本来源于国家中医药管理局颁发的中医药行业标准,主要包括:疾病名称、症状名称、证候名称、治法名称、方剂名称、药物名称等[4]。

紧接着需要对数据进行标准化,虽然目前各种书写标准、诊疗标准以及教材都对数据标准化进行了统一,使得术语的使用更加规范,但在应用过程中仍然存在争议。例如,在中医药研究中常见的正异名以及同义词,尤其在实际构建的过程中更为常见。此时我们可以基于现有的相关标准来构建标准术语数据库,来规范方剂中术语的正异名和同义词,比如:“八月札=预知子”,“补气养阴=滋阴益气、养阴益气=益气滋阴”,按照标准来替换非标准用语,以此保证图谱节点内容的一致性[5]。

其次将对关系进行定义,通过对实体以及实体之间的关系进行定义将知识关联起来是知识图谱的本质。作为一种表达方式,在知识图谱中实体直观的描述了知识的结构以及相关概念的联系。知识图谱中每个实体都有特定的名称、定义以及释义,我们通常将实体关系定义为三元组,若以中医方剂作为研究对象,则三元组的形式为“实体-关系-实体”,其中实体为方剂中的病、证、药等,而关系可用来连接两个实体,描述它们之间的关系,如当归芍药散治疗心血管疾病,当归芍药散包含当归、芍药、川芎等药物[6]。

最后为图形化展示,知识图谱的最大优点是可以使用空间形状的图像来展示知识点之间的相互关系。在数据图形化方面,可选用neo4j图数据库来进行展示,将三元组数据批量导入neo4j图数据库中可以更加简洁明了的展示出实体及实体间关系[7]。

如图2所示,是已经构建完成的中医方剂知识图谱的示例,它是以当归芍药散方剂为实体建立的知识图谱,可直接展示出当归芍药散的主要组成草药,分别为当归、茯苓、川芎和白术,属于气虚证的概念,并且明确展示出可通过补气法来治疗肝虚气郁证,以及当归芍药散方剂的出处与其相关的内容。

图2 中医方剂知识图谱示意图

4 讨论

中医学博大精深,中医药学同样承载着从古至今无数名医大家的智慧结晶,中国中医科学院中医药信息研究所基于中医学语言系统,以基本的概念知识作为框架,通过不断地添加概念以及概念的属性来扩展领域知识图谱的数据库,虽然中医药学知识图谱仍处在起步阶段,但目前已经有非常多的研究学者投入这项研究工作中,并且已小有成就,例如已经在中医药知识服务平台上线的项目,并且在中医养生、证候研究、经方研究、特色疗法等领域做出贡献。

构建中医知识图谱的最终目的是整合和关联一个领域内不同的知识,以相对较小但质量较高的领域知识为例,为进一步整合特定类型疾病或证候的知识提供知识库[8-10]。

同时,中医药知识图谱通过填充知识模式,提取中医药相关知识,涉及多种实体和关系,辅以“知识源”的搜索方式,区分已有知识来自知识图中可能的隐含知识。对不同来源的知识进行相互验证和解释,有助于解释中医药知识。使用知识图谱可以方便地获取和比较有关中医药食谱的知识,也有助于更多的中医药知识的继承和创新,让中医药领域知识图谱得到更好地发展。

猜你喜欢
医药学方剂图谱
“植物界大熊猫”完整基因组图谱首次发布
基于伪谱法的水下航行体快速操舵变深图谱研究
中药方剂,新冠肺炎患者的福音
何谓中医“七方”
浅述葛洪及其医药学
浅谈如何提高药事管理专业学生学习理论课程的兴趣
图表
中医有“七方”
关于《物理化学》与医药学紧密联系的探讨
探讨疣体注射法联合中药马齿苋方剂治疗跖疣