司宜蓓,郭 静,王永博,李绪辉,黄 桥,王家莹,靳英辉,商洪才
1. 武汉大学第二临床学院(武汉 430071)
2. 南京中医药大学附属医院针灸康复科(南京 210029)
3. 武汉大学中南医院循证与转化医学中心(武汉 430071)
4. 南京医科大学附属无锡人民医院药物临床试验机构办公室(江苏无锡 214000)
5. 北京中医药大学东直门医院中医内科学教育部重点实验室和北京市重点实验室(北京 100700)
前期研究中,本团队基于心血管疾病中医/中西医诊疗现状及其指南应用中存在的问题,通过文献检索及广泛调研,设计了中医/中西医心血管疾病指南知识图谱框架蓝图,随后结合专家意见对指南内容进行结构化组织,完成了概念层设计。现以所选四篇范例文献中《冠心病稳定型心绞痛中医诊疗指南》[1]为例进行知识抽取、知识存储,构建中医/中西医指南知识图谱,进一步验证知识图谱技术应用于中医/中西医指南领域的可操作性和合理性。
以《冠心病稳定型心绞痛中医诊疗指南》为例的中医指南体系中,现代医学相关部分内容均符合OMAHA Schema规范,对临床指南中OMAHA Schema未包含的中医相关的概念层,本课题组通过反复讨论进行了补充,整理出的中医指南实体关系表见表1。
表1 《冠心病稳定型心绞痛中医诊疗指南》实体语义关系表Table 1. Entity semantic relation table in“Guidelines of the Traditonal Chinese Medicine management of stable angina pectoris in coronary artery disease”
获取实体之间的某种语义关系或关系的类别后,从示例临床指南中提取实体及联系这一对实体的关系所构成的三元组,将非结构化数据转化为结构化数据,以便进行后续计算机的处理和储存。按照《冠心病稳定型心绞痛中医诊疗指南》中临床问题出现的顺序进行编号,考虑到文章的篇幅,现仅报告临床问题1、2、5、6,如表2所示。
表2 指南部分问题及推荐意见Table 2. Several questions and recommendations of the guideline
对于指南问题1,“稳定型心绞痛心血瘀阻证患者有什么方药治疗方案”。推荐意见1为“冠心2号方(证据级别:B级;推荐强度:强推荐):川芎10 g、赤芍10 g、红花10 g、降香10 g、丹参30 g”。首先,将问题按PICO原则进行拆分,即人群为“稳定型心绞痛心血瘀阻证患者”,干预方法为“方药治疗方案”,对比方法和结果空缺。其次,提取实体“临床问题1”与“推荐意见1”,两者分属“临床问题”和“推荐意见”概念层,概念内容“临床问题”与“推荐意见”的关系为“推荐意见”。提取实体“稳定型心绞痛心血瘀阻证患者”为“人群”,概念内容“推荐意见”与“稳定型心绞痛心血瘀阻证患者”的关系为“相关人群”。提取实体“冠心2号方”为“方药”,概念内容“推荐意见”与“冠心2号方”关系为“涉及”。提取实体“川芎10 g、赤芍10 g、红花10 g、降香10 g、丹参30 g”为“组方用药”,概念内容“方药”与“川芎10 g、赤芍10 g、红花10 g、降香10 g、丹参30 g”关系为“组方用药”。
对于指南问题2,“稳定型心绞痛心血瘀阻证患者伴有胸痛剧烈、畏寒肢冷、脉沉细或沉迟,阳虚血瘀,有什么方药治疗方案”。推荐意见2为“若胸痛剧烈、畏寒肢冷、脉沉细或沉迟,阳虚血瘀者,可加蒲黄10 g、延胡索15 g、桂枝15 g或肉桂3 g、细辛3 g、高良姜10 g、薤白10~15 g等温通散寒之品(证据级别:D级;推荐强度:有条件推荐)”。首先,将问题按PICO原则进行拆分,即人群为“稳定型心绞痛心血瘀阻证伴有胸痛剧烈、畏寒肢冷、脉沉细或沉迟,阳虚血瘀的患者”,“伴有胸痛剧烈、畏寒肢冷、脉沉细或沉迟,阳虚血瘀的患者”为“亚人群”,与相关人群“稳定型心绞痛心血瘀阻证患者”关系为“子类”,干预方法为“方药治疗方案”,对比方法和结果空缺。其次,提取实体“临床问题2”与“推荐意见2”,两者分属“临床问题”和“推荐意见”概念层,概念内容“临床问题”与“推荐意见”的关系为“推荐意见”。提取实体“伴有胸痛剧烈、畏寒肢冷、脉沉细或沉迟,阳虚血瘀的患者”为“亚人群”,概念内容“推荐意见”与“伴有胸痛剧烈、畏寒肢冷、脉沉细或沉迟,阳虚血瘀的患者”的关系为“相关人群”。提取实体“冠心病2号方+温通散寒药”为“方药”,概念内容“推荐意见”与“冠心病2号方+温通散寒药”关系为“涉及”。提取实体“川芎10 g、赤芍10 g、红花10 g、降香10 g、丹参30 g加蒲黄10 g、延胡索15 g、桂枝15 g或肉桂3 g、细辛3 g、高良姜10 g、薤白10~15 g等”为“组方用药”,概念内容“方药”与“川芎10 g、赤芍10 g、红花10 g、降香10 g、丹参30 g加蒲黄10 g、延胡索15 g、桂枝15 g或肉桂3 g、细辛3 g、高良姜10 g、薤白10~15 g等”关系为“组方用药”。
对于指南问题5,“稳定型心绞痛心血瘀阻证患者有什么中成药治疗方案”。推荐意见5-1为“注射用红花黄色素(证据级别:B级;推荐强度:强推荐),用法:静脉滴注,注射用红花黄色素100 mg或150 mg,静脉缓慢滴注(滴速不高于30滴/min),每日1次”。首先,将问题按PICO原则进行拆分,即人群为“稳定型心绞痛心血瘀阻证患者”,干预方法为“中成药治疗方案”,对比方法和结果空缺。其次,提取实体“临床问题5”与“推荐意见5-1”,两者分属“临床问题”和“推荐意见”概念层,概念内容“临床问题”与“推荐意见”的关系为“推荐意见”。提取实体“稳定型心绞痛心血瘀阻证患者”为“人群”,概念内容“推荐意见”与“稳定型心绞痛心血瘀阻证患者”的关系为“相关人群”。提取实体“注射用红花黄色素”为“中成药”,概念内容“推荐意见”与“注射用红花黄色素”关系为“涉及”。提取实体“静脉滴注,注射用红花黄色素100 mg或150 mg,静脉缓慢滴注(滴速不高于30滴/min),每日1次”为“用法用量”,概念内容“中成药”与“静脉滴注,注射用红花黄色素100 mg 或150 mg,静脉缓慢滴注(滴速不高于30滴/min),每日1次”关系为“用法用量”。
对于指南问题6,“稳定型心绞痛患者有什么针刺治疗方案”。推荐意见6-1为“针刺治疗可选用穴位:内关穴(证据级别:C级;推荐强度:有条件推荐)”。首先,将问题按PICO原则进行拆分,即人群为“稳定型心绞痛患者”,干预方法为“针刺治疗方案”,对比方法和结果空缺。其次,提取实体“临床问题6”与“推荐意见6-1”,两者分属“临床问题”和“推荐意见”概念层,概念内容“临床问题”与“推荐意见”的关系为“推荐意见”。提取实体“稳定型心绞痛患者”为“人群”,概念内容“推荐意见”与“稳定型心绞痛患者”的关系为“相关人群”。提取实体“针刺内关穴”为“中医操作”,概念内容“推荐意见”与“针刺内关穴”关系为“涉及”。推荐意见6-2,6-3,6-4的数据层实体和关系设计方法同上(表3)。
表3 三元组关系表示例Table 3. Examples of triplet relational table
续表3
《冠心病稳定型心绞痛中医诊疗指南》中涉及较多中医专有概念,文本复杂,本研究选择人工抽取的方式进行知识抽取。根据上述概念层与数据层设计,从指南中抽取与其相匹配的实体与关系,并整理成实体库和三元组关系库(表4)。
知识存储的目的是确定合理高效的知识图谱存储方式。目前知识图谱的存储方式主要有SQL(structured query language)数据库和NoSQL(not only SQL)数据库。在NoSQL领域,图数据库(Graph Database)受到较高关注。Neo4j是目前最常用的图数据库,具有高性能、实用性强、轻量级等优点[2]。本文采用Neo4j图数据库存储数据。Neo4j以节点、关系、属性为基本元素,展示了较为完整的事物描述结构,可提供更快的事物和数据关系处理能力,能更加直观、清晰地了解实体之间的关联规则[3]。
1.4.1 知识导入
基于抽取的三元组数据模型,设计导入的医学节点和关系节点,考虑到所整理的数据为中等规模以及数据可实时插入的特点,采用导入CSV文件为主的方式,对数据进行存储。将数据导入到Neo4j中之后,可以得到如图1所示《冠心病稳定型心绞痛中医诊疗指南》知识图谱,其中绿色的深浅和节点圆形的大小分别表示推荐意见不同的证据等级和推荐强度。上文示例临床问题细节展示如图2所示。
图1 《冠心病稳定型心绞痛中医诊疗指南》知识图谱Figure 1. Knowledge graph of "Guidelines for the Traditional Chinese Medicine management for stable angina pectoris in coronary artery disease"
图2 知识图谱部分示例Figure 2. Some examples of knowledge graphs
1.4.2 知识检索
以临床问题1、2为例进行检索,通过图谱展示发现,可以实现以多种方式查找稳定性心绞痛患者的不同治疗方案。
(1)检索语句
1) 临床问题1:稳定型心绞痛心血瘀阻证患者的方药治疗方案是什么?
问题类型:查询某人群的治疗方药
查找思路:
①查找临床问题中是否有与“稳定型心绞痛心血瘀阻证患者”和“方药治疗方案”相关的节点,并返回其涉及的方药名与配方(精确查找)。
②查找“稳定型心绞痛心血瘀阻证患者”最接近的方药与配方(模糊查找)。
cypher语句:
①match (a:临床问题)-[:相关人群]-(c:人群{name:'稳定型心绞痛心血瘀阻证患者'}), (a:临床问题)-[:干预方法]-(:事件{name:'方药治疗方案'})
match (a:临床问题)- -(b:推荐意见),(b:推荐意见)- -(c)
match (b)- -(d:方药), (d:方药)- -(e:组方用药)
Return d.name, e.name
②match p=shortestPath((a:人群{name:'稳定型心绞痛心血瘀阻证患者'})-[r*..5]-(:方药))with p ORDER by length(p)
match (b) where b in nodes(p) and b:方药
match(b:方药)- -(c:组方用药)
Return b.name, c.name limit 1
检索结果如图3-A。
2)临床问题2:稳定型心绞痛心血瘀阻证患者伴有胸痛剧烈、畏寒肢冷、脉沉细或沉迟,阳虚血瘀,有什么方药治疗方案?
问题类型:查询某亚人群的治疗方药
查找思路:
①查找临床问题中是否有实体与描述中存在“伴有胸痛剧烈、畏寒肢冷、脉沉细或沉迟,阳虚血瘀”的“稳定型心绞痛心血瘀阻证患者”的亚人群有关联关系且干预方法为“方药治疗方案”,并返回其涉及的方药名与配方(精确查找)。
②查找“伴有胸痛剧烈、畏寒肢冷、脉沉细或沉迟,阳虚血瘀”的亚人群最接近的方药与配方(模糊查找)。
Cypher 语句:
①match (a:亚人群) where (a.name contains'胸痛剧烈') or (a.name contains '畏寒肢冷')or (a.name contains '脉沉细或沉迟') or (a.name contains '阳虚血瘀')
match (a)- - (:人群)- -(b:临床问题)-[:干预方法]-(:事件{name:'方药治疗方案'}), (b:临床问题)- - (:推荐意见)-[:相关人群]-(a)
match (b)- -(:推荐意见)- -(d:方药), (d:方药)--(e:组方用药)
Return d.name, e.name
②match (a:亚人群) where (a.name contains'胸痛剧烈') or (a.name contains '畏寒肢冷')or (a.name contains '脉沉细或沉迟') or (a.name contains '阳虚血瘀')
match p=shortestPath((a)-[r*..5]-(:方药))with p ORDER by length(p)
match (b) where b in nodes(p) and b:方药
match (b:方药)- -(c:组方用药)
Return b.name, c.name limit 1
检索结果如图3-B。
图3 知识图谱问题检索展示Figure 3. Knowledge atlas problem retrieval display
自2012年5月知识图谱的概念被Google正式提出后,因其可将知识以一种直观、可视化的方式展现,并可以建立碎片化数据关联的特点,已在学术界和工业界普及应用,成为多个领域的研究热点[4]。目前,医学是知识图谱应用最广的垂直领域之一,在智能辅助诊疗、医疗质量控制及医疗知识问答等智慧医疗领域都有着很好的发展前景[5]。我国医疗系统中传统中医与西医并存,传统中医疗法约占总数的40%[6]。随着我国经济和科技的快速发展,中医药的发展也迎来了新的局面。中医药领域的知识量大、繁杂,在知识表示与存储等方面存在很大的局限性,因此知识图谱与中医药的结合已成为必然的趋势[7]。目前,知识图谱在中医领域围绕中医基础、中医临床、中医养生保健等多个方面取得了一些进展,但通过调研发现,目前罕有研究围绕中医/中西医结合临床指南知识图谱构建与应用展开探讨[8-10]。因此,基于中医/中西医结合临床指南构建用于辅助临床决策的医学知识图谱值得深入研究与推广。
为更好地体现“证据等级和推荐强度”这一指南特有内容,在进行《冠心病稳定型心绞痛中医诊疗指南》概念层实体语义关系表设计时,本研究将指南特有“证据等级和推荐强度”作为推荐意见属性进行提取和展现。在数据层构建过程中,由于中医的辨证论治特点以及中医指南的行文结构,本课题组在综合考虑指南数据存储,以及为后续大量指南提取提供参考等问题后,决定根据指南推荐意见提出临床问题,然后按照PICO原则对问题进行拆分。在进行指南知识抽取时,对于指南推荐意见中缺少的实体,本研究组进行实体补充,以确保指南信息存储的完整性。如对中医证型的伴随证型及治疗方案进行提取时,本课题组补充了伴随证型的主要中医证型以及加减药物的初始方药,以确保指南信息存储的完整性。另外,在进行中医方药成分提取时,将组方用药作为整体进行提取以利于后续知识图谱在知识问答、临床决策等方面的应用。另一种策略是对组方用药中各个成分进行单独提取,对多个指南知识图谱的融合及真实世界证据补充后的知识推理可起到一定的促进作用,便于探索某种组方用药成分或联合用药是否对另一种证型有效,两种提取方案可视研究目的选择使用。最后,建议中医/中西医临床指南以及西医临床指南的编者在书写推荐意见部分时可以参考PICO原则,明确临床问题、人群与操作等,便于临床医生阅读,利于相关知识图谱构建,提高指南在临床决策和实践中的可操作性。
本研究以《冠心病稳定型心绞痛中医诊疗指南》为例,提出并设计完成了中医指南的知识图谱,系统、全面、规范地展示了中医临床指南内容,为今后指南数字化、智能化提供了基础。同样临床指南知识图谱可运用于辅助临床决策系统、知识问答等多个领域,有利于推动指南的实施、推广与传播。该临床指南知识图谱的构建思路也可为其他疾病中医/中西医结合临床指南的知识图谱建构提供参考。