, ,,
随着社会经济的发展和人民生活水平的提高,糖尿病已成为威胁我国人民健康和生命的主要慢性病之一。2017年我国糖尿病患病人数约为1.18亿,居世界首位[1]。据WHO统计,2005-2015年我国因糖尿病及其相关心血管疾病而造成的经济损失高达5 577亿美元[2]。糖尿病病因不明确,早期的预防能够有效控制糖尿病的发生和发展[3]。基层卫生服务机构是糖尿病防控的主力军,若利用糖尿病的权威指南、教科书和专家经验,建立糖尿病防治知识库供基层使用,将会给糖尿病的预防控制带来极大便利。
本体作为一种知识建模工具,用于描述概念与概念之间的关系[4]。它不仅能够全面揭示知识间的复杂关系,还能最大限度地实现知识的共享和复用[5]。近年来,本体知识库已成为医学领域的研究热点,主要集中于诊断推理[6-7]、算法改进[8]和用药提醒[9]等方面,但中文本体知识库相对缺乏[10]。我国学者设计了基于本体的糖尿病知识库,用于语义查询[11]、算法改进[12]以及糖尿病分型、药物治疗、护理和饮食知识普及[13]等,但以基层医生实际需求为导向的糖尿病知识库较少。本文以本体论为指导,运用斯坦福大学开发的protégé工具构建糖尿病知识库,从基层医生实际应用出发,对糖尿病知识进行采集、梳理、表示和利用。
为了保证糖尿病知识库的质量,建库过程中应遵循以下4项构建原则。实用性原则,即紧密围绕基层医生的需求提供及时准确的辅助诊疗知识;全面性原则,即保证糖尿病知识分类体系及其内容的全面性;准确性原则,即将权威指南、教科书和专家经验相结合,确保糖尿病知识来源的权威性、真实性和可用性;共享性原则,即构建糖尿病知识库要遵循相应的国际标准,保证知识的复用性,为后续糖尿病知识库的扩充和完善提供支持。依据上述原则,建设以用户为中心、理论与实践相结合、内容与需求相适应的糖尿病知识库。
糖尿病知识库的构建从上到下依次分为:知识采集、知识梳理、知识表示和知识利用4个阶段。其中,知识采集是糖尿病知识库构建的基础,是知识梳理和知识表示,糖尿病知识库构建的核心,知识利用是知识库构建的最终目标。
具体架构见图1。
图1 糖尿病知识库构建框架
知识采集过程中,首先应明确糖尿病本体知识库的应用对象和需求。糖尿病的防控以基层为主,基层医生肩负着为人民群众提供全方位全生命周期的健康服务重任,因此糖尿病本体库的构建应以基层医生为主要服务对象。同时糖尿病本体库不仅需涵盖糖尿病预防、控制、治疗和康复等方面的医学知识,还要考虑不同类型人群的个性化差异,从而更有效地为基层医生的糖尿病防控工作提供决策支持。
基层医疗服务虽然以慢病、常见病的预防控制为主,但仍需具备识别并发症或疑难杂症的能力,达到早发现、早治疗的目的。糖尿病知识不仅来源于权威指南、百科知识、教科书,还来源于专家经验和科研文献。其中,权威指南主要是糖尿病方面的防治指南,如《中国2型糖尿病防治指南(2017年版)》《中国2型糖尿病防治指南(基层版)》《中国1型糖尿病诊治指南(2012年版)》《中国糖尿病医学营养治疗指南(2013)》等;百科知识主要是与糖尿病相关的科普资料和前沿知识;教科书的内容包括糖尿病及其并发症,以及流行病学教材所涉及的糖尿病病因、防治等方面;专家经验方面,通过专家咨询会和专家访谈形式,搜集和整理来自基层全科医生和三级医院专科医生的临床实践经验,完善糖尿病的理论知识。由于双向转诊的文件规定较为抽象,应请专家结合实际将抽象的概念转化为可观察的症状、可操作的指标。科研文献需要在CNKI、万方、维普等中文数据库,以及PubMed、Elsevier、Ovid等外文数据库中,以“糖尿病”“预防”“诊断”“进展”“案例分析”等主题和关键词进行定期检索,了解最新的糖尿病知识和典型的糖尿病防治案例。通过上述方式采集糖尿病知识,并通过一系列的清洗、筛选、整合,存储到数据库。
2.2.1 概念抽取
由于通过知识采集获取的糖尿病知识凌乱,不成体系,因此需要对知识加以组织整理。概念抽取是对知识进行筛选、评估、梳理和分类的过程。通过概念抽取获得关键性的术语,达到精准表达糖尿病领域知识的目的。为了确保概念的科学性和通用性,本文以《中英文医学词表》、《一体化医学语言系统》、《开放生物医学本体组织(OBO)》、《临床医学系统术语(SNOMED CT)》和相关糖尿病防治权威指南等为参考,从基层的应用需求出发,将糖尿病知识梳理为“目标人群”“预防”“诊断”“治疗”“并发症”“转诊”“随访”等7类,形成糖尿病知识的框架体系。
2.2.2 类的关系
糖尿病核心概念只有经过严密的归类和合并,才能形成逻辑性高、实用度高的框架体系。经过分析,本文的糖尿病本体主要存在以下主要关系:一是上下位关系,表示概念之间是整体与部分的包含关系,如“治疗”是“药物治疗”的上位类,“胰岛素”是药物治疗的下位类;二是并列关系,表示概念具有相同的上位类,如糖尿病分型中的“1型糖尿病”、“2型糖尿病”、“妊娠糖尿病”和“其他类型的糖尿病”4个概念均为并列关系;三是实例关系,即子类是上位类的具体的实例,如在治疗糖尿病的格列奈类药物中,瑞格列奈、米格列奈、那格列奈都是格列奈类药物的一些实例。
2.2.3 属性
属性分为对象属性和数据属性。对象属性用于描述两个类(实体)之间的关系,包括“治疗”“被治疗”“禁用”“预防”“有…危险因素”“有…症状”等,如“肥胖”是“糖尿病”的危险因素,“口干多尿”是“糖尿病”的症状表达,“肾功能不全者”禁用“二甲双胍”,具有函数性、逆函数性、传递性、对称性、非对称性、自反性和不自反性等特征,它们有助于实现知识推理,使知识的表达更加丰富和灵活,数据属性用于描述个体和数值间的关系,如患者的身高、体重、空腹血糖的控制目标等。通过数据属性,计算机可以判断目标个体的健康状态。比如如果血清酮体≥3mmol/L,则表示患者可能患有DKA并发症。
2.2.4 约束
约束是指通过对属性进行定义,进一步限制类的性质或类间关系,包括数量约束(Quantifier Restrictions)、序数约束(Cardinality Restrictions)和赋值约束(hasValue Restrictions)3类。数量约束分为“some”和“only”,“some”表示A类中的所有个体至少有1种和B类中的个体存在某种关系,“only”表示A类只与B类存在某种关系,序数约束对关系中的最大值、最小值进行了限定,赋值约束对关系的取值进行具体限制。
2.2.5 实例
完成本体框架构建后,可以添加实例。实例是本体的具体化,能够继承类的属性。通过在实例中添加相应的属性值,呈现相应的语义关系。如在口服降糖药TZDs中添加“禁忌”属性,则在实例“吡格列酮”中自动添加其属性值,其禁忌属性是心力衰竭者。
当前糖尿病本体库共包含类7个、相关概念210个、对象属性21个、数据属性57个、约束80个、实例271个,可基本实现对糖尿病领域知识的语义化表达。随着糖尿病知识的积累,糖尿病本体库将得到进一步扩充和丰富。
2.3.1 可视化展示
利用Protégé本体可视化功能,可以实现糖尿病语义关系的图形化展示(图2)。不同的线条代表不同类型的语义关系。以图3为例,紫色实线指向该类的子类,如口服降糖药包含SGLT2抑制剂、磺脲类药物、双胍类药物、a-糖苷酶抑制剂、DPP-4抑制剂、TZDs和格列奈类药物等下位类;黄色虚线表示糖尿病患者的治疗方式包括运动治疗、营养治疗和药物治疗;灰色虚线表示双胍类药物禁用于接受大手术患者、严重感染、缺氧者、肾功能不全者和肝功能不全者。
通过可视化展示,糖尿病概念间的语义关系更加清晰明了,对辅助基层医生进行糖尿病的预防和诊疗有很大的帮助。
图2 糖尿病语义网络
图3 部分糖尿病诊疗语义网络展示
2.3.2 知识检索
本体是描述某一领域内所有概念及其属性关系的知识表示方法。与传统的检索方式相比,基于本体的知识检索不仅能检索出与检索词字面匹配的内容,还能揭示与检索词相关联的属性和概念,提高检索结果的全面性和准确性。通过传统的关键词检索或概念检索,检索结果只是与症状字面匹配或同义的内容,而基于本体的知识检索能够揭示可能出现该种症状的人群、预防和治疗方法等,能够有效满足基层医生的需求。
2.3.3 知识推理
知识推理是对糖尿病知识进行分类、检验和评价的过程,能够检验本体内在逻辑的一致性,并按照本体建立的语义关系对新知识进行自动分类,为本体知识库的扩充和更新提供极大的便利。知识推理主要体现于知识分类和逻辑校验,通过Protégé的推理机reasoner可以实现这一过程。输入实例“wendy”,50岁,空腹血糖9.2 mmol/L,糖化血红蛋白0.08 mmol/L(图4),点击“reasoner”下的“startreasoner”,会发现“wendy”被自动归类至糖尿病患者(图5)。若本体不具备内在逻辑一致性,则会自动报错,弹出提示界面。
图4 实例输入
图5 知识推理
2.3.4 知识共享
随着糖尿病诊疗知识的不断丰富,不同领域的专家从基因、中医药乃至环境等层面建立了相应的本体知识库,使其信息共享变得尤为重要。通过Protégé的“merge ontology”功能可以实现本体知识的共享,来自不同本体的知识能够在同一本体中展示。同时,protégé具有edit、defineclass等功能,通过按键或牵拉,便可根据需要重新分类、增加或删除属性和约束,操作便捷,为开展后续知识的融合奠定良好基础。
本文以基层医生的需求为导向,将糖尿病知识划分为“目标人群”“预防”“诊断”“治疗”“并发症”“转诊”“随访”等类别的基础上,对糖尿病知识进行了语义关联,为辅助基层医生进行糖尿病诊疗提供知识参考。为了验证糖尿病知识库的应用效果,本文将知识库嵌入糖尿病管理系统,并面向基层医生进行了初步测试,发现基于本体的糖尿病知识库能够辅助医生诊断、用药、判断人群健康状态和自动识别需要向上转诊的患者,对于提升基层医生的诊疗效率,缓解基层医生的工作压力具有很好的效果。
糖尿病知识库有助于基层医生获取和应用糖尿病知识,对糖尿病及其并发症的防控具有重要意义。本文基于本体,在梳理糖尿病领域的知识体系的基础上,完成了糖尿病知识可视化展示、知识推理、知识检索和知识共享等应用,对构建更加完善的糖尿病管理知识库具有一定的参考价值,但也存在一定的局限性,如糖尿病诊疗知识的储备量需要不断扩充,词间关系需要继续丰富。后续将进一步完善糖尿病诊疗知识,规范知识组织方式,使本体库能够与电子病历系统进行交互,提高本体库应用的深度和广度。