中医临床肝病数据知识化及病例知识库构建研究*

2023-05-31 04:06李晓东毛树松李紫明周亚娜宋幸铃宋淑洁陶军秀
中西医结合肝病杂志 2023年5期
关键词:知识化知识库术语

李 君 李晓东,△ 张 盼 毛树松 李紫明 周亚娜,3,4 宋幸铃 宋淑洁 陶军秀

1.湖北中医药大学 (湖北 武汉, 430065) 2.湖北省中医院肝病科、中医肝肾研究及应用湖北省重点实验室 3.湖北中医药大学附属医院 4.湖北省中医药研究院

随着信息技术的快速发展,人类社会已经进入到大数据时代,数据技术不断成熟,单纯的数据分析已经不能满足智慧化和智能化的需求,因而一种将“数据驱动”转型为“知识驱动”的研究新模式应运而生。该研究模式要求:从数据中提取信息,并将信息作为知识点,将其“概念”(显性因子)和“内涵属性”(隐性因子)进行整合,实现对该“知识”的完整表达。这个将“数据”转化为“知识”的过程即是数据知识化。以数据驱动的研究模式是以数据作为研究资源,对数据库进行管理,并应用数据分析挖掘方法开展研究。而知识驱动模式则是以知识作为研究资源,以知识库进行管理,并应用知识工程技术方法,对通过数据知识化所形成的完整知识,以结构化形式构建知识库、知识模型和绘制知识图谱等研究。

中医药在我国传承发展几千年,经过历朝历代的文化沉淀,具有丰富的生命力与知识价值。在信息技术的支持下,累计了海量的中医临床数据,如何从这些数据中挖掘中医临床的潜在规律和内在价值,高效凝练中医药的精华,是中医临床现代化发展的重要途径。为此,我们团队率先提出开展中医临床肝病大数据知识工程研究,与时俱进地将现代高新前沿科学技术应用于中医临床肝病研究,创建真实世界中医临床肝病研究的新模式和新途径。

本研究是以中医学理论和大数据认识论为指导,遵循中医临床自身发展规律,应用知识工程技术,探讨“以知识关联方法和关系模型揭示中医临床肝病诊疗的事实与规律”和“开展临床循证研究对其验证与优化”相结合的中医临床肝病研究新模式[1]。数据知识化和知识库构建是它的基础工程,将中医临床肝病数据的知识化和肝病诊疗知识库构建技术与方法作为主要研究目标和内容,其标准操作流程,包括数据规范化、数字化、结构化、知识化和知识建库管理等过程。首先通过对数据的规范化、数字化和结构化构建中医临床肝病病例数据库,进而以中医临床肝病知识属性分类与代码与基本知识编码、临床指南、临床路径、诊断疗效等标准为标准依据,来完整表达中医临床肝病知识的内涵,实现中医临床肝病病例数据的属性化知识重构[2],形成中医临床肝病病例知识库,最终完成本研究目标任务要求。

1 背景与依据

当今,中医药事业受到国家与社会的高度重视,为中医药的创新发展提供了新机遇,2019年中共中央、国务院印发了《关于促进中医药传承创新发展的意见》,明确提出要加快推进中医药科研和创新,中医药的传承创新发展列入国家发展战略,“传承发展、守正创新”成为中医药发展的时代主题[3]。2021年习总书记在河南考察仲景祠时提到“我们要发展中医药,注重用现代科学解读中医药学原理”,启示我们要善于将中医药的发展与现代科学技术相结合,应用现代的高新技术与开创思维,为中医药的创新发展开拓新途径、新方法。2023年国务院办公厅印发了《中医药振兴发展重大工程实施方案》,重点提出要加大“十四五”期间对中医药发展的支持和促进力度,着力推动中医药的振兴发展。近年来国家政策对中医药的支持力度不断加强,中医药顺应时代发展变革的需要也逐渐显现,探索中医药发展的新模式、新思路成为相关从业者的迫切需求。

随着科学技术与大数据的发展,医疗领域涵盖了各种组学数据、生物医学数据、电子健康记录数据等大量异构数据,医学研究者利用计算机软件对数据进行挖掘分析,揭示潜在的模式和新知识[6],基于这些研究主要采取了“数据驱动”模式,所得到的“知识”还是停留在概念(显性因子)层面,因而此类“知识”的内涵深度和完整性等问题突出。

2015年吴信东教授团队提出“大数据知识工程的概念,2022年陆汝钤院士在文章中提到大数据知识工程的提出实际上是从大数据到大知识的一个转折点”[4],为将大数据知识工程的技术方法运用于真实世界中医临床研究领域,解决“数据驱动”向“知识驱动”的模式转换提供了理论和技术方法。在这种背景下,我们组织实施了中医临床肝病大数据知识工程研究,提出构建标准、方法和技术等三大体系[1],以实现从中医临床肝病数据中抽提信息,进行知识化处理,形成完整表达的中医临床肝病病例知识库,为真实世界中医临床肝病研究,开展“证、治、效”知识建模和图谱绘制提供高质量病例知识资源,在此过程中临床肝病数据知识化是最为重要的基础环节。其主要理论和方法学依据是“大数据知识工程学”,其主要目的是为“知识驱动”模式的真实世界中医临床肝病研究提供知识资源保障,以获得高质量模型化的中医临床肝病诊疗知识,用以提高中医临床肝病医疗服务水平。

2 基本原则

2.1 科学性 科学性是开展数据知识化的前提,要以中医基础理论为依据,遵循中医临床自身的发展规律,要以大数据世界观为指导,采用知识工程技术方法开展中医临床数据知识化,保证其临床病例知识的科学性。

2.2 规范性 规范性是开展数据知识化的质量保障,要严格遵照执行国家相关标准与规范。需要制修订标准时,按照国家颁布的基本原则与方法要求,采用统一的程序和工作规范组织实施。

2.3 实用性 实用性是数据知识化的重要原则,要将知识完整性表达和知识库构建的需求作为数据知识化的目标,使所获得的病例知识能用于知识的深度加工和满足临床研究的需要。

2.4 可扩展性 数据知识化要符合中医临床实际,要随着临床情况的变化和需要,对数据进行实时扩展和知识库的动态维护。

3 中医临床肝病数据知识化标准操作流程

3.1 标准操作流程图 中医临床肝病数据知识化标准操作流程(SOP),主要包括数据治理和数据知识化两个环节,其具体操作流程,如下图1所示。

图1 中医临床肝病数据知识化标准操作流程

3.2 数据治理 中医临床肝病数据治理,主要包括对数据的采集、规范化、数字化和结构化等,以形成可供分析处理的病例数据库为目标,为数据知识化提供重要的数据资源。具体说明如下:

3.2.1 采集中医临床肝病病例数据 从繁杂的中医临床肝病数据中采集病例数据,其中包括纸质病案、电子病历、临床记录、随访记录及临床研究资料等多种类型的中医临床数据。

3.2.2 构建中医临床肝病病例数据库 对采集到的中医临床肝病原始病例数据进行整理、清洗,保证数据的真实性、可用性,由于中医理论自身的抽象性以及医生承袭的中医临床术语称谓不一致,导致中医临床肝病使用的术语形式多样且灵活多变,术语名称、解释、辨证意义交错,常见术语包含概念关系混淆不清,异名同义、同名异义等诸多问题,中医临床肝病病例术语需要有符合肝病科特色的规范化整理策略,根据国家名词委颁布的《中医药学名词》、《中医临床基本症状信息分类与代码》(TCIATCM 020-2019)、中医肝病临床指南和诊断标准等诸多相关领域的规范性文件,规范病证、症状、舌象、脉象、体质、体征等诊断数据和中药处方、针灸推拿等干预数据,将不规范的名词术语进行规范化处理,使其符合中医临床肝病术语的统一要求。在数据规范化的基础上对数据进行数字化处理,将各种形式的规范化数据进行分类整理,转化为计算机电子文档。再依据基本信息表、诊断信息表、干预信息表及疗效信息表等四个信息分类采集表[1]设计中医临床病例数据库,并将临床肝病信息录入建库,形成中医临床肝病病例数据库,实现其电子文档的结构化。

3.3 数据知识化 中医临床肝病知识是由多个概念集合在一起,并且以它们之间的关系形成一个有机联系的知识体系[7]。组织实施中医临床肝病大数据知识工程,首先需要对中医临床肝病病例数据中的概念(显性知识因子)包括:病证、症状、舌象、脉象、体质、体征、中药等进行知识化,将它们的隐性知识显性化,实现其知识的完整表达。该过程的重点是制定《中医临床肝病诊疗知识属性分类与代码》标准和构建中医临床肝病病例知识库,具体说明如下:

3.3.1 制定《中医临床肝病诊疗知识属性分类与代码》 根据中医临床肝病病例数据知识化的需要,制定《中医临床肝病诊疗知识属性分类与代码》,通过知识属性分类代码的关联,将肝病病例数据的隐性知识显性化,该标准制定步骤:

第一步,获取中医临床肝病诊疗术语,依据来源主要参照现行标准、权威专著与临床术语,现行标准包括《中医病证分类与代码》(GB/T 15657-2021)、《中医舌象诊断信息分类与代码》(T/CIATCM 010—2019)、《中医脉象诊断信息分类与代码》(TCIATCM 011-2019)、《中医临床基本症状信息分类与代码》(TCIATCM 020-2019)等;权威专著包括《中医诊断学》、《中药学》、国家名词委颁布的《中医药学名词》系列、《中医症状鉴别诊断学》、《中医症状学研究》、《中医临床诊疗术语》等;临床数据以数据治理阶段建立的中医临床肝病病例数据库为主。

第二步,征询专家意见,确保术语来源的可靠性、权威性,然后对术语进行筛重,包括正名筛重、正名与别名筛重、语义筛重,明确含义完全相同的术语,参照权威来源确定术语正名,明确术语别名,解决术语异名同义、同名异义等问题。

第三步,梳理术语的概念关系,明确术语的上下位概念,通过对中医临床肝病诊疗术语定名、定义、定关系,归纳其属性,以概念定义为主要抓手进行分类,将自上而下分类与自下而上聚类的方法相结合,上位概念自上而下进行划分,最小的概念逐层聚类在上位概念下,直至两种路径的分类汇合,构建中医临床肝病诊疗知识的属性分类与代码。

3.3.2 构建中医临床肝病病例知识库 中医临床肝病病例数据知识化的核心是通过中医临床肝病诊疗知识属性分类与代码实现中医临床肝病病例数据库的知识属性化重构,将中医临床肝病病例数据库进行分类编码,赋予肝病术语知识属性,将中医临床肝病病例数据知识化,实现中医临床肝病病例隐性知识显性化,完成知识的完整表达,形成中医临床肝病病例知识库,为开展中医临床肝病大数据知识工程研究,构建中医临床肝病诊疗知识模型和绘制知识图谱提供知识资源。

4 中医临床症状数据知识化示例

在中医临床诊疗活动中,症状为中医临床诊断的核心要素,蕴含着中医辨证论治的科学内涵,现有的症状术语标准、症状术语集等不能实现非结构化的中医临床病例中症状知识的完整表达,中医临床症状包含了临床肝病在内的诸多症状,现以中医临床病例中症状数据知识化为示例。

4.1 中医临床症状数据治理 在科研隐私保护相关规定下收集中医临床病例症状术语,对收集到的原始数据进行规范,参照权威专著(国家名词委颁布的《中医药学名词》、专著《中医症状鉴别诊断学》、《中医症状学研究》)、现行标准(《中医临床基本症状信息分类与代码》(TCIATCM 020-2019))进行数据规范化处理,再通过数字化、结构化形成中医临床病例症状术语库。

4.2 中医临床症状数据知识化

4.2.1 制定《中医临床基本症状知识属性分类与代码》征询专家意见,确保术语来源的可靠性、权威性,将《中医药学名词》、《中医症状鉴别诊断学》、《中医症状学研究》、《中医临床基本症状信息分类与代码》(TCIATCM 020-2019)中的症状术语按照来源与顺序进行整理,通过正名筛重、正名与别名筛重、语义筛重三步,获取不重复的基本症状共计10 685个(详见表1),例如:正名(症状术语的正式名称),如《中医药学名词》中“假神:俗称‘回光返照’。重危病人突然出现精神、食欲等暂时‘好转’的虚假表现。”,“假神”为正名,“回光返照”为别名。梳理术语的上下位概念关系,例如“疼痛”与“隐痛”,“疼痛”为上位概念,“隐痛”为“疼痛”的下位概念。通过以上的数据整理方式,形成中医临床病例症状术语库。

表1 基本症状术语统计表

中医临床症状知识是以骨干症状作为显性因子,以其内涵属性作为隐性因子来完整表达,所以本研究依据中医临床实际需求,以骨干症状及其30个基本内涵属性为症状知识属性分类框架,完成《中医临床基本症状知识属性分类与代码》标准的制定。其知识属性分类框架,如下图2所示。

图2 中医临床症状知识属性分类框架图

4.2.2 中医临床症状知识编码 依据《中医临床基本症状知识属性分类与代码》构建中医临床症状知识库,赋予症状术语属性分类代码,实现症状知识的完整表达,形成中医临床症状知识编码库,为中医临床诊断模型的构建提供规范的症状语料及其编码。

5 临床价值与应用前景

5.1 变革中医临床肝病研究模式 基于中医临床肝病病例数据的规范化、数字化、结构化,得到病例数据库,通过中医临床肝病数据知识化构建病例知识库,将肝病数据加工成知识,重构中医临床肝病病例知识体系,基于中医临床肝病病例知识库的研究,可以深化中医临床肝病知识的表达层次,挖掘中医临床肝病的知识内涵,基于知识层面的研究构建中医肝病的精细化诊断模型、干预模型、评价模型,实现从数据驱动到知识驱动的转变。

5.2 促进中医临床肝病诊疗智慧化 2019年国家卫健委提出要推进医院智慧化建设,其中电子病例的研究为重要组成部分,可以揭示真实世界中医临床诊疗数据中的“事实与规律”。中医临床肝病大数据知识工程平台构建了从数据到知识的中医临床肝病知识库,为中医临床肝病循证研究、智慧化运用等提供基础知识资源,中医临床肝病的智慧化平台建设要基于中医临床肝病知识库,在智慧化平台上开展中医临床肝病诊疗AI系统等成果开发,助力中医临床肝病诊疗的高质量发展。

5.3 深化中医临床肝病学科内涵 中医临床肝病大数据知识工程的建设可以深化中医临床肝病的学科内涵,本学科已有基于数据时代的真实世界中医肝病临床研究体系,其内涵建设包括肝病研究型门诊、临床数据采集-处理-分析平台、中医临床肝病数据库等。在此基础上,通过大数据知识工程的技术方法将现有的研究内容与体系深化到知识层面,例如将中医临床肝病数据库中的病例数据进行知识化研究,精细化到数据的知识属性,为真实世界中医临床肝病研究开创新方法和新途径。

猜你喜欢
知识化知识库术语
基于TRIZ与知识库的创新模型构建及在注塑机设计中的应用
“游戏化”抑或“知识化”:基于共生理论的幼儿园教育
高速公路信息系统维护知识库的建立和应用
企业知识化大变革时代管理咨询理论的演进与展望——基于WOS的文献计量分析
基于Drupal发布学者知识库关联数据的研究
谈饮食卫生与体育活动
有感于几个术语的定名与应用
从术语学基本模型的演变看术语学的发展趋势
位置与方向测试题
语文小天地 天地大语文