张 映,韩世范,2*
1.山西医科大学,山西 030001;2.山西医科大学第一医院
从2009年“大数据”一词的逐步流行到现阶段大数据的无处不在[1],各行各业都开始积极与大数据相结合,医学行业也积极加入了这一队伍。在区域医疗与健康大数据中,80%的数据是以非结构化形式存储的,通常这些数据都是采用自然语言处理,因此,选择适当的数据模型进行计算和验证,对自然语言进行语义分析和特征提取,是用好医疗大数据集的关键。为有效获取、储存、管理及应用医疗机构产生的数据资源,以达到对疾病的管理、控制和医疗研究的目的,医学知识库应运而生。21世纪以来,我国的医疗信息学进入了一个全新的时代,医疗知识库的构建已经成为医学信息学的重点[2]。目前,知识库的研究主要集中在基于本体的知识库构建和思路研究[3]。本体的应用可以解决很多临床中通用性和规范性的问题,可以作为医疗保健术语系统之间的中介机制,以及支持数据之间的可比性、医疗保健应用程序之间的互操作性,比如中医临床用语本身存在语义模糊和关联复杂等问题[4],在护理实践过程中,就需要将研究的问题,通过数据挖掘建立护理领域本体,使收集到的数据指标可以通过系统、科学的研究方法和专业化的研究评价该问题,直接或间接指导护理实践,改进护理工作,提高护理质量[5]。本研究将着重介绍本体的发展、构建以及相关应用,进而提出在我国护理领域的构建本体,旨在为我国护理领域的发展提供帮助。
1.1 本体的概念 本体是古希腊时期用来描述“存在”的一个概念名词,随着计算机的出现并且快速发展,人工智能技术逐步提升,本体的概念开始吸引计算机专业人士,被越来越多的专业人士研究、发现、利用。本体在计算机领域最早的概念是由Neches等提出的,可以理解为两个部分,首先是相关领域词汇的基本术语概念集合和关系集合,然后运用已经获取的相关术语集和关系集构成一个规则定义,这个定义就可以描述和规定这些词汇及其相关的其他词汇之间的规则关系[6]。Studer等通过对以往专家的研究和自己的经验总结,提出一个现在流行、被业界人士所认可的本体概念:本体是共享概念模型的明确的形式化规范说明[6]。Borst[7]将其定义描述为“共享概念模型的形式化规范说明”。概念模型的定义为某一领域内的信息资源和资源间的相互关系,因此,有研究者认为本体的概念和概念模型的概念相契合,但是本体概念包含了4层意思:概念化(conceptualization)、明确性(explicit)、形式化(formal)、共享性(shared),通过概念分析可以看出本体的概念远远大于概念模型。概念模型在进行术语分类时,同一术语可以存在于多个类之下,例如,陈羽楠[8]在构建运动功能中医概念模型时,将肌肉萎缩同时纳入了肌肉功能障碍和脾功能障碍之下,但是在本体构建中一个概念名词只能出现1次。简而言之,本体是指具有描述某一个领域概念及概念间关系的一种统一、正规、规范说明,是信息、知识的底层架构工具。因此,本体可以作为知识表达的基础,避免重复领域的分析,并通过统一的术语和概念实现信息的共享。本体的构成包含概念(concept)、关系(relation)、属性(attribute,slot)、公理(axiom)、实例(instance)这几个基本元素,但是不局限于这几个要素,研究者研究的过程中可以在此基础上增加或减少。
1.2 本体的分类 关于本体的分类有很多种方法[9],例如依据详细程度和领域依赖程度就可以将本体分为很多类型。目前,研究者普遍接受将本体分为以下几个大类:顶级(top level)本体、领域(domain)本体、任务(task)本体、应用(application)本体[9]。从本体构建理论出现后,本体构建也出现了多种方法,按照自动化程度分类,可以分为手动构建、半自动构建、自动构建3种方法。半自动方式是通过对不同的数据源进行统计、数据挖掘、机器学习等本体学习技术来完成知识获取。因此,本体学习成为自动化本体构建的基础和一个重要的研究方向。本体构建的顺序可以分为自上而下、自下而上以及两种方向相结合的混合性方法。本体的描述语言是计算机描述表达本体的语言[10],目前本体描述语言有很多种类型,较为常用的有XML、RDF、DAML、OWL等。目前最为广泛使用和最具影响力的本体构建原则是普适性五原则:清晰性原则、一致性原则、可扩展性原则、编码程度最小原则、极小本体约定原则[11]。
1.3 本体的作用 本体可以展示概念间的层级结构和进行逻辑推理[12],因此可以从组织形式、语义、语义关系、语义扩展查询、逻辑推理等方面提供人性化的智能信息检索服务,例如以语义检索、智能模糊检索、语义标注、模糊逻辑引入、关系建立等为代表的研究成果。当用户输入检索词时通过语义分析、语义理解、计算转换、知识表示和查询推理进行智能信息检索,实现了信息检索从基于关键词到基于知识的跨越。本体的运用可以改善传统信息知识的“孤岛效应”,打破信息“屏障”,扩大检索范围,进行跨媒体信息检索,满足用户多种类型查询结果的需求,实现信息间的交互性。但各媒体间的信息表示、语义标注、内容识别、结果排序等方面存在较大差异,虽针对同一领域进行本体构建,但因本体构建方法和构建专家不同,本体间的匹配和映射功能无法实现大规模多本体集合,因此目前跨媒体信息检索的效果欠佳。智能信息检索系统中本体的选用和系统评估均缺乏统一有效的评估方法;在基于本体的扩张技术进行扩展检索时忽略了属性和实例之间的扩展,以致查全率、查准率不高,还需要相关研究者不断进行研究。
如今本体构建技术已广泛应用于医学领域的研究,例如美国的一体化医学语言系统、基因本体(GO)[13]、系统化临床术语集(SNOMED CT)[12]、我国的中医药学语言系统(TCMLS)、中文一体化医学语言系统(CUMLS)[14]等,这些本体目前已得到医学界广泛认可,并已经运用到了各大数据检索系统,同时还存在一些用于临床决策、饮食推荐、用药提示、个性化管理等各方面更加具体的小型本体,这些小型本体的研究在减轻医护人员的工作压力、节约医疗资源、提供个性化的医疗服务等方面具有重要的作用。
2.1 医护健康咨询 随着病人及家属对疾病知识获取的渴望不断增加,越来越多的病人及家属选择通过百度、谷歌等软件进行信息检索获取疾病及病人照护的相关知识,但是其获取的信息资源并没有满足其需求,例如有研究者发现,家庭照顾者在阿尔兹海默病相关知识的获取方面有很大的问题,他们往往不知道如何获取相关知识,即使利用百度、谷歌等搜索引擎也无法输入准确的检索词、获取有效的知识,从而降低了病人的生活质量,延缓了病人康复的速度,甚至使病情恶化速度加快。所以研究者试图在公众检索词和医学专业用词之间建立映射关系,建立一个适合阿尔兹海默病病人家庭护理服务的专业本体,通过语义检索使检索者在搜索时获得想要得到的资料[11]。除此之外,也有研究者对利用本体构建技术为病人及家属进行疾病知识的咨询与获取进行了研究。陈琛[15]利用现有的本体在领域专家的指导下获得关键概念、关系及属性,然后运用概念分析理论构建新的本体,并抓取网络中的信息资源以不断补充和更新现有本体,将其运用到专家咨询系统。新的本体可以快速、准确地回答与肾病相关的常见问题,提供具有初步诊断功能的辅助诊断子系统。本体的应用展现了本体技术在智能信息检索中的先进作用,为本体在医学领域的应用提供了新的方向,也为医疗健康提供新的保障。
2.2 临床决策数据分析 医学知识的来源除了课本之外,还有大量的实践经验,但是经验的获取需要很长的时间去积累。截至2020年底,我国执业(助理)医师达到408.6万人,每千人口执业(助理)医师2.90人,注册护士470.9万人,每千人口注册护士3.34人,较2019年均有所增加,但仍然存在很大的区域发展不平衡、城乡发展不平衡、医疗资源分配不平衡等问题。针对以上问题,胡占生等[16]为了减轻体检医生的负担,减少人工分析体检数据的失误,提出了运用本体和SWRL原则构建体检医学本体,通过参考体检相关标准数据集对体检人员的体检报告进行危险性分析,并通过随机对照的方法将计算机数据分析与人工分析进行对比,发现电脑检出率和医生人工检出率一样高,这样通过体检结果智能化、通用化分析,大大提升了体检数据分析的效率和准确度。高星等[17]为了缓解基层医生的工作压力,提供及时、准确的辅助诊疗知识,从权威指南、百科知识、教科书、基层全科医生和专科医生的工作经验以及中国知网、万方等中英文数据库中进行概念收集,运用《中英文主题词表》《一体化语言系统》及相关指南等资料对获取到的知识进行筛选、评估、梳理和分类,将糖尿病知识梳理为目标人群、预防、诊断、治疗、并发症、转诊、随访等7类,然后定义类及属性,最后建立了一个糖尿病本体,从糖尿病预防、控制、治疗和康复等方面为基层医生的糖尿病治疗防控工作提供了决策支持。刘智锋等[18]也为基层全科医生在糖尿病的科学决策方面提供了一个科学管理系统。该系统是根据国内糖尿病相关指南和糖尿病领域专家经验,采用骨架法建立的一个包含早期筛查规则、诊断规则、分型规则、糖尿病的药物推荐规则以及转诊规则等28种规则的糖尿病诊疗规则库,该系统有效提高了糖尿病的知晓率,降低了各种并发症的致残率。陈曦[19]运用孕产健康医学领域的知识,通过对现有本体构建方法和语言的多种比较,并在本体构建的过程中对半自动构建方法的具体统计学算法进行升级,从而建立了一个更加专业化的孕产健康领域的本体知识库,为临床医生和医学生提供了知识学习的平台。这些本体领域的构建研究对我国医疗资源不平衡状态的改善具有重要作用。
2.3 药物类本体构建研究 国外建立了一些药物不良反应本体。药物不良反应分类系统(Adverse Drug Reaction Classification System,ADReCS)是一个对不良反应词汇标准化与分类的不良反应本体知识库,目前知识库中包括6 544个标准的不良反应术语及34 796个同义词,知识库的构建为不良反应术语的直接计算和潜在不良反应的特点挖掘提供了基础[20]。Duclos等[21]创建了在药物警戒中自动表征不良反应的本体,当所报道的不良反应在药物概要中出现时即被自动示例为已知不良反应。我国也对药物类的本体构建有所研究。苟玲等[22]针对我国抗生素滥用的情况开发了一个基于本体构建的抗生素临床管理知识库。该知识库是根据专家的意见和抗生素药物指南,利用protege软件建立的一个包含抗生素药物实例、药物属性的知识库和存储着提示规则的规则库。基于该库,医务人员可以对药物的属性进行查询、根据病人的信息推荐可以使用的药物、在发生用药错误时给予提示,从而实现对抗生素的管理,并促进抗生素的合理使用,减少抗生素滥用的情况。林鑫等[23]也使用现有本体属性,参考《抗菌药物治疗学》《中国医师药师临床用药指南》《国家基本药物目录》等书籍,利用信息挖掘技术、语义分析术语映射等技术建立了一个包括164种喹诺酮类药品不良反应的中文版领域本体,为临床实践中该类药物的合理使用提供参考。李梅[24]运用《新编药物学》和药物说明书收集药物的基本信息和不良反应信息,复用现有的OAE本体和NDF-RF本体,利用本体构建工具建立了一个心血管药物不良反应OCVDAE本体,经过统计分析和统计学算法分析不良反应发生模式、药物类别不良反应发生率、药物类水平比值报告比值比等;还运用PubMed上的文献对该本体进行了验证,最终收集到了265种心血管疾病药物和1 383个不良反应术语,实现了心血管药物、心血管药物化学成分分类、作用机制分类、不良反应等多种不同类型的数据无缝整合,在预防心血管药物不良反应的发生、促进心血管药物的合理应用、提高人群健康水平等方面将发挥重要作用。由此看出,目前药物类本体对医疗用药有重大的指导作用,但都是从某一个角度出发,采用不同的研究方法、语料来源、验证方法和研究目的来进行本体构建,缺乏统一、全面的大药物领域本体。
2.4 健康监测预警 根据临床知识推理出的知识元素构建本体库[25],根据临床经验总结构建诊疗规则库,将规则库和本体库相结合运用推理机制,可以根据病人的健康数据进行监测,及时发现异常情况。肖敏[26]参考了医学方面相关资料、临床电子病历库以及医疗领域的专家意见之后,运用protege技术,详细描述基于生理参数的疾病诊断预警规则,设计并实现诊断预警推理规则库,建立了一个基于生理参数的具有疾病诊断预警功能的诊断预警服务本体,有利于为病人提供个性化、精确化、实时化以及自动化的健康监测与紧急警告服务,提高了医疗服务治疗水平,并且实现了医疗领域知识的统一、共享与复用,有力地推动了医疗知识的普及和医疗事业的智能化。Din等[27]以护理计划和护理临床实践指南的内容为基础,运用本体论和TNM的建模决策方法构建护理计划本体(NCO),可以协助护理人员根据病人的数据进行分析,给出具有个性化的护理计划,并且根据护理人员的执行情况和病人后续的健康数据提出新的护理计划,实现了通过病人数据的监测提供护理建议的功能,促进了护理流程的顺畅实施和护理工作的协调性。
虽然本体构建的原则目前还没有统一的标准,但是护理领域本体的构建可以采用目前最为广泛认可的普适性五原则[28],使用自然语言给护理领域的概念进行具有明确性、客观性及完整性的定义,在进行术语添加时尽量不进行已有内容的修改,以达到最大单项的可扩展性,尽量使用最少的约束条件进行建模,并且在进行推理后其结果与护理领域的概念不产生冲突。
本体构建有骨架法、七步法、METHONTOLOGY法、IDEF5法、TOVE法、分析-描述-验证的建模三步法、建模-对比分析-规范化过程的三步法[24]等多种本体构建方法,但目前使用最为广泛且最成熟的本体构建方法为斯坦福大学医学院所研究的七步法[29]。但是原有的七步法在构建本体时缺少了对本体的评估阶段,导致构建的本体无法保证其正确性,所以根据现有的护理领域公认的知识和计算机领域、护理领域专家的参与,护理领域本体的构建可以使用改进的七步法[30]。①确定本体的专业领域和范围:本研究团队前期利用本体、知识工程、自然语言处理等理论与技术,构建护理科研信息系统护理领域知识体系——护理科学大数据平台,首先明确了所要建立的护理领域本体是应用在护理大数据平台上的。其目标是在相同的搜索条件下使检索结果更好、自动抓取更准确,以实现对护理科学大数据平台的优化。明确护理领域本体的使用用户主要面向各类医院的临床护理人员、教学和研究人员。②复用现有的本体,收集核心概念:通过护理学教材收集护理领域内的基本概念;全文下载中国知网、万方等数据库检索的护理领域文献,将获取到的文献进行整合去重,运用相关技术广泛搜集文献中的词汇,进行护理概念集的广泛收集;借鉴医学主题词表、一体化医学语言系统等进行概念补充。③定义护理类间关系和属性:参照现有的护理学书籍、医学主题词、一体化语言系统等结构化词表,人工将上述词表中的概念转换成本体中的类,将概念间的层级结构转换为类间关系。在中国知网、万方等数据库下载相关文献并检索专业教材、论文期刊等非结构化文本,利用语义分析和关系抽取功能,通过识别确定语料中的核心关键语句,抽取本体概念间的三元组关系。通过现有本体、专业教材、词表广泛搜集属性集,运用纯人工标注的方法对每个概念和词进行属性定位,添加属性约束,从而对类进行定义和描述。护理领域本体的构建需打破传统医学领域本体中以疾病为主导的构建思路,从护理学的角度进行分析,以护理诊断为中心,护理计划、护理措施、护理结局与评价作为同一级类目,然后依次类推。之后进行专家咨询,将获得的概念集和属性集由护理领域专家和计算机领域专家进行修改。④创建实例:将最终获取的概念词表、属性词表应用到本体构建系统中,一个类的子类可以认为是一个类的实例。⑤本体的检验与评价:目前本体构建的方法也有很多,例如在系统内部进行举例正反面双向实验验证、运用Peleg提出的建模维度进行测验[31]、根据标准本体设计原则进行验证、通过专家咨询进行验证[32]等多种验证方式。本研究将通过以下3种方法对初步构建的本体进行检验,第一,利用本体构建系统自带的推理机制进行检验,例如protege软件中自带推理机制。第二,放到其他数据平台进行检验。该环节利用特定的评估指标或评价方法对本体进行评价,结果作为反馈进入本体构建环节。第三,由计算机和护理领域的相关专家进行检测判断,如有问题及时修改更新。本体构建的流程其实是一个不断构建、修改、完善的过程。具体见图1。
图1 护理领域本体构建流程
4.1 医学术语的标准化 目前,临床症状存在名称繁多、内涵和外延不清、表述与理解不统一的情况。虽然本体在构建的过程中会根据现有的同义词词表或运用数据挖掘技术构建护理学词表,但是其并不能完全包含所有的同义词。要想解决症状体征术语不全、映射不统一等问题,则需在医疗卫生服务活动中,采用标准化临床术语。宋杰等[33]在对压疮不良事件的非结构化数据进行自然语言标注处理时发现,不规范的护理不良事件上报导致了自然语言处理的阳性预测值的偏差和预测准确度的下降,所以必须修正临床术语概念表、描述表和关系表,建立统一、规范的医学语言系统。Cubas等[34]也曾表明护理术语标准化建设对于本体的构建、本体的交复性发挥以及本体的更新和维护具有重要的作用,并且他们还尝试通过构建目录来减少不一致性研究[33]。Hyun等[35]在对医院临床护理文档进行本体构建映射时发现,不同文件对统一内容的标题不一致,科室模棱两可的名称等问题导致了在进行映射时出现重复映射、单一映射、无法映射等多种问题,提出文档要想实现共享,就得对其文档章节的命名采用一致性原则。刘林等[36]通过对国际上的多种临床表型本体术语的分析发现了现有的表型术语本体存在语义交互性缺陷、语义类别不清等问题,无论是从规范化描述还是数量上都需要加强。就此还提出:中医表型集成本体应该多本体整合、规范去重,以症状为中心,疾病、基因、药物等多种医学相关元素相结合,形成一个网络节点,而且还要映射到西医症状上面。这些问题和建议不仅对于表型集成本体有作用,对于医学的其他领域也都有很大的借鉴作用。目前国内外关于护理标准化语言建设已有相应的研究,护理领域本体的构建则有效促进了其发展,同时也有效推动了护理领域本体构建的发展。
4.2 本体构建工具和技术的改进 目前,最为广泛使用的是protege软件,且具有很大的优越性,虽然它本身有推理的功能,但却局限于一些数字大小范围的推理,而对于医学知识来说,这种推理显然不能满足要求,用它并不能建立专家系统。所以,应该建立一个更加庞大、有效的建模工具,然后由医疗专业的人士利用自己的知识去创建一个更好的医学本体,为医学信息的智能化发展提供新的工具。本体构建技术未来的研究热点可能集中在高效的机器学习算法、利用文本的特点和知识图谱的研究思路进行本体构建等方向上。
4.3 护理人员数据挖掘能力 数据挖掘和本体构建是相辅相成的过程,领域知识的静态本体为数据挖掘的知识判决和模型基础[37],而本体构建过程中概念集、属性集和标注等都需要进行数据挖掘。护理研究人员应在挖掘和收集资料的过程中搭好桥梁,针对目的合理、有效收集和挖掘数据[26]。不仅如此,数据分析是数据挖掘的核心工作。数据挖掘是进行数据驱动的护理研究的重要过程,例如罗弦等[38]利用NoteExpress 3.0软件对多个数据库中关于死亡教育护理文献进行数据挖掘分析,为死亡教育趋势等的相关研究提供了参考;杨健健等[39]对3个数据库中艾灸防护肛肠术后尿潴留的文献进行数据挖掘分析。但是,目前的数据挖掘也存在很多问题,在我国的研究过程中,较多使用单一的数据挖掘方法,而不重视多种方法结合进行数据分析;大部分关联性分析只是对一个医院或是一个系统内的问题进行分析,比较孤立;护理研究领域对粗糙集方法的使用也比较少等。目前,我国护理研究人员的数据挖掘技术处于起步阶段,还需要树立大数据思维,学习有关编程设计。而且我国护理研究的数据挖掘还停留在对数据之间的共性和差异性进行探讨上,需要进一步探讨如何对数据进行更充分的挖掘。
4.4 护理人员计算机数据思维的培养 护理人员参与本体构建的过程中本体构建的目的、流程、结论的分析都需要具备计算机数据思维。在本体构建的前期准备工作中,选题、确定研究方法、制定纳入排除标准都需要在资料数据库进行阅读查询。中国生物医学文献数据库(CBM)、PubMed、中国知网等文献数据库都是建立在大数据的基础上,5G时代的到来使各数据库之间的文献传输速度更加快捷,传输的内容也不断增加,而且还大大减低了传输过程中的损耗,护理研究人员也可以全面、及时了解其研究问题。目前,我国大部分护理高校已经设置医学信息检索这门课程,但是结果却不尽如人意。冯琳等[40]对湖南中医药大学的学生进行的调查研究也发现,护理本科生的信息意识和信息能力不足。在临床实践中,一线护理人员每天可以接触到大量的医学数据,但是其信息意识和科研能力有待提升。王晓燕等[41]对山西省人民医院护理人员的调查研究发现,护理人员的主要信息来源是同事之间的交流,对自己的信息诉求不明确,信息检索途径和信息检索语言使用不畅,检索成功率不高。毕波[42]类似研究也得出相似结论。由此看出,无论是护生还是护理人员,信息意识都很薄弱,在大数据与护理研究相结合的时代表现出大数据思维缺乏,护理信息化人才短缺,无疑给护理研究增添了困难。除此之外,护理人员还应该具有利用信息检索工具和信息资源的信息素养,在临床工作中对所搜集到的信息可以正确识别、合理加工、有效传递并创造出更有价值信息的能力,应该具有研究思维、循证思维,根据临床实践和临床发展需求提高自身对信息认知的态度,合理利用信息手段去解决临床工作中遇到的问题。护理人员必须融合专业知识和信息知识,具有大数据思维,成为护理信息化人才,成为大数据驱动下护理研究中的佼佼者。培养护理信息化人才,设立护理信息化相应课程,再到鼓励、支持、引导、组织临床实践护士去学习信息管理的相关知识与制度,使护理人员认识到护理信息化关系的重要性,积极主动学习护理信息知识,参与护理信息管理,提高护士的信息素养,增强收集、分析、判断、处理护理信息的能力,从而培养一代又一代复合型人才。
5G是新一代移动通信技术和未来经济和社会发展的重要基础设施,可将大数据、人工智能等技术更好融合。一个领域本体知识库的构建是一个跨学科的工程,是多专业人士不断进行思维碰撞的过程,是波浪式前进、螺旋式上升的过程,是挑战以连贯的方式组织特定的知识领域的过程。在本体知识库构建的过程中会遇到意想不到的困难,并且需要不断排错验证。护理学领域具有大量不同于临床医学的专业知识与实践,国内已经有很多医护领域的知识本体正逐步转化到实践应用中,有力地推动了我国医护信息化的发展,可以更加充分地利用现有护理信息系统,达到优化资源整合的目的,实现更为全面的数据挖掘工作,进而为临床护理管理、护理研究、护理决策分析等提供更为科学、系统的数据支持。因此,构建护理实践领域本体知识库对于利用大数据资源提高护理服务质量、改善病人临床结局具有重要意义。