,
我国幅员辽阔,地区间经济发展不平衡,区域间医疗资源的差距明显,优质医疗资源始终处于紧张状态,“看病难”“看病贵”成为一种常态现象[1]。人类社会正飞速进入信息大数据时代,充分利用医疗信息资源,进行数据处理和分析,可以实现计算机辅助决策,推动分级诊疗、精准治疗,从而进一步合理配置医疗资源,促进基本医疗卫生服务实现均等化。
医疗信息资源有非结构化文本、图像、图形、声音、视频等多种形式[2],文本信息占比高达95%以上,文本信息又以电子病历(Electronic Medical Record,EMR)为重要代表。电子病历出现的初衷是解决越来越多需要存储的医疗文本问题[3],发展到今天,电子病历要求包含患者的就诊信息,支持记录诊断和治疗情况,并可以实现信息的累加、共享、分析和利用,促进医疗服务,提高医疗质量和效率。国内目前很多大型医院的电子病历系统,对患者临床信息的描述性数据是以自由文本形式存在的[4],非结构化的输入形式带来了数据的多维性,不确定性,受控医学词汇表以及支持临床决策的临床数据仓库,使大量临床数据分散在不同的系统中,很难实现高效方便地获取病人完整和准确的诊疗信息[5]。经过标准化处理的文本信息,通过查询,分析,才能真正辅助临床决策,实现精准医疗。目前国内外对电子病历的应用都在朝集成方向、专家智能方向发展[6],希望通过建标准、区域共享化实现医疗信息的可扩展、可互操作等深层次应用。在互联网技术的蓬勃发展的前景下,利用“互联网+”跨学科思维,把电子病历从语义的角度解读,并描述医学事实的内涵及外延,利用本体、知识库模型,能更有效挖掘电子病历资源。
随着医学信息电子化处理的飞速发展,愈来愈多的应用受制于术语问题(terminology problem)[7],即同一医学概念在不同领域和不同人群中表达方式不同,造成信息查询和利用的障碍。医院信息系统的开发供应商希望有一种统一的编码系统来满足临床电子病历发展的需要。
医学本体描述客观的医学事实[8],是客观事实的抽象模型,用精准的数学描述反映概念之间的关系,能进行共享利用。通过本体,知识库模型打造一体化医学语言系统[9],可以规范统一的概念表达,提供信息查询的统一入口,从而解决获取信息的语言屏障。例如美国国立医学图书馆开发的医学语言系统(Unified Medical Language System,简称UMLS),中国中医研究院开发的传统医学一体化医学语言系统[10],中国医学科学院开发的中文一体化医学语言系统等[11]。其方式都是系统整合各种医学资源的检索术语,使许多不同源术语集中的相同语义拥有标准格式,用以完成医学信息的存储、提取与分析。随着信息技术的发展,医疗信息资源本体、知识库可以实现制定统一的知识规则,通过跨学科融合,促进电子病历信息的标准化,增加可互操作、可重复利用。
本文将以川崎病电子病历大数据为对象,将文本处理简化为空间的三维向量(本体模型)进行实例展示,通过计算、比较表达文本在语义上的相似度,帮助找寻出川崎病电子病历海量数据中的关联规则,归纳出川崎病患者的诊断标准、医生的诊疗习惯、诊疗模式、用药习惯等诊疗行为。相对于传统的文本检索方式,能更准确、更有效、更快速地分析电子病历信息,进行临床辅助诊疗。
本体(Ontology)是知识库构建的基础[12]。本文从某三甲专科儿童医院病案室收集了以川崎病为最终诊断结果的电子病历2 294份,采用形式概念分析,对电子病历进行了数据清洗,建立本体,本文以一条病程记录为实例演示如何建立川崎病概念本体(图1)。
图1 川崎病概念本体的鉴定
图1显示,从病历中可以提取关于川崎病的表述概念,表述概念与本体最大的区别在于,表述概念属于本体的扩展,具有可扩展性和不确定性,而本体是表述概念的内涵。因此建立概念本体在信息检索上更具有优势。
定义1(表示概念 ):假设一个三元组Y=(L,M,N),其中L是所有对象的集合,M是属性集合,N (LXM),也就是说N是LXM的子集。
定义2:设{O1,D1},{O2,D2}是形式背景{O,D}两个形式概念,{O2,D2}是{O1,D1}的超概念。
定义3:概念相似度计算为:
图2本体产生的概念图
由以上定义及概念图,本体产生具体步骤如下:
第一,结构化电子病历,针对vMR中的数据,参考HL7 CDA的结构及其对应的文档模板,用可扩展标记语言XML构建标准化的川崎病电子健康文档,其步骤为:定义解析文档、生成XML解析数据文件,形成规范样式表。最终生成川崎病结构化电子健康文档。
第二,形成领域词典,每个病人的所有记录,形成一条结构化的病历,这里面包括了患者从到医院后的所有信息。从每一条信息中取出相关词语并实现再分词,形成词典。
第三,计算相似度,运用上述定义1、2、3公式计算其相似度。
第四,形成川崎病本体,去掉相似度相近词语,形成本体。
知识库与本体是多对一的映射关系[13],知识库是本体的外延,本体是知识库的内涵[14]。前面已经形成川崎病的本体,为进一步打造知识库打下坚实基础。由此基于向量空间模型算法做如下定义:
根据上述定义构建知识库的方法如下:
第一,建立患者语义库、电子病历医生语义库、专家语义库。
第二,从以上各种语义库中分别取词。
第三,利用定义1、2、3计算Tf、Idf、W。
第四,分别计算相似度。通过计算相似度建立起川崎病本体与各种语义库的一对多映射关系,形成患者知识库、医生知识库、专家知识库。
本验证限于篇幅不能全部验证,仅以一条病人电子病历为说明,其中数据库清洗,XML结构化电子病历限于技术的相对成熟就不在这里描述,直接给出一条简单的电子病历,且以医生某一项检查本体和知识库为样本。
表1为4条病人需要检查记录,分别记录为D1、D2、D2、D4。
表1 4条病人需要检查的记录
以上每条记录去掉无关词后形成文档词序列见表2。
表2 4条病人检查记录文档词序列
根据以上表格及形式背景定义得出属性集合G:彩超 多普勒 ,属性M分别是:心脏、 彩超、 多普勒、 腹部 、胃肠。那么其子集I为{彩超, 多普勒,心脏},{ 彩超 ,多普勒,彩超},{彩超 ,多普勒,多普勒},{彩超 ,多普勒,腹部},{彩超, 多普勒,胃肠}。由此根据定义3运算得出结论本体为:彩超 多普勒 。
根据本体建立表3。
表3 属性M本体构建
分别计算Tf、Tdf、W,结果见表4。
表4 属性M权值分布
根据以上结果得出结论,检查部分的要点为:多普勒 心脏 彩超 腹部 胃肠。经问卷调查临床医生,有川崎病的孩子检查都要进行多普勒心脏彩超确诊,但有少部分需要做腹部或胃肠彩辅助检查,可见此法构建本体,知识库真实有效。
川崎病大部分的患儿经临床治疗后能康复情况较好,但部分川崎病患儿会因症状体征不典型性而容易与其他特异或者非特异炎症疾病发生混淆,还有极少数会因并发症发展成为重症,三甲儿童专科医院的医生临床经验丰富,基于临床症状判断,检查、佐证,能较及时判断患儿病情。但是更多的二级医院医生相关临床经验可能不足,如果借助川崎病的知识库,可以更好的进行临床的诊断和治疗,从而实现对疾病的早期干预和治疗。
本文采用的构建模型方法简单、实用、效率高,软件的实现相对简单,开发成本低。项目成果亦可用于其他病种,构建模型方法摆脱了传统一病一法的粗糙聚类方法。为推动电子病历数据挖掘,疾病的分类管理、分级诊疗、计算机辅助决策、精准医疗的全面实施提供有力知识保证。