电子病历术语规范化流程及临床辅助诊断系统设计

2020-08-10 09:09刘勇陈文生
医学信息 2020年14期
关键词:电子病历术语规范化

刘勇 陈文生

摘要:结构化电子病历具有数据标准化程度高、数据检索方便的优点,能够为循证医学、科研、教学提供有效的信息支撑,电子病历数据录入的质量会影响临床管理和决策水平。本文首先分析了影响电子病历录入质量的相关因素,在此基础上提出了电子病历术语规范化流程,总结了关键技术、系统实现及界面设计经验,旨在为临床提供客观、准确的数据以及实现辅助临床诊断提供参考。

关键词:电子病历;术语;规范化;辅助诊断

中图分类号:R197.323                               文献标识码:B                                DOI:10.3969/j.issn.1006-1959.2020.14.003

文章编号:1006-1959(2020)14-0007-03

Electronic Medical Record Terminology Standardization Process and

Design of Clinical Assistant Diagnosis System

LIU Yong1,CHEN Wen-sheng2

(1.Information Center,Nanjing Jiangbei People's Hospital,Nanjing 210048,Jiangsu,China;

2.Library of Nanjing Vocational College of Science and Technology,Nanjing 210048,Jiangsu,China)

Abstract:The structured electronic medical record has the advantages of high data standardization and convenient data retrieval, and can provide effective information support for evidence-based medicine, scientific research, and teaching. The quality of electronic medical record data entry will affect clinical management and decision-making. This article first analyzes the relevant factors that affect the quality of electronic medical record entry, on this basis, it proposes a standardized process of electronic medical record terminology, summarizes key technologies, system implementation, and interface design experience, and aims to provide clinical and objective data and implementation assistance provide a reference for clinical diagnosis.

Key words:Electronic medical records;Terminology;Standardized;Auxiliary diagnosis

目前國内主流的电子病历系统在设计的时候也考虑到用结构化的方法来实现,但是由于医学的复杂性和多变性,结构化的电子病历实施难度较高,且必须确保有医疗背景的高级用户参与,参与程度则直接影响使用效果[1]。此外,结构化病历由于采取的是基于表格模板的一种方式,使得临床医生的自主决定的灵活性降低,部分功能如主诉等由于专业特异性不高,医生常常选择使用自由文本进行录入[2],因此存在不规范的信息录入,从而影响电子病历的书写质量,如何对这些不规范的输入进行分析,包括特征术语筛选、提炼、分析、规范化、分类,最终为临床提供客观、准确的数据,提高临床的管理和决策能力就显得尤为重要。本文主要设计了电子病历术语规范化流程,旨在为临床决策提供客观、详尽的准确的数据,也为科研提供精确的资料。

1需求分析

本系统设计旨在实现电子病历医学术语的规范化,并提供疾病的辅助诊断功能。首先,构建医学术语相关标准术语集,包括可扩充的非规范术语-规范术语映射词典和同义词词典,为标准化和规范化医学术语做好前期的数据准备;其次,利用自然语言处理的相关技术对电子病历文本进行处理分析,自动识别不规范医学术语,提示临床人员予以更正,从而达到电子病历的医学专业术语规范化的目的;然后,应用机器学习的相关方法,对医学特征术语进行特征分类,以获取疾病的诊断分类。最后,对系统的实现和界面进行设计,从而为医疗人员的临床管理与决策提供方便。

2技术路线

2.1电子病历结构化的前期准备工作  ①相关医学术语词典的构建:标准化的字典对电子病历结构化和规范化是至关重要的,本系统使用人类与兽类医学系统术语(SNOMED)、国际疾病分类(ICD10和ICD9)的汉化版本,在实际使用中还可以将经常使用到的未收录术语增加到词典中,进一步丰富词典的词汇容量。②规范化对象的确定:电子病历中的所有相关医学术语包括规范医学术语和非规范医学术语,两类术语被显著标识,出错时由医疗人员予以更正,并确认当前识别出的非规范术语是否需要被添加到“非规范术语-规范术语映射”词典(简称非规范对照词典)中。

2.2电子病历文本的自然语言处理相关技术

2.2.1汉语分词  主要方法如下:①基于词典的分词方法,包括正向最大匹配、逆向最大匹配法、双向匹配法、最少切分法[3];②基于统计的方法,包括统计语言模型[3]、基于HMM的方法[4]、由字构词法[5]等。

2.2.2词性标注  尽管汉语言词性标注有些情况较为复杂,但医学术语涉及专业领域,大多数医学术语可直接标注为名词词形,便于简化词性标注的复杂度。

2.2.3医学术语命名实体识别  近年来,随着临床信息化的发展和电子病历开始在临床中逐渐普及,我国学者开始对生物医学领域内的专有名词进行智能识别。在电子病历中,命名实体的类别繁多,除了时间、人名、地名、组织机构等常见的实体类别外,还有疾病、症状、手术操作、病因、病理、药品等特有的实体类别。在电子病历中,涉及到辅助诊断的几类实体是疾病、临床症状、手术操作、实验室检查等。目前,命名实体的识别方法主要有3种:①基于词典的方法:需要建立临床规范标准的医学专业术语集,要涵盖医学的各个领域,如SNOMED CT等中描述的相关的同义词、变形词,建立不规范和规范术语的映射等等,然后再运用相应的匹配算法根据词典对文本中医学术语实体进行识别;②基于规则的方法:需要建立针对性的识别规则库,优点是在特定领域准确率较高,优于基于统计的方法,缺点是规则的制定需要消耗大量的时间和人力,且所制定的规则往往与特定的领域相关,可移植性较差;③基于机器学习的方法利用标注过的语料进行训练,语料的标注也不需要较多的语言学知识,较小规模的语料也可以在可接受的时间和人力代价内完成。因此,该方法具有很好的移植性,目前已经广泛应用于包括命名实体识别在内的许多自然语言处理任务中。常用的机器学习模型包括隐马尔可夫(hidden Markov model,HMM)[6]、条件随机场(CRF)[7]等,近年来,基于神经网络的方法也常被應用于命名实体识别,如基于长短期记忆网络(LSTM)的Lattice LSTM模型抽取实体[8]。

2.2.4特征术语相似度度量  通过实体识别出来的特征术语,有的意思相似或相近,甚至意思完全一样,只是因为操作人员输入了非规范术语造成的。例如“冠状动脉支架置入术”和“冠状动脉支架植入术”,实际上指代同一个意思,由于输入的不规范,导致系统提取出两个不同的特征术语。因此,需要通过计算特征术语之间的相似程度来规范化特征。度量特征文本相似度方法有以下几种:①基于向量空间的度量方式 利用特征频率-反向文档频率(TF-IDF)[9]将文档向量化。TF-IDF是一种统计方法,用以评估特征项相对于文件集或语料库中的一个文档的重要程度。特征项的重要性与它在该文档中出现的次数成正比,与它在语料库中出现的频率成反比,最后计算向量之间的夹角余弦(Cosine)。②距离度量 Jaro-Winkler Distance[10] 作为Jaro Distance的一个扩展,是一种计算两个字符串之间相似度的方法。

2.3特征分类流程  本流程是根据电子病历文本,得到病历内容对应的疾病,为了验证特征分类的效果,特收集了几个疾病类型,包括不同特征的疾病类型和相似特征的疾病类型,如高血压心脏病、冠状动脉粥样硬化性心脏病、急性支气管炎、肺部感染、慢性阻塞性肺病等,其中有部分患者的电子病历文本中夹杂着多种疾病类型的特征,当存在这种情况时,疾病以该患者的第一诊断为主。疾病诊断可以被看作是一个文本分类问题,即输入是一段病历自然文本文本,经过对医学术语的规范化,提取相关医学特征术语,最后经过分类模型输出疾病的诊断分类。此外,分类模型中使用的各种分类器有很多,如支持向量机(SVM)、决策树、随机深林[11],以及神经网络[12]等。特征分类流程图见图1。

3系统设计

根据系统需求,设计了基于机器学习的电子病历规范化和辅助诊断的系统框架图,见图2。根据系统框架图,整个研究可分为两个部分:①医学特征术语规范化:包括中文分词、医学实体识别、特征术语规范处理,其中在规范术语的过程中,可以将非规范术语添加到非规范对照词典中,从而提高非规范术语的识别效率。②辅助诊断:将规范后的特征术语,输入到分类模型中,得出相应的疾病诊断。

3.1电子病历文档提取  由于人工标注较大规模的语料库比较困难,本次设计考虑了人机结合的方式以快速建立一个小规模的语料库,具体步骤如下:①人工收集了1200份电子病历文档,涵盖了心脏科、呼吸科等科室的患者资料;②程序自动抽取每位患者的主诉、现病史、既往史、实验室及器械检查等涉及的文本数据,作为原始处理文件;③在此基础上使用相应的工具进行文本的自动标注,再进行人工审核标注的方法,快速构建一个语料库。

3.2词性标注  该模块设计的目的是快速获取文本的词性。选取部分效果如下显示:【主/a诉/v:/w咳嗽/v咳痰/n伴/v呼吸困难/n3/n天/q。/w现/t病史/n:/w3/n天/q前/f患者/n在/p我院/n呼吸/v科/n住院/v期间/f出现/v咳嗽/v、/w咳痰/n,/w自主/v排/v痰/n困难/a,/w需/v辅助/v排/v痰/n,/w为/p大量/m灰色/n粘液/n痰/n,/w未/d见/v痰/n中/f带/v血/n。】

3.3词位标注  为了获取医学实体识别学习必要训练语料,须对文档中的所有字进行词位标注,但显然通过人工标注的方式效率较低,考虑用计算机快速标注方式解决。标注的时候需要用到相关医学领域的标准词典,系统将ICD10、ICD-9-CM、SNOMED、同义词词典等的术语增加到字典中,以增加分词的命中效率。诊断、手术、检查的相关医学术语长度一般比较长,使用反向最大匹配算法并依据词首(B)、词中(I)、词尾(E),进行自动标注,考虑到词典的覆盖率问题,由人工对自动标注后的语料库进行了核对。

3.4特征术语规范化处理  特征提取后会得到一个特征术语集合,里面既包含规范的特征术语,也可能包含了不规范的特征术语,将这些特征术语与同义词典中“非规范特征术语”比较,并自动将非规范特征术语用红色标识出来,并提供相似度较高的特征术语供临床医务人员参考选择,“术语维护”功能可以将新的“非规范特征术语”添加到非规范术语-规范术语映射词典中,见图3。

3.5临床辅助诊断  在系统中点击“载入文档”,加载需要诊断的电子病历文档。点击“特征词加载”,自动在后台生成对应的医学特征术语,再点击“辅助诊断”根据这些医学特征术语,使用分类模型该电子病历文档进行分类,并且把分类结果显示在第一行,即“慢性阻塞性肺病急性发作”。最后,根据该电子病历的医学特征术语与已经有明确诊断的且被作为标准对照的疾病标注电子病历文档做比较,按照相似度降序显示出来,供临床医务人员参考。

4总结

由于电子病历系统的特殊性,需要与其他各个系统做相应的连接,这就使得电子病历复杂性较高,包括临床路径、患者的其他相关记录(首页、病程记录、检查检验结果、医嘱、手术记录、护理记录等),因此,电子病历系统每天会产生大量的数据,这些海量数据有很多都是不规范的自由文本输入,包含的信息却是很重要的,这就需要通过研究将重要的医学特征抽取出来,并且将其规范化,最后结合分类模型达到临床辅诊、决策支持的目的。本系统的设计开发,最终规范了电子病历的书写,可为临床提供客观、准确的数据,进而达到辅助临床进行诊断的功能。

参考文献:

[1]梅文华,刁君,常奕,等.结构化电子病历的应用[J].中国数字医学,2016,11(3):22-25.

[2]朱彦斌.结构化电子病历在临床管理中的应用[J].中国医药导报,2015,12(35):161-164.

[3]宗庆成.统计自然与语言处理[M].北京:清华大学出版社,2008.

[4]朱咸军,洪宇,黄雅琳,等.基于HMM的算法优化在中文分词中的应用[J].金陵科技学院学报,2019,35(3):1-7.

[5]黄昌宁.由字构词——中文分词新方法[C]//中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集.2006.

[6]刘博,杜建强,聂斌,等.基于二阶HMM的中医诊断古文词性标注[J].计算机工程,2017,43(7):211-216.

[7]宓林晖,袁骏毅.基于CRF模型的临床医嘱信息实体识别方法应用研究[J].计算机应用与软件,2020,37(3):209-212.

[8]Zhang Y,Yang J.Chinese ner using lattice lstm[J].Preprint,2018(v1):1554-1564.

[9]黄春梅,王松磊.基于词袋模型和TF-IDF的短文本分类研究[J].软件工程,2020,23(3):1-3.

[10]吴凌芬,杨小渊,叶添杰,等.改进Jaro-Winkler算法在迎宾机器人语音交互中的应用[J].现代计算机(专业版),2015(8):8-13.

[11]陈宋.基于机器学习的医学辅助诊断算法研究[D].福州大学,2018.

[12]陈钦界.基于机器学习的智能医疗诊断辅助方法研究[D].国防科学技术大学,2017.

收稿日期:2020-05-11;修回日期:2020-05-20

编辑/钱洪飞

作者简介: 刘勇(1977.5-),男,江苏盐城人,硕士,工程师,主要从事机器学习、自然语言处理工作

通讯作者: 陳文生(1977.1-),男,河北黄骅人,硕士,馆员,主要从事信息与信息系统管理工作

猜你喜欢
电子病历术语规范化
狂犬病Ⅲ级暴露规范化预防处置实践
高血压病中医规范化管理模式思考
满足全科化和规范化的新要求
有感于几个术语的定名与应用
从术语学基本模型的演变看术语学的发展趋势