基于堆积策略的电子病历实体识别

2014-04-29 04:53邓本洋等
智能计算机与应用 2014年1期
关键词:电子病历

邓本洋等

摘要:随着各国政府对健康医疗信息系统的投入,电子病历信息挖掘得到越来越多学者的关注。与传统的文本相比,电子病历有其自身的特点.。在2010年i2b2举办的评测中,概念抽取任务最好系统的F值为0.8523,与传统的命名实体识别效果有一定差距。使用了CRF、最大熵两种模型建立了baseline系统并且使用堆积策略综合两者的结果,使得系统的F值达到了91.1%。

关键词:电子病历; 实体识别; 堆积策略

中图分类号:TP391 文献标识码:A文章编号:2095-2163(2014)01-0069-04

0引言

电子病历(electronic medical records,EMR)是电子化的医疗记录,能够为健康管理提供信息处理相关工具[1]。随着各国政府对健康医疗信息系统的大力投入,电子病历信息挖掘已得到愈益广泛学者的高度关注。电子病历中蕴含的知识能够应用在医疗诊断、医疗问答和制定用户健康计划等众多领域中。实体识别作为信息处理的基础模块,在电子病历的信息挖掘中不可或缺、至关重要。

实体通常是由一个到多个词组成的一类名词短语,在MUC[2,3]、ACE[4]和CoNLL[5]普及的实体识别任务中,实体通常包括人名、地名、机构名称等。命名实体识别(Named Entity Recognition, NER)在MUC6上首次正式提出,并包含如下子类:名称类,包含人名(包括人名的缩写)、地名、机构名;时间类,指纯粹的时间短语;数字类,包含货币和纯数字。如今,实体范围得到进一步扩展,覆盖了很多领域的常见概念,例如疾病名称、刊物名称、体育运动名称等。在ACE关系抽取评测任务中,实体类别已扩展到一百多种。

电子病历实体识别要求在未标注的病历数据上识别并输出疾病、治疗、诊断相关的概念。通用领域命名实体研究时间较长,并且由于名称类、时间类和数字类实体在结构、命名规则等方面有一定的规律,同时可用标注语料储备丰富,系统的准确率和召回率可达到90%以上,近乎可用的水平。电子病历中的实体有其自身的特点,从2010年i2b2评测[6]的结果上看,最优系统[7]的F值(系统性能指标)为0.852 3,与通用领域命名实体识别存在较大的差距。电子病历中实体识别的难度主要有以下几个方面的原因:实体数量多,现有可用的词典、本体库等资源不能提供充足的信息;标注语料少,由于涉及到用户的隐私,公开可用的电子病历资源也很少见;词形复杂,电子病历中疾病、药物的缩写词、同义词很常见,给实体识别带来一定的难度;实体划分标准歧义,例如电子病历中的检查和药物经常出现分类错位。

多分类器组合策略在众多领域均被证明是行之有效的,其中的堆积算法(stacking)适用于所有的分类问题[8]。stacking方法尤其适用于整合多个不同学习方法的预测结果,从而充分利用每个分类器的优点以提高组合分类器的识别效果。本文在stacking策略的框架下,综合CRF模型和最大熵模型预测的结果,以提高电子病历实体识别效果。

本文的结构安排如下:第一部分引言;第二部分相关工作,主要介绍相关评测及电子病历实体识别已有的研究成果;第三部分有监督电子病历实体识别,描述了本文在实体识别中选用的特征和模型;第四部分堆积算法介绍,对堆积算法进行了详细的分析;第五部分实验结果,对比了堆积算法和baseline系统的结果;最后给出结论和未来展望。

1相关工作

随着i2b2评测的逐年举办,带标注的电子病历语料开始公开。一般情况下,机器学习模型的效果将随着标注语料规模的增大而趋于明显,同时统计方法受数据的不均匀性影响比较大,例如词汇的多样化、书写风格迥异等。在2010 i2b2/VA challenge中,效果比较好的系统选择的模型都是CRF[6]。Gurulingappa等[9]在模型训练的时候,扩展文本特征来提高实验的效果,并且输出阶段采用规则对实体规范化;Roberts[10]将实体识别划分为两个阶段,第一阶段对实体边界进行识别,第二阶段对提取的实体组进行分类;Bruijn等[7]在常用特征的基础上,充分利用了现有医疗资源cTASKS、UMLS和ConText等中的信息扩展特征,并且使用词聚类算法增加低频词识别的准确率,系统最后的F值0.852 3,排在评测榜第一位。其他系统采用的方法类似,大多基于已有的命名实体识别系统,并且充分利用现有知识库。

统计学习方法未获得令人满意的结果,原因可能如下:抽取的特征不能有效地表示命名实体;单个算法无法达到最佳性能。本文在基于CRF和最大熵模型的基础上,使用堆积策略(stacking)提高电子病历中概念抽取的准确率。堆积方法适用于整合多个不同学习方法的预测结果,通过充分利用每个分类器的优点来提高组合分类器的识别效果。CRF模型在实体边缘识别上优于最大熵模型,同时最大熵模型的分类结果又可以提高CRF序列化标注的准确性,实验表明堆积策略可以显著提高电子病历中实体识别的效果。第1期邓本洋,等:基于堆积策略的电子病历实体识别智能计算机与应用第4卷

2有监督电子病历实体识别

近20年来,统计学习方法在理论和应用上都得到了可观的进步和发展。在自然语言处理领域,统计学习方法更在分词、词形标注、句法分析等各个任务上都获得了不可小觑的优异成果。使用统计机器学习方法实现建模主要有两个关键的步骤:首先是选取能够表示随机过程的特征,然后是模型的选择。电子病历实体识别任务中选取的特征如表1所示。

由表1可见,其中大多为二元特征。在词特征中,词形特征表示构成词的基本字符集合,具体构造方法为:小写字母串替换为a,大写英文串替换为A,数字串全部替换为0,例如2017-06-17变为0-0-0。针对电子病历的特点,同时引入句子特征和段落特征:是否以冒号结尾、时态、标题、次标题。标题特征为以冒号结尾的行,并且该行只有一个句子,即电子病历中段落分割的标志。次标题特征指的是距离当前行最近的冒号之前的词短语,次标题中的冒号可能出现在句中。此外,还引入了医疗资源UMLS[11]和DrugBank[12]以查询病历中名词是否属于已定义的语义类型,并且引入语义分布的特征以提高实验的效果。

5结束语

作为信息处理的基础技术,实体识别在电子病历应用中扮演着重要角色。本文针对电子病历实体识别任务,基于最大熵模型和CRF模型实现了两个基础系统,并在此基础上使用堆积策略融合了两个分类器的结果,实验表明融合分类器的方法获得的改进效果十分明显。电子病历蕴含了丰富的医学专业知识,实体识别技术仅挖掘出了其中的名词信息。为了将电子病历更宽泛地应用在医疗、生活等方面,后续的研究将包括关系抽取、时序关系抽取、事件抽取等。

参考文献:

[1]HANNAN T J. Electronic medical records[J]. Health Informatics: An Overview, 1996: 133-148.

[2]GRISHMAN R, SUNDHEIM B. Message understanding conference-6: A brief history[C]//Proceedings of COLING. 1996, 96: 466-471.

[3]CHINCHOR N. Overview of MUC-7.[C]//Proceedings of the Seventh Message Understanding Conference(MUC-7). 1998: 178-185.

[4]DODDINGTON G, MITCHELL A, PRZYBOCKI M, et al. The automatic content extraction(ACE) program-tasks, data, and evaluation[C]// Proceedings of LREC, 2004, 4: 837-840.

[5]SANG E F T K, DE MEULDER F. Introduction to the CoNLL-2003 shared task: Language independent named entity recognition[C]//Proceedings of the seventh conference on Natural language learning at HLT-NAACL 2003-Vulume4. Association for Computational Linguistics, 2003: 142-147.

[6]UZUNER O, SOUTH B R, SHEN S, et al. 2010 i2b2/VA challenge on concepts, assertions, and relations in clinical text[J]. Journal of the America Medical Informatics Association, 2011, 18(5): 552-556.

[7]DE BRUIJN B, CHERRY C, KIRITCHENKO S, et al. Machine-learned solutions for three stages of clinical information extraction: the state of the art at i2b2 2010[J]. Journal of the American Medical Informatics Association, 2011, 18(5):777-562.

[8]SIGLETOS G, PALIOURAS G, SPYROPOULOS C D, et al. Combining information extraction systems using voting and stacked generalization[J]. The Journal of Machine Learning Research, 2005, 6: 1751-1782.

[9]GURULINGAPPA H, HOFMANN-APITIUS M, FLUCK J. Concept identification and assertion classification in patient health records[C]// Proceedings of the 2010 i2b2/VA Workshop on Challenges in Natural Language Processing for Clinical Data. Boston, MA, USA: i2b2. 2010.

[10]ROBERTS K, RINK B, HARABAGIU S. Extraction of medical concepts, assertions, and relations from discharge summaries for the fourth i2b2/VA shared task[C]// Proceedings of the 2010 i2b2/VA Workshop on Challenges in Natural Language Processing for Clinical Data. Boston, MA, USA: i2b2. 2010.

[11]LINDBERG D A, HUMPHREYS B L, MCCRAY A T. The Unified Medical Language System[J]. Methods of information in medicine, 1993, 32(4): 281.

[12]OVERINGTON J P, AL-LAZIKANI B, HOPKINS A L. How many drug targets are there?[J]. Nature reviews Drug discovery, 2006, 5(12): 993-996.

猜你喜欢
电子病历
云计算平台下的电子病历系统安全管理
CA认证在医院电子病历数字签名中的应用研究
电子病历保全与认证研究
现阶段电子病历问题的探讨及改革
不同质控方法在病案质量控制中的应用效果
基于HDFS的分布式区域电子病历存储策略
环节质控对电子病历质量影响的效果分析
住院电子病历在我院的应用和推广
电子病历临床信息系统的解决方案