病例文字识别与提取方法综述

2020-12-22 10:36田红楠

机电产品开发与创新 2020年6期

袁伟，郭欣，田红楠

（1.河北工业大学人工智能与数据科学学院，天津 300130；2.国家康复辅具研究中心秦皇岛研究院，河北秦皇岛 066000）

0 引言

病例识别说到底就是识别其中的文字信息，早期文字识别[1]的处理方法有模板匹配，几何特征[2]等，但是以上方法的识别率都不是很高，而且费时费力。

文字识别作为图像方面的热点问题，引来许多学者不断的为此研究和创新。随着信息化时代的全面开展，OCR 技术在国内各行各业开始应用，比如文档识别，路牌识别[3]等。现在基于深度学习神经网络的文字识别与提取得到了很好地应用，因为其特征提取简单，并且学习性强，易于训练。在这方面做的研究包括：Utkarsh Porwal[4]等提出了DBN 来捕获数据分布，通过使用几个隐藏层在不同抽象级别表示数据实现脱机手写文本识别。孙巍巍[5]提出了一种基于深度信念网络融合模型对手写汉字识别的方法。浙江大学黄攀[6]提出了基于CNN 和BiRNN 的结合上下文的图像编码方法与基于ARSG 的文字解码方法。刘水丽[7]等人论述了基于深度学习的文字识别技术的性能优势以及应用场景，并和传统的技术做了对比。在图像检索研究方面，马冬梅[8]提出了一种基于深度学习中隐层神经网络的图像检索系统。 Zeinab Akhbari 等人利用模糊理论[9]对彩色图像进行文本检测的一种改进方法，应用于车牌识别、宣传片和视频帧中的文本识别、彩色信封的标题识别和地址识别。

1 基于深度学习的文字检测技术

1.1 文字检测网络

（1）Faster RCNN 网络。Faster RCNN[10]网络基于VGG16，支持任意大小图片的输入，主要由conv layers，RPN，Roi Pooling，Classifier 四层组成。在结构上，它已经将特征提取，候选区域提取，regression 回归，classification 分类都集成在了一个网络中，它引入了RPN 网络，用于生成候选区域。 Faster RCNN 由于集成在了一个网络中，因此在检测的速度上有了明显的提高。

（2）CPTN 网络。 CPTN[11]是一种基于目标检测方法的文本检测模型，是目前主流的文本检测算法，CTPN 算法是在Faster RCNN 基础上改进而来，加入了LSTM 层，CTPN 与CNN、LSTM 结合，可以检测出复杂场景中的横向分布的文字位置。其中CNN 采用VGG16 作为预训练模型进行底层特征提取，LSTM 神经网络学习文字的序列特征，有助于文本检测。它的优点是可以很好的预测文本水平位置，缺点是对于预测竖直方向及旋转方向的文本会很困难。

（3）RRPN 网络。RRPN[12]，旋转区域候选网络，其实也是在Faster R-CNN 的基础上，引入了RPN，相较于CPTN算法只能检测水平方向的文本，此网络可以检测旋转方向的文本，即任意方向，通过调整角度信息进行边框回归，使其更加适合文本区域。

（4）EAST 网络。 EAST[13]网络是一个高效和准确的场景文本检测网络，它可以直接预测图像中任意方向和矩形形状的文本或文本行，它有两个阶段的任务。第一个阶段是基于全卷积网络（FCN）模型，来预测生成文本框；第二个阶段是对生成的文本预测框（可以是旋转矩形或矩形）经过非极大值抑制以产生最终结果。 EAST 的优点是放弃了不必要的中间步骤，进行端到端的训练和优化。

表1 对几种文本检测网络进行了对比分析。

表1 通用文本检测网络对比

2 基于深度学习的文字识别技术

2.1 文字识别网络

（1）CRNN 网络。 CRNN 主要用于端到端地对不定长的文本序列进行识别，它是在CPTN 的基础上，将CPTN网络检测到的文字，送入到CRNN 卷积神经网络中进行训练，提取特征。 CRNN 卷积神经网络结构包含三部分，分别为：①卷积层CNN，提取输入图像的特征序列；②循环层RNN，从卷积层得到的特征序列，使用RNN 对其进行预测，得到预测标签的分布；③转录层CTC，循环层获取的预测标签通过CTC 变成最终的标签序列。最难的还是在于第三步，CTC 转录。

CTC 主要用于序列解码，将RNN 层所做的预测转换成标签序列。

（2）RARE 网络。RARE[14]网络由STN（空间变形网络）和SRN（序列识别网络）组成。 STN 网络起到了变形矫正的作用，通过STN 对图像进行矫正，之后通过SRN 对文本进行识别。因此RARE 网络在处理变形的文本时候效果会很好。但是由于使用了tanh 激活函数，导致收敛速度较慢。

图1 RARE 网络结构图

（3）ESIR 网络。ESIR[15]是一种端到端场景文本识别网络，它提出了一种新颖的文本姿态估计网络，该网络包括两部分，一个是采用迭代的文本校正网络，另一个是序列识别网络。其中场景文本扭曲会被更正到一个正面平行视图。此外，ESIR 还不需要参数初始化，训练只需要场景文本图像和文字注解。但是ES 它在图形变换时，会进行双线性插值，容易导致丢失关键像素信息。

（4）FAN 网络。FAN[16]网络，解决了在一些复杂的或者质量低的图像中的文字识别效果不太好的情况，因为现有的基于注意力的方法效果非常差。FAN 网络包括AN 和FN 两个主要部分。 AN 和现有的基于注意力的方法一致，FN 是用来检测AN 的注意力区域是否与图像中目标字符的位置对齐，然后自动的跳转这个注意点，所以它识别的图像文本更加准确。但是注意力机制的对齐若产生错误，就会叠加。

表2 对几种文本检测网络进行了对比分析。

表2 文本识别网络对比

3 信息提取

经过文字识别之后，就需要提取关键信息，涉及的关键技术有实体抽取、关系抽取和属性抽取。

3.1 实体抽取

实体抽取也就是命名实体识别NER[17]方法，此方法的任务[18]是识别文档中表示个人姓名、组织名称、地点名称、时间和数量等的短语。命名实体识别方法主要分为三类：

（1）基于规则和词典的方法。它是由手工编写而来，人为设定的规则。但是不同的领域内的实体都有着不一样的规则，因此当此方法用在不同的领域时就需要改动，例如医学领域就有着自己特定的实体，因此基于特定领域的规则往往是不通用的，所以这种方法是耗时耗力的。如果规则能较好的反映实体关系时，基于规则和词典的方法还是较为方便的。

（2）基于统计的学习方法。基于统计的学习方法主要有最大熵、支持向量机、条件随机场CRF，隐马尔可夫模型等。

它是基于分类和序列标注的方法，利用大规模语料来进行学习，进而标注出模型，通过语料内容进行统计和分析，从其中发现出特征。语料的标注不需要很多的专业知识，并且它优于基于规则的方法的一点就是在其他领域使用时，可以不用在做很多繁琐的工作，可以直接使用。

但是它对语料库的依赖很大，但是评估命名实体识别系统的大规模通用语料库又比较少，所以不是最好的方法。

（3）基于神经网络的学习方法。无论是基于规则和词典还是基于统计的学习方法，都需要大量的人工处理数据。传统的基于统计的方法需要很多的领域知识，而基于深度学习的方法可以从输入中获取信息并学习。深度学习中的神经网络[19-20]也可以有效的处理很多自然语言任务的模型，同时不需要人工预处理数据，此种方法对序列标注的处理是类似NER 的，采用端到端的识别方法，不需要基于规则和词典方法中所要求的领域资源，其可以自动学习和提取特征。蔡成章[21]基于深度学习的命名实体识别技术，完成了对医学文本中的实体名词的识别与提取，从而达到电子病历的后结构化目的。杨红梅提出的基于Bi-LSTM[22]与CRF[23]的实体识别模型，抽取了入院记录和出院小结的医学命名实体，解决了RNN 解决不了的长时依赖的问题。

因此，基于深度学习的命名实体识别对病例的识别提取要优于前两种方法。但是目前还是存在问题的，如重叠的实体关系还做的不是很好。表3 提供了几种方法的优缺点。

表3 命名实体识别方法对比

3.2 关系抽取

语料经过上一步之后，得到的命名实体达不到要求，它得到的仅仅是一些离散的实体，因此为了得到语义信息，需要我们提取出实体之间的关系，通过关系将这些实体联系起来。研究关系抽取技术的目的，就是为了解决怎样从语料中得到实体间的关系。

3.3 属性抽取

属性抽取的目标是从不同信息源中采集特定实体的属性信息.针对病例来说，可以从每一张病例信息中的到其名字，性别，诊断症状，损伤部位，治疗方案等关键信息，而此技术就是从如此多的数据中汇集这些信息。

4 结束语

本文首先介绍了病例文字识别的相关背景以及应用方向，其次概括了在文字检测时近几年所用到的网络模型，对它们进行了综合性的分析比较，之后又概括了文字识别所用到的网络模型，并对他们进行了综合分析，最后对信息提取时所用到的方法进行了概括分析。作为信息化的时代，文字识别技术已经涉及到生活中的方方面面，未来的生活一定离不开文字识别技术，文字识别对于语义的理解与检索很重要。但是尽管目前的识别技术已经很先进，但文字识别仍然是有技术难点的，比如被遮蔽的，标注有问题的文字等如何进行更好的识别，还是需要继续深入研究。