范 楠,肖诗斌,,王焕鹏,施水才,
(1.北京信息科技大学 TRS软件开放实验室,北京 100101;2.拓尔思信息技术股份有限公司,北京 100101)
发明专利和实用新型专利的检索系统至今仍大多使用文本信息,通常以 IPC分类号、专利名称、摘要、关键词、权利要求等作为主要检索入口,选择适当逻辑运算符等构造复杂的检索表达式。然而,对于专利审查专家而言,专利附图直观、形象地表达了专利的核心技术内容,代表一个完整的技术方案。相比于阅读理解专利说明书全文的大段文字而言,浏览附图是理解该专利速度更快的方式。附图图像具有一定的抽象性[1],传统的基于内容的图像检索方法不适用于专利附图的检索。研究发现,专利附图中的数字和字母组成的附图标记(以下简称为附图标记)对应的器件名称对于快速理解专利的技术方案有很大的帮助。对专利附图数字化和自动化后,利用附图标记所代表的器件名集合表征专利附图,对专利审查、检索具有十分重要的实际意义。
附图标记区域可看作附图中的文本区域,对附图标记的自动化检测类似于自然场景中的文本检测。结合深度卷积神经网络(convolutional neural networks,CNN)对自然场景下的文本检测进行研究,是当下采用最为广泛的方法。Faster R-CNN 算法[2]用CNN提取输入图片的特征,引入候选区域网络(region proposal network,RPN)从特征图得到候选区域(region of interest,ROI),通过分类器生成候选框得分,再通过非最大值抑制方法(non-maximum suppression,NMS)排除多余候选框,得到最终的检测结果。YOLO算法[3]没有显式地求取候选区域的过程,将目标检测问题作为回归问题进行解决,加快了检测的速度,但是检测物体位置的准确性较低。SSD算法[4]利用CNN提取图片的多层网络特征进行检测,有效兼顾了大目标与小目标的图像特征。CTPN[5]通过检测小文本框,不断合并,最终得到预测的大文本框,该方法能有效地检测出复杂场景的横向分布的文字。
本文针对附图标记在抽象附图中检测定位难的问题,提出一种基于改进EAST算法[6]的专利附图标记检测方法。采用融合注意力机制的特征提取方法,提高卷积神经网络对附图标记区域的注意力,提升附图标记的检测效果。
专利附图的样例如图1所示,图中的“120”、“F”等为附图标记。
图1 专利附图样例
经过研究发现,与大多数自然场景的文本相比较,专利附图标记多为数字与字母的组合,总结专利附图标记的规则如下:
1)附图标记多为字母、数字组成,字母大小写均可,存在右下角标的情况;
2)存在有特征字符是附图标记的一部分的情况,如:组成附图标记的数字或字母的右上角有单引号甚至是三引号,这类附图标记通常代表同一器件的不同位置;附图标记并不只由字母数字组成,还存在特殊字符“—”、“.”等。
3)附图标记不存在弯曲文本的情况,但附图会存在整体旋转导致附图标记文本的旋转;
4)附图标记的文本与图像之间的线条交叉情况普遍;
5)不同附图的大小不同,附图标记的数量、大小也不同。
CBAM(convolutional block attention module)[7]是一种结合通道(channel)注意力和空间(spatial)注意力的注意力机制模块。
图2 通道注意力模块
(1)
式中:σ为Sigmoid函数;W0和W1表示MLP的权重。
空间注意力模块如图3所示。将通道注意力模块输出的特征图MC与特征图F逐元素相乘得到的特征图F′作为空间注意力模块的输入,首先基于通道进行平均池化和最大池化操作,并将二者拼接,经过卷积核和激活函数处理,得到空间注意力图MS。其计算公式为
图3 空间注意力模块
(2)
式中:σ为Sigmoid函数;f7x7表示一个卷积核尺寸为7×7的卷积操作。
本文提出了一个基于改进EAST算法的专利附图标记检测方法,网络模型架构如图4所示,分为特征提取、特征融合、输出3个模块。
图4 专利附图标记检测模型
在特征提取阶段,原EAST算法为了增加感受野,使得模型有利于检测长文本,采用PVANet作为主干网络。专利附图标记长度相对于自然场景下的文本长度要短,专利附图的大小不一、复杂性不同,附图标记数量不同都会导致对附图进行文本检测时关注的特征维度不一,因此改进的EAST算法采用经典的ResNet50作为特征提取的主干神经网络,删除ResNet50网络末尾的平均池化层和全连接层,并从不同尺度的特征图提取特征。同时融合通道注意力和空间注意力机制,使得网络能够更有效地捕捉到附图标记的信息,当附图本身的线条和附图标记之间相互影响时,特征网络也能敏锐地提取到附图标记的信息。
特征提取模块的网络结构如图5所示。其中,Layer表示ResNet50的各层网络。
图5 融合注意力机制的特征提取模块
表1 ResNet50网络架构
在特征融合模块,本文借鉴EAST采用的U-net思想逐渐合并不同尺度的特征,同时又保持了较小的计算成本。特征融合的计算方式如下所示。
(3)
(4)
式中:fi代表不同尺度提取的特征图;hi表示经过一次特征融合后的输出;p表示上池化操作,扩充前一层的输出特征图,同时保留了最大值池化时的位置信息;c1表示1×1卷积核,c3表示3×3的卷积核。以h1为例,输入为8×8×2 048,经过上池化操作后变成16×16×2 048,此时与f2进行连接,f2的大小为16×16×1 024,连接之后的大小为16×16×3 072,经过的1×1卷积核和3×3的卷积核后得到16×16×128,依次根据公式计算,最终得到融合之后的特征图。
当特征融合后的特征图传入输出模块时,应用多个大小为1×1的卷积核减少通道数。由于附图标记不存在弯曲或旋转文本,但存在附图整体旋转90°的情况,所以定义输出结果为旋转矩形框(RBOX)的格式,而非任意四边形或水平框。最终输出的结果有三:一是单通道的分数图(score map),是将融合后的特征图经过单通道的1×1 卷积核滑动得到的像素位置的预测分数图,分数图中每个值范围在[0,1]之间,表示同一位置检测框存在文本的置信度;二是四通道的检测框的位置参数,即以上、右、下、左的顺序距离检测框图片像素位置的偏移,用水平框AABB表示;三是单通道的检测框的旋转角度参数。
根据上述输出计算得到预测的文本框的4个顶点坐标,合并相邻的高度相关的文本框,再利用非极大值抑制,筛选得到最终的预测框。
本文实验的数据来源于专利数据库中机械领域的316篇专利的附图。由于专利分类方法的复杂性,机械领域的专利附图存在电路图、折线图等,去除不适用于附图标记检测的图片,最终得到2 105张专利附图,将1 805张作为训练集,300张作为测试集。
专利附图样例如图6所示。利用LabelMe对专利附图中的附图标记进行数据标注,经过数据预处理之后,将标注后的Json文件转换成TXT文件格式,对样例的最终标注结果如图7所示。其中,每一行代表一个附图标记,前8个数字分别表示该附图标记所在的标注框的左上、右上、右下、左下的xx、yy坐标值,最后一个字符表示该附图标记。
图6 专利附图样例
图7 附图标注结果
本文的实验环境为NVIDIA Tesla P100显卡(16 GB内存),网络模型采用PyTorch深度学习框架。
网络模型参数设置输入图片大小统一为512×512,batch_size为16,学习率为0.001。总样本数是1 805,则完成一个epoch需迭代113次,对每一个epoch迭代300次,每迭代5个epoch保存一次模型,同时设置数据加载时的工作进程为6,加快数据迭代的速度。
3.3.1 评价指标
本文的评价指标是精确率、召回率、F1值。附图标记的检测不同于目标检测有类别标签区分,所以本文不是直接基于混淆矩阵正负样例的评估结果,而是需要从检测到的附图标记的个数及附图标记检测框的位置来评估模型。
为每张图片创建n×m的矩阵M,n是附图标记真实标记框的个数,m是经过附图标记检测模型检测到的检测框的个数。计算过程如式(5)所示。
(5)
式中:ti为第i个标记框;dj为第j个检测框;I表示求两个矩形的交集;U表示求两个矩形的并集;S表示求矩形的面积。
精确率按式(6)进行计算:
(6)
召回率按式(7)进行计算:
(7)
式中:nc为在矩阵M中大于阈值的个数,本文中阈值设为0.5。
F1值按式(8)进行计算
(8)
3.3.2实验结果
模型训练时,损失函数的下降趋势如图8所示。文本框的置信度损失(score-loss)、旋转角度损失(angle loss)、文本框的位置损失(IOU loss)的变化如图9所示。
图8 总损失函数的变化情况
图9 各部分损失函数的变化情况
1)定量分析
① 同一置信度不同模型的附图标记检测效果对比
选择0.5作为置信度的阈值,本文提出的基于改进EAST算法的专利附图标记检测方法与原EAST算法的实验结果如表2所示。
表2 实验结果
从表2可以看出,无论采用何种算法,对于专利附图的标记检测均达到了较高的精确率和召回率。本文对特征提取网络进行改进之后的算法,比采用ResNet50作为特征提取网络的EAST算法,精确率高1.15%,召回率高3.13%,F1值高2.19%;比采用VGG16作为特征提取网络的EAST算法,精确率高1.12%,召回率高4.7%,F1值高3%。专利附图标记的检测是为了今后在标记识别及附图检索工作中进一步的研究,因此本文对于召回率格外关注。由实验结果可知,融合通道注意力和空间注意力机制的算法,提升了召回率,优于原EAST算法。
②不同置信度阈值的附图标记检测效果对比
图10为不同置信度阈值在本文提出的改进的EAST算法模型的评估效果对比,横坐标表示置信度的值,纵坐标表示基于改进的EAST算法对专利附图标记进行检测后,不同置信度阈值计算得到的精确率、召回率和F1值。可以看出,不同的置信度阈值会影响模型的评估结果,其精确率、召回率和F1值均随着阈值的增加而降低。
图10 不同置信度阈值的评估结果
2) 定性分析
引入注意力机制前后的附图标记检测效果如图11和图12所示,可以看出在有附图本身与附图标记相互影响时,引入注意力机制的算法的检测效果要比原EAST算法的检测效果好。
图11 引入注意力机制的检测结果
图12 未引入注意力机制的检测结果
对专利附图标记的准确检测对今后进行标记识别、专利检索具有十分重要的意义。本文针对附图标记检测存在的问题,提出一种基于改进EAST算法的专利附图标记检测算法。该算法对特征提取时卷积核的设计进行了改进,在此基础上,融合注意力机制模块,提升专利附图标记的检测效果,为进一步研究基于深度学习的专利附图标记的识别奠定基础。实验结果表明,本文提出的融合注意力机制的改进EAST算法优于原算法。
对附图标记检测结果进行分析时发现,由于部分专利申请的年代久远,专利附图的格式不规范,附图标记的字体变化、手写附图标记的情况时有发生,对附图标记的检测存在一定影响。未来将扩大专利附图数据集,针对附图标记与附图部件之间的粘连作出优化,同时提升对手写附图标记等的检测效果,并进一步研究专利附图标记识别。