李英杰,全太锋,刘武启
(重庆邮电大学 通信与信息工程学院,重庆 400065)
E-mail:1678350588@qq.com
文本检测已经广泛应用于车牌检测、实时翻译、导盲导航系统、无人汽车辅助驾驶等相关领域[1].与文档中的文本识别不同,自然场景文本检测的难点[2]是图像中的非文本元素广泛分布,如图像中的花草、树木、建筑等也可能具有与文本相似的结构,在进行检测时很可能将其检测出来,这就对文本检测和识别的准确率以及效率产生了很大的影响.自然场景文本检测方法主要包括:基于连通域的方法、基于纹理的方法、基于学习的方法[3].基于连接域的方法使用自下而上的策略逐步将小区域合并为更大的区域,直到识别出所有区域.文献[4]提出一种基于规则的文本检测方法,该方法通过MSER算法提取候选区域,然后使用基于规则的过滤技术消除非文本区域.文献[5]提出一种基于笔画宽度变换(SWT)和MSER的检测方法,利用SWT和MSER同时提取候选字符,而后通过启发式规则对候选字符进行过滤.但是,基于连通域的方法必须计算图像中所有像素的相似特征.根据图像中文本和背景之间的结构特征差异,基于纹理的方法首先对图像做频域转换初步确定图像中的文本区域,然后提取特征,最后利用分类器确认文本.文献[6]使用K-Means算法进行聚类和特征选择,然后使用ELM分类器获取文本.文献[7]提取MSER候选区域,并使用水平和垂直方差,笔画宽度和几何特征构建AdaBoost分类器.然而,基于纹理的方法使用固定权重线性地混合提取的特征,融合策略太过单一.基于深度学习[8-11]的方法受到人们越来越多的青睐,文献[12]根据RCNN具有从训练数据共享权重的优点,应用RCNN卷积神经网络模型进行文本识别,文献[13]提供了一种完全卷积网络(FCN)预测图像中的文本行以文本行的形式检测文本,基于深度学习的方法具有很好的检测效果,缺陷是需要大量数据训练模型,时间复杂度很高,在新的场景图像中检测文本耗时很长,很难满足实时性.
针对上述问题,本文提出了一种改进的MSER算法和一种基于SVM的多特征自适应权重融合方法来检测自然场景中的文本.首先利用改进的MSER算法提取候选区域,然后将HOG、统一化LBP、CPD三种特征以不同权值相结合,最后融合特征用于训练SVM分类器以实现非文本精细过滤.
本文提出的检测算法总体流程如图1所示.首先对图像进行预处理,运用改进的MSER算法提取候选区域.根据HOG、CPD和纹理特征各自的优势,合并得到HOG+统一化 LBP+CPD三通道特征训练分类器.加入CPD特征可以依据文本和背景的色彩差别,利用颜色特征的空域特性弥补滤除非文本区域时特征的不足.在三个特征融合的过程中,采用多特征自适应权重融合策略,根据权重计算公式对不同特征进行加权,以提高较优特征在融合过程中的权重,同时降低较差特征对融合决策的影响.
图1 总体算法框图Fig.1 Overall algorithm block diagram
MSER[14-16]算法基于分水岭的概念将彩色图像转换为灰度图像,然后将图像二值化,二值化阈值取[0,255]中的某个值,在阈值由0向255连续增加的过程中遍历检查图像中所有像素灰度值,忽略灰度值小于阈值的像素点,留下灰度值比阈值大的像素点,这样当阈值不断变换时,相邻像素点构成的区域不断地出现、生长和合并形成极大值区域,当2个不同阈值间的区域面积变化基本不变时,则得到的区域即为最大稳定极大值区域(MSER+).灰度图像的字符有两种,常见的一种是较亮字符处于较暗的背景,此时提取的区域为最大稳定极大值区域(MSER+),为检测出较亮背景下较暗的字符需要对灰度图像做反操作,重复二值化过程,就可以获取最大稳定极小值区域(MSER-),MSER+和MSER-求和得到最大稳定极值区域.
MSER算法的数学定义[17]:
定义1.图像I为区域D到灰度S的映射:即D∈Z2→S,其中S是完全可排序的,对于灰度图像,S取值为{0,1,…,255}.
定义2.像素间的邻域关系:A⊂D×D.本文使用四邻域,当p,q∈D并且满足式(1),则两点相邻.
(1)
定义3.图像中区域Q⊂D被定义为满足连接关系的图像的连续子集,任何点p,q∈Q都有连接的路径:
p,a1,a2,…,an,q
使得式(2)成立
pAa1,a1Aa2,…,anAq
(2)
其中ai∈Q,i=1,2…,n.
定义4.区域Q的边界为
∂Q={q|q∈D-Q,∃p∈Q,qAp}
(3)
定义5.对于所有的p∈Q,q∈∂Q如果满足I(p)>I(q),则区域Q为极大值区域;如果满足I(p)
定义6.如果Q1,…Qi-1,Qi…是一系列嵌套区域,如果在i处q(i)获得最小变化率,则称Qi为最大稳定极值区域.
(4)
图2 MSER算法提取Fig.2 MSER algorithm extraction
图3 改进的MSER算法Fig.3 Improved MSER algorithm
采用传统MSER算法提取文本时,因为视角和阴影,原图2(a)中的“s”和“t”之间的边缘产生模糊,导致图2(b)中检测到的字符区域“s”和“t”粘在一起,被当做一个区域检测出来.特别的对于“a”、“e”等这种有孔洞的文本,其中的孔洞也会被检测出来,这些情况通常出现在字符内部表现为嵌套区域.
如上所述,针对MSER算法存在的问题提出改进的MSER算法.步骤如图3所示.
步骤1.在预处理阶段加入中值滤波器对输入图像去噪.
步骤2.利用式(5)以不同权值对去噪后彩色图像的R、G、B分量加权平均,将输入图像转换为灰度图像Gray.
Gray=0.114B+0.587G+0.299R
(5)
步骤3.在灰度图像Gray上利用水平方向边缘差分算子Sx和垂直方向边缘差分算子Sy计算梯度幅度图G.
(6)
(7)
M为图像中一个3×3的窗口,Gx和Gy分别表示像素点水平方向和垂直方向的梯度值.
步骤4.根据式(8),式(9)对灰度图Gray进行增强操作得到Gray1和Gray2,并将梯度增强图Gyay1和Gray2的像素值归一化到[1,255]区间.
Gray1=Gray-α×G
(8)
Gray2=Gray+α×G
(9)
其中0<α<1.
步骤5.在幅度增强图Gray1和Gray2上利用MSER算法检测得到MSER+、MSER-,对MSER+和MSER-区域求和得到文本候选区域.
图4 边缘增强的MSER算法提取效果Fig.4 Edge enhanced MSER algorithm extraction effect
如图4利用边缘增强的MSER算法检测文本,图2(b)中粘连的“s”和“t”明显分开.
利用候选区域几何信息设计多机制抑制策略主要处理边缘增强MSER算法提取的区域,滤除其中的嵌套区域并达到对非文本区域粗过滤.
4.2.1 非文本区域粗滤除
针对非文本,本文设计了宽高比、边缘密度、像素面积比三种特征对其进行初步滤除.
1)宽高比
大多数字符宽高比相对固定,使用边界框数据对提取区域的最小外接矩形做如下约束,将宽高比不在0.4和10范围内的区域进行滤除.
(10)
其中width和height分别代表提取区域最小外接矩形的宽、高.
2)边缘密度
文本区域相比非文本区域,边缘密度更加密集.利用式(11)计算极值区域的边缘密度,将边缘密度值小于0.2的区域进行滤除.
(11)
其中f(i,j)=1表示边缘图像,式中的分子表示该区域边缘的像素个数.
3)像素面积比
文本区域像素面积通常限制在一定的范围内.提取到MSER极值区域后,计算MSER区域和外接矩形的像素比S,滤除比值小于0.3的极值区域.
(12)
其中area表示图像中MSER连通区域的像素总数,convexarea表示外接多边形中的像素总数.
4.2.2 嵌套区域滤除
为删除嵌套区域,提高后续识别准确率,设计了以下滤除策略,算法详细步骤为:
步骤1.计算所有候选极值区域外接矩形的坐标,将候选区域用式(13)四元组进行表示.
boxi(axi,ayi,bxi,byi)
(13)
bxi=axi+widthi
(14)
byi=ayi+heighti
(15)
其中axi、ayi表示第i个外接矩形的左下角坐标,widthi、heighti表示第i个外接矩形的宽和高,bxi、byi表示第i个外接矩形右上角坐标.
步骤2.判断候选区域是否有嵌套,如果两个区域满足包含与被包含的关系,则根据式(16)滤除候选区域中两者面积较小的区域.
图5 多机制抑制策略过滤Fig.5 Multi-mechanism-suppression policy filtering
(16)
如图5所示经过多机制滤除策略,图2(b)中的嵌套区全部被滤除掉.
改进的MSER算法能够检测出大部分字符区域,但是也检测出很多非文本区域.如图6所示,为了完全滤除非文本区域,使用SVM分类器对候选区域再次进行二分类,在特征提取阶段,本文在HOG特征的基础上合并了统一化 LBP特征和CPD特征,改善了单一特征的局限性.在特征融合的过程中,采用自适应权值对不同特征进行加权融合,以融合特征训练SVM分类器.
图6 自适应算法流程图Fig.6 Adaptive algorithm flow chart
方向梯度直方图(HOG)特征是目前计算机视觉、模式识别领域很常用的一种局部区域特征描述子,对光照比较敏感,但是对目标形变的鲁棒性较低.本文将图片归一化为64*64大小的图片,每8*8像素组成一个元胞(cell),每2*2个元胞组成一个块(block),每个元胞的梯度方向在0到360度分成9个方向块,元胞像素在9个方向块的梯度直方图有一个9维的特征,每个块内有2*2*9=36维特征,以8个像素为步长,水平方向将有7个扫描窗口,垂直方向有7个扫描窗口,检测窗口分别在水平和垂直方向上统计特征,最后组合所有块的特征得到图片总共的特征,64*64图片的HOG特征为36*7*7=1764维特征.
水平方向扫描窗口:
(17)
垂直方向扫描窗口:
(18)
局部二进制模式(LBP)特征具有很强的分类能力、较高的计算效率和灰度不变性.因为LBP直方图大多是针对图像中的各个区域分开计算的,对于一个普通大小的分块区域,传统LBP算子得到二进制模式数目较多,而实际的位于该分块区域中的像素数目却相对很少,导致产生一个过于稀疏的直方图,为减少冗余的LBP模式,同时保留足够的具有重要描绘能力的模式,提高算法整体效率,本文将LBP算子定义在一个半径为R的圆形区域内,对每一块采用统一化LBP算子(Uniform LBP)提取纹理特征,当某个LBP所对应的循环二进制数从0到1或从1到0最多有两次跳变时,该类型保存,跳变次数大于2次时,均归为一类,最后将每块的特征做串接组合,构建出整幅图的特征.
自然场景文本检测任务中,文本颜色和周边区域存在一定的区别.本文将RGB色彩空间的图像转换到HSI色彩空间,因为I分量与图像的彩色信息无关,所以在H和S分量上提取文本和非文本的色彩感知差异特征,最后对两个分量的色彩感知差异特征进行求和,得到最终的色彩感知差异特征[17].
(19)
(20)
式(19)中h(k)为颜色直方图特征表达式,k为一个区间内相应颜色值,m为图像颜色范围,nk为区间k中的像素总数,n为像素总数.式(20)中h(r)和h(r*)分别表示一个MSER区域矩形框中不相同的r和r*区域颜色直方图,N为颜色直方图中的小区间数.
分别提取文本和非文本的HOG、统一化LBP、CPD三种特征,使用三种特征分开训练SVM分类器,然后通过SVM预测的类别标签计算出每个特征对应文本和非文本的分类准确率,利用式(21)构建特征权值.
(21)
f={HOG,LBP,CPD}
(22)
其中x,y,z分别为HOG、统一化LBP、CPD特征向量值.
ICDAR2003数据集包括1个测试集,1个训练集,对每个字符在像素级别上进行了标注,本文选取ICDAR2003训练集中的258张图片作为训练样本.
按照训练集中字符区域的位置标注信息提取出每个字符作为正样本.由于SVM分类器主要对边缘增强MSER得到的候选区域进行分类,所以选取候选区域中的非文本区域作为负样本.
通过对训练样本的筛选,一共选择6220张图片作为正样本并标记为“1”,5330张图片作为负样本标记为“0”,然后提取样本融合特征并采用粒子群优化算法选择SVM最佳参数训练SVM分类器.
为验证整个算法的有效性和实用性,本文选择ICDAR2003图像数据集中的测试集对所提算法进行性能测试.表1为数据集的详细信息.ICDAR2003数据集被分为两个子集,其中一个用来训练或调整算法,另一个子集用来测试.其中的图片通过不同性能的照相机拍摄,图像内容包含广告牌、路标、门牌等种场景.
表1 图像数据集Table 1 Image data set
本文采用准确率(Precision)、召回率(Recall)、综合性能(F-score)三个指标对算法进行评估.分别定义如下:
(23)
(24)
(25)
式中|D|表示算法检测到的文本区域和非文本区域总数,c为正确检测到的文本区域个数,|G|表示数据集中文本区域的总数,α表示权重,本文设定α2=0.3.准确率和召回率分别从误检和漏检两个角度评价算法,假如较多的区域没有被检测到,则算法的召回率会相应降低;假如较多区域被错误检测到,则算法的准确率会降低.
利用SVM分类器需要确定核函数和参数,参数主要包含惩罚系数C和核函数参数g两个参数.由于文本和非文本的区分不是简单的线性关系,本文SVM分类器选择径向基核函数RBF(Radial Basis Function,RBF)将低维特征空间映射到高维特征空间.基于群体中个体之间协作和信息共享的思想,采用粒子群算法寻找最优的C和g.粒子群算法效率块,并没有许多参数的调节,目前已被普遍应用于函数优化、模糊系统控制以及其它遗传算法等领域.本文将粒子群算法的局部学习因子和全局学习因子设为1.49445,种群规模设为20,进化次数设为300,通过粒子群算法寻找最优参数c为12,g为0.29.SVM参数寻优结果如图7所示,在进化到100代时适应度达到最高为97.2%,此时参数最佳,在后续进化时,适应度一直不变趋于平稳.
图7 参数寻优结果图Fig.7 Parameter optimization results
为了证明改进算法的鲁棒性,实验选用最新和常用的四种算法和本文算法对比,主要比较改进算法在图像模糊导致字符粘连时提取文本的适应性、消除嵌套区域的有效性以及滤除非文本的彻底性.五种场景检测实验结果如图8所示.
图8 改进算法与其它算法对比Fig.8 Improved algorithm compared with other algorithms
在室外墙面广告场景文本检测中,SWT+MSER+SVM和传统的MSER算法无法解决由于模糊导致字符粘连的问题,边缘粘连的“s”和“t”被当做一个字符检测出来,降低了算法的准确率和召回率.在室外墙面广告和室内标识牌场景文本检测中,传统的MSER算法还会检测到“a”、“e”、“O”、“D”、“R”这种有孔洞的嵌套区域,而本文算法不仅准确检测到文本序列,还通过多机制抑制策略消除了无关的嵌套区域,并对字符粘连现象进行了有效抑制.在车牌检测中,传统的MSER算法不能检测到车牌中的第一个汉字,本文改进的算法可以完整地检测到车牌号区域.除了室外墙面广告场景,在其它四种场景中,由于图片背景更加复杂,存在大量类似文本的干扰区域,MSER+SVM算法、SWT+MSER+SVM算法、传统MSER算法检测结果中都出现了较多非文本区域,而本文算法在非文本滤除阶段采用SVM多特征自适应权值融合的分类方法,按最优的权值组合特征训练SVM分类器,提高了分类的准确率,有效滤除掉非文本.
表2 不同算法在ICDAR2003性能参数对比Table 2 Comparison of performance parameters ofdifferent algorithms in ICDAR2003
为了验证本文算法的性能,本文选择ICADAR2003数据集中的所有场景测试集进行实验.表2为改进算法与其它算法性能参数对比,通过表2可以看到MSER+CNN的方法召回率、准确率、综合性能是最好的,该算法采用MSER方法提取候选区域,将候选区域送入卷积神经网络进行分类,虽然检测性能最好,但是基于CNN的方法算法复杂度很高,卷积神经网络中每一层卷积层和池化层中的每个神经元有很多参数,每个卷积层会提取到图像的很多特征,处理图片时间长,降低了系统检测的实时性.MSER+SVM(特征1:1:1)的方法在特征融合时按相等的权值进行融合,没有考虑某些特征对文本表现能力差的问题,导致过滤非文本不彻底,准确率和本文算法相差4.32%.SWT+MSER+SVM提取文本区域没有考虑图像低对比度造成图像模糊的情况,导致召回率和准确率较低.传统的MSER算法在提取到候选区域时,没有解决MSER算法检测存在嵌套区域的问题,而且没有再进一步对候选区域进行文本分类,准确率明显低于本文算法.通过比较本文算法检测性能明显优于其它三类算法,召回率、准确率和综合性能仅低于MSER+CNN的方法,但是本文算法没有复杂的卷积操作,检测时间更少.
表3 各算法处理速度对比Table 3 Comparison of processing speed of each algorithm
为了证明本文算法既具有良好的检测性能,又能满足实时性的要求,分别使用40张不同分辨率的图片进行实验,计算检测出图片中的文本区域所需要的平均时间.如表3所示随着图片分辨率的增大,MSER+CNN算法需要处理的信息越来越多,检测耗时远远高于其它算法.由于本文算法在候选区域提取阶段引入了多机制抑制策略,相比于MSER+SVM(特征1:1:1)检测时间较长.SWT+MSER+SVM方法通过SWT和MSER组合来提取候选区域,而SWT方法需要计算所有像素点对应的笔画宽度,增加了文本检测所需时间.在最高图片分辨率下检测文本,本文算法检测时间为5.72s,仍能满足实时性要求.
图9 ICDAR2003数据集部分检测效果图Fig.9 ICDAR2003 data set partial detection effect diagram
本文算法为克服其它算法存在的问题,分别在候选区域提取阶段和非文本滤除阶段对传统算法做出改进,梯度增强图改进了传统的MSER算法,改善了MSER算法不能在低对比度、字符粘连图像上提取文本候选区域的问题,提高了算法的召回率.基于SVM多特征自适应权值融合的分类方法提高了分类的准确率,进而提升了算法的综合性能.改进的算法性能仅低于MSER+CNN的方法,其中召回率相差4个百分点,准确率相差1个百分点,但是检测速度明显更快.本文算法检测速度较低于其它三类算法,但是准确率更高.综合考虑上述主观分析和客观实验结果,本文改进的算法可以同时兼顾检测率和实时性.图9展示了本文算法在ICDAR2003测试集中代表性场景检测效果图.
针对MSER算法对边缘模糊文本比较敏感,提取的候选区域中存在字符粘连等问题,提出改进的MSER算法.为了更彻底高效地滤除非文本区域,考虑到单一特征对文本描述能力较弱、不同特征对文本描述能力不同的情况,本文在训练集上提取HOG特征的基础上加入统一化LBP和CPD特征,然后采用自适应权值融合策略将三种特征融合并结合粒子群算法寻找SVM训练的最优参数,得到一个最优分类器,最后将提取的候选区域送入训练好的最优分类器,更精确地剔除非文本区域.实验结果表明,本文算法可以解决字符粘连、图像模糊难以检测文本以及滤除非文本不彻底等问题,提高了检测精度,并且满足实时性要求.