基于启发式规则和SVM的自然场景中文文本定位

2016-12-23 11:18喻勃然万洪杰

电子设计工程 2016年24期

关键词：偏心率字符极值

喻勃然，万洪杰

（北京化工大学信息科学与技术学院，北京100029）

基于启发式规则和SVM的自然场景中文文本定位

喻勃然，万洪杰

（北京化工大学信息科学与技术学院，北京100029）

为了实现自然场景下的中文文本定位，设计实现了一种启发式规则过滤和SVM精确分类的层次定位方法。首先通过最大稳定极值算法提取区域，对于汉字笔画分离的问题，用形态学运算进行笔画融合。再根据汉字的特点，设计启发式规则过滤非文本区域，其中通过候选字符区域的椭圆拟合，引入椭圆的偏心率作为文本判别规则。最后提取HOG特征，通过SVM精确分类实现文本定位。实验证明本文方法在复杂的自然场景下取得了良好的文本定位效果。

最大稳定极值区域；启发式规则；HOG；SVM；文本定位

随着智能手机，数码相机等移动智能终端的普及，图片和视频已经成为人们传递信息的重要载体。其中包含的文字信息对基于语义的图像理解和场景认知有重要的意义。利用计算机对海量的图片提取信息，已成为国内外研究者关注的热点。自然场景图像各式各样，光照不均，其中包含的文字字体多变、布局不一、背景复杂。因此精确地检测和定位场景图像中的文字仍然是一项充满挑战的任务。

目前，主要的场景文本定位方法有基于边缘的方法，基于纹理的方法和基于机器学习的方法。在文献[1]和[2]中，分别提出了多尺度的LoG边缘检测子和密集的垂直边缘进行文本定位。该方法的运行速度较快，对于文本边缘明显的情况定位准确率较高。文献[3]中重新定义了基于DCT的特征，并通过一个无监督的阈值法来对文本分类，能适应较复杂的背景，但对文本的尺度变化较敏感。Epshtein等人[4]提出了笔画宽度变换的方法，通过计算每个像素点的值与该像素点相关的笔画宽度来定位文本。文献[5]通过AdaBoost机器学习算法训练了一个由4个强分类器组成的串联分类器，用了79个特征对候选文本区域分类。Lukas等人[6]利用最大稳定极值区域作为候选字符区域，通过SVM分类器进行文本和非文本的判别，该方法对自然场景有良好的适应性。

虽然英文文本定位的研究已取得了一定成果，但针对中文文本定位的研究还很缺乏。文中在相关研究的基础上，设计实现了适用于中文文本定位的方法并进行了改进。算法首先提取最大稳定极值区域，采用数学形态学运算融合分离的笔画，将融合后的连通区域作为候选字符区域。然后设计了一组启发式的规则对候选字符区域进行过滤，减少了分类的计算量，加快了算法的速度。最后计算方向梯度直方图特征，通过支持向量机实现对文本的精确定位。

1 基于最大稳定极值算法的候选字符提取

1.1 最大稳定极值算法

最大稳定极值（Maximally Stable Extremal Regions，MSER）是一种图像区域检测算法，它最初用来解决立体宽基线匹配问题[7]，具有很好的仿射不变性和光照鲁棒性，因此在物体识别、文字检测等应用中取得了良好的效果。MSER算法使用不同的灰度阈值对图像进行二值化。选取阈值t={0，1，…，255}，从0到255取值，将灰度值高于阈值t的点置为白色，低于阈值的点置为黑色。得到一系列黑色或白色的嵌套极值区域，可表示为Q1，…Qi-1，Qi，…，其中Qi⊂Qi+1。在极值序列Q1，…Qi-1，Qi，…中，极值意味着区域中所有像素的灰度值都高于或低于其外部边界的像素值。如果极值区域在一定的灰度值范围内是稳定的，这些区域就定义为最大稳定极值区域。用公式表示为，当且仅当i=i*：

如果式（1）在i*处存在局部最小值，那么Qi*就是最大稳定极值区域。其中Δ表示灰度阈值变化的步长。

1.2 数学形态学笔画融合

汉字具有不同于英文字符的特殊性，它有横、竖、撇、捺、点、折、钩7种基本笔画，再由这7种基本笔画组合与变形，形成了2万多个汉字[8]。单个汉字的笔画之间往往是互相分离的。为了将分裂的笔画融合，我们把MSER算法提取的区域通过数学形态学操作。文中采用闭运算对图像进行形态学操作，闭运算能较好地保持图像中目标物体的大小。图1显示原图与闭运算图像对比，这时单个汉字已经能作为一个连通区域被检测出来。

图1 原图与闭运算图像对比

2 启发式过滤规则设计

经过MSER提取和数学形态学运算后，将检测到的连通区域作为候选字符区域。由图1（b）可以看出其中包含了大量的非文本区域干扰。如果直接将这些候选字符区域进行分类，势必大大增加计算量，造成算法效率低下。因此根据汉字的特点设计了一组启发式的规则来对候选字符进行初步判断。

令提取的候选字符的集合为S，其中包含了字符ci和非字符nj，集合S定义如下：

考虑如下几点：

1）场景图像中的字符的面积不会过大或过小。令候选字符区域sk的外接矩形为rk，Area（rk）表示外接矩形的面积，经过大量实验统计，候选字符sk的限定条件表述为：

将外接矩形面积小于15 000像素和大于150 000像素的区域视为非文本区域。

2）汉字字符形状呈近似的正方形，即其外接矩形的长宽比接近于1。令外接矩形rk的宽高分别为width（rk）和height（rk）。宽高比的限定条件为：

3）经过上述两条规则，过滤掉了一部分非文本区域，然而还有一些明显的非文本区域通过了过滤规则，如图2所示。

图2 未被过滤的非文本区域

它们的外接矩形的几何特征恰好落在限制条件之内。这些区域多呈倾斜的狭长形状。根据此特点，将候选字符区域进行椭圆拟合，引入拟合椭圆的偏心率作为过滤规则。拟合椭圆的数学推导可见文献[9]。令拟合椭圆的偏心率为Ec（sk），将偏心率大于0.75的区域视为非文本区域。即限制条件为：

将目标图像通过上述规则过滤，去除了大量非文本区域，使得支持向量机判别的计算量减少，提高了整个算法的效率。过滤后效果如图3所示。

图3 启发式规则过滤后图像

3 HOG+SVM分类

通过启发式规则过滤后，候选字符中还包含有少量的非文本区域，我们将提取候选字符的方向梯度直方图[10]（Histogram of Oriented Gradient，HOG）特征来训练一个支持向量机分类器，对剩下的候选字符区域进行精确的分类判别。

3.1 HOG特征提取

HOG特征对于图像的几何变化和光照变化都有很强的适应性，因此用于自然场景文字检测相比于其他算子更有优势。将前文中经过启发式规则过滤后的区域按照它们的外接矩形切分出来。分别对其提取HOG特征。主要步骤如下：计算梯度，像素点(x，y)的梯度为：

式中，Gx（x，y），Gy（x，y）分别表示像素点（x，y）的水平方向的梯度和垂直方向的梯度。H（x，y）是像素点（x，y）的值。（x，y）处的梯度幅值和方向为：

将候选字符归一化为48×48像素大小，以8×8个像素为一个细胞单元，在细胞单元中的每个像素点都要基于某个梯度方向的直方图投票，梯度方向取为0°～180°，划分为9个区间，形成一个9维向量。直方图采用加权投票，即每个像素的梯度幅值作为投票的权值。

最后将细胞单元组合成块（block），相邻的2×2个细胞单元作为一个块，块每次移动为1个细胞单元大小。因此每个块中共有4个细胞单元，块中向量的维度为4×9=36。被测图像总共形成25个块，所以每个候选字符区域的HOG特征向量维度为36×25=900维。

3.2 支持向量机分类

支持向量机（Support Vector Machine，SVM）是建立在统计学习理论VC维理论和结构风险最小化原则基础上的机器学习方法。它利用一个分类超平面最为决策面，最大化两类样本的间隔距离。对于线性可分的情况，它将分类问题转化为求解不等式约束下的最优化问题。对于非线性可分的情况，需要进行核函数映射。将原空间中的非线性问题转换为新空间中的线性问题。常用的核函数有线性核函数、多项式核函数和径向基核函数。使用支持向量机分类的主要步骤为：收集制作正负样本，提取正负样本的特征向量，通过交叉验证获取最优参数，利用获得的最优参数训练支持向量机模型，最后用待分类的样本测试，得到分类结果。

4 实验及分析

文中通过手机拍摄了400幅场景图像作为实验的数据集，像素为800万。场景图像包括道路的指示牌，户外广告，提示标志和建筑物的名称等内容，其中的汉字字符有不同的排列方向。从数据集中随机选取出200幅图像作为训练集，剩下的200幅图像作为测试集。

将训练集中的图像经过MSER提取和启发式过滤。切分出候选字符区域，并统一归一化为48×48像素。通过人工标注，将候选字符中的文字区域作为SVM分类器的正样本，非文字区域作为负样本。总共生成正样本1 451个，负样本3 694个。

将收集的正负样本按前文所述步骤提取HOG特征以训练SVM分类器，核函数选择径向基函数。核函数半径g和惩罚系数C对SVM模型有重要影响。如果惩罚系数过高，虽然交叉验证效果较好，但会造成过学习状态，导致分类器推广能力差。文中利用libSVM[11-12]工具箱参数寻优，通过网格搜索寻找C和g的值，然后进行交叉验证，获取精度最高的参数。最优参数为C=27.857 6，g=0.062 5，交叉验证精度为95.743 4%。

从测试集中随机选取50幅图像验证启发式规则过滤性能。让图像通过过滤规则，分别对包含拟合椭圆偏心率约束（即前文规则3）和不包含偏心率约束规则的情况，统计候选字符区域的过滤数目。如图4所示。

图4 启发式规则过滤效果

横坐标1表示未进行过滤前的候选字符数目和实际字符数目，2表示未加入偏心率约束的过滤效果，3表示加入偏心率约束规则后过滤效果。50幅图像共有候选字符区域3 742个，实际字符282个，未加入偏心率规则时，过滤掉非字符区域2 765个，加入偏心率约束后过滤掉区域3 137个，过滤性能提高了13.45%，同时字符区域数量保持不变。完整的启发式规则能过滤掉候选字符中82.51%的非文本区域。

对整个测试集进行综合检测，通过精确率（precision）和召回率（recall）来评估本文的方法。精确率和召回率表达式为（10），（11）。其中T表示正确检测出的字符数目，N表示总的检测结果。C表示图像中包含的所有字符数目。将文中的方法与其他英文字符检测定位方法对比，见表1。可以看出，文中在召回率上高于其他方法，同时准确率也达到了较高水平。图5为本文方法的部分检测结果展示。

表1 不同算法结果对比

图5 文本定位结果

5 结束语

文中针对自然场景下的中文文本定位问题进行了研究，通过数学形态学融合了文字笔画，设计实现了启发式规则过滤和基于支持向量机的两层文本定位结构。实验证明，设计的启发式规则能快速有效地过滤非文本区域，同时文字区域得以保留。再经过支持向量机的精确分类，准确地定位了文本区域。文中的方法在光照变化，不同的文字排列方式和复杂背景的情况下均取得了很好的效果。但是对于文字前景遮挡和文字与背景过于接近的情况，候选字符区域提取的效果不佳，这也是文中后续研究的方向。

参考文献：

[1]Chen Xi-lin，Yang Jie，Zhang Jing，et al.Automatic detection and recognition of signs from natural scenes[J].IEEE Transactions on Image Processing，2004，13（1）:87-99.

[2]Kumar M，Lee G.Automatic text location from complex natural scene images[C]//International Conference on ComputerandAutomationEngineering，Singapore，2010，3:594-597.

[3]Goto H.Redefining the dct-based feature for scene text detection analysis and comparison of spatial frequency-based features[J].IJDAR，2008，11（1）:1-8.

[4]Epshtein B，Ofek E，Wexler Y.Detecting text in natural scenes with stroke width transorm[C]//Proc.CVPR，2010，11（1）:1-8.

[5]Chen Xiang-rong，Yuille A L.Detecting and reading text in natural scenes[C]//Proc.CVPR，2004:366-373.

[6]Neumann L，Matas J.A method for text localization and recognition in real-world images[C]//Proc.ACCV，2010:20-25.

[7]Matas J，Chum O，Urba M，et al.Robust wide baseline stereo from maximally stable extramal regions[C]//Proc.British Machine Vision Conference，2002:384-396.

[8]Gao Yan，Jin Lian-wen，Yang Wei-xin.An Empirical comparative study of online handwriting Chinese character recognition:simplified vs.traditional[C]//2013 12th ICDAR， 2013:862-866.

[9]柳涛.多通道图像MSER局部不变性特征提取算法研究[D].长沙:国防科技大学，2010.

[10]Dalal N，Triggs B.Histograms of oriented gradients for human detection[C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition，2005，1:886-893.

[11]Chang Chih-chung，Lin Chih-jen.LIBSVM-A library for Support Vector Machines[EB/OL].[2015-03-01]http://www. csie.ntu.edu.tw/～cjlin/libsvm/index.html#nuandone.

[12]Faruto.libsvm-3.1-FarutoUltimate3.1code[EB/OL].[2015-03-01].http://www.matlabsky.com/thread-17936-1-1.html.

[13]Shahab A，Shafait F.Dengel A.ICDAR 2011 robust reading competition challenge 2:reading text in scene images[C]// 2011 International Conference on Document Analysis and Recognition，2011:1491-1496.

[14]Yi Chu-cai，Tian Ying-li.Text string detection from natural scenes by structure-based partition and grouping[J].IEEE Transactions on Image Processing，2011，20（9）:2594-2605.

[15]Pan Yi-feng，Hou Xin-wen，Liu Cheng-lin.A robust system to detect and localize text in natural scene images[C]//The Eighth IAPR International Workshop on Document Analysis Systems，DAS’08，2008:35-42.

Chinese text localization in natural scene based on heuristic rules and SVM

YU Bo-ran，WAN Hong-jie
（College of Information Science and Technology，Beijing University of Chemical Technology，Beijing 100029，China）

To realize the Chinese text location in the natural scene，a level positioning method combined with heuristic rules filtering and SVM scientific classification is designed.Firstly，the Maximally Stable Extremal Regions algorithm is adopted to achieve stroke amalgamation and consequently the heuristic rules are made based on the characteristics of Chinese characters to filter non-text regions.By ellipse fitting in the candidate character zone，eccentricity ratio of ellipse is taken as decision rule of text，and finally given the extracted HOG features，SVM is used to do accurate classification to realize text location.It is shown in the experiment that proposed method in the paper gets good test location effect in the complex natural scene.

MSER；heuristic rules；HOG；SVM；text location

TN911.73

1674－6236（2016）24-0161-04

2015-12-07 稿件编号：201512069

喻勃然（1988—），男，贵州黔西人，硕士研究生。研究方向：图像处理、模式识别。