基于SIFT图像配准的维吾尔语文字识别方法*

2014-09-25 08:03:56杨娜娜哈力旦阿布都热依木伊力亚尔达吾提

传感器与微系统 2014年3期

杨娜娜，哈力旦·阿布都热依木, 伊力亚尔·达吾提

(新疆大学电气工程学院，新疆乌鲁木齐830047)

0 引言

维吾尔语是新疆维吾尔自治区一种重要的少数民族语言，其识别技术将被运用到文档识别、网络安全监控、档案管理、视频会议和文献检索等各个领域，由于维吾尔语文字本身的书写和句法构成方式的特殊性，其识别方法与相对成熟的汉语、英语识别方法不尽相同，因此，维吾尔语的文字识别研究具有重要意义。目前的维吾尔语识别方法主要有：文献[1]提出了运用决策方法对抽取到的样本特征与样本库进行匹配的方法，该方法识别率并不太理想;文献[2]提出了基于字符归一化的双投影互相关性匹配识别算法，这种算法对特定情况下的识别效果良好，但是识别样本与匹配样本有字体、灰度、倾斜角度等差异时，识别效果不佳,文献[3]提出了基于 HMM的维吾尔语识别方法，该法具有不错的识别效果，该法需要对维吾尔语常用词建模，训练样本需求量大，迭代运算量大且识别时间长。

由加拿大英属哥伦比亚大学的Lowe D G教授提出的尺度不变特征 SIFT 算法因其良好的特性，近年来已成为国内外图像处理和计算机视觉研究领域的热点之一[4]。基于SIFT描述子的匹配方法已被成功地应用到了很多领域,如目标识别、全景图拼接,从运动恢复结构等[5]。

统一尺度的字符样本模板无法解决自然场景或光学图像中提取的维吾尔语字符尺度差异大造成的匹配困难问题，因此,本文首先对测试图像进行预处理，然后提取其水平和垂直灰度投影相关性和笔画数特征进行预分类，对预分类结果与测试图像进行基于SIFT尺度不变特征的图像配准。

1 文字图像预处理

本文的识别对象是图像中的维吾尔语字符，因此,要将句子切分成以字符为单位的图像。句子中既有独立形式的字符(不与其他字符相连)也有连写字符构成的连体段。首先统计原始图像的垂直方向灰度直方图分布，垂直投影的像素点空白区域为一级切点，对切分后的图像进行连通域标记，一般连体段连通域长度为独立字符连通域长度的2倍以上，然后对连体段再次进行垂直投影，选择垂直投影密度最小的区域为二级切点。经过2次切分后得到以字符为单位的维吾尔语文字图像，然后对字符图像进行降噪与灰度化处理并归一化为统一尺寸。字符切分如图1。

图1 维吾尔语字符切分

2 预分类

提取字符图像的水平、垂直方向灰度分布投影相关性特征和笔画特征作预分类。

维吾尔语包含32个字母，大部分字母由于其在词语中位置的不同又分别具有独写、首写、中写和尾写4种形式，这样32个字母就衍生出128种字符[6]。首先，建立包含所有维吾尔语字符的样本库，样本库中的字符字体均为最常用的维吾尔语字UkijTuz，存储标号为该字母在维吾尔语字母表中对应的位置序号。

然后提取测试图像和样本字符的水平与垂直方向灰度积分投影，测试图像及其双投影如图2所示。

图2 维吾尔语字符a的首写形式及其垂直和水平方向投影

将测试图像双方向投影与样本图像双方向投影的相关性，双投影相关性曲线如图3所示。

图3 测试图像与样本字符双投影相关性曲线

将这2个投影相关性序列按元素大小降序排列，分别取2个序列前30位元素的交集为预选结果。

维吾尔语书写过程中一个完整的笔画在字符图像中表现为一个连通域，笔画数特征是对归一化后的字符图像进行二值化和连通域标记，连通域个数即为笔画数。笔画数特征检测如图4所示。

图4 笔画数特征

维吾尔语字符最少由1笔构成，最多由5笔构成。提取双投影相关性检测后的候选结果的笔画数特征，并与测试图像的笔画特征对比，排除不同笔画数的图像，其余样本字符为预分类结果。

3 SIFT文字图像配准

在对原始文字图像进行降噪处理和字符切分的过程中，难免会造成失真，而且不同的原始图像中切分出的字符图像尺度差异很大。尤其测试图像与样本字符字体不同时，预分类方法无法准确得出唯一的识别结果。图像尺度差异和字体差异会影响识别效果，因此，将测试图像与预分类结果依次进行基于SIFT的图像配准，最终可获得更佳的识别效果。

基于 SIFT 算法的特征图像配准可大致分为关键点的检测、描述子的构造和匹配3个过程。

3.1 关键点的检测

为了使特征具有尺度不变性，关键点检测是在多尺度空间完成的，高斯卷积核是实现尺度变换的唯一线性变换核,一幅图像在不同尺度下的尺度空间定义为图像I(x,y)与高斯核G(x,y,σ)的卷积[5,7]，如下式所示

L(x,y,σ)=G(x,y,σ)⊗I(x,y).

(1)

为有效检测出尺度空间中的稳定特征点，引入高斯差分函数D(x,y,σ),相减得到DOG (difference of Gaussians)金字塔多尺度空间表示。对DOG尺度空间每个点与相邻尺度和相邻位置的点比较,得到的局部极值位置即为关键点所处的位置和对应的尺度,如式(2)所示

D(x,y,σ)=L(x,y,kσ)-L(x,y,σ).

(2)

其中，k为一个常量。

3.2 方向描述子的构造

方向描述子的构造包括特征点的方向分配和生成特征描述子。

关键点坐标为(x,y)处的梯度幅值M(x,y)和方向θ(x,y)分别由如式(2)、式(3)[7,8]计算得出

M(x,y)=

(3)

(4)

在以特征点为中心的邻域窗口内，采用梯度方向直方图表示其邻域像素的梯度方向统计值。梯度方向范围为 0°～360°，其中每 10°在直方图中表示一个柱，共有 36 柱。梯度方向直方图的峰值是该特征点的主方向。当梯度方向直方图中存在主峰值能量 80 %的以上的峰值时，该峰值所对应的方向作为辅方向。特征点可以有一个主方向和多个辅方向，这样可以提高特征匹配的稳定性。

对任意一个关键点，在其所在的尺度空间 (即高斯金字塔结构的某一层),取以关键点为中心的16像素×16像素大小的邻域，采用高斯加权法在 4×4的图像小块上计算 8 个方向的梯度方向直方图，然后对其根据位置依次排序,这样就构成了一个4×4×8=128维的向量,该向量就是SIFT描述子。

测试图像的SIFT方向描述子如图5所示。

图5 测试图像的SIFT方向描述子图像

3.3 方向描述子的匹配

利用特征点的特征描述符向量之间的 Euclid 距离作为特征点的匹配度量,Euclid 距离最小的2个特征点可以认为是匹配的候选点对[5]。然后,用最小的Euclid 距离除以第二小的Euclid 距离,如果其比值小于一定阈值,则认为候选点对就是匹配点对；否则,认为是错误的匹配点对。

4 实验过程与结果分析

识别过程如图6所示。

图6 维吾尔语识别流程

图7以与样本字符不同字体的字母f为例说明此过程。

图7 字母f的独写形式识别过程

测试图片中字符字体和样本字符字体在笔画结尾处有几何形态差异(图8)，经过双投影相关性检测，标号为053,057,117的样本图像保留下来，这3个样本的水平和垂直投影是与测试图片的双投影最相关的，然后对这3个样本与测试图像进行笔画数特征比对，035和117号样本与测试图片笔画特征相同，均为2笔，而057号样本为3笔，因此，剔除057号样本。最后预分类样本依次与测试图像进行基于SIFT方向描述子的配准(图9)，测试图片与053号样本的匹配点数为32，与117号样本匹配点数为28，不但匹配点数相对较少并且无匹配率高，因此，053号样本图像视为正确的匹配结果，输出对应的维吾尔语字符为识别结果。

当从图片中切分出的测试图像尺度与样本字符差异较大时[9](如图8所示)，一些特征点提取算法,如Harris[10]无法捕捉到测试图像的特征，而SIFT算法仍然可以提取到关键点。

图8 尺度差异

图9 切分图像的SIFT特征描述子

在100幅包含不同尺度和字体的测试图像中，利用本文方法可以成功识别出其中83幅，该方法的识别周期为预分类的时间(0.998 624 s)加SIFT图像配准的时间(0.077 s)共约1.076 s，耗时少，且识别效率高。

5 结束语

本文利用SIFT特征对旋转、尺度缩放、亮度变化的保持不变性,解决了在维吾尔语识别过程中切分字符尺度不统一带来的模板匹配困难问题。首先对测试图片和模板字符进行双投影相关性检测，然后对与测试图像相关性较高的模板字符进行笔画数特征提取，得到预分类结果，最后将预分类结果依次与测试图片进行SIFT特征检测及配准得到识别结果，实验表明该方法具有良好的识别效果。

参考文献:

[1] 曹志宏.维吾尔文字联机手写体识别系统的研究与实现[D].乌鲁木齐:新疆大学,2007.

[2] 万金娥.基于字符归一化双投影互相关性匹配识别算法[J].计算机应用,2013,33(3) : 645-647.

[3] 皮桂林.基于 HMM 的联机手写维文单词识别方法研究[D].乌鲁木齐:新疆大学,2012.

[4] Lowe D G．Distinctive image features from scale-invariant key-points[J]．International Journal of Computer Vision，2004，60(2):91-110．

[5] 王程冬.SIFT 算法在点云配准中的应用[J].传感器与微系统,2012,31(2):149-152.

[6] 艾力·居麦,哈力旦·A,黄浩.视频图像中维吾尔文字的识别研究[J].计算机工程与应用,2011,47(36):190-192.

[7] Zhao Wanlei,Rennes Inria.Flip-invariant SIFT for copy and object detection[J].Image Processing,2012,22(3):980-991.

[8] Mikolajczyk K,Schmid C.Scale & affine invariant interest point detectors[J].International Journal of Computer Vision,2004,200(1):63-86.

[9] 邓任任，哈力旦·A.维吾尔文字自适应角度定位[J].计算机工程与设计,2013,34(3):1121-1125.

[10] 冯政寿,王美清.基于Harris与改进SIFT算法的图像匹配算法[J].福州大学学报:自然科学版,2012,40(2):176-180.