艾海提⋅伊敏,木特力甫⋅马木提,阿力木江⋅艾沙,吐尔根⋅依不拉音,库尔班⋅吾布力+
1.新疆大学 信息科学与工程学院,乌鲁木齐 830046
2.新疆大学 图书馆,乌鲁木齐 830046
3.新疆大学 网络与信息中心,乌鲁木齐 830046
手写签名是人生过程当中慢慢形成的一种个人自身行为,它与其他生物特征相比具有容易得到,共享方便,接受使用率高等优势。因此将签名识别当作一种身份认证的方法,在现代社会的各行业各领域中普遍使用,并且发挥了重要的作用[1],比如银行服务窗口存取款,签收快件,通讯卡,签订合同等。但是随着各类信息处理技术的发展而产生的个人信息暴露问题越来越多,为了预防个人信息的暴露问题,各地的研究者特别关注签名识别,并纷纷提出了新的签名识别算法或者对以前提出的签名识别方法进行改进,提高签名识别技术的可靠性。整个签名识别领域根据签名数据获取方式的不同主要分为在线(online)签名识别与离线(offline)签名识别[2-3]。在线签名识别一般用电子屏幕或其他电子设备来收集数据,离线签名识别是签名者把自己的签名写在一张纸上,使用扫描仪进行扫描或者使用拍照设备拍照来收集数据。
离线签名识别技术是模式识别技术的一个重要分支,主要目的是把测试签名样本与已知的训练签名样本进行对比,以其相似程度来判断待测试签名是否属于真实签名者自己的签名[3-4]。离线式签名识别系统的总体结构包括测试模块和训练模块两部分。离线签名识别系统的总体结构模块如图1所示。
Fig.1 Overall structure of off-line signature recognition system图1 离线式签名识别系统的总体结构图
目前,手写签名识别和鉴别方法具有很好的实用前景和使用价值,在国内外已成为研究热点。手写签名识别技术到目前为止历过了30多年的研究和发展。尽管大多数签名识别研究集中在英文、汉文、阿拉伯文、拉丁文、波斯文、印度文等使用范围较大的语种,但对于住在中国新疆维吾尔自治区的少数民族所使用的维吾尔文来说也有相关的研究工作与成果。
首先简介国内外其他文种的一些研究成果。2012年,Pal等人在文献[5]中,从每幅英文签名和汉文签名中分别提取梯度特征、背景特征、扩展的背景特征、泽尼克(Zernike)矩特征,在分类器部分采用支持向量机(support vector machine,SVM)进行分类,获得了97.7%的总正确率。2013年,Bhattacharya等人在文献[6]中,对每幅英文签名图像采用像素匹配技术(pixel matching technique,PMT)提取像素点,在分类匹配过程中使用常用的SVM分类器和ANN(artificial neural network)进行分类识别匹配,每个算法获得了0.11%与0.16%的错误接受率。2014年,Jaiswal等人在文献[7]中,从每幅签名图像提取全局特征和局部特征,使用神经网络进行分类识别,最终得到95%的识别率。2015年,Pham等人在文献[8]中,从荷兰签名数据和中文签名数据上提取对噪声鲁棒性比较好的强度直方图特征和基于形状的几何特征,用相似性度量方法来进行相似性评分,最后荷兰签名数据上得到97.67%的准确率,中文签名数据上得到80.04%的准确率。2016年,Serdouk等人在文献[9]中,从每幅中文签名与英文签名上提取了梯度局部二值模式特征,还在签名的拓扑结构基础上提取最长运行特征,使用AIRS分类器进行分类匹配,最终从中文签名和英文签名中分别得到3.54%和12.52%的平均错误率。
针对维吾尔手写签名的识别研究工作开始得较晚,但仍然有相关的研究结果。2012年,Ubul等人在文献[10]中提出了基于修改的网格信息特征的维吾尔文手写签名识别系统,每幅签名图像中提取64维和120维网格信息特征,在分类决策过程中分别使用欧氏距离、贝叶斯分类器和KNN(Knearest neighbor)分类器进行分类识别,分别获得了86.45%、89.26%、93.53%的识别率。2012年,Ubul等人在文献[11]中找出有些对维吾尔文手写签名识别精度的影响,从每幅二值化签名图像中提取32维局部中心点特征和3维全局基线特征,细化签名图像中提取16维方向特征,在分类匹配部分采用欧氏距离与卡方距离进行分类识别,最好的识别率分别是95.0%、90.5%和22.0%。2013年,古丽热娜·阿布里孜等人在文献[12]中提出了多分辨几何特征的识别方法,从每幅签名图像上提取16维方向特征和32维局部中心点特征,分别采用欧式距离和卡方距离度量方法进行分类,最好识别率达到了95.5%和90.5%。2016年,库尔班·吾布力等人在文献[13]中提出一种基于密度特征的签名识别方法,对每幅签名图像提取4个方向的密度特征,使用距离度量法进行分类识别,取得96.0%的识别率。
本文研究了离线手写签名识别率不高的问题,提出了一种高维特征的识别方法。主要研究内容包括:第2章对维吾尔文签名进行预处理操作;第3章基于签名笔墨的结构特征提取和选择合适维吾尔文手写签名的局部中心点特征和ETDT特征,然后将特征互相组合;第4章使用KNN对待分类签名样本特征向量和训练签名样本特征向量之间的距离进行排序操作,然后使用距离度量法和相似性度量法来进行分类匹配和识别;第5章进行相关的实验与数据分析;第6章对全文进行总结,并且分析未来研究趋势。
本文使用的维吾尔文手写签名数据库包括年岁有差异的150个人(每人20个),总共3 000幅签名样本图像。这些样本签名都是通过使用扫描仪(扫描精度为300 dpi)扫描,然后以BMP(256位位图)格式和规定的序号分别存储在计算机上,采集成签名图像库。
预处理的主要目的是给特征提取阶段提供样本图像所包含的有效信息,除去无效信息和噪声干扰。因此,对签名图像进行预处理操作是必要的。签名图像的预处理过程如图2所示。
Fig.2 Preprocessing flow diagram图2 预处理流程图
通过各种预处理操作而得到的签名图像依然存在签名图像本身具有的有效信息。进行预处理操作后的效果图如图3所示。
Fig.3 Signature image before and after preprocessing图3 预处理前后的签名图像
特征提取的主要目标是从通过各种预处理而得到的签名图像所包括的所有信息中提取有效的信息,同时使用这种有效的信息来描述整个签名样本,并且充分地反映个人的书写风格。特征选择的另一个目标是为了快速地处理。总体来说,应该选择一些签名样本本身具有的有效特征信息集合。该过程也直接影响到签名识别率的高低。选用一个全面符合维吾尔文字符规则与手写风格的有效特征是维吾尔文手写签名识别研究的关键技术之一。由于签名者在同一时间在不同情绪下的签名也存在一定的差异,在纵与横方向上的迁移量不小,尤其是对于习惯连笔签字的签名者来说更明显,因此为了表达这种手写风格,分别提取了局部中心点特征[11-12]和ETDT特征[14]。
下面将提取局部中心点特征的过程分为几个步骤来介绍:首先将每一个整体的签名图像按如图4所示分割为具有相同尺寸的4×16个小矩形窗口;第二步通过对每个小矩形窗口的签名印痕部分各自进行水平方向的投影计算和垂直方向的投影计算,找出该小矩形窗口的签名印痕所包含的黑像素点数目。第三步按照每一个小窗口的投影计算找出对应的中心点,然后把找出来的64个中心点的水平与垂直坐标单独当作特征,这样就可以构成总128维特征。于是随意一个人的局部中心点特征向量表达为:
式中,m=1,2,…,10,…,32(m是一个人对应的全部训练样本);c是特征的维数,文中取值为128;n是参与训练的人对应的符号。对全部参加训练的人签名来说,全部高分辨图像层的特征向量为:
式中,k为参与训练的总人数。假定子图像的大小为w×h(w和h分别表示子图像的宽度和高度),那么小窗口中的签名曲线段T(x,y)的水平投影和垂直投影分别为TS[y]和TC[x]。
在上面的公式中,签名图像的黑像素点以heixiangsu来表示。按下面的公式来计算每个小窗口中所包含的签名曲线段的中心点,公式如下:
式中,Zh和Zv各自表示为中心点的横坐标与纵坐标;TS[y]表示每个小窗口的水平方向投影计算出的黑像素点数目,TC[x]表示垂直方向投影计算出的黑像素点数目。图4是128维局部中心点特征提取和局部中心点示意图。
Fig.4 Sketch of 128 dimensional local central point feature extraction图4 128维局部中心点特征提取示意图
图5是局部中心点特征提取流程图。
ET特征主要描述签名样本的外部形状信息,DT特征正好相反,主要描述签名样本的内部形状信息。组合起来的ETDT特征可以完全描述签名的外部内部形状信息所包含的特征。
Fig.5 Flow chart of local central point feature extraction algorithm图5 局部中心点特征提取算法流程
ET特征:将一幅签名图像按列分为列数相同的L个块,对于每个块,按照从上到下的顺序,累加每列中从上边缘开始到第一个由白点变黑点之间的白点数目,然后除以每块的总点数来进行归一化。以此类推,可以从下到上进行同样的处理,总共得到L×2个特征向量。再把一幅签名图像按行分为行数相同的H个块,对于每个块,按照从左到右的顺序,累加每行中从左边缘开始到第一个由白点变黑点之间的白点数目,然后除以每块的总点数来进行归一化。以此类推,可以从右到左进行同样的处理,总共得到H×2个特征向量。ET特征如图6所示。
Fig.6 ET feature图6 ET特征
图6中,条形面积表达各个方向与各个块中的ET特征点数。从图6可知,ET特征描述的是签名样本的外部形状信息。
DT特征:首先将一幅签名图像按列分为列数相同的L个块,对于每个块,按照从上到下的顺序,累加每列中从第一个黑变白点开始到第二个白变黑点之间的白点数目,然后除以每块的总点数来进行归一化。以此类推,可以从下到上进行同样的处理,总共得到L×2个特征向量。再把一幅签名图像按行分成为行数相同的H个块,对于每个块,按照从左到右的顺序,累加每行中从第一个黑变白点开始到第二个白变黑点之间的白点数目,然后除以每块的总点数来进行归一化。以此类推,可以从右到左进行同样的处理,总共得到H×2个特征向量。ET特征如图7所示。
Fig.7 DT feature图7 DT特征
图7中,条形面积表达各个方向与各个块中的ET特征点数。从图7可知,ET特征描述的是签名样本的内部形状信息。
本文中L=16,H=12。将ET和DT特征组合形成(L×4+H×4)=112维的特征向量。
在数据分析和分类的过程中,需要知道个体与类别之间差异的大小,从而评估个体的相似性。提取的签名特征也需要分析,因此利用什么样的分类法进行特征匹配是一个很重要的模式匹配识别问题。在理论方面,可以采用任何一种分类器进行分类,但是分类器的选用同样对识别结果有一定的影响。因此,得到符合维吾尔文手写签名的特征之后,必须使用某种判别规则,把已提取的有效特征信息向量和待测试签名的本身信息互相进行匹配,并获得这次匹配的识别率。
本文首先使用KNN分类器将待分类签名样本表达成和训练签名样本一致的特征向量,再按照K的取值对待测试样本和每个训练样本的距离进行排序,选择距离最小的K个样本作为近邻样本[15]。采用KNN分类器得到待测试样本和训练样本的距离还需要使用距离度量方法来计算[16-17]。本文为了达到识别目的而使用了常用的距离度量方法(绝对距离、欧式距离、卡方距离)和相似性度量(cosine度量)[18-19]来计算训练样本和测试样本之间的距离与相似性。距离度量与相似性度量方法的区别如图8所示。
Fig.8 Distance measurement and similarity measurement图8 距离度量与相似性度量
从图8可知,距离度量方法计算的是向量空间中各个点之间的绝对距离,与它们所在的坐标位置直接有关。而cosine相似度方法计算的是向量空间中各个向量之间的夹角,与它们互相形成的夹角有关。余弦相似度方法比距离度量方法主要反映在方向上的差异,而不是位置或长度上,并且不受坐标轴旋转、放大、缩小的影响。
假设某个测试样本的特征向量为:
假设训练样本的特征向量为:
式中,N是互相独立的特征所包含的特征维数。计算它们之间的距离而所使用的距离度量方法如下:
(1)绝对距离分类器
(2)欧式距离分类器
(3)卡方距离度量
(4)cosine相似性度量
式中,xi是测试样本X的各维元素;yi是训练样本Y的各维元素;W是特征向量维数。使用距离度量方法计算这些特征向量之间的距离时,如果计算出来的距离越近,那么可以判断测试样本数据的类别。使用cosine相似性度量方法时,如果计算出来的夹角余弦值越小,两个特征向量不相似或不互相重叠,反而两个特征向量很相似。
本实验所采用的维吾尔文手写签名数据库包含性别、年龄有差异的150个人,每个人具有20个签名,构建3 000幅签名样本库。本文分别选取2 400幅和1 500幅签名样本作为随机训练集,剩余的600幅与1 500幅签名样本作为随机测试集。对于提取的每一幅签名图像的局部中心点特征和ETDT特征单独进行实验,并对两种特征组合形成新的高维融合特征再进行实验。在分类匹配步骤中,主要利用KNN分类器在不同的K值下以不同的距离度量和相似性度量方法来实现训练签名样本与测试样本特征向量间相似性度量排序,查找与训练样本特征向量距离最近的测试签名。每次从{1~10}中选取偶数的一个单位作为K的值,同时对上述的每个距离相似性度量算法进行20次实验,然后把20次实验结果的平均值作为算法的最后识别率。通过大量的统计运算获取不同K值下的签名平均识别率。单一特征使用不同的距离度量和相似性度量方法的实验结果如表1和表2所示。
Table 1 Recognition rates using different classifiers for local center point feature表1 局部中心点特征使用不同分类器的识别结果
Table 2 Recognition rates using different classifiers for ETDT feature表2 ETDT特征使用不同分类器的识别结果
从表1和表2可知,无论采用哪一种距离度量算法,随着实验中所使用的训练样本数目的增加,实验识别率也逐渐提高。除此之外,当K=1时,局部中心点特征使用绝对距离度量的识别率高于其他距离度量算法,最高平均识别率达到了96.4%。ETDT特征使用cosine相似性度量算法的识别率高于其他距离度量算法,最高平均识别率达到94.1%。为了进一步验证这些特征的效率,再对这两个特征融合进行同类分类实验,实验结果如表3所示。
从表3可得,针对使用单一签名特征进行识别正确率不够高的情况,融合特征的识别率达到了优异的结果。特征组合形成的高维融合特征互补彼此的缺点,因此有效地提高了系统的稳定性。对于融合特征而言,使用绝对距离和cosine距离的分类效果最好,分别达到了97.1%和96.1%的识别率。而且本文提取的ETDT特征和cosine相似性度量在维吾尔文离线手写签名识别技术研究中初次采用,即已得到较好的识别结果。
Table 3 Recognition rates using different classifiers for combined feature表3 融合特征使用不同分类器的识别结果
为了进一步验证本文算法在维吾尔文手写签名识别中是否有效,而采用另外一批签名数据进行对比实验和分析。首先选取与其他研究者相同数目的维吾尔文手写签名样本,50个人的总共1 000幅签名样本图像。再从中分别随机选取800幅签名样本作为训练集,其余的签名样本图像作为随机测试集。然后提取与前面相同维数的特征,使用同样的距离度量法进行分类识别。最后按照实验结果进行对比分析,证明了本文提取的特征的有效性。采用另外一批签名数据库的实验结果如表4所示。
从表4可知,分别选取800幅签名样本作为训练集,提取相同特征,即在不同K值下用4种距离相似性度量算法实现分类识别。在对比实验中,单一特征使用绝对距离和cosine距离进行实验时,得到的最好识别结果与选取2 400幅签名样本作为训练集进行实验相比分别提高了2.3%和2.1%。两种特征互相组合形成的高维融合特征使用绝对距离和cosine距离进行实验时,得到的最好识别结果与选取2 400幅签名样本作为训练集相比分别提高了2.3%和1.74%。对比实验结果体现出本文算法的有效性及可靠性。基于高维局部中心点和ETDT特征互相组合的融合特征来说,使用绝对距离和cosine相似性度量的算法比其他距离度量算法在维吾尔文离线签名识别中具有显著的优越性。
Table 4 Recognition results using another batch of Uyghur signature databases表4 采用另外一批维吾尔文签名数据库的识别结果
除此之外,为了更进一步验证本文方法在另一批签名数据库上是否效率,在公开签名数据库GPDS中使用本文方法。从GPDS公开数据库中选取50个人的手写签名样本(总1 000个样本)进行识别实验。为了提取同样维数的特征,首先对GPDS签名进行归一化操作,然后提取128维局部中心点特征和112维ETDT特征,最后采用本文的度量方法对两种特征单独进行识别实验。本实验中同样选取800幅签名样本作为随机训练集,其余的签名样本图像作为随机测试集,最好的平均识别率达到了94.25%。实验结果再次证明本文算法采用另外一批签名样本作为实验数据的时候,对最终的识别率没有太大的影响,是比较稳定的,并更适应于维吾尔文手写风格的变化。
本文方法与不同方法进行性能对比,使用以前研究者的数据库(总1 000个签名样本)进行实验,并在原来的签名数据库基础上扩展签名数据再进行实验。本文方法与维吾尔文手写签名识别研究工作进行比较,对比结果如表5所示。
本文提出了一种新的维吾尔文手写签名识别方法。在特征提取部分,从每个签名样本上提取128维局部中心点特征和112维ETDT特征,将得到的两种特征组合形成新的高维特征。选用KNN分类器对维吾尔文手写签名的训练样本集特征向量和测试样本集特征向量进行排序,分别使用绝对距离、欧式距离度量法和cosine相似性度量法来进行分类判别实验。为了比较其他类似的研究结果,选用相同数目的签名样本进行对比实验,实验结果再次证明了本文方法是一种有效的维吾尔文手写签名识别方法。
Table 5 Comparing recognition rates of the proposed method with the related work表5 本文方法和相关工作的比较结果
[1]Xu Shasha,Wei Jincheng,Qiu Xiaochu.Off-line Chinese signature verification based on the improved support vector machine[J].Electronic Design Engineering,2012,20(2):17-19.
[2]Zois E N,Alewijnse L,Economou G.Offline signature veri-fication and quality characterization using poset-oriented grid features[J].Pattern Recognition,2016,54(C):162-177.
[3]Yılmaz M B,Yanıkoğlu B.Score level fusion of classifiers in off-line signature verification[J].Information Fusion,2016,32:109-119.
[4]Wang Jian,Ma Shuyue.Center based off-line signature verification[J].Application Research of Computers,2012,29(3):1149-1151.
[5]Pal S,Pal U,Blumenstein M.Off-line English and Chinese signature identification using foreground and background features[C]//Proceedings of the 2012 International Joint Conference on Neural Networks,Brisbane,Jun 10-15,2012.Piscataway:IEEE,2012:1-7.
[6]Bhattacharya I,Ghosh P,Biswas S.Offline signature verification using pixel matching technique[C]//Proceedings of the 1st International Conference on Computational Intelligence:Modeling Techniques and Applications,Kalyani,Sep 27-28,2013.Amsterdam:Elsevier Science Publishers,2013:970-977.
[7]Jaiswal S G,Kasetwar A R.Off-line signature verification using global&local features with neural networks[C]//Proceedings of the 2014 International Conference on Advanced Communication Control and Computing Technologies,Ramanathapuram,May 8-10,2014.Piscataway:IEEE,2014:1525-1531.
[8]Pham T A,Le H H,Do N T.Offline handwritten signature verification using local and global features[J].Annals of Mathematics and Artificial Intelligence,2015,75(1):231-247.
[9]Serdouk Y,Nemmour H,Chibani Y.New off-line handwritten signature verification method based on artificial immune recognition system[J].Expert Systems with Applications,2016,51(C):186-194.
[10]Ubul K,Adler A,Abliz G,et al.Off-line Uyghur signature recognition based on modified grid information features[C]//Proceedings of the 11th International Conference on Information Science,Signal Processing and Their Applications,Montreal,Jul 2-5,2012.Piscataway:IEEE,2012:1056-1061.
[11]Ubul K,Adler A,Yadikar N.Effects on accuracy of Uyghur handwritten signature recognition[C]//Proceedings of the Chinese Conference on Pattern Recognition,Beijing,Sep 24-26,2012.Berlin,Heidelberg:Springer,2012:548-555.
[12]Abliz G,Ubul K,Moyidin K,et al.Research on off-line Uyghur signature recognition technology based on multiresolution geometric features[J].Computer Engineering and Applications,2013,49(16):168-171.
[13]Ubul K,Ablikim R,Yadikar N.Off-line Uyghur signature recognition technology based on density feature[J].Computer Engineering and Design,2016,37(8):2200-2205.
[14]Fang B,Leung C H,Tang YY,et al.Offline signature verification with generated training samples[J].IEE Proceedings-Vision,Image and Signal Processing,2002,149(2):85-90.
[15]Xiao Huihui,Duan Yanming.Improved theKNN algorithm based on related to the distance of attribute value[J].Computer Science,2013,40(S2):157-159.
[16]Rodrigues B,Chaudhari A,Sakhare P,et al.Prototype for signature verification system using Euclidean distance[C]//Proceedings of the 2015 International Conference on Green Computing and Internet of Things,Delhi,Oct 8-10,2015.Washington:IEEE Computer Society,2015:1624-1627.
[17]Angadi S A,Gour S.Euclidean distance based offline signature recognition system using global and local wavelet features[C]//Proceedings of the 5th International Conference on Signal and Image Processing,Jeju Island,Jan 8-10,2014.Washington:IEEE Computer Society,2014:87-91.
[18]Pirlo G,Impedovo D.Cosine similarity for analysis and verification of static signatures[J].IET Biometrics,2013,2(4):151-158.
[19]Foroozandeh A,Akbari Y,Jalili M J,et al.Persian signature verification based on fractal dimension using testing hypothesis[C]//Proceedings of the 2012 International Conference on Frontiers in Handwriting Recognition,Bari,Sep 18-20,2012:313-318.
附中文参考文献:
[1]徐莎莎,魏金成,邱晓初.基于改进的支持向量机的脱机中文签名验证[J].电子设计工程,2012,20(2):17-19.
[4]王剑,马书月.基于几何中心静态手写签名的识别算法研究[J].计算机应用研究,2012,29(3):1149-1151.
[12]古丽热娜·阿布里孜,库尔班·吾布力,卡米力·木依丁,等.基于多分辨几何特征的维吾尔文脱机签名识别[J].计算机工程与应用,2013,49(16):168-171.
[13]库尔班·吾布力,热依买·阿不力克木,努尔毕亚·亚地卡尔,等.基于密度特征的维吾尔文离线签名识别[J].计算机工程与设计,2016,37(8):2200-2205.
[15]肖辉辉,段艳明.基于属性值相关距离的KNN算法的改进研究[J].计算机科学,2013,40(S2):157-159.