王琴雪
公安部第三研究所 上海 200020
书写人识别是生物特征识别和手写文档分析的研究热点之一,随着计算机技术突飞猛进的发展和数字化采集设备的轻量化与普及化,如何利用计算机强大的计算能力和储存能力,在一定范围内替代专业人员实现笔迹鉴别成为人工智能和生物特征识别的新兴研究方向之一。
在这样的背景下,利用计算机自动分析自然书写笔迹的书写风格来确认书写人身份的书写人识别研究应运而生。与传统基于人工的笔迹鉴别相比,由计算机自动完成的书写人识别具有鉴别快、效率高、不受人为主观因素影响等诸多特点,在金融、保险、公安、司法等领域具有广泛的应用前景。此外,书写人识别涉及图像处理,特征提取和模式分类等多个方面,其理论方法的研究可以促进模式识别和计算机视觉的发展和进步。
在应用需求的推动下,针对离线笔迹数据的书写人身份识别技术需要进一步深入的研究。本文以文本无关笔迹特征提取和字对相似度计算为出发点,提出一种蕴含笔画边缘方向和结构信息的边缘共生特征来表达书写人笔迹风格,以实现书写人笔迹的判别。边缘共生特征以边缘像素为中心的一定尺寸的窗口作为处理区域,通过统计窗口内共生边缘像素对的出现频率来生成特征向量。该特征在多个公共数据库和竞赛数据集上都取得良好的识别准确率,特别是其在中文公共数据库上取得了优于已有方法的识别性能,表明边缘共生特征能够有效反映中文笔迹的书写风格差异。
与通常的模式识别系统类似,文本无关中文书写人识别系统分为训练与识别两个阶段,也包括特征提取、特性分析、分类匹配等基本模块,如图1所示。
图1 文本无关书写人识别系统流程框图
我们提出的用于描述笔画轮廓局部结构的边缘共生特征,边缘共生特征是一种基于分布直方图的空间分布特征,该特征的设计思路受到来自边缘铰链特征[1]和微结构网格特征[3]的启发,边缘铰链特征考虑与中心边缘像素相连通的相邻两条边缘,并使用双边缘的方向联合分布直方图来作为笔迹的特征。但由于汉字笔画相互交叉,结构复杂,简单的基于边缘方向的描述可能过于简单不够细致;微结构网格特征则关注于边缘点对在网格中的绝对位置信息,并记录边缘像素对的位置分布直方图来表示笔迹的书写风格。本文提出的边缘共生特征则融合了两者的特点,通过记录中心边缘像素周围共生的边缘像素对的方向分布作为区分不同笔迹的特征。这样既记录了边缘像素和中心边缘像素的连线与水平轴的角度信息,又可以保存共生边缘像素对的相对位置信息。由于边缘共生特征记录的是像素对的相对位置信息,它有着比于微结构网格特征更加紧凑的特征向量。在窗口大小相同的情况下,边缘共生特征所需的储存空间更小。
边缘共生特征是从边缘图像上提取得到的。因此,将笔迹图像转化为边缘图像是实现特征提取的前提条件。在广义的图像处理中,灰度值不连续的位置就是边缘。而就笔迹图像本身而言,所谓的边缘其实就是笔迹中笔画的轮廓。边缘的灰度不连续性使其可以通过求导的方式被检测出来。不过由于二阶以上的求导对噪点的十分敏感,且需要较高的额外计算开销,通常不会被采用。因此,一阶求导和二阶求导是较为常用的手段,常用的有 Roberts 算子、Prewitt 算子、Sobel算子和 Laplacian 算子等。就笔迹图像本身的特点而言,虽然不同数据库的笔迹图像会略有不同,但整体都比较干净,不存在失真、变形、模糊和非均匀光照的情况。笔画区域内部的深浅均匀,灰度值变化率很小,且笔画区域和背景区域的灰度值变化明显。图2是边缘检测的示例,使用 Sobel 算子获取的边缘图像中笔画轮廓平滑清晰,满足边缘共生特征提取的要求。因此,我们选择 Sobel算子用于笔画的边缘检测,以获得笔迹图像的边缘图像。
图2 边缘检测示例
对于给定的查询笔迹,我们计算它与数据库中所有参考笔迹的相似距离D(Q, Ri)。然后按照相似距离从小到大进行排序,就可以获得该查询笔迹的候选人名单。其中排名第一的候选人为查询笔迹最可能的书写人。
为验证本识别方法的性能,我们采用S-TOP-N 和H-TOP-N作为评价指标,在4个主要的公共数据库[1,13]以及ICFHR2012 拉丁文和希腊文书写人鉴别竞赛[11]和ICDAR2013书写人鉴别竞赛[12]提供的数据集(以下简称ICFHR2012 数据集和ICDAR2013数据集)上展开全面的性能测试,并与已有方法进行比较。
图3 中文不同窗口尺寸提取的边缘共生特征的性能
图4 西文不同窗口尺寸提取的边缘共生特征的性能
在边缘共生特征提取时,窗口尺寸决定了能够记录的笔画局部结构的范围。窗口过大会导致记录的局部结构出现冗余,笔画方向信息不明确;而窗口过小又使得采集到的局部结构不够完整,不能很好地反映书写人特点。因此,窗口尺寸对最后生成特征的区分能力有直接的影响。为了获得最佳的实验效果,我们使用HIT-MW和CASIA-2.1中文数据库的训练数据集来确定中文环境下最合适的窗口尺寸,而使用ICDAR2013数据集来确定英文/希腊文(以下简称西文)的最合适的窗口尺寸。图3显示了中文使用不同窗口尺寸提取的边缘共生特征获得的书写人识别准确率。由图可见,窗口尺寸是一个较为稳定的参数,无论多大的特征提取窗口,识别准确率都在90% 以上。并且准确率随着窗口尺寸的增大而提高。而当窗口尺寸为15×15,边缘共生特征取得最优性能,在HIT-MW和CASIA-2.1数据库的训练集中分别达到97%和96.7%的S-TOP-1准确率。图4则显示了西文使用不同窗口尺寸提取的边缘共生特征的获得的书写人识别准确率, 虽然整体识别准确率比中文环境下的识别效果要差一些,但它也反映出相同的规律,识别率随着窗口的增大而增加,当窗口尺寸为15×15,首选准确率达到最高值(93.2%)。通过对中西文笔迹样本的观察,我们发现其字符/词组的大小比较稳定,中文字符高度主要集中在60 到90 个像素之间,英文词组高度主要集中在40 到80 个像素之间。因此,我们把不同文种的特征提取窗口尺寸都设置为15×15,确保边缘共生特征发挥出最好的鉴别性能。
我们提出了基于边缘共生特征的文本无关书写人识别方法,边缘共生特征统计共生边缘像素对来表示笔画轮廓的局部结构。该方法在多个不同文种的公共数据库和竞赛数据集上进行了测试,并与多种方法进行了比较。实验结果表明,本章提出的方法在中文书写人识别中,取得了令人满意的结果。
表1和2中给出了本章方法与已有方法在 HIT-MW 中文数据库和CASIA-2.1中文数据库上的性能比较。在中文数据库的试验中,边缘方向特征取得了比已有方法更好的实验结果。
表1 本方法与已有方法在HIT-MW中文数据库的性能比较
表2 本方法与已有方法在CASIA-2.1中文数据库的性能比较
表3 本方法与已有方法在 IAM英文数据库的性能比较
表4 本方法与已有方法在ICFHR2012 数据集(英文) 的性能比较
表5 本方法与已有方法在ICFHR2013 数据集(英文) 的性能比较
表3至5分别为本文方法与已有方法在IAM英文数据库[13]、ICFHR2012 数据集[11]和ICDAR2013数据集[12]上的STop-1、S-Top-5 和S-Top-10 的性能比较。通过分析实验结果,我们发现边缘共生特征虽然没有取得最好的识别准确率,但是在不同文种的多个数据库和数据集中均有稳定的表现,与已有方法的最优结果都非常接近。
本文提出了基于边缘共生特征的文本无关书写人识别方法,边缘共生特征统计共生边缘像素对来表示笔画轮廓的局部结构。该方法在多个不同文种的公共数据库和竞赛数据集上进行了测试,并与多种方法进行了比较。实验结果表明,本章提出的方法在中文书写人识别中,取得了令人满意的结果;在西文书写人识别中,本章提出的边缘共生特征的鉴别性能非常稳定,接近于目前主流方法的最佳水平。