陈子炜,洪思云,林 劼,石 琳
(福建师范大学 软件学院,福州 350108)
基于用户笔迹的移动身份识别技术①
陈子炜,洪思云,林 劼,石 琳
(福建师范大学 软件学院,福州 350108)
针对传统身份识别技术存在的密码记忆难、隐私易泄露、信息易伪造等问题,提出并实现了基于安卓平台的混合特征在线手写笔迹识别算法. 本算法通过迁移传统笔迹采集平台、采用文本相关与文本无关相结合的方式分别对静态纹理特征和动态矢量特征进行提取,弥补了当前笔迹采集困难、信息易伪造、准确性差等缺陷,实现了用户在移动设备上更加快捷安全的进行身份识别和鉴定. 通过实验得出: 该笔迹识别算法具有良好的稳定性、高可重复性、优良的准确性和安全防伪能力,能够有效阻止陌生用户的攻击,具有较高的安全保障性能.
笔迹识别; 动态矢量特征提取; 特征融合
对访问者真实身份的快速识别和鉴定是当前信息安全领域中的一个重要应用之一. 其中一个身份识别的有效方法是鉴定用户手写笔迹特征. 笔迹特征的本质是书写行为到个人行为的映射,包含纹理形态特征和笔迹动力学特征,具有不易被伪造和盗用的优势. 笔迹识别技术分为在线笔迹识别[1]和离线识别认证[2]的方式. 现有的在线笔迹识别的采集工作基本是基于某种特定的笔迹采集设备,如利用专门化的手写笔、手写板等. 而离线认证则是利用扫描仪或照相等设备获得原始笔迹的扫描图像,并经过图形处理提取相应的纹理形态特征进行识别. 随着智能手机的普及,离线认证的方式无法满足快捷高效的移动身份识别需求,而在线识别方式又依赖于传统数据采集平台,机动性能差.
笔迹识别系统包括数据预处理、特征提取和判定识别三部分. 数据预处理主要包括样本归一化[3]、平滑去噪等; 特征提取部分可以分为结构特征和统计特征两种. 根据笔迹特征提取的方法不同,笔迹识别方式又可分为静态笔迹识别和动态笔迹识别两大类. 静态笔迹识别的Gabor特征[4]及Gradient特征[5]是目前比较好的提取方法,而动态笔迹则是提取写字时的笔迹动力学特征,如每个采集点上的速度、加速度、压力等矢量特征; 判定识别使用的常用模型包括改进的二次判决函数、支持向量机、隐马尔科夫模型等. 在技术上,目前仍处于发展阶段,笔迹识别系统的整体性能还不够理想. 从数据采集、特征提取到匹配认证算法等各个环节仍然有较大的改进、提高的余地和空间. 为了能改善识别系统的性能,一些研究者还利用信息融合技术进行融合了多种笔迹特征和分类方法或加上其它生物特征进行身份认证,并获得了不错的效果,这极大的推动了在线手写笔迹识别技术的发展. 寻求一种好的笔迹认证方法具有十分重要的意义,对于笔迹识别算法改进不仅具有重要的理论意义,还具有不凡的现实意义.
随着移动互联网和传感设备的高速发展和普及,让方便、快捷、高效的移动在线笔迹识别成为可能.经过对传统的文本相关笔迹识别中动态时间规整算法(Dynamic time warping)[6]和文本无关笔迹特征提取方法[7]研究基础上,提出了基于Android手机平台的混合特征在线手写笔迹识别算法. 其中包括的主要环节包括入笔迹信息采集、预处理、笔迹特征提取和笔迹的匹配识别,将注册的笔迹信息经过去噪、平滑等预处理后所提取的混合笔迹特征建立分类器模型,与提取的登入笔迹特征进行分类识别,最后输出验证结果. 如图1所示.
图1 算法设计流程图
汉字笔划提取通常是笔迹识别与鉴定的重要一步,不同的笔划拆分方法将会决定下一阶段特征提取的好坏. 然而汉字结构复杂、偏旁多变、笔划众多,这给自动地笔划拆分带来一定的挑战. 有的利用游程长度的阈值对像素点的方向游程长度进行分类,处理笔划交叉问题[7]; 有的则是基于单字切分及基本笔顺表进行笔划拆解[8]. 这些方法虽然在某些汉字的切分上取得一定的效果,但无法适用于一些结构较为复杂、笔划密集的汉字上.
现有的特征提取技术主要包括Gabor特征提取[4]以及NCFE八方向特征提取[9]. Gabor特征在图像特征提取方面拥有不错优良性能,但由于其计算高复杂度在现有阶段无法实用于单机在线手写认证上.
在书写的过程中,笔迹的静态纹理信息和笔迹的运动学特征不仅反应了书写者鲜明的书写习惯,而且这些特征难以被仿制伪造,对于后期笔迹的识别和鉴定打下坚实的基础. 根据以上信息,本套笔迹识别系统以智能手机作为使用平台,提取的笔迹信息主要包括手机屏幕的X坐标、Y坐标、坐标时间戳、触点状态、横向速度、纵向速度等.
由于使用者每次写字的位置、大小可能不同,另外使用过程中由于一些外界因素的干扰也会产生一些噪音和冗余点,这些都会对识别结果产生影响. 因此,在对信息进行进一步处理前需要进行预处理操作,预处理可以在一定程度上可以提高识别的效果. 本文的预处理过程包括去噪平滑、位置归一化、大小归一化等.
① 去噪平滑: 移动手机传感设备存在一定的干扰和书写者书写时的无意抖动都会给笔迹原始数据添加一定的噪声,因此需要对原始数据进行去噪平滑处理.平滑处理采用高斯平滑滤波器(Gaussian smoothing filter) 对笔迹数据的各分量进行滤波平滑.
② 归一化处理(Normalization): 由于使用者每次书写的笔划绝对位置和规模大小并不固定,因此通过位置和大小的归一化处理可以统一原始数据的各个量纲以便后续的处理. 位置归一化用坐标平移的方法完成,将笔迹曲线的重心作为新坐标的原点,而大小归一化则通过对坐标各分量大小进行归一化.
本文采用一种基于斜率的笔划拆解方法[10],其根据自然笔划的方向顺序和长度大小有效地提取每一笔划基本单元信息. 具体的笔划拆解包含以下四个步骤:
步骤一. 对笔迹数据采用B样条插值法进行插点和平滑,避免由于笔划样本点的稀疏导致夹角大小频繁变化和波动. 其算法步骤插值流程如下:
② 将数据节点和指定的首位端点条件带入矩阵方程.
③ 解矩阵方程,求得二次微分值mi.
④ 计算样条曲线的系数:
其中,i= 0,1,…,n-1.
步骤二. 为了保证笔划的拆分效果和特征的有效性,需对相间隔的样本点进行考察. 当且仅当前一样本点与下一样本点距离大于预设阈值M的笔划才考虑是否对其拆分,若两样本点间的距离小于M则将当前考察点移至下一考察点.
步骤三. 计算两个参考点间的斜率大小,当参考点与下一参考点间的绝对斜率与当前点的自然斜率差值的绝对值小于给定阈值K时,该点作为一个有效笔划拆分点.
步骤四. 两个拆分点之间的轨迹段即可作为一个基本自然笔划单元.
在笔迹识别系统中,正确有效的笔划特征提取方法可以显著的提高识别认证结果的准确性. NCFE八方向特征则能反映每个笔划的方向形态特征,能更好地适用于笔划提取后的每个基本笔划单元. 它是通过将经过预处理的笔迹序列进行笔划拆分都得到的基本笔划单元按照每个单元的方向归一化投影到八个方向平面上,从而获取该笔划单元的特征向量. 特征向量的获取分为以下几个步骤:
根据所采集的笔划信息,分为静态特征信息和动态特征信息. 静态特征反应了字体样式的总体形态和几何特征,动态特征展现了笔迹书写过程中形成的一系列有顺序的、连续的运动变化状态的征象. 本算法采用动态特征和静态特征信息结合的方法,既保留了笔迹样本总体的形态信息,又不乏局部丰富的动态特征. 最大限度地保证了笔迹信息的完整性和一致性.
识别过程可分为三个阶段: 动态特征的DTW距离快速排除阶段、基于KNN的文本无关静态特征识别阶段和综合判别认证阶段.
阶段一: 基于动态特征的DTW距离快速排除
该阶段采用动态时间规整算法作为识别分类器.动态时间规整 (Dynamic time warping,DTW)[11]就是用动态规划方法校正时域信号的非线性时间弯曲现象,最先用于语音信号处理,后来在笔迹认证中得到了广泛应用.
通过比对身份注册阶段笔迹和登录验证阶段笔迹的速度与加速度各分量的DTW距离加权和.
具体做法是: 可以通过给各分量预设一个阈值H,仅保留最低距离且DTW距离小于一个预设最小距离阈值N的用户.
阶段二: 基于KNN分类器的文本无关静态特征识别
上述的方法仅仅适应于文本相关的识别检测,倘若攻击者故意模仿注册用户的字迹样式就会带其他未知的安全漏洞和隐患,特别在金融、商务、国防等安全等级较高的领域更是如此. 如何在确保算法准确率的前提下提高对高超伪造笔迹的判别能力成为了该项技术在安全保障方面的难题. 为此,文本无关的笔迹样本成了一个不错的选择,攻击者无法提前知晓这些未出现过字样的任何信息,而真实用户可以利用个人书写习惯成功的识别,进而大大提高了算法在安全可靠性上的性能.
第二阶段的文本无关的静态特征识别可分为以下几个步骤:
① 计算待验证用户的特征向量所在的八个笔划单元类与每个注册用户对应笔划单元类之间距离的加权和.
② 取登录用户的各个特征向量与所有注册用户距离最小的前K个且其距离小于给定阈值L作为相似用户,记为top-K用户.
③ 统计各个注册用户被标记为top-K用户的次数,并按大到小排序.
阶段三: 综合判别认证
若第①步的识别结果在第②步的识别结果出现,则判定第①步的识别结果为真实用户,否则判别为陌生用户.
一般地,我们将身份识别错误分为两种,误纳率(FAR)和误据率(FRR)[12]. 依照随机抽样的方式从本校学生中抽取若干样本作为本次测试样本空间. 根据上述基于混合特征的在线手写笔迹识别算法,通过观察和分析传统基于纹理的静态特征和混合后的综合特征的各项性能指标,和在不同身份注册字数和识别认证字数组合下对混合特征识别算法的性能表现进行测试,以此得出本次实验结果.
从表1和图2中可以直观地看出: 基于纹理特征的识别方式具有较低的误纳率,即可以有效地的防止陌生用户的攻击,但是在误据率方面表现不佳,而基于混合特征的识别方式既最大限度保留了较低的误纳率,而且在误据率方面也有很好的改良. 从整体准确性来说,基于混合特征具有比单一的基于纹理特征识别更好的性能表现.
表1 不同特征选择下的错误率和准确率
图2 不同特征选择下的错误率和准确率
从图3和图4可以得出: 在登入验证字数不变的情况下,越多注册字数能够提供更多注册用户的信息,从而更好地帮助分类器有效地识别真实用户. 同理,在注册字数不变的情况下,随着登入验证字数的增加也能很好的得出更加有效的验证结果.
基于移动平台的在线手写识别有效解决了传统笔迹采集平台机动性差,安全性不可靠,准确性差等缺点,推动了便捷身份认证技术的发展. 通过大量样本的对比实验可以得出: 基于混合特征的在线笔迹手写识别技术能够有效地防止大部分伪造者对真实用户的攻击,并且在移动平台取得良好的稳定性和准确性.
图3 注册字数对识别准确度的影响
图4 登入字数对识别准确度的影响
1Liu CL,Jaeger S,Nakagawa M. Online recognition of Chinese characters: The state-of-the-art. IEEE Trans. on Pattern Analysis and Machine Intelligence,2004,26(2):198–213. [doi: 10.1109/TPAMI.2004.1262182]
2Zhong ZY,Jin LW,Xie ZC. High performance offline handwritten Chinese character recognition using GoogLeNet and directional feature maps. Proc. of the 13th International Conference on Document Analysis and Recognition. Tunis,Tunisia. 2015. 846–850.
3Liu CL,Marukawa K. Pseudo two-dimensional shape normalization methods for handwritten Chinese character recognition. Pattern Recognition,2005,38(12): 2242–2255.[doi: 10.1016/j.patcog.2005.04.019]
4Ge Y,Huo Q,Feng ZD. Offline recognition of handwritten Chinese characters using Gabor features,CDHMM modeling and MCE training. Proc. of the 2002 IEEE International Conference on Acoustics,Speech,and Signal Processing.Orlando,FL,USA. 2002. I-1053–I-1056.
5Liu CL. Normalization-cooperated gradient feature extraction for handwritten character recognition. IEEE Trans. on Pattern Analysis and Machine Intelligence,2007,29(8): 1465–1469.[doi: 10.1109/TPAMI.2007.1090]
6全中华. 基于动态手写签名的身份认证研究[博士学位论文]. 合肥: 中国科学技术大学,2007.
7赵建平,车丹. 手写体笔迹单笔划提取算法. 长春理工大学学报,2005,28(4): 66–70.
8崔景楠,邢长征. 基于笔顺自由及连笔的联机手写汉字识别. 计算机系统应用,2009,18(5): 29–33.
9Bai ZL,Huo Q. A study on the use of 8-directional features for online handwritten Chinese character recognition. Proc.of the 8th International Conference on Document Analysis and Recognition. Seoul,South Korea. 2005. 262–266.
10黄佳. 基于自然笔画拆分的手写文字识别方法[硕士学位论文]. 哈尔滨: 哈尔滨工业大学,2014.
11罗勇军. 基于优化DTW算法的在线手写签名认证系统研究与设计[硕士学位论文]. 广州: 广东工业大学,2014.
12Liang RZ,Shi LH,Wang HX,et al. Optimizing top precision performance measure of content-based image retrieval by learning similarity function. Proc. of 2016 the 23rd International Conference on Pattern Recognition. Cancun,Mexico. 2016. 2954–2958.
Identity Recognition Technology Based on the Users’ Handwriting
CHEN Zi-Wei,HONG Si-Yun,LIN Jie,SHI Lin
(Faculty of Software,Fujian Normal University,Fuzhou 350108,China)
In view of the problems like the difficulty in memorizing passwords,privacy issues and fake information,a new algorithm combined the static and dynamic features based on the android platform for online handwriting recognition is proposed. The proposed algorithm extracts the static texture and dynamic vector features by adopting the combination of text-dependent and text-independent ways on the new smart mobile devices platform. The problems of handwriting acquisition,fake information and less accuracy are solved. It’s safe and fast for identification on mobile devices. The experimental results show the proposed algorithm has a great performance in stability,repeatability,accuracy and safety.It can effectively block the attack from intrusion and is high in security.
handwriting identification; dynamic vector feature extraction; feature combination
陈子炜,洪思云,林劼,石琳.基于用户笔迹的移动身份识别技术.计算机系统应用,2017,26(12):191–195. http://www.c-s-a.org.cn/1003-3254/6097.html
2017-03-12; 修改时间: 2017-03-27; 采用时间: 2017-04-05