申泽波,廖广军
(广东警官学院刑事技术系,广东广州510232)
作为汉字的书写现象,笔顺是笔迹鉴定的重要依据。笔顺识别指识别非连笔字的笔顺。笔顺识别是一种模式识别,即将样本字的归入与笔顺对应的模式类中。近些年,报道了一系列基于实验笔迹样本数据的笔顺识别方法,包括山、字、入等字。①申泽波.山字笔顺识别方法[J].江苏警官学院学报,2011,(2):176-178.②申泽波,胡迎梅.女字笔顺识别方法[J].广东公安科技,2012,(2):24-26.③申泽波.入字笔顺识别方法[J].中国司法鉴定,2012,(6):72-74.这些研究借鉴了计算机模式识别理论,在特征提取、分类器设计上取得了突破,识别方法有较高的有效性和可靠性。但已有研究忽视了笔迹样本的笔顺分布问题。在笔顺自然分布的笔迹样本中,少见笔顺样本比例较低,直接采用这样的笔迹样本作为训练样本,降低了对少见笔顺的准确识别率。笔者认为,可以通过人为增加少见笔顺样本来克服这一缺陷。
尚字头是一个常用汉字部件,可以组成尚、常、堂、党、掌等常用字,下文有时把尚字头也称作字。对尚字头的笔顺识别方法目前没有报道,研究使用少见笔顺增强训练样本,建立了尚字头笔顺识别方法。
被试为641名在校本科生,年龄19-23岁。用投影仪显示一篇短文,被试抄写形成实验笔迹样本。抄写的短文有多种,均含有常和堂字。被试使用横栏书写纸、黑色中性笔书写。
笔顺数据由被试报告,采用专门程序获取数据。第一步,被试2-3人分为一组,他们交叉识别组内成员的笔顺,将结果记录在实验报告中。第二步,书写样本的被试核实他人的识别结果,结果错误在实验报告中记录正确的笔顺。第三步,识别者查看核实结果,评估自己的准确识别率。在这个过程中,被试之间相互制约,保证了数据的可靠性。
本次测试共收回实验笔迹样本641份,其中,有效样本636份,剔除了5份有错写或别写的样本。按照实验的时间顺序,将有效样本分为两部分:第一部分用于选取训练样本,共496份;第二部分用于选取测试样本,共140份。
识别方法的测试者为一名一年级本科生,无笔顺识别经验。
尚字头由竖、点、撇3个笔画构成,有3个笔顺,其中,竖点撇为常见笔顺,点竖撇、点撇竖为少见笔顺。非连笔的尚字头是指依据连笔不能唯一地确定笔顺的尚字头。当尚字头的点与竖、竖与点、竖与撇连笔时,都可以唯一地确定笔顺,但点与撇连笔有竖点撇、点撇竖两种笔顺。
从第一部分实验样本中选择有非连笔尚字头的样本。在常见笔顺样本中随机抽取了186份训练样本,其中,172份样本有2个非连笔尚字头,14份样本有1个非连笔的尚字头,共获得358个训练样本字;把全部76份少见笔顺样本作为训练样本,其中,67份样本有2个非连笔的尚字头,9份样本有1个非连笔的尚字头,共获得143个训练样本字。
从第二部分实验样本中选择有非连笔尚字头的样本,得到117份测试样本,其中104份样本有2个非连笔尚字头,13份样本有1个非连笔尚字头,共获得有221个测试样本字。
分析训练样本,提取尚字头的下列形态特征作为笔顺识别的依据。
1.竖笔的形状。竖笔的形状分为两种:左凸的弧和其他形状,如图1所示,图1中堂字尚字头竖笔为左凸的弧,常字竖笔为其他形状。左凸的弧又如图3中的堂字。
图1 尚字头竖笔形状
2.竖笔收笔方式。竖笔收笔方式有三种:一是无动向钩;二是有向左的动向钩;三是有向右的动向钩,如图2、图3所示。图2为向左的动向钩,图3中的常字为向右的动向钩。收笔动向钩指笔画末端指向下一笔起笔方向的侧钩。有的动向钩较小,需要用显微镜观察。
图2 尚字头竖笔左动向钩
图3 尚字头竖笔右动向钩
3.竖笔动态。书写运动在竖、撇等长笔画上易于形成收笔动向钩,对点笔却会影响其自身的形态,这种情况称为点的动态。点的动态指点写成渐细的弧形,且收笔指向下一笔的起笔方向。竖笔动态指竖笔写成点时的动态,有三种情况,无动态,向左动态,向右动态,如图4所示。图4中第一份样本堂字为向左动态,常字为无动态,第二份样本为向右动态。
图4 尚字头竖笔动态
4.竖笔与水平线的夹角。测量角度时,水平轴方向向左。如竖笔为弧形,测其弦,竖笔部分为弧形,测其直线部分。竖笔为向左动态时,规定夹角为90°;竖笔为左凸的弧、向右动态、圆点时,规定夹角等于点笔与水平线的夹角;当竖笔与水平线测量角度大于80°,小于90°时,规定夹角为90°。
5.点笔动态。点笔动态有两种:无动态和向右动态,如图4第一份样本和图5所示。点笔与撇笔连笔时,点笔动态难以观察,规定点笔为向右动态。
图5 尚字头点笔动态
6.点笔与水平线的夹角。测量角度时,水平轴方向向左。点笔为向右动态、圆点时,规定夹角为10°,如图6所示。
图6 尚字头点笔为圆点
尚字头笔顺的分类器为决策树和判别函数复合的形式。
1.决策树。尚字头竖笔与下方部件的横笔交叉时,笔顺无法识别。竖笔与水平线夹角大于105°时,笔顺无法识别,小于等于105°时,笔顺由判别函数决定。
2.判别函数。设:尚字头竖笔收笔方式为X1,令无动向钩时,X1=0;左动向钩时,X1=50;右动向钩时,X1=-50。
竖笔与水平线夹角为X2,X2取值不带角度单位。
点笔与水平线夹角为X3,X3取值不带角度单位。
拟定判别函数为:Y=(X1+3X2-X3)/200
3.判别规则:当Y≤0.89时,笔顺为点竖撇;Y≥1.01时,笔顺为竖点撇;0.89<Y<1.01时笔顺无法识别。
举例,识别图7的2份样本的4个样本字的笔顺。
图7 2份待识别笔顺的样本
图7第一个样本字判别函数值为1.1,笔顺为竖点撇;第二、第三、第四个样本字竖笔与水平线夹角大于105°,拒识。分类器拒识这三个样本字是出于降低错误率的考虑。第一份样本的正确笔顺为竖点撇,第二份样本的正确笔顺为点竖撇。
测试者得到的书面指导为本文结果与分析部分尚字头笔顺及样本字选取、特征提取、分类器设计三部分的内容,测试使用10倍刻度显微镜,判别函数值由Excel表格自动计算。
在221个测试样本字中,23个样本字拒识,拒识率10.4%,95%置信区间[6.3%,14.5%],11个样本字识别结果错误,错误率5.0%,95%置信区间[2.1%,7.9%],准确识别率84.6%,95%置信区间[79.9%,89.3%]。图8为一份错误识别笔顺的样本,正确的笔顺为点竖撇。
图8 错误识别尚字头笔顺的样本
尚字头的特点是三个笔画较小,且运笔方向相近。在特征提取上,尚字头笔顺识别首次使用了点的动态这个特征。笔迹鉴定的传统方法没有认识到点笔动态的作用。①贾玉文.笔迹检验[M].北京:警官教育出版社,1999:106-109.对于笔画角度,反犬旁笔顺识别方法定性地使用了笔画夹角特征,②申泽波.笔迹鉴定中的反犬旁笔顺识别方法研究[J].广东公安科技,2011,(1):7-9.入字笔顺识别方法定量地使用了笔画与水平线的夹角,③申泽波.入字笔顺识别方法[J].中国司法鉴定,2012,(6):72-74.尚字头则提取了两个笔画与水平线的夹角,以Z=3x-y这一抽象的函数关系为核心设计分类器,突破了笔画夹角的形象性。
过去报道的笔顺识别方法的分类器有决策树和判别函数两种形式。由于尚字头的情况较为复杂,研究采用了决策树与判别函数复合的多层次的分类器。决策树主要是解决笔顺点撇竖的分类问题,判别函数解决笔顺竖点撇、点竖撇的分类。经验表明,在使用笔画角度特征时,判别函数形式的分类器具有优势。
尚字头笔顺识别方法具有与已经报道的笔顺识别方法相当的可靠性和有效性,如,入字笔顺识别方法准确识别率84.0%,错误率4.6%。④同③.研究使用了增强型训练样本,有效提高了少见笔顺点竖撇的准确识别率。但尚字头3个笔顺中的点撇竖出现率很低,增强以后训练样本数量仍然较少,导致分类器对这个笔顺不敏感。实际上,分类器对这个笔顺只能输出拒识和其他笔顺这两种结果,这构成了拒识率、错误率的主要成分。
尚字头笔顺识别方法的建立,为笔迹鉴定提供了替代专家经验的方法。在笔顺识别领域,首次采用增强型训练样本,显示出这一方法的优势,这在笔顺识别研究中具有推广价值。