张 云, 李育革, 石 惠
(1.北京市刑事科学技术研究所, 北京 100054; 2.中国政法大学, 北京 100088)
汉字笔迹间不同人相似度和同一人稳定度的量化实验研究
张云1,李育革1,石惠2
(1.北京市刑事科学技术研究所, 北京100054; 2.中国政法大学, 北京100088)
摘要对200人书写的汉字笔迹进行分析研究,通过对笔迹鉴定工作者所依据的笔迹特征进行选取、赋值、量化比对,统计得出了不同人笔迹的单字相似度和多字相似度情况,以及同一人笔迹的单字稳定度和多字稳定度情况,发现有不同人书写单字的相似度会高于同一人书写单字的稳定度的情况出现。但随着组合单字数量的增多,不同人笔迹的相似度会降低,而同一人笔迹的稳定度会提高,当组合单字数量达到一定的量时,稳定度要远高于相似度。实验的统计结果为笔迹鉴定的科学性提供了一定的数据支持,也扩展了笔迹鉴定量化研究的思路。
关键词笔迹特征; 相似度; 稳定度; 量化实验
0引言
在笔迹的同一认定过程中,无论是不同人书写的笔迹间,还是同一人书写的笔迹间都会存在符合特征,如何判断符合特征是不同人笔迹的相似[1],还是来自于同一人的笔迹?目前,笔迹鉴定工作者大多是根据自己长期积累的经验对笔迹特征进行分析,从而认定同一或否定同一。但是不同人书写的笔迹间其特征到底相似到何种程度?同一人书写的笔迹间其特征相同到什么程度?仅凭主观分析判断是否会影响同一认定的准确性?笔者收集了不同书写水平、不同文化程度的200人正常书写的汉字笔迹样本,对样本笔迹中所反映出的笔迹鉴定工作者所依据的特征进行了量化赋值比对[2],得出了不同人笔迹相似程度和同一人笔迹稳定程度的科学数据,为汉字笔迹的同一认定提供了科学依据[3]。
1实验目的
为笔迹鉴定工作者判断两份汉字笔迹是否由同一人书写提供数据支持,避免汉字笔迹鉴定出现错误意见。
2实验设计
书写工具:市场上常见的晨光牌0.5 mm黑色签字笔。
承载客体:打印有自制表格的A4打印纸。
本次实验选取了汉字笔迹鉴定中出现频率相对较高的10个汉字:中、国、政、法、大、学、张、王、李、贰。
选择对象共计200人,其中大学文化50名,硕士研究生文化130名,博士研究生文化20名;其中女性124名,男性76名。
要求书写人在书写样本文字时,使用其平时正常书写的字体,按照平时正常书写速度书写,字迹不要过于潦草,不要刻意写大字或写小字。
200名书写者每人在相同的条件下书写相同的样本文字,用于不同人汉字笔迹间相似度的实验研究样本。其中选择个别书写人相隔7日后,再次在相同的条件下书写相同的样本笔迹,用于同一人书写汉字笔迹稳定度的实验研究样本。
(1)选定一段样本文字,随机选择实验对象200名。
(2)要求每个实验对象在A4纸表格中用黑色签字笔书写样本文字,并填写书写者的性别和文化程度。
(3)整理全部样本,根据书写水平分成高、低两个档次。运笔规范,结构合理,布局得当且美观的,视为书写水平高的样本,共计142份;其余样本在运笔、结构及布局方面相对较差,视为书写水平低样本,共计58份。对高低档次选取的笔迹样本分别以A、B标示,并对每档中的所有样本分别编号为A1…A142和B1…B58。
(4)选择1份书写水平高的笔迹样本A1和1份书写水平低的笔迹样本B1,作为标准样本。逐个单字选取笔迹鉴定中所依据的字形、写法、笔顺、搭配、比例及运笔等特征[4]。每个单字尽量多选取特征。
(5)将其余样本笔迹在同档次范围内逐一与标准样本笔迹进行量化比对,并对实验结果数据统计分析。
(6)选择标准样本(A1和B1)的书写人,再次书写样本文字,与先前本人书写的样本笔迹分别进行量化比对,并对实验结果数据统计分析。
(7)总结并得出实验结论。
为了便于进行统计分析,本文引入概念“相似度”和“稳定度”。相似度和稳定度是指比对样本特征点和标准样本特征点之间的整体符合情况。当标准样本与比对样本是不同人的笔迹时,称为相似度;当标准样本与比对样本是同一人的笔迹时,称为稳定度。
在不同人笔迹相似度的统计中,笔者在书写水平高、低两个档次各取一份样本作为标准样本,对其每个字进行特征点选取并赋值。对于相对特征价值一般的特征,赋值1,一些非常特殊的特征可以适当增加权重,根据特征的特殊情况加大赋值为2或3。其余样本作为比对样本,与标准样本按照选定的特征点进行分别比对,统计出相同特征点数值占总特征点数值的比例,计算出单字的相似度。
同一人笔迹稳定度的统计,笔者对书写水平高、低两个档次各取一份样本,以标准样本书写人1个星期后再次书写的样本作为比对样本,比对统计方法与相似度比对统计方法相同。
单字相似度(稳定度)=单字的相同特征点数值之和/标准样本单字所有特征点数值之和百分比。
两个单字组合,3个单字组合,以此类推,计算出多字的相似度(稳定度)。
计算公式为:r=(a+b+…+n)÷m
r为多字相似度(稳定度),a,b…n代表各单字符合特征点数值之和,m为标准样本中各单字所有特征点数值总和。
3不同人笔迹相似度的实验结果数据统计分析
本次实验结果数据统计分析,主要根据书写水平不同分成高低两种类型进行讨论。
3.1.1书写水平高者汉字笔迹相似度
书写水平高者笔迹样本共142份,其中标准样本1份,比对样本141份,相似度统计结果如表1。
表1 10个单字的142份书写水平高群体样本笔迹间相似度情况
3.1.2书写水平低者汉字笔迹相似度
书写水平低者笔迹样本共58份,其中标准样本1份,比对样本57份,相似度统计结果如表2。
3.1.3小结
(1)书写水平较高群体间笔迹的相似度高于书写水平较低群体间笔迹的相似度。如80%以上相似度最高的单字份数比,较高群体为28.4%,较低群体为21.1%。10个单字中达到90%以上相似度的样本份数,较高群体为49份,占总份数的34.8%,而较低群体的样本份数仅为7份,占总份数的12.3%。
表2 10个单字的58份书写水平低群体样本笔迹间相似度情况
(2)对于一些笔画少,字形结构简单的字,其平均相似度相对较高,相对容易出现相似度在90%以上的情况;而对于一些笔画较多,字形结构较为复杂的字,其平均相似度与字形结构简单的字相比平均相似度相对较低,相似度高于90%的情况不多。
(3)在个别样本、个别单字中,有与标准样本所选特征点完全符合的情况。如在书写水平较高群体中,有3份比对样本分别在“中”、“大”、“王”单字上,相似度达到了100%。
(4)大多数笔迹的单字相似度集中在50%~80%之间,笔画较为简单的单字相似度略有升高。
3.2.1书写水平高者汉字笔迹相似度
书写水平高者笔迹样本共142份,其中标准样本1份,比对样本141份,相似度统计结果如表3。
表3 多字组合的142份样本笔迹间相似度情况
3.2.2书写水平低者汉字笔迹相似度
书写水平低者笔迹样本共58份,其中标准样本1份,比对样本57份,相似度统计结果如表4。
表4 多字组合的58份样本笔迹间相似度情况
3.2.3小结
(1)多字间较高相似度样本的份数明显少于单字的数量,并且随着字数的增多,高相似度的份数逐渐降低,低相似度的数量逐渐升高。
(2)多字相似度的整体呈下降趋势,其中书写水平低者较书写水平高者明显,下降幅度大。
(3)当多字字数为2、3时,相似度达到80%的只有极个别样本,而随着字数的不断增加,到达4~6个字时,已经完全没有相似度较高的样本。
4同一人书写笔迹稳定度的实验结果数据统计分析
笔者在一个星期后让标准样本A1和B1的书写者再次书写样本笔迹,与标准样本进行量化比对,计算同一人书写笔迹的稳定度。
书写水平高低的两个标准样本(A1和B1)的两名书写者,其笔迹的单字稳定度统计结果如表5。
表5 书写水平高、低两人的笔迹单字稳定度情况表 (单位:%)
书写水平高低的两个标准样本(A1和B1)的两名书写者,其笔迹的多个汉字的稳定度统计结果如表6。
表6 书写水平高、低两人笔迹的多字稳定度情况表 %
(1)无论是书写水平高者还是书写水平低者,除个别单字外,其单字稳定度总体保持在较高的水平,其中书写水平高者的稳定度要略高于书写水平低者。
(2)虽然在个别单字上没有达到高稳定度,但是随着字数的增加,整体稳定度逐渐趋于平缓,基本保持在相对较高的水平。书写水平低者的总体稳定性在80%周围浮动,书写水平高者的整体稳定性略高于书写水平低者,在84%周围浮动。
5结论
(1)不同人书写的笔迹中,一个单字存在相似度较高的情况,尤其是结构简单、笔画较少的单字,但多个单字的特征总和的相似度逐渐变低。
(2)同一人书写的笔迹中,存在个别单字的稳定度较低的情况,但多个单字的特征总和的稳定度逐渐变高。
(3)有不同人书写单字的相似度高于同一人书写单字的稳定度的情况发生。但随着字数的增多,不同人笔迹的相似度要远低于同一人笔迹的稳定度。
(4)在笔迹鉴定过程中,面对少量字,尤其是笔画较少、结构简单的汉字时,在没有高价值的符合特征的情况下,少量字的同一认定,如果出具明确性意见,存在着错误意见风险。
参考文献
[1]张娟. 相似性在笔迹鉴定中的运用研究[J]. 山西警官高等专科学校学报,2007,15(3):76-78.
[2]唐启明. 量化数据分析:通过社会研究检验想法[M]. 北京:社会科学文献出版社,2012:20-44,184-212.
[3]黄建同,梁立峥,等. 文件的科学检验:方法与技术[M]. 北京:中国人民公安大学出版社,2012:35-44.
[4]贾玉文,邹明理. 中国刑事科学技术大全文件检验[M]. 北京:中国人民公安大学出版社,2002:109-176.
(责任编辑陈小明)
作者简介张云(1963—),女,北京人,高级工程师。研究方向为文件检验。
中图分类号D918.92