王相臣,王帅帅
(中国刑警学院 辽宁沈阳 110035)
笔迹字间距特征量化检验的统计方法
王相臣,王帅帅
(中国刑警学院 辽宁沈阳 110035)
字间距特征是笔迹中可以进行客观测量的一类特征,对字间距特征的比对检验可以转化为双样本均值和方差的一致性检验问题。借助概率论和数理统计中的假设检验和方差分析等方法判断检材与样本的字间距特征是否具有显著性差别,从而实现对字间距特征的量化检验,并通过小样本实验对该方法进行实验研究,经实验分析从10个样本中排除掉7个样本并保留了目标样本,从而证明了该方法的可行性。
笔迹;字间距特征;量化;假设检验
笔迹特征是个人书写技能和书写习惯的表现,是认识个人笔迹特性的客观依据。由于笔迹具有反映性、自身同一性和总体特殊性等特性,目前,笔迹检验鉴定专家主要通过个人经验来分析笔迹特征,进行定性判断,并最终做出鉴定意见。这种检验鉴定方法在鉴定的客观性和科学性上存在一定不足,不同专家会因个人经验和认识上的差别对同一案件的笔迹特征有不同认识,最终可能导致作出的鉴定意见的差异。如何提高笔迹检验鉴定的客观性和科学性也是笔迹检验领域现阶段亟需解决的难题。目前,DNA鉴定技术已经可以较好地使用概率表达其检验鉴定的可信度,其完整的量化体系与技术方法,给整个法庭科学检验带来了革命性的变化[1]。在这种背景下,笔迹的量化检验鉴定受到人们的重视。本文借助计算机软件和数理统计学相关方法,针对笔迹的字间距特征进行量化检验方法研究。在客观精确测量字间距特征数据的基础上对相关数据进行统计分析,有效解决这一特征的量化检验问题。
数理统计中对正态总体的假设检验一般是对总体均值和方差的检验。对于未知来源的两个样本,若分别对其均值和方差的一致性进行检验,并分别得出肯定原假设的结论,则认为两个样本没有显著差异,具有相同的分布规律。由于不同人笔迹的字间距大小在一定范围内保持相对稳定,理论上是符合正态分布的,这一点经过小样本实验得到了证明。因此,对来源未知的笔迹材料的字间距特征进行统计分析,实质上可转化为对检验和样本的假设检验问题 ,即:原假设是否成立。在精确测得检材和样本笔迹字间距数据的基础上进行假设分析,判断两者在一定的显著性水平上是否具有显著性差异。
假设检验中对两正态总体方差的假设检验分为双边检验和单边检验,又根据样本总体均值已知和未知存在不同的检验统计量。刑事技术中极少使用单边检验,常使用双边检验。同时,只有在样本量足够大时,根据中心极限定理可以获得样本总体均值,但实践中很难实现。因此,对于总体均值未知的两正态总体方差的假设检验的检验统计量为:, 其中S=为检材字间距方差,为样本字间距方差,n1为检材字间距数量,n2为样本字间距数量,显著水平为α下双边检验拒绝域W为:
对两正态总体均值的假设检验也分为双边检验和单边检验,又根据样本总体方差已知和未知选择不同的检验统计量。刑事技术中极少使用单边检验,常使用双边检验。同时,也很难拥有足够多样本实现对样本总体方差的估计。因此,对于方差未知且方差相等的两个正态总体的均值常使用T检验法,其检验统计量T为:
当待检样本有多组时,对多个正态总体均值的假设检验,使用上述双样本T检验方法会极大增加工作量,特别是涉及样本间两两比较时,弊端尤为突出。因此当样本量多于两组时,使用方差分析对均值进行一致性检验会更加方便快捷。假设有a组数据用i表示,第i组有个数据用j表示,方差分析的检验统计量Leneve F(和方差的假设检验中的F不同)为:其中为组间离差平方和,为组内离差平方和,总体均值,单样本均值,为第i组的第j个测量值,n为总数据量,在显著水平α下,拒绝域为F≥Fα(a-1,n-a)[3]。
进行假设检验通常按照以下步骤进行:
1.提出原假设。通常原假设表示的内容为“在给定的显著性水平上两个样本所来自的总体不存在显著性差异”,即H0∶μ1=μ2或σ1=σ2,相应的,对应假设即为H0∶μ1≠μ2或σ1≠σ2。
2.选择统计量。根据检验内容选择合适的统计量,若进行方差齐性检验选择F统计量,若检验均值选择T统计量或方差分析。一般先进行方差齐性检验,对方差齐的样本再进行均值检验。
3.计算检验统计量的观测值和概率值。观测值即为根据实际数据和统计量计算方法得到的具体数值,根据对应的概率分布类型确定对应的概率值。
4.给定显著性水平,做出决策。通常进行检验假设选择显著性水平为0.05、0.01或0.001,显著性水平越低,置信度就越高,结果越可靠。
在进行假设分析时,首先对待检检材和样本字间距进行方差齐性检验,当两者满足σ1=σ2时再分析均值是否一致,如果均值检验的结果也接受原假设,则可以认为检材和样本字间距表现一致的分布规律。
依据以上统计学原理,设计模拟实验,并且只从字间距特征的假设检验角度进行统计分析。
组织10名参与者,使用白色标准A4纸和同一品牌、型号的中性笔,全部以纸张为衬垫物进行正常书写,书写内容由21个文字组成,为了保证结果的客观并真实反映书写人的书写特点,要求对书写内容重复书写6遍,每个人的书写内容作为一个样本共10个样本。在10名参与者中随机抽取一人(样本7的书写者),在相同条件下书写相同内容一遍,作为检材。本次实验的目标样本为样本7。
将待测笔迹文件在600dpi分辨率下扫描,首先对扫描图片进行二值化处理,再计算二值化图片中组成每个字的所有像素点的几何中心点作为文字的质心,如图1所示为计算部分文字质心的处理结果,红点为单字质心坐标点,并会输出该点在图片中的精确坐标。以上操作借助MATLAB计算机软件实现。再使用距离公式计算相邻字之间的距离即为相邻字的字间距。
图1 部分字迹质心处理结果
实验样本中每人对书写内容书写了6遍,得到6组数据,每组21个字形成20个字间距数据,将6×20个字间距作为样本数据,同时计算出检材的字间距,部分数据如图2所示。经正态性检验,确认了各组数据均为正态总体的猜想。
1.方差的假设检验过程。首先进行方差齐性检验。假设显著性水平α=0.05,检材和样本的方差齐。检验统计量拒绝域为:W=(F≦0.55∪F≧1.82)。分别计算各个样本与检材的检验统计量观察值f,结果如表1所示:
图2 部分实验数据
表1 检验统计量F值
可以看出样本1、4、5、10的统计量F值在拒绝域内,因此排除原假设H0,认为与检材方差不齐,直接舍去;样本2、3、6、7、8、9的统计量F值在拒绝域外,因此接受原假设,认为这六组样本方差一致。对方差一致的六组样本再进行均值的一致性检验。
2.均值的假设检验过程。假设显著性水平α=0.05,检材和样本的均值一致。方差未知且相等时,均值检验统计量,拒绝域为:W=(∣T∣≥1.974)。 分别计算剩余样本与检材的均值检验统计量观察值T,结果如表2所示:
表2 检验统计量T值
可以看出样本2、6、9与检材的均值检验统计量T值在拒绝域内,因此排除原假设,认为均值不一致。同时,认为样本3、7、8与检材服从相同的正态分布。
除T检验外,使用第二部分中介绍的方差分析的方法进行均值的一致性检验在样本数量较多时更加方便,这里可以借助数据分析处理软件SPSS进行操作。先将数据导入软件内并进行分组,选择单因素方差分析,根据数据分析的需求设置好相关参数。在假设样本方差一致时,常用的分析方法有LSD法和S-N-K法,其中LSD法又叫最小显著性差异法是比较灵敏的方法,会将所有组别的数据都进行比较,S-N-K法是比较稳健的方法,并且可以有效划分相似子集。实验中将两种常用方法都进行选择。
将与检材方差一致的样本数据和检材数据导入SPSS软件内,将检材组别设为0,样本组别设为对应的样本号,设置显著性水平α=0.05,勾选LSD和S-N-K两种方法后,点击确定进行检验。
方差分析的检验结果如表3所示,检验统计量F=340.443,显著性水平sig=0.00<0.05,说明各组之间存在差异。具体的内容如表4和表5所示。表4为LSD法的检验结果,可以看出所有组别的数据两两之间进行了多重比较。第一部分为检材和各样本之间的两两比较,可以看出:平均值左上角带*号的样本3、7、8的显著性sig值均大于0.05,认为均值无显著差异。表5为S-N-K法的检验结果,该方法将不同样本划分为不同的子集,相似度高的样本在同一子集内。结果显示:检材与样本7被划分为一组,同时检材和样本3和样本8也被划分为一组,说明检材和样本3、7、8均值无显著差异,也说明样本3和样本8均值一致,但却与样本7不一致。方差分析和T检验对均值的检验结果一致。
表3 方差分析结果
表4 LSD法检验结果
6 0 5.80283.29800 .000 5.2178 6.3879 2 4.00817.15929 .000 3.6955 4.3209 3 5.59742.15929 .000 5.2847 5.9101 7 6.13767.15929 .000 5.8250 6.4504 8 5.64500.15929 .000 5.3323 5.9577 9 4.66492.15929 .000 4.3522 4.9776 7 LSD 0 -.33483 .29800 .262 -.9199 .2502 2 -2.12950.15929 .000 -2.4422 -1.8168 3 -.54025.15929 .001 -.8530 -.2275 6 -6.13767.15929 .000 -6.4504 -5.8250 8 -.49267.15929 .002 -.8054 -.1800 9 -1.47275.15929 .000 -1.7855 -1.1600 8 0 .15783 .29800 .597 -.4272 .7429 2 -1.63683.15929 .000 -1.9495 -1.3241 3 -.04758 .15929 .765 -.3603 .2651 6 -5.64500.15929 .000 -5.9577 -5.3323 7 .49267.15929 .002 .1800 .8054 9 -.98008.15929 .000 -1.2928 -.6674 9 0 1.13792.29800 .000 .5529 1.7229 2 -.65675.15929 .000 -.9695 -.3440 3 .93250.15929 .000 .6198 1.2452 6 -4.66492.15929 .000 -4.9776 -4.3522 7 1.47275.15929 .000 1.1600 1.7855 8 .98008.15929 .000 .6674 1.2928*.平均值差的显著性水平 0.05。
表5 S-N-K法检验结果
Student-Newman-Keuls多重比較法 12.8233 sig .109 .587 1.000 1.000 1.000 2 120 8.8152 6 120
在上述分析过程中,先对检材和10个待检样本进行方差的一致性检验,在显著性水平α=0.05下,通过计算检验统计量F值及其拒绝域来对比检材和样本方差之间的差异,结果显示在显著性水平α=0.05下,样本2、3、6、7、8、9与检材方差没有显著差异,样本1、4、5、10与检材方差存在显著差异,因此予以排除。再对和检材方差一致的样本进行均值的一致性检验,这里有两种方法:第一种适合双样本之间的两两比较,在显著性水平α=0.05下,通过计算检验统计量T值及其拒绝域来分析检材和样本均值的一致性,结果显示在显著性水平α=0.05下,样本3、7、8与检材均值没有显著差异,样本2、6、9与检材均值存在显著差异,予以排除;第二种方法适合待比对样本数量为多组时使用,借助计算机软件SPSS来进行,设置显著性水平α=0.05及其他参数开始分析,常用的LSD法和S-N-K法分析结果均显示,在显著性水平α=0.05下,样本3、7、8与检材均值没有显著差异,样本2、6、9与检材均值存在显著差异,与第一种方法的检验结果一致。经过整个统计分析可以看出,检材数据和样本3、7、8数据具有相同的分布规律,从而缩小了检验鉴定的范围,其中方差分析中S-N-K法特有的分组功能将检材和目标样本(样本7)单独列为一组,虽直接确定两者来自同一正态总体具有较大风险,但具有一定参考意义。
字间距特征是笔迹特征之一,使用统计学分析方法可以很好的判断检材和样本字间距特征是否具有显著差别。这种笔迹特征的量化方法相对于传统的凭借鉴定人个人经验主观认识笔迹特征具有更加的科学、客观和可靠的优点。本文只研究了笔迹的字间距特征,若对笔迹中其他可测量的特征也使用这种方法进行统计研究,可为笔迹量化检验提供更多的量化依据,从而为全面实现笔迹量化检验鉴定提供更多的统计学方法,这有待于进一步深入的探索研究。
[1]王相臣,胡 鑫.物证检验鉴定的数学原理与方法研究[J].中国刑警学院学报,2016,(3):27.
[2]许伯生,张 颖.概率论与数理统计[M].北京:清华大学出版社,2014:89.
[3]管 宇.实用多元统计分析[M].浙江:浙江大学出版社,2011:35.
A Statistical Method on Quantitative Examination of Word Spacing Feature in Handwriting
WANG Xiang-chen WANG Shuai-shuai
Word spacing feature is one of characteristics which can be measured objectively in handwriting.The comparative testing of double samples on word spacing feature can be converted to the problem of statistics theories with two-sample average and variance testing at the same time.By means of hypothesis test and variance analysis in probability theory and mathematical statistics,the experiment with small samples is made to test whether there is a significant difference between the word space features of two samples.The quantitative examination of handwriting word spacing feature is made.7 samples are excluded from the 10 samples and the target samples are retained.The feasibility of this method is proved by experiments.
handwriting;word spacing feature;quantitative examination;hypothesis test
D918.921 文献标识码:A 文章编号:1674-5612(2017)04-0087-07
(责任编辑:吴良培)
中国刑事警察学院研究生创新能力提升重点项目(2017jkf030)
2017-05-10
王相臣,(1964- ),男,黑龙江哈尔滨人,中国刑事警察学院文件检验技术系主任、教授,研究方向:文件检验;王帅帅,(1992- ),男,河南洛阳人,中国刑事警察学院硕士生,研究方向:文件检验。