王 东,张建功,汤澄清
(中国刑事警察学院,辽宁 沈阳 110854)
足迹是犯罪现场出现率和提取率都比较高的痕迹物证[1],是进行人身同一认定的重要证据之一,在物证技术与侦查破案中具有不可替代的作用和意义。因此,通过选取足迹进行性别分析更具有统计学意义的特征,针对犯罪现场遗留足迹的性别进行研究是非常必要的。
在相关方面研究中,Jaydip Sen 等[2]使用足部指数(Foot Index)作为性别预测特征,提出了针对北孟加拉邦人群预测性别的方法,结合足长、足宽,使用多元回归模型取得了最高84%的性别预测准确率。Jubilant Kwame Abledu 等[3]尝试验证足迹特征在加纳人群中性别预测的可靠性,提出了采用足迹长度特征进行性别预测的方法,从足迹中提取7 个长度特征,包括每个脚趾前点到后跟中点长度、足跖宽度和足跟宽度,使用判别函数分析,性别预测准确率为69.8%~80.3%。姬瑞军等[4]使用足迹长、足迹掌宽和足迹跟宽作为性别预测特征,通过Logistic 线性回归建立左足、右足的性别预测模型,分别取得了左足88.8%和右足90.0%的预测准确率。
本文将成年人脚型性别差异应用在足迹检验领域,选取足迹的第一跖足长、第五跖足长、内足弓长、外足弓长、足弓轮廓内凹最深点垂直足跟长、足跖宽以及足跟宽共7 个几何特征,利用多元统计分析方法,通过SPSS 软件建立Fisher 判别函数模型,从量化特征方面入手解决公安领域足迹分析性别的难题。
本实验随机选取中国刑事警察学院的400 名本科生,年龄在18~22 岁之间,其中男性和女性各200 名,所有参与者均无足部病史。
参与者清洁双脚后,使用最小的压力将足底踩在油墨垫上,然后将沾有油墨的脚转移到平坦A4纸上,直立且双脚稍微分开,分别收集左足、右足清晰的油墨捺印足迹。
2.1.1 选取足迹特征
洪友廉等[5]采用三维视频解析和人工测量的方法,测量人体脚型共25 个指标,从能反映出足迹特征的长度变量上来看,结果显示男性和女性在内足背长、外足背长、足宽和后跟宽方面有明显的性别差异。李育奇等[6]利用三维足型扫描仪采集足弓数据,结果指出,不同性别在足弓长、足弓轮廓内凹位置、足弓高、舟状骨位置比例有显著差异。根据以上脚型性别差异研究,结合足迹检验技术,本文选取出足迹上用于分析性别的7 个几何特征:第一跖足长FL1、第五跖足长FL2、足弓轮廓内凹最深点垂直足跟长FL3、内足弓长AL1、外足弓长AL2、足跖宽FB 以及足跟宽FHB。
2.1.2 测量足迹特征
结合Krishan[7]和史力民等[8]的方法,确定足迹中心线和垂直于足迹中心线的后跟切线为测量基线。采用传统方法对实验捺印的赤足油墨足迹进行测量,为了便于统计分析,规定左足几何特征测量值 以LFL1、LFL2、LFL3、LAL1、LAL2、LFB、LFHB 命名,同理右足几何特征测量值以RFL1、RFL2、RFL3、RAL1、RAL2、RFB、RFHB 命名。足迹特征测量方式见图1。将所有数据输入到Excel表格中,方便后期对数据进行处理。
图1 足迹特征测量
本实验使用SPSS 25.0 软件进行分析。使用配对样本T 检验比较左足、右足足迹特征间是否存在显著性差异,是否需要建立左足、右足不同的性别预测函数;再通过组平均值同等检验,考察特征对判别模型的贡献程度;考虑Person 相关性,检验变量特征间是否存在多重共线性;用Fisher 判别分析建立判别函数模型,最后采用自身验证法对样本数据进行检验,考察判别函数模型的性别预测能力。
判别分析(Discriminant Analysis,DA)又称分辨法,是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计方法。在农业、医学以及金融问题中有着广泛的应用。
Fisher 判别分析是对数据降维处理的一种判别分析方法。核心思想是将N 维空间中的点投影到低维空间中,在低维空间中设法找出一个最合适的投影方向,使得在该方向上样本的投影能尽量分开,同类样本尽可能地紧凑,异类样本尽可能地分散,Fisher 判别分析原理示意见图2。
图2 Fisher 判别分析原理示意图
为了比较左足、右足间变量是否存在显著性差异,是否需要分别建立左足、右足性别判别函数,需要对14 个测量值分成7 组进行配对样本T 检验。表1 为配对样本T 检验结果。由表1 可知,在第一跖足长FL1、内足弓长AL1 和足跖宽FB 上,男性和女性均是左足更大;而在第五跖足长FL2 和足弓轮廓内凹最深点垂直足跟长FL3 上,无论男性还是女性均是右足更大;但是在外足弓长AL2 上,男性的左足比右足更小,而女性的右足比左足更小;相反的,在足跟宽FHB 上,男性的左足比右足更大,而女性的右足比左足更大。在显著性水平α=0.05的水平上,在男性中,FL1、FL2、AL2、FB 在左足、右足上有显著差异,而其他测量值差异均不显著;在女性中,FL2、RFHB 在左足、右足上有显著差异,其他测量值P 值均大于0.05 并不显著。因此,不需要分别建立用于性别预测的左足、右足的Fisher 判别函数模型,以下分析结果均以右足特征为例进行说明。
表1 配对样品T 检验结果
为了实现对未知样本的预测,在构建Fisher 判别模型前,使用组平均值同等检验,考察变量对判别模型的贡献程度。显著性(Sig)和威尔克Lambda(Wilks’Lambda)是评价分组变量的标准。如果Sig 值较小(Sig<0.05),则表明组间差异较为显著;如果Sig 值较大(Sig>0.05),则表示组间差异不显著。组内平方和与总平方和的比值为威尔克Lambda,其值的范围在0~1 之间,值越小,表示组内有很大差异;值接近1,表示没有组内差异。
表2 为变量间组平均值的同等检验。
表2 变量间组平均值的同等检验
从表2 中可以看出,7 个变量的威尔克Lambda值在0.33~0.75 之间,表示这些变量组内差异很大,对判别模型影响显著;显著性(Sig)值均为0,也可以表明这些变量对判别模型影响的显著性极高,通过这些变量能很好地解释各样本的分类。因此,使用这些变量来构建的Fisher 判别模型能更准确地预测未知样本的性别。
严格意义上来说,当相关性系数大于0.8,就表明变量间存在多重共线性,而多重共线性会对Fisher 判别分析产生一定的影响。
表3 为变量间的相关性。从表3 中可以看到,在变量间第一跖足长FL1 与第五跖足长FL2 和内足弓长AL1 的相关性系数为0.934 和0.924,第五跖足长FL2 与内足弓长AL1 和外足弓长AL2 的相关性系数为0.860 和0.866,可以认为变量FL1 与FL2和AL1 之间、FL2 与AL1 和AL2 之间均存在多重共线性。其余变量之间的相关性系数均小于0.8,因此其他变量间不存在多重共线性。
表3 变量间的相关性
本文研究目的在于通过Fisher 判别分析建立函数模型来预测未知样本性别,最终在于判别模型的预测能力高低。虽然多重共线性导致系数估计方差变大,但是预测能力不会降低,且相关性系数并没有达到完全相关(即相关性系数等于1),因此可以使用上述7 个几何特征作为变量来构建Fisher 判别模型。
3.4.1 典则判别函数
表4 为典则判别函数系数。
表4 变量间的相关性
从表4 的典则判别函数系数可知,典则判别函数为
表5 和表6 是典则判别函数摘要,从中可知,典则判别函数Y1的特征值为2.608,典型相关系数为0.85,特征值分析中方差百分比为100%,表明该函数能完全解释已知样本的性别信息。威尔克Lambda 值为0.277,显著性(Sig)值为0 小于0.05,可以推断出该判别函数具有统计学意义,可以显著区分样本的性别。
表5 典则判别函数特征值
表6 典则判别函数显著性检验结果
表7 为男性和女性的组质心坐标,男性的组质心坐标为1.611,女性的组质心坐标为-1.611。通过典则判别函数预测样本性别时,将样本数据输入典则判别函数中,得到的函数坐标离男性的组质心坐标更近,表示样本的性别为男性;同理,离女性的组质心坐标更近,表示样本的性别为女性。
表7 男性和女性的组质心坐标
3.4.2 Fisher 线性判别函数
不同于典则判别函数需要代入样本数据求出样本坐标后比较与两质心间的距离来预测性别,Fisher 线性判别函数针对各类别都有一个函数,进行判别时将样本数据输入到各个函数模型中,比较函数值大小,样本的类别对应函数值最大的判别函数。表8 为Fisher 线性判别函数系数。
表8 Fisher 线性判别函数系数
由表8 可知,男性的Fisher 线性判别函数为
女性的Fisher 线性判别函数为
将样本数据中对应的特征变量输入到两个函数模型中,比较函数值大小,如果男性的函数值更大,说明样本的性别为男性;反之,样本的性别就是女性。
采用自身验证法,对Fisher 线性判别函数进行检验,考察其判别效果,最终的性别预测正确率为92.3%。判别分析结果见表9。
表9 判别分析结果单位:名
本研究结合了脚型性别差异相关方面的研究,从几何特征的角度入手,选取了第一跖足长FL1、第五跖足长FL2、足弓轮廓内凹最深点垂直足跟长FL3、内足弓长AL1、外足弓长AL2、足跖宽FB 以及足跟宽FHB 共7 个在性别分析上具有统计学意义的特征。采用Fisher 判别分析,建立了一种通过函数预测性别的方法。
本实验结果中,性别预测准确率达到90%以上,与传统利用足迹进行性别分析相比较,在一定程度上提高了足迹预测性别的准确性。将其他跟足型、足迹有关的研究与足迹检验领域相结合,丰富了利用足迹进行性别预测的方法。在办案实践中,可以根据现场足迹,利用上述建立的Fisher 判别模型来预测犯罪嫌疑人的性别,为技术侦查办案提供帮助。