指纹鉴定结论概率化表达方式初探

2023-02-21 13:16马荣梁吴春生
刑事技术 2023年1期
关键词:鉴定结论扇区稳定度

马荣梁,刘 寰,吴春生

(1.公安部鉴定中心,北京 100038;2.北京警察学院,北京 102202)

指纹是最传统和最重要的物证之一,是少数可以认定人身的证据之一[1-5]。随着计算机指纹自动识别系统的广泛应用以及我国全国指纹大库的建立及完善,指纹技术在侦查破案及法庭诉讼中发挥重要作用。但随着社会经济的发展及犯罪形态的变化,指纹技术也面临以下的基础性难题,阻碍了指纹技术的进一步发展和应用:

1)现场指纹提取率低,疑难指纹显现方法少[6-23]。指纹受DNA、视频等新型法庭科学技术冲击较大,指纹提取率日益降低,且很多疑难指纹显现仍无很好办法,不可否认的是,指纹等传统物证在刑事技术中的作用逐渐萎缩,甚至绝对破案数量也开始下降。据公安部刑侦局等有关单位统计,原来我国未破现场指纹数据库约有500万枚左右,但经过多年的排查使用,现有的现场指纹数据下降到100万枚左右,且经过多次查询,价值逐渐降低,耗费巨资建立的指纹大库面临着资源枯竭困境。

2)指纹鉴定标准模糊不清。指纹鉴定是以二级特征的数量作为标准的,世界各国指纹认定标准各不相同,如德国8~12个,法国12个,英国长久以来以16个二级特征作为标准,后因标准过于严苛,降到12个二级特征,而后又改为没有最低数量标准[23-27]。其他世界主要国家如中国、美国、加拿大、澳大利亚等都无指纹鉴定的最低数量标准。这样导致指纹鉴定的主观性较强,受鉴定人员的认知影响较大。国际法庭科学鉴定协会(IAI)经过调研认为:指纹鉴定需要最小特征数量是没有必要的。尽管如此,在我国和其他许多国家一般习惯上认为指纹认定需要8个左右的二级特征。但随着大库应用,指纹在亿人以上数据库中比对,很多专家认为8个二级特征也存在着一定风险。当然,如果结合案情及其他证据判断,指纹鉴定8个左右的特征数量标准的传统习惯仍然没有改变。

3)现有指纹鉴定结论不适应法庭科学发展需要。长久以来指纹只有三种鉴定结论:认定、否定、不够鉴定条件[28]。如果认定和否定保持绝对准确,则认定和否定的阈值必然上升到不合理的程度,中间模糊部分必然扩大,导致指纹鉴定效率下降。指纹鉴定的科学性也一直为人们所质疑,上世纪九十年代美国的杜伯特听证会上对指纹的质疑以及2009年美国科学院发表的报告关于指纹的讨论是现代对指纹鉴定影响最大的两次事件,尽管并未动摇指纹作为个体识别证据的地位,但引发了人们对于指纹鉴定科学性的探索。

针对传统的指纹鉴定结论,美国国家标准研究院(NIST)下属的法庭科学研究委员会在现有的三种方式之上增加了两种倾向性的结论表达,提出了“认定、否定、倾向于认定、倾向于否定、不够鉴定条件”的指纹鉴定结论表达方式。同时也有学者开始探索指纹鉴定结论的概率化表达方式:瑞士Champod[29-32]采用似然比方式对指纹鉴定结论进行表达,但其并未得到广泛应用,且其数据是基于数据量在100万人左右的瑞士指纹数据库,数据量较少,是否具有普适意义仍存在争议。国内有专家[33]也对此进行了研究,但指纹统计数据较少,且统计特征不是最为常见的起点、终点、分歧、结合、沟、眼、点、桥、棒等九种特征;此外因在数学模型方法建立上较简单、没有考虑指纹面积等因素,其结论未能得到广泛应用。国际法庭科学鉴定协会也认为,尽管没有实际案例应用,但应该支持关于指纹鉴定结论概率化表述的研究。

鉴于上述问题,本文对海量指纹图像数据进行了统计分析,研究了指纹鉴定结论概率化表达的方式,有望推动指纹鉴定从定性走向定量,也希冀为指纹鉴定提供新的思路与方法。

1 指纹鉴定结论概率化数学拟合模型的建立

1.1 数据集的构建及特征点的定义

1.1.1 指纹图片的筛选

通过国家指纹数据库获取2 000万枚指纹样本(FPT格式),并将指纹信息进行脱密。因为计算机与人眼对指纹图像质量的定义不同,为了更全面地统计指纹各个区域的特征点情况撰写了指纹图像质量筛选专门程序,对指纹数据进行图像质量评判,筛选并去除模糊、残缺以及计算机认为难以识别的指纹,共筛选了1 500万张指纹图片并构建指纹特征点信息数据集。

1.1.2 特征点的定义

在统计指纹特征点分布之前,需要解决的问题是如何对指纹的各种纹型、亚型、指纹的分区以及指纹的各种细节特征进行定义和提取[34]。传统的指纹学知识对于指纹分区和指纹细节特征的定义较为笼统,难以给出清晰、明确的分类标准,例如在指纹细节特征中,点和棒的区别就在于其长度,然而由于指纹捺印时按压的力度不同会使点和棒发生形变,难以设定一个确定的阈值彻底区分点和棒,因此无法通过计算机技术统计指纹的细节特征分布规律,故最终不对指纹特征点进行区分,统一称为指纹特征点。

1.1.3 指纹特征点的提取

对筛选后的1 500万枚指纹样本进行相应特征点信息的提取工作,提取指纹的图像数据和指纹图像数据对应的中心点、副中心、左三角、右三角和细节特征点信息,并对应每一个指纹特征点在指纹图像上的位置。

1.2 基于扇形分区的指纹特征统计方法

1.2.1 指纹纹线区域定位、方向校准及正向提取方法

进行指纹正向提取(如图1a所示,黄线为所需求解的指纹正向),首先需要确定指纹的轮廓。本文采用灰度化处理图像,将图像进行二值化处理及膨胀腐蚀提取指纹边缘轮廓[35]等步骤处理后,建立了一种指纹正向提取方法,其计算步骤如下:

1)先画出中心点距顶点和底点1/2和3/4间距平行线,共四条水平线(分别对应图1b中的两条黄线,两条蓝线)。

2)取两条黄线的中点并连线,得到两个中点连线后的角度A。

3)取两条蓝线的中点并连线,得到中点连线的角度B。

4)计算A与B的均值,作为指纹正向。

5)图1b指纹由于底部有空白指纹轮廓(红色箭头示意处)无法封闭,所以导致无法提取指纹正向(紫色线示意此种情况下计算机确定指纹正向不准确),此指纹就被筛选去除。其他下方没有较大面积空白的指纹,则可以使用并确定指纹正向。

图1 指纹正向(a)及指纹轮廓示意图(b)Fig.1 Schematic for a fingerprint to mark with the forward direction (a) and outline (b)

1.2.2 三参量扇区特征统计方法

统计指纹各个区域特征点分布情况的方案,主要有方形分区和扇形分区两种思路。由于指纹捺印位置差异和指纹捺印经常存在一定角度倾斜的实际情况,最终选择了以指纹中心点为圆心,以固定步长为半径对指纹进行扇形分区的方案。由扇区的半径步长、角度分度值和扇区内部的特征组成的三参量扇区特征统计方法如下:

1)以指纹的中心点为圆心,以r像素为起始半径,r×n像素为终止半径(n为圈数),r像素为半径步长画圆。

2)以指纹的中心点为端点,沿指纹正向作射线。

3)以指纹的中心点为端点,以步骤2)所得射线为起始,每隔θ度作射线。由射线和圆围成的每一个区域,即为一个分区。

4)统计每一个分区中特征点数量作为表征该枚指纹的特征。

通过大量的分析和比较,综合考虑指纹形状、指纹特征点分布、纹线流向等方面,以及扇区面积和计算量等因素,最终确立了步长为25像素,角度偏置为30°的扇区划分方案,以中心为起始点,按逆时针方向由里向外编号逐渐升高,将每幅指纹图像编为264个扇区(一般外侧几圈扇区指纹纹线已经很少甚至没有纹线,在实际工作上几乎用不到),该扇区特征统计方法效果图见图2。

图2 扇区特征点的可视化结果Fig.2 Visualization of fingerprint features in the fan-shaped sectors

1.2.3 各扇区的指纹特征统计方法

统计各个扇区的特征点数量,后期进行特征拟合,步骤如图3所示。

图3 统计扇区特征点数量的步骤Fig.3 Steps to calculate the quantity of fingerprint features in the fan-shaped areas

1.2.4 扇区内部的特征数量统计结果

利用直方图统计方法,初步获取各个扇区内部的特征分布情况,图4展示的是四种纹型在第105扇区(随机选取)内部特征点数量的直方图统计结果,其中横坐标表示具体的特征点数量,纵坐标表示该特征点数量所占的比例。可以看出,四种纹型在第105扇区内部的特征点数量情况有着一定的区别。

图4 第105扇区内部特征点数量分布情况(a:弓型纹右拇指;b:左箕型右拇指;c:右箕型右拇指;d:斗型纹右拇指)Fig.4 Quantity and distribution of the fingerprint features in the No. 105 fan-shaped area of a right thumb (a: arch; b/c: left-/right-lopsided loop; d: whorls)

1.2.5 扇区内部的特征角度统计结果

将统计的所有纹型按其特征点角度的不同分成八个区间,区间宽度为45°,分别统计4种纹型位于这八个45°角度区间的特征点数量,并绘制直方图,统计特征点的角度特征,如图5所示。

图5 四种纹型在八个角度区间的特征点数量分布情况(a:弓型纹;b:左箕型纹;c:右箕型纹;d:斗型纹)Fig.5 Quantity and distribution of the fingerprint features in eight angular areas about four types of fingerprint (a: arch; b/c: left-/rightlopsided loop; d: whorls)

1.3 特征分布的拟合

完成数据库中指纹特征情况的统计后需要拟合各个扇区内部的特征分布情况,因考虑到所统计的样本指纹数据集的有限性(如弓形纹较少等),可能会导致一些特征未被统计到,并且为了更精确地表述扇区内部特征的出现概率,决定使用非参数估计的方法[36]——高斯混合模型[37-39],即根据已有的观测数据拟合出各个扇区内部特征的概率密度函数,拟合模型建立的流程如图6所示。

图6 建立拟合模型流程图Fig.6 Flow chart for the Mathematic model to establish

为更加精确地拟合各个扇区内部的特征点数量情况,将离散型的特征点数量分布拟合成连续性的特征点数量分布,最终选择使用较为典型的高斯混合模型拟合扇区内部特征的分布,同时针对高斯混合模型的不足,如数据过于分散或过于集中的情形,引入贝叶斯信息准则和添加高斯噪声来进行修正。

首先针对机器学习中经常出现的过拟合现象,通过加入模型复杂度作为惩罚项来减轻模型的过拟合程度,这里选择使用贝叶斯信息准则(Bayesian information criterion,BIC)[40]:

其中,k为模型参数个数,n为样本数量,L为似然函数。kln(n)惩罚项在维数过大且训练样本数据相对较少的情况下,可以有效避免出现维度灾难现象。

其次在统计的特征数据中引入相应的噪声,填补整数之间的空白,使得特征数据“连续”起来。这里试验了两种类型的噪声,均匀分布的噪声和高斯分布的噪声,通过对比认为高斯噪声更加适合高斯混合模型的拟合。

1.4 特征点稳定度的相似概率计算方法的研究

1.4.1 指纹特征点稳定度介绍

考虑到现场指纹特征与十指样本指纹特征之间特征点匹配的稳定性,引入每一对标注的匹配特征点的稳定度,其中,特征点稳定度的值可由标注匹配特征点的专家通过判断现场指纹与样本指纹之间匹配特征点的清晰程度、指纹变形程度等因素量化给出具体数值,设定特征点稳定度取[0, 3]之间的整数值,其含义如表1所示。

表1 指纹特征稳定度及其含义Table 1 Fingerprint feature stability and implication

1.4.2 现场指纹中心点、参考方向及特征点位置的确定方法

在比对现场指纹与十指样本指纹的特征时,理想的情况是需要确定现场指纹的中心点和参考方向,以此为基础对现场指纹进行扇形区域划分,但现场指纹的纹线区域往往残缺不全,不能确定其中心点和参考方向,为此本文提出了将现场指纹纹线区域“移植”至对应的样本指纹纹线区域中的方法,该方法基于以下假设:在指纹鉴定专家标注现场指纹与对应的十指样本指纹特征时,假定现场指纹的特征与十指指纹特征匹配,否则不会标注指纹特征。在此假设基础上专家标注现场指纹与十指样本指纹的匹配特征点和差异特征点,并以此判断指纹的鉴定结果。基于此,该方法不再对现场指纹划分扇区。

1.4.3 不存在指纹差异特征点的指纹相似概率的计算方法

1)首先对需要比对的现场指纹和样本指纹进行特征点标注,并在十指指纹上进行扇区的绘制,将现场指纹的特征点“移植”到十指指纹相应的位置,生成相应的特征点信息文件。

2)统计现场指纹与十指指纹各个扇区内部的特征情况。

3)计算将要对比的指纹各个扇区内部特征出现的概率。

4)综合考虑扇区内部特征点数量以及特征点稳定度,对3)中得到的各个扇区内部特征出现概率进行修正。

5)将各个扇区的概率相乘,得到该指纹出现的概率:

其中,i是指纹扇区的编号,表示存在特征点的第i个扇区,num为存在特征点的扇区个数,Pi为3)中计算出来的第i个扇区内部特征出现的概率,ni为第i个扇区内部的特征点个数,Si为专家标注的第i个扇区内特征点稳定度的均值。

6)最后得到该指纹出现的概率P0,而指纹同一的概率应该与其出现的概率成反比,故设置指纹同一的概率为:P1=1-P0。

上述5)中计算第j个扇区内部特征点数量出现概率的步骤为:

a)利用之前所拟合的各个扇区的特征分布以及其特征统计情况,得到目标指纹(即实际工作中的现场指纹)中第j个扇区内部的特征点数量在其第i个相邻扇区内出现的概率Pi:

式中ρi表示第i个扇区内部特征的概率密度函数,使用的积分区间是[N-0.5,N+0,5],其中N为第j个扇区的特征点数量,而hi表示第j个扇区内部特征点数量在第i个扇区中出现的频率。

b)得到第j个扇区内部特征点的重心,计算这个重心与其相邻扇区(包含所需计算的第j个扇区)中心点的距离,根据这个距离对相应扇区进行权重计算(权重的大小与其距离成反比),所有权重的和为1。

c)根据b)中设置的相邻扇区(包含所要计算的第j个扇区)的权重,对该特征点数量出现在其他扇区的概率进行一个加权求和:

其中,nnum指相邻扇区的个数,wi为第i个相邻扇区的权重(包含所要计算的第j个扇区),Qj为调整后第j个扇区内部特征点数量出现的概率。

1.4.4 存在指纹差异特征点的指纹相似概率计算方法

1)首先根据目标指纹识别不存在差异点的扇区,利用不存在差异点情况下的方法计算这些扇区的相似概率P1。

2)差异点是存在于某个(或某些)扇区中的,假设为扇区A中,通过计算存在差异点的两个扇区内部特征相似概率的方法去计算这对指纹在扇区A的相似概率。

3)综合考虑稳定度、特征点数量等信息,根据公式计算后生成十指指纹与现场指纹之间的相似度。计算公式为:

式中dnum为含有差异点的扇区数,P1为匹配的扇区计算出来的相似概率,λi表示第j个扇区内部的差异点稳定度集合,P为考虑差异点后的指纹相似概率。

上述2)中计算存在差异点的两个扇区的特征相似概率方法步骤如下:

a)在需要比对的两个指纹的所有扇区中,得到存在差异点的相应扇区的特征点数量A和B。

b)根据相似度统计高斯混合模型拟合文件的概率密度函数,在区间[A, B]进行积分,得到相应的概率Pv。

c)同样,使用相似度统计高斯混合模型拟合文件和利用直方图形式存储的统计分布文件中的概率分布计算特征点数量A与特征点数量B出现的概率,并计算它们的均值p。

d)将步骤b)和c)中得到的1-Pv和p相乘,然后接收专家输入的稳定度,根据稳定度对相乘后的相似概率进行微调,从而得到了调整后的相似概率,便得到了同一分布下两个数值之间的相似性。

2 结果及讨论

2.1 模型验证

采用上述数学拟合模型对多个指纹对进行计算,图7为其中三个指纹对。

图7 指纹对(上:现场指纹;下:捺印指纹)Fig.7 Fingerprint pairs for matching (Above: the latent fingerprints; Below: the impressed one)

图7a中指纹一共有9对匹配点,稳定度均为3,根据算法得出这对指纹的匹配特征的相似概率为99.998 698 846 39%,表示有100%-99.998 698 846 39%≈0.0013%的概率找到与其特征点分布相同的指纹,也就是说在一百万枚指纹中可能会找到约13枚指纹与这对指纹的特征点分布相同;图7b中指纹共有4对匹配点,稳定度均为3,匹配特征的相似概率为99.025 299 187 212 667 106 91%;图7c中指纹共有5对匹配点,稳定度均为3,匹配特征的相似概率为99.573 488 126 617 775 151 32%。

2.2 结果讨论

算法通过利用高斯混合模型拟合1 500万个指纹扇区内部特征的分布,并充分考虑拟合出的特征分布、扇区内部特征点数量情况、特征点的稳定度以及其相邻扇区内部特征分布情况计算指纹特征匹配的相似概率。其所计算出的相似概率与指纹匹配特征点的数量、特征点的稳定度成正相关,与扇区内部特征出现的概率成负相关。

值得注意的是,指纹匹配特征点的稳定度仍然是由人工审视确定,理论上存在着一定的误差,但此划分方法避免了将不稳定的匹配指纹特征点认定为稳定匹配特征点的弊端,实际上减小了计算误差。且此误差可以通过由经验丰富的专家决定或多人讨论来控制,将来也可通过改进软件进一步细分稳定度来减小。

由上述例子可以看出,本算法建立的数学拟合模型能够在一定程度上从统计学的角度去表征指纹匹配特征相似的概率。在此研究基础上已开发出“指纹鉴定结论概率化表达应用平台”,在公安网上线,供全国公安机关指纹鉴定人员免费使用。

2.3 指纹鉴定结论概率化表述方式的重要意义

据不完全统计,近年来我国每年案件现场为400多万起,其中非接触案件(即新型电信诈骗案件)占到1半左右。根据经验估计,案件现场采集的指纹可能有一半左右不足8个二级特征,其中大量的具有5~7个特征点的指纹,甚至仅有3、4个特征点但特征具有较高的价值的指纹,都具有很高的侦查及鉴定价值。这些指纹初步测算每年在数万枚以上,但在现有的条件下一般难以认定。在这种情况下,如能采用概率化的表达方式出具鉴定意见,就可盘活大量“无用”的指纹,使其更好地发挥本应具有的作用。同时,指纹工作者可以避免对条件不足指纹必须给出“是或否”的简单结论,而在统计学意义对指纹证据进行价值评估与科学判断。

3 发展前景与展望

3.1 继续完善数学拟合模型

自指纹应用到法庭科学领域以来,指纹鉴定结论概率化表达方式的探索一直是世界性的难题。在这个拟合模型的建立过程中,目前主要考虑到特征数量、在不同纹型及指纹不同部位的分布以及特殊特征组合等因素,在后续的研究中,应考虑到其他更多因素(如纹线流向等),进一步完善数学拟合模型,并在实际办案工作中应用。

3.2 推动指纹鉴定结论概率化表达方式进入标准及立法

随着技术及法治的进一步发展,鉴定结论的概率化表述方式有可能进入指纹鉴定标准,特别是对某些具有很高的鉴定价值、但习惯上又不足以鉴定的指纹;或对某些疑难和具有争议的指纹,概率化的结论表达方式是一种可能的解决方式;随着人们认识的提高以及技术和模型的发展,指纹鉴定概率化表达方式有可能通过建立标准甚至法律法规进一步完善。

3.3 结合其他法庭科学证据对犯罪嫌疑人进行认定

犯罪现场证据并不仅仅是指纹存在不足以认定的情况,其他证据也存在类似情形。如犯罪现场的DNA的不完全分型,人体微生物、蛋白质组证据、手印中遗留的特殊物质(如药物代谢产物、毒品、爆炸残留物)、微量物证等,这些物证在某种程度上都可以概率形势表现出来。单个证据不能认定犯罪嫌疑人,但多个证据可以达到极高概率的认定,这也是法庭科学从定性走向定量发展的大趋势。

猜你喜欢
鉴定结论扇区稳定度
分阶段调整增加扇区通行能力策略
高稳晶振短期频率稳定度的仿真分析
当事人如何申请鉴定?
U盘故障排除经验谈
基于贝叶斯估计的短时空域扇区交通流量预测
多MOSFET并联均流的高稳定度恒流源研究
对复查鉴定结论不服提出再申请工伤医疗补助金的计发标准如何确定
重建分区表与FAT32_DBR研究与实现
工艺参数对橡胶球铰径向刚度稳定度的影响
旱涝不稳定度的定量化研究及应用