李 康,罗亚平
(1.中国人民公安大学,北京 100038; 2.浙江警察学院,浙江 杭州 310053)
指纹因其“人各不同和终生基本不变”的特性,在法庭科学领域具有很高的地位,在侦查破案及司法审判中发挥着重要的作用。 自1901 年英国伦敦警察厅正式采用指纹鉴定作为识别罪犯的方法以来,指纹技术已成为世界各国警察部门识别人们身份的主要手段[1]。 随着我国以审判为中心的诉讼制度改革对证据科学性的要求越来越高,不仅要求检验方法和鉴定过程的科学性和透明性,并且强调鉴定结果的客观性和可重复性,以及愈发强调证据强度能够量化表达,避免鉴定意见中采用“认定”“否定”和“无法得出结论”这类绝对性的表述方式。 为了提高指纹证据的利用价值,促进指纹证据评价方法从经验走向科学,避免指纹错案的发生,构建科学的指纹证据评价体系显得尤为必要,这将不仅有助于提高我国指纹鉴定的基础研究水平,确保指纹鉴定意见的准确性与可靠性,而且对提高司法公信力和促进社会公平正义也具有重大的理论价值和现实意义。
1972 年,HUBER[2]首次将“分析(analysis)、比较(comparision)与评估(evaluation)”三个步骤作为鉴定程序方法应用到痕迹鉴定活动中,此后ASHBAUGH[3]提出将核实(verification)阶段加入到指纹鉴定程序中,形成指纹鉴定的评价方法(analysis, comparison,evaluation and verification,ACE-V)。其中:分析阶段是指对指纹特征进行可靠性评估,考虑了现场指纹因压力、变形、接触介质和显现技术带来的变化;比较阶段是指对现场指纹与样本指纹的特征进行比较;评估阶段由鉴定人根据比较阶段的观察结果进行推理并决策,可能的鉴定结果有“认定”“否定”“无法得出结论”三种形式;核实阶段包括对前三个阶段的同行评审[4]。
相比之下,我国指纹证据评价或指纹鉴定的方法与国外“ACE-V”的鉴定方法在本质上具有异曲同工之处。 自新中国成立以来,在我国指纹鉴定理论与实践中,将“同一认定”作为理论基础,程序方法上遵从“分别检验、比对检验、综合评判、作出鉴定意见”四个阶段,与“ACE-V”程序在理论方法和实际操作中均表现出高度相似性,但也因各国司法制度的不同而略有差异[5]。 国内外指纹证据鉴定及评价方法一直被用于各类司法活动过程中,在认定犯罪嫌疑人和诉讼活动中发挥了很大的作用。
对指纹证据评价过程及鉴定意见科学性造成影响的主要因素是现场指纹的质量和鉴定人的主观认知能力。 其中:现场指纹质量与作案人在犯罪现场的活动有关,即与造痕客体、承痕客体、中介物质、作用方式和显现提取方法有关,主要表现为残缺、模糊、变形和重叠等;鉴定人的主观认知能力除了对可能存在的残缺、模糊、变形和重叠等因素进行考量外,还包括对指纹的纹型种类、区域位置、特征点的数量和质量(空间位置关系)的分析判断[6]。
传统的指纹证据评价方法不能有效记录指纹证据评价的全过程,以充分展示鉴定人在鉴定评价过程中对指纹的认知能力。 ULERY 等[7]通过“黑箱”实验对指纹鉴定人作出鉴定意见所使用方法的可重复性进行了分析,增强了鉴定过程的可控性。 ANTHONIOZ 等[8]从控制论、认知学、概率和统计的角度来研究指纹鉴定,运用“白箱”理论来弥补“黑箱”理论的不足,对鉴定人的主观认知和判断进行全流程追踪,对影响指纹鉴定质量的变量进行量化并建模,增强了指纹鉴定评价方法的科学性。
一般来说,指纹证据评价的鉴定意见遵循洛卡德关于指纹鉴定的“三重性规则”,分别是:(1)当现场指纹和样本指纹有超过12 个高质量细节特征点相吻合时,就可以作出同一认定的结论;(2)如果是8~12 个细节特征点相吻合时,要作出鉴定结论就要依靠诸如指纹图像质量的好坏、纹型是否稀有、中心和三角是否存在、汗孔和细点线是否清晰等更多的信息来决定;(3)如果细节特征点相吻合的数量有限,则无法提供作出鉴定结论的确定性,只能假设强度与细节数量成正相关关系[9]。 “三重性规则”可以被视为一个概率框架,对于规则(1)和规则(2)的成功应用可以说成是现场指纹和样本指纹来源同一的概率为100%,而规则(3)有一个概率范围,为0~100%。有些国家在“ACE -V”框架内仅采纳规则(1)对指纹细节特征点的数量来设定数字标准,也有些国家(如澳大利亚、英国和美国)则采用规则(1)~(3)的整体方法,没有规定严格的特征点数量的数字标准[10]。但是,目前指纹鉴定大多仅限于确定性100%的结论,忽略了规则(3)的概率结果。
指纹细节特征的数量对指纹鉴定有很大的影响,早期世界各地指纹证据的评价基本上都是以数量为标准,后来发现纯粹的数量标准不符合指纹证据的科学要求,因而多数国家逐渐取消了唯数量论的评价标准,我国也没有统一的数量标准。 大多数国家都认可指纹鉴定在有一定数量细节特征的基础上,也要结合细节特征的质量进行综合评判。 指纹细节特征的质量主要是指每个细节特征点的位置和方向,以及不同细节特征点之间的空间位置关系。 在指纹鉴定过程中,必须要将特征点数量及其在特定区域内的空间位置关系结合起来。 数量-质量标准在指纹鉴定领域得到了广泛的应用,也取得了较好的效果。 在实际工作中,还存在着具有细节特征组合形态高度相似但又来源于不同个体的相似异源指纹[11]。随着指纹数据库的不断扩大,尤其是千万人级以上数据库的建立,相似异源指纹的发现率会越来越高,那么确定性的鉴定意见就会存在较大的局限性,也容易造成错误鉴定的发生。
指纹鉴定错案的逐渐曝光始于1993 年的美国多伯特(Daubert)案,案后美国最高法院概述了关于指纹鉴定意见可接受性的标准,认为指纹科学有效方法的标准应当能够回答以下5 个问题:(1)指纹鉴定技术与方法是否得到了证实;(2)指纹鉴定出错率是否确定;(3)是否有客观标准控制检验过程;(4)所运用的技术或方法是否接受过同行评议或公开发表;(5)是否得到了普遍接受[12-13]。 2007 年,巴尔的摩巡回法院大法官Susan M Sonder 在一起死刑案件中拒绝认可指纹证据,认为指纹鉴定过程和结论声称绝对可靠是不科学的,而是主观的、未经测试的、无法核实的检验程序。 随后在学界和法律实务界展开了激烈的讨论,讨论的内容主要集中在以下三个方面:(1)鉴定人在使用“ACE -V”框架进行决策时对不同阶段的理解有偏差;(2)指纹鉴定的理论基础是没有根据和不可证伪的;(3)鉴定意见的绝对性表述是不科学的[14-16]。
随着此类因指纹鉴定错误而导致的司法错案屡屡曝光,指纹证据评价方法的科学有效性逐渐受到有关部门和专家的关注,进而使得指纹作为证据在司法活动中也饱受争议,严重影响了其使用效力。2004 年,美国联邦调查局的3 位资深指纹鉴定专家在对西班牙马德里恐怖爆炸案中发现的检材指纹进行鉴定时,通过自动指纹识别系统(automatic fingerprint identification system,AFIS)查询比对,错误地将候选队列中排列在第四位的指纹与现场指纹认定为同一,该指纹鉴定错案引发了全球法庭科学成员的关注与讨论[17],指纹证据的科学性因此案而饱受质疑。 产生司法错案的很重要的一个原因就是指纹证据评价没有一个科学可靠且能够得到法庭科学界一致认可的科学体系。
2009 年,《美国法庭科学的加强之路》(Strengthening Forensic Science in the United States: A Path Forward)报告指出,除DNA 外,包括指纹在内的其他法庭科学的方法都缺乏科学有效性,认为指纹鉴定是基于主观经验而得出的结论,其可靠性和准确性均有待量化[18]。 2016 年,美国总统科技顾问委员会发布的《刑事司法中的法庭科学:确保特征比对方法的科学有效性》(Forensic Science in Criminal Courts:Ensuring Scientific Validity of Feature-Comparison Methods)报告指出,指纹鉴定基本上具有正确有效性,但仍需建立应用有效性。 近年来,法庭科学共同体呼吁和倡导将主观经验性较强的法庭科学定性分析方法转变为客观科学的定量分析方法[19]。此后,各国指纹研究人员更加关注和倡导将主观经验性较强的定性分析方法转变为客观科学的定量分析方法[20]。相比之下,我国在指纹证据科学评价方面的基础研究落后于国际先进水平, 科研投入严重不足。 为适应以审判为中心的诉讼制度对证据科学性的要求,促进指纹证据评价方法从经验走向科学,将已有的人工经验鉴定科学化、理论化和体系化,开展指纹个体识别证据的基础研究,构建科学的指纹证据统计学模型评价体系迫在眉睫。
近年来,我国公安机关在办理刑事案件中利用指纹证据破案年均11 万起左右,但在案件中的有效利用价值并不高。 我国勘查各类案件年均400 万起左右,现场指纹提取率约为10%,即每年提取约40 万枚现场指纹,但只有10 万枚现场指纹发挥了其应有的证据作用,其余30 万枚现场指纹由于诸多原因丧失了其应有的证据价值。
指纹鉴定是一种主观分析方法,依赖于指纹鉴定人的主观判断,但是主观分析方法易受现场指纹质量和鉴定人主观认知能力的影响。 指纹鉴定错误的发生和国外诸多研究机构不信任的主要原因就在于缺乏科学的指纹证据评价体系,鉴定人往往依据个人的主观经验来评断,有时会导致错误认定结论。 尤其是在大数据时代背景下,我国公安机关指纹自动识别系统存储十指指纹总量已达1.5 亿余人份,二指指纹数据5.3 亿余人份,多个省级公安机关指纹自动识别系统的数据存储量已超过1 000 万人份[21],千万级指纹数据库中很可能出现一些指纹存在局部形态的吻合,会不同程度的影响鉴定人的认知,从而增加错误认定的风险[22]。
对影响指纹鉴定的因素进行科学有效性评估,建立科学的指纹证据评价体系,是解决指纹证据价值最大化与指纹鉴定科学性问题的关键。 近年来,法庭科学界理念发生很大转变,越来越多的人和机构支持统计学模型在指纹鉴定中的运用,国际鉴定协会已取消了在鉴定意见中禁止出现“概率”“可能”等类似语言的规定,转而支持使用科学有效的统计学模型帮助专家进行指纹鉴定评估[23]。 此外,欧洲法庭科学研究机构联盟也提倡使用统计学模型[24],并且论述了基于统计学模型的指纹鉴定概率评价体系比传统的特征数量标准更具有科学性,认为基于统计学模型的评价体系可以准确地描述模型是基于使用何种特征、数据、假设和建模步骤,而不仅仅是基于鉴定人的经验[25]。
随着世界各国越来越支持运用统计学模型来评价指纹证据,构建科学的指纹证据量化评价体系,已成为指纹鉴定理论发展的必然趋势。 随着各种统计学模型在证据评价中的运用和发展,越来越多的法庭科学家、法庭统计学家和法律工作者认为基于似然比(likelihood ratio,LR)方法的统计学模型是评价法庭证据最正确和最符合逻辑的范式之一[26-30]。LR 是用来衡量证据鲁棒性的一种基于贝叶斯理论的统计方法,对某一特定事件发生的两种竞争假设条件下的可能性进行计算,其自提出至今已被广泛应用于法庭科学领域中的各个分支,包括DNA、指纹、枪弹痕迹、人脸识别、言语识别、文件检验和工具痕迹等。 荷兰国家法庭科学研究所(Netherlands Forensic Institute,NFI)于2012 年开始将贝叶斯的统计方法引入到指纹鉴定领域,并以LR 的量化形式结合传统的指纹鉴定结论向法庭作出鉴定意见[31]。 与荷兰相类似,德国也逐步将LR 的方法用于指纹的办案环节[32-33]。
如果LR 可以看作是某一特定事件在两种竞争假设条件下发生的可能性之比,那么在指纹证据评价中,假定E代表指纹证据,其假设可以有两种,用Hp表示现场指纹与某一特定样本指纹来源相同,用Hd表示现场指纹与某一特定样本指纹来源不同。LR 的计算方法可表示为:
其中,分子P(E|Hp)和分母P(E|Hd)分别表示两种竞争假设下的概率。通过计算得到LR 值,当LR<1 时,表示在当前条件下,更支持Hd的假设,即现场指纹与样本指纹异源;当LR=1 时,表示当前条件无法说明更支持何种假设;当LR>1 时,表示在当前条件下,更支持Hp的假设,即现场指纹与样本指纹同源。 实现LR 模型的方法主要有两类:基于特征向量的LR 模型和基于AFIS 得分的LR 模型。
3.2.1 基于特征向量的LR 指纹证据评价方法
基于特征向量的LR 模型是基于包含各种细节特征分析的特征向量模型。 在构造的特征向量上定义了不同的度量方式,通过定义的不同度量比较同源和异源指纹特征的分布情况来计算LR 值,主要有两种方式:(1)将3 个细节特征点构成的三角形来表达指纹特征情况的狄洛尼三角特征向量模型[34];(2)将指纹一定区域的几何中心点与2 个细节特征点构成三角形来表达特征点分布情况的径向三角特征向量模型[35-36]。 但以上方法对现场指纹的变形因素考虑得不够全面,样本数据库容量也不够大,满足不了模型应当具有普适性的要求。
其中,狄洛尼三角特征向量模型是第一个基于特征向量的指纹证据评价LR 模型。 该模型中特征向量主要考虑指纹的纹型、面积、细节特征数量和位置,以及细节特征点直接的距离与角度等因素,对于待检验的现场指纹和样本指纹进行基于特征向量的相似度计算,并采用核密度估计的方法来获取LR 值。 通过研究表明,此种方法可以用来建立指纹证据的LR 模型,但当现场指纹的变形较大时,该方法的稳定性很差[34]。 为了提高模型的稳定性和作出更准确的评估,在特征向量结构中考虑包含更多的细节特征,而不是限制每个特征向量只有3 个细节特征,定义了基于n个细节特征的径向三角特征向量,该方法由于质心结构包含3 个以上的细节特征,能够较好地模拟同源和异源指纹之间的变化,既准确又稳健。 与狄洛尼三角特征向量模型的LR方法相比,此方法因不依赖于识别特定的指纹区域而使得运用更加灵活[35]。 考虑到径向三角特征向量模型的优势,NEUMANN 等[36]进一步融合了现场指纹的变形因素和鉴定人的认知影响因素。 通过利用基于薄板样条(thin plate spline,TPS)弯曲能量矩阵的畸变模型来表示指纹图像中细节特征点的空间非仿射差异,以及构建鉴定人影响模型来表示细节特征标记的变化情况,进而使得模型具有更高的精度。 但该方法仅仅考虑了非仿射变换,而没有考虑剪切和均匀压缩或膨胀等仿射变换。 此外,改进后的径向三角向量没有测量欧氏距离,而是使用长宽比和形状来测量每个三角形的分量。 并且为了操作简便而假设特征向量的形状分量之间是相互独立的,但又没有进行相关的假设检验,也没有对细节特征组合的相关性进行评估。 此外,该模型还未考虑构成径向三角结构的每个三角形之间的依赖关系。 这些不利因素导致最后观察到径向三角模型并不总是稳定的,如细节特征组合在与质心点有相近共线点的情况下,可能会由于变形的不同发生而导致不同的三角形结构,进而可能导致这种细节特征组合的证据评估不准确。
3.2.2 基于AFIS 得分的指纹证据LR 评价方法
基于AFIS 得分的LR 模型,是指对利用指纹自动识别系统获得的指纹相似度得分的分布情况进行估计,进而构建LR 模型。 AFIS 利用自身算法对影响指纹鉴定的因素进行定量研究,可以看作是得分的分布函数。 首先,需要获得不同数据库环境下同源指纹和异源指纹比对得分的分布规律,进而构造两种假设条件下的似然函数。 同源指纹似然函数的构造,需要获得一定数据库中多对同源指纹的比对得分,进而获得分布规律和对应函数,作为LR 模型的分子;异源指纹似然函数的构造,需要获得多对异源指纹的比对得分,进而获得分布规律和对应函数,作为LR 模型的分母。
为了对AFIS 得分的分布情况进行估计,近年来国外诸多研究人员展开了相关的研究,主要实现方法有参数估计方法和非参数估计方法,主要包括韦布尔分布、(对数)正态分布[37-38]、高斯分布、伽马分布、核密度估计[39]、逻辑回归和保序回归[40-41]。 参数方法主要是根据AFIS 得分的分布规律提出最合适的参数化概率密度函数;非参数方法主要是基于核密度估计来进行。 两种方法均显示出一定的稳健性,构建的LR 模型具有较好的识别和区分能力,但也存在一定的局限。 如构建模型所使用的数据库性质会对模型造成一定的影响,包括数据库的大小和代表性。基于AFIS 得分的LR 模型提供了一个基于AFIS 核心算法的LR 框架,因此模型的性能取决于AFIS 的匹配算法,并且基于AFIS 得分的LR 模型通常会反映AFIS 查询的候选队列中所包含的各类信息,不同的AFIS 对相似性和典型性的定义是不一样的。 因此,考虑多个AFIS 匹配算法与混合专家统计模型将是更理想的,并避免LR 值的计算过分依赖于算法。
在LR 模型确立后,需要对建立的模型进行科学有效性考量。 应当采用统计学方法来验证LR 模型,从识别力与区分力两个方面来评价模型的性能,识别力反映LR 数值区分两种具有竞争关系假设的能力,区分力反映LR 模型在支持某一假设时的正确程度。 为了评估LR 模型在实际使用中的性能,必须建立明确的验证标准。 2016 年,MEUWLY等[42]提出了LR 模型的验证指南,需要综合考量LR评价模型的精确度、区分度和校准度,以及一致性、稳健性和普遍性等指标。 只有当该种LR 模型的评价指标达到一定要求时,LR 模型才可以适用;当准确性表现较差时,证明此种计算方法不适用于真实案件,需要进行修正。
在科学有效性验证的基础上,还要运用真实案件中一定数量的指纹来对LR 模型进行客观可行性验证。真实案件中现场指纹质量的随机性更大,尤其是变形因素,在构建LR 模型时考虑的变形因素不一定能够全面的反映,需要根据实际情况来进行验证。 此外,真实案件中现场指纹的细节特征完全由检验人员根据其专业认知能力进行人工标注,在运用到LR 模型中时能否适应还需要进行验证。
当前,国内外对指纹证据LR 评价方法的研究均处于起步阶段,尚未形成完整的体系。 尽管美国和欧洲逐渐加大对指纹基础研究和应用方面的投入,基于LR 的指纹证据评价模型取得一定进展,但其研究采用的指纹数据库总量有限,模型的有效性和稳定性有待于进一步提高, 推广使用也尚未铺开。 相比之下,我国指纹数据库总量居全球首位,更易形成规律,建立模型的条件也更加成熟,推广价值更高。
开展指纹证据LR 评价方法的研究,通过采集相关数据进行定量分析并建立统计学模型,利用计算指纹在同源和异源两种竞争假设条件下获得的LR 来衡量指纹证据的价值,推动指纹个体识别证据评价从经验走向科学,客观评价指纹个体识别证据的证明力,完善科学证据体系。 这将是司法鉴定领域的基础理论革新,也是多学科交叉融合,将法医学、数学、统计学、机器学习和证据法学等学科的理论和方法引入指纹鉴定领域,实现指纹个体识别证据研究范式的创新,对提高法庭证据技术的科学性,避免出现司法错案,实现“让人民群众在每一个司法案件中都能感受到公平正义”这一目标具有十分重要的意义。