于 洋,罗亚平
(1.中国人民公安大学,北京100038;2.南京市公安局刑事科学技术研究所,江苏 南京210012)
足迹是犯罪现场出现率较高的痕迹物证之一,在案件事件分析和侦破中发挥着重要作用。然而,足迹检验方法是以人的主观观察、分析、比较及判断为基础的方法。随着法制社会对法庭科学技术的要求日益提高,致使不能满足严格科学标准的主观判断方法受到了挑战,主要原因是对证据评价的科学有效性不充分,鉴定意见表述不确定与不准确,不连续与跳跃性大。
在检验鉴定中,鉴定人员需要对符合点和差异点的来源进行认真分析,综合评断质和量。实际上,鉴定过程主要依靠的是专家的技能、培训和经验,更多称为“专家意见”。当现场足迹变得复杂,如背景干扰、残缺重叠或模糊时,鉴定人员需要对足迹特征进行反复评断,二元结论将带来风险,可行方法是采用多元意见或定量表述方式。
足迹鉴定意见的表述与量表(scale)类似,是标准化和规范化的表述方式,常用于定量测评调查对象的某些特征。CICCHETTI等比较了结论数量对评分者间可靠性的影响,研究表明在使用2级结论量表时评分者间可靠性最低,在7级结论量表时达到渐近线。CARTER等研究了3级和5级指纹鉴定意见的差异,研究表明5级指纹鉴定意见利大于弊,但实施应注意解读。国内学者姚力建议将足迹鉴定意见划分为足迹信息分析意见、非肯定性检验意见及肯定性鉴定意见3大类,10种意见表述,为我国鉴定意见多元化可行性提供了有益探索。因此,扩大等级量表在统计学和实用性上似乎得到了印证和支持。表1列出了不同国家或地区的足迹鉴定意见的表述方式,其中俄罗斯3类,中国4类,欧洲6类,美国7类,日本12类(对欧美国家鉴定意见再细分,表内不详述)。在我国,根据《法庭科学平面鞋印形象特征检验技术规范》(GAT1437—2017),鉴定意见的表述分为种类认定、同一认定、否定同一和不具备检验条件,即认定、否定和无法评定3级意见。在足迹鉴定实践中,种类认定与检验意见因证据指向性不高而使用较少。
表1 不同国家/地区足迹鉴定意见表述方式
综上,在足迹意见表述上,我国与欧美等发达国家存在差异。足迹证据如何科学、客观地评估表述值得探讨研究。因此,本研究对比3级意见和5级意见,采用信号检测论等方法深入分析意见的准确性、难易程度、检验时间和阈值变化等问题,目的是评估5级意见表述是否有利于足迹检验过程。
邀请来自3个公安实战部门和2个公安院校的12名足迹鉴定人员进行实验研究。本研究采用被试间设计,12名足迹鉴定人员分成两组,第一组6人,平均年龄42岁,足迹工作经验平均18年,高级职称4人,中级职称2人;第二组6人,平均年龄42岁,足迹工作经验平均17年,高级职称4人,中级职称2人。12名足迹鉴定人员均具有足迹鉴定资质或任职资格,年龄、经验、职称及单位在分组间平衡。
为保证实验科学有效,全部足迹材料在实验室受控条件下制作。期间,研究小组让23名不同年龄、性别的志愿者穿4种不同鞋底花纹的鞋子约30 d。现场足迹介质包括灰尘、血液、黑粉、银粉、油脂和水渍等;显现和提取方法包括磁性粉末、酸性黄、氨基黑10B、静电吸附和明胶片等;遗留客体包括纸张、塑料、包装盒、金属、瓷砖、桌子、木板和玻璃等。样本足迹志愿者脚底蘸上油墨后在白纸上正常行走形成。所有的现场足迹和样本足迹,采用尼康D850和尼康D700相机,辅助三脚架配合光照(自然光或灯光)条件下拍照提取。制作目标是创建一个测试集,供后续研究使用。
本次研究,实验小组从测试集中筛选出50对足迹,每对足迹包含检材和样本各一枚,足迹照片的分辨率均为300 dpi。通过Photoshop CS5编辑后,每套题目左侧为现场足迹,右侧为样本足迹,具体如图1所示。再将50对足迹标注代码后导入可视化Pro Stduio 3.4.8编辑软件中,创建测试数据库。每对比对足迹的检材和样本大小、花纹种类相同,鉴定人员比对时无需考虑足迹大小和花纹种类,可直接比对。因此,为避免干扰,实验删除了足迹图片中的比例尺。50对足迹是难度较高的相似异源足迹,并伴有背景干扰、重叠、残缺和变形。考虑足迹比对的数量和疲劳等因素,本研究将实验分为在上午和下午两次进行。上午实验,25对足迹有13对同源(认定)、12对异源(否定);下午实验,25对足迹有15对同源(认定)、10对异源(否定)。
图1 实验中呈现的2对足迹示例
实验分为两个阶段,通过可视化编辑软件,鉴定人员可以使用键盘和鼠标在苹果电脑上操作完成比对。
第一阶段(上午实验):首先,每位足迹鉴定人员签署知情同意书,并完成2对足迹比对预实验。然后,25对足迹随机呈现,鉴定人员通过键盘和鼠标切换选择。每对足迹出现前,均提供遗留客体、介质和提取方法等相关说明,以辅助检验。每次完成比对后,足迹鉴定人员需回答“意见”和“难度”两个问题,具体如图2所示。鉴于提供的鞋底花纹种类相同,研究小组去掉了鉴定意见中的种属认定。
图2 3级和5级“意见”和“难度”问题示意图
第二阶段(下午实验):与上午操作程序相同,足迹鉴定人员再完成25对足迹,材料随机呈现。最后,每名鉴定人员完成一份信息背景调查。
实验期间,在安静、光线均匀的环境里,足迹鉴定人员可以按照自己的节奏,不受时间限制。同时,除了休息时间,本研究要求鉴定人员尽量不离开比对任务。如果中途离开,可以暂停任务进程,回来后再继续比对。在上述两个阶段,两组鉴定人员需要完成相同的50对足迹,第一组使用标准3级意见,第二组使用5级意见。在实验前,第二组鉴定人员接受了以下说明和指导:
在足迹比对中,将使用5级意见表述方式,在标准3级表述基础上,增加了倾向性意见。由于每对足迹的大小、花纹种类一致,因此删除了“种属认定”类别。具体表述方式如下:
(1)同一认定。现场足迹与样本足迹反映出的种类特征相同,个别特征具有特定性,没有本质差异,现场足迹与样本足迹是同一鞋所留。
(2)倾向认定。现场足迹与样本足迹反映出的种类特征、足迹大小以及一般穿用特征相符,且没有本质差异,还需满足下列条件之一:①磨损特征的特定位置、程度和方向总体一致,但没有可靠的个别特征;②或者出现一个或多个个别特征,但是特征质量和数量达不到同一认定的条件。
(3)倾向否定。现场足迹与样本足迹反映出的种类特征相同但细节特征存在差异,或者细节特征反映不充分、质量低,但不足以否定。
(4)否定。现场足迹与样本足迹反映出的种类特征不同,或者种类特征相同但细节特征存在本质差异,现场足迹与样本足本足迹是否为同一鞋所留。
(5)不具备检验条件。现场足迹或样本足迹没有反映出或反映出的特征少,没有检验条件,不能确定现场足迹与样本足迹是否为同一鞋所留。
每次比对后,您需要回答“意见”(同一认定、倾向认定、倾向否定、否定、不具备检验条件)和“难度”(非常简单、简单、中等、困难、非常困难)两个问题。您可以通过键盘任意键切换界面,再点击鼠标左键选择答案。
由此可知,5级意见的“同一认定”“否定”和“不具备检验条件”与标准3级意见表述相同,只是增加了倾向性意见。
两组鉴定人员共给出足迹“意见”和“难度”各600个。通过信号检测论、配对检验等统计方法对鉴定意见分布、准确性、所用时间和题目难度等数据分析对比。
两组鉴定人员“意见分布”如表2所示。两种意见表述的分布采用同源(标准答案为“认定”,同一只鞋遗留的足迹)和异源(标准答案为“否定”,不同鞋遗留的足迹)形式列出,占比是该列意见数除以该行总计数换算成的比例。
由表2可知,第一,在同源足迹中,3级意见的“同一认定”回答比例(正确认定率)从0.714下降到5级意见的0.363。这表明两组鉴定人员对“同一认定”的理解产生了变化,第二组鉴定人员重新定义了“同一认定”,有0.363占比(正确认定率)为同源足迹中最强的“同一认定”鉴定意见;在异源足迹中,3级意见的“否定”回答比例(正确否定率)从0.614下降到5级意见的0.333。这说明第二组鉴定人员重新定义了“否定”,其中大部分“否定”可能转向“倾向否定”。第二,在同源足迹中,3级意见和5级意见的“不具备检验条件”回答比例均为0.101;在异源足迹中,3级意见到5级意见的“不具备鉴定条件”回答比例增加了0.023。这表明两组鉴定人员对特征数量少或质量低的足迹评估基本没有变化。第三,在同源足迹中,3级意见错误“否定”回答比例(错误否定率)从0.185下降到5级意见的0.048(0.185-0.048=0.137,而错误倾向否定率为0.107),表明大部分“否定”可能转移到“倾向否定”,少部分转移到同源认定的方向;在异源足迹中,3级意见的错误认定率从0.386可能分散到5级意见“同一认定”(0.227)和“倾向认定”(0.196)。
表2 3级意见和5级意见的数据比较
上述数据表明,足迹鉴定人员可能重新定义了“同一认定”或“否定”,但3级意见和5级意见对于鉴定人员是否会产生显著差异,下文会进一步分析。
接收者操作特征(Receiver Operating Characteristics,ROC)和ROC曲线下面积(Area Under The Curve,AUC)被广泛用来评估分类器性能。AUC值作为评价标准,被定义为ROC曲线下的面积,介于0.1和1之间,作为数值可以直观的评价分类器的好坏,值越大正确率越高。五六十年代的统计决策理论中,ROC被提出并用来说明分类器命中率和误报警率的关系,最早用于雷达观测能力的评估,后来用于晶体管,然后被拓展到心理学、医学图像工程、机器学习等其他领域。在3级意见和5级意见中,ROC曲线下面积用于评估每名足迹鉴定人员与标准答案之间的表现,详见表3。其中,5级意见的“同一认定”和“倾向认定”都是正确答案。研究小组通过Delong检验计算了两种意见中不同ROC曲线的AUC水平,并采用检验来分析两种意见条件下的显著性无显著性差异((5)=-1.476,=0.201),表明足迹鉴定人员区分同源和异源足迹的结果没有受到两个意见表述方式的显著影响。
表3 6位足迹鉴定人员3级意见和5级意见的ROC曲线下面积(AUC)
在检验时间分析中,M表示每种情况的平均值,表示配对检验的值,D表示Cohen’s D,一种效应大小的度量。表4显示了每种意见的比对时间中位数和四分位间距。
表4 每种意见比对时间的中位数和四分位数间距 (s)
从总体上看,3级意见和5级意见的平均检验时间未产生显著差异(M=73.4,M=146.6,(5)=-2.023;=0.099;D=-1.168)。这表明,5级意见条件下的平均检验时间没有明显长于3级意见条件下的平均检验时间。
从认定和否定上看,3级意见中认定和否定的平均检验时间未产生显著差异(M=60.04,M=90.40,(5)=2.619;=0.047;D=1.512)。这表明,3级意见条件下否定的平均检验时间没有明显长于认定的平均检验时间。而5级意见中认定和否定的平均检验时间产生了显著差异(M=127.42,M=171.03,(5)=2.877;=0.035;D=1.661)。这表明,5级意见条件下否定的平均检验时间明显长于认定的平均检验时间。这一发现验证了鉴定人员可能重新定义了“确定性意见”。
如表5所示,在评估足迹难易程度上,5级意见中“困难”数量下降了,“简单”数量上升了。相应地,研究小组在表6中列出了每位鉴定人员的“困难率”和“简单率”。但是,无论使用3级意见还是5级意见,“困难率”((5)=0.715,=0.507)和“简单率”((5)=-1.916,=0.114)均没有显著变化。这表明,在3级意见和5级意见条件下,足迹鉴定人员没有明显改变足迹难度的评估。
表5 3级意见和5级意见的足迹难度评估
表6 6位足迹鉴定人员3级意见和5级意见的困难率和简单率
研究小组将表2的数值转化为分布曲线,详见图3。从分布曲线看,当3级意见扩大到5级意见后,鉴定人员将“确定性”意见转化为“倾向性”意见,阈值变化表明鉴定人员更加趋向风险规避。标准3级意见加入两个倾向性意见后,“同一认定”的标准向左移动,而“否定”的标准向右移动。这表明,在增加意见表述后,足迹鉴定人员重新定义了“同一认定和否定”,意见强度发生了变化。这里“认定和否定”的标准是一种“阈值”,即足迹鉴定人员判定后的临界值。在5级意见中,同一认定的阈值向左移动,否定的阈值向右移动。这表明,在意见扩大后,足迹鉴定人员重新定义了同一认定和否定的意见,证据强度发生了变化。关于鉴定意见强度,与标准3级意见相比,5级意见可能存在3种变化情况,为了便于理解,本研究将阈值变化分为3种对称分布:
图3 3级意见和5级意见分布密度图
(1)在这种情况下,鉴定人员只对标准3级意见的“不能确定”类别分为“倾向认定和倾向否定”,原“认定和否定”的标准不变,具体如图4所示。
图4 两种意见中“不能确定意见”阈值的分布比较
(2)在这种情况下,“倾向认定和倾向否定”分别向同源和异源方向扩展,突破了图4的限制范围。鉴定人员把标准3级意见(“同一认定”“不能确定”和“否定”)部分转化为“倾向性意见”,具体如图5所示。
图5 两种意见中“倾向性意见”阈值的分布比较
(3)在这种情况下,“倾向认定和倾向否定”继续向同源和异源方向扩展,标准意见的“不能确定”在5级意见中不变,鉴定人员把标准3级意见的“认定和否定”转化为“倾向性意见”,具体如图6所示。
图6 两种意见中“确定性意见”阈值的分布比较
以上3种对称性分布情况,从意见强度中心位置向同源、异源两边扩展。在实际应用中,考虑到足迹检材和样本的数量、质量、同源和异源差异,鉴定意见的阈值更为复杂,可能是非对称性分布。
从表2可以看出,对于同源足迹,“错误的倾向否定”有18个,占同源的11%。这主要来自3级意见的“错误否定”转变;相应地,对于异源足迹,“错误的倾向认定”有26个,占异源的20%,这大部分来自3级意见的“错误认定”。总体上,5级意见的错误率强度降低了,这是积极的改进。但是,对于如何理解“倾向性意见”存在消极因素。一方面,错误认定可能会导致更多的关注和惩罚,鉴定人员采用“保守的”判断阈值可能有利于减少错误“认定或否定”,但也可能导致正确“认定或否定”的减少;另一方面,侦查员和司法人员可能偏信或不信而造成过度解读。
根据信号检测论,3级意见和5级意见之间鉴定人员总体准确性没有显著改变。这说明足迹鉴定人员有能力将意见强度映射到两种意见表述中,并在记忆中保留倾向性意见的同时不降低总体准确性。虽然使用5级意见增加了选择的复杂性,但两种意见表述的比对总时间没有显著差异。本研究发现鉴定人员得出“否定”意见比“认定”意见时间更长,这说明在足迹材料的相似度较高时,鉴定人员分辨同源和异源足迹的挑战性较大。此外,在3级意见和5级意见之间,鉴定人员没有明显感觉题目变得简单或困难,这说明两种意见表述没有显著影响鉴定人员对题目难易程度的判断。
综上所述,在3级意见与5级意见中,无论准确性、时间还是难度,两种意见之间的差异不显著。当面对复杂的相似异源足迹时,5级检验鉴定意见可以更为客观地评估足迹材料,减少极端意见的发生。但是,在理解和应用上,应合理传达给侦查、司法人员,再综合案件中的其他信息和证据,避免产生误解。
实验中,比对材料由研究小组根据鉴定实践中常见的案例,尽可能模拟案件现场中出现的足迹,充分考虑到残缺、模糊、重叠、介质和相似异源等复杂情况进行设计和制作。其中,同源鞋印是同一双鞋制作的现场鞋印与样本鞋印组合而成;异源鞋印是使用同一品牌型号的不同鞋制作的现场与样本鞋印组合而成。因此,试题难度较为困难。此外,采用可视化软件的比对模式,鉴定人员只能观察检材和样本,但无法拿到或提供更多实物材料,这在数量、心理和习惯等方面存在局限,在一定程度上增加了错误率。