李建飞 冯 昆
(延安大学西安创新学院 陕西 西安 710049;陕西电子信息职业技术学院 陕西 西安 710049)
我国司法鉴定事实上经历了从依靠感官与经验的司法鉴定、借助简单工具的司法鉴定到应用仪器设备的司法鉴定的发展历程。司法鉴定中信息化建设进程不是十分完善,信息数据化和信息共享存在较大的局限性,鉴定流程数据采集与检验标准建设严重滞后,鉴定结论的科学性受到制约,尤其是以笔迹鉴定为代表的经验型鉴定。
自2013年始,人工智慧与司法就不断深入结合,这无疑是司法鉴定从传统模式向智慧模式过渡的大好时机。我国司法鉴定行业正处在由“仪器设备司法鉴定”向“智慧司法鉴定”过渡的新时期。智慧司法经过多年实践取得欣喜成果,如上海高院206工程,这为智慧司法鉴定的产生和发展提供了丰富的物质和经验基础,正是基于此背景下提出构建大数据分析平台的必要性及探索路径。
众所周知,由于笔迹鉴定的特征数量与质量难以量化,决定了笔迹鉴定必须依赖鉴定人的主观判断,因人而异的经验造成了鉴定结论的科学性时常受到质疑。人工智能、大数据和互联网结合并初步应用于司法鉴定领域所取得的成果,也驱使了笔迹鉴定专家和计算机工程师将人工智能应用于笔迹鉴定之路,以期提高笔迹鉴定的科学性与权威性。
笔迹是人们通过书写活动形成,用以记录和传递信息痕迹,是个人书写习惯和书写技能的外在表现。笔迹作为书写人书写习惯和书写技能的反映,具有反映性、特定性及相对稳定性。一言以蔽之,笔迹是书写动作习惯的外在表现,而书写动作习惯是笔迹的实质,是高级神经活动的产物。因此,笔迹分析是在书写动力定型的基础上,结合心理学、语言学、书法学、痕迹学等多学科知识,研究笔迹中反映的书写动作习惯特征、文字布局和书面语言特征等。毋庸置疑,笔迹鉴定的原理是科学的,它是笔迹检验的理论基础,是高级神经活动生理学的研究成果。
由于笔迹鉴定通过检材笔迹和样本笔迹之间的比较检验,发现两者之间的符合点和差异点,鉴定人的主观经验判断,最终给出鉴定意见,即使笔迹鉴定时能充分利用各种工具、软件、设备、仪器等,去发现那些肉眼难以发现、观察或寻找到的种种笔迹特征或笔迹特征差异。但由于书写技能和书写习惯的变化性必然导致笔迹发生相应变化。诚然,书写主客观条件的变化同样会导致笔迹产生多样性反映。这些变化性与多样性带来诸多迷惑和假象,已成为笔迹鉴定同一认定的主要障碍。因此,能否正确、可靠地认定不仅取决于科学的原理,还取决于能否有效观察到或发现,这些通过笔迹而反映出的各种独特而又相对稳定的书写动作习惯。正如麦克唐纳所言:唯有物证不说谎,但代言物证说话的鉴定人由于知识、经验、能力等原因造成鉴定结论的不正确。
笔迹鉴定是自然科学和社会科学交叉的检验学科,其结论的可靠性与稳定性近年来饱受质疑,归纳起来争议主要表现在三个方面:一是笔迹鉴定学科构建所依赖的同一认定假设基础没有统计数据的支持,科学性缺乏保障;二是笔迹鉴定意见依赖鉴定人的主观判断,容易产生偏见;三是鉴定意见表述中使用“认定同一”或“否定同一”等绝对性表述夸大了笔迹鉴定意见作为证据的价值和强度,这此争议凸显了经验型鉴定的先天缺陷。面对质疑和挑战,国内外法庭科学研究者致力于提升笔迹鉴定意见的科学性与逻辑性,不断探索可行的量化方法,以及规范笔迹鉴定意见的表述。众所周知,笔迹鉴定案件极具个性化,相同的笔迹特征在不同影响条件下可能反映了不同的书写动作习惯,这需要鉴定人结合具体案情综合分析,这是统计数据和机械计算模型所不能替代的。
由于没有缺乏客观的数据支持,笔迹鉴定过分依赖主观性判断。虽然从制度上及流程设计上,为了避免鉴定人主观的认知偏差和失误,要求两名鉴定人分别检验及复核检验,最后商讨共同出具鉴定意见。但由于笔迹特征缺乏标准化,不能将主观认知上升到客观化,鉴定结论的可靠性及稳定性就受到质疑。令人可喜的是,现代的科学技术已经发展到相当程度,可以逐步建立比较完善的笔迹检验标准体系,来减弱对主观认知与经验判断的依赖性,朝更倾向于用客观的、量化的方式来分析。
利用专业科学技术与大数据分析技术,提升结论的可靠性与稳定性是笔迹鉴定高质量发展方向。根据文献不完全统计,统计学方法在司法鉴定领域的应用研究越来越受到人们的关注,运用贝叶斯定律、似然率模型等方法已在智慧鉴定领域也进行了初步探索。总之,为了提高提升鉴定质量,智慧鉴定应运用司法鉴定的全过程,数据的采集不仅要有笔迹特征赋值的结构化数据,还包括委托受理方面的非结构数据。让大数据平台记录案件内容的基本信息、鉴定材料附属信息及案件委托环节等非结构数据,这样通过智慧鉴定不仅能防范重复鉴定,人情鉴定,也能为模仿、伪装等笔迹鉴定提供有效地参考与启示,实现司法鉴定客观、公正。
同时为了减少笔迹鉴定过程中主观预断,已有多种多样的笔迹鉴定量化和统计分析的研究,如似然率模型、贝叶斯定律等方法已经或正在开展。迄今为止,在司法笔迹鉴定领域内,有关于笔迹特征的量化、统计学分析和判断方法的研究、有关于对特定人群笔迹特征出现频率的研究、有关于对字间距、某个特定字母的形态来判断书写方式的研究等,虽然这些研究都还处在起步阶段,处于相对零散、没有全面实证,但是都是如何利用现代信息技术,将主观认知客观化的有价值探索,这将会极大提升笔迹鉴定的科学性与公正性。
历史上笔迹鉴定曾被贬为“神秘把戏”,一直来遭遇了发展的瓶颈,主要是其量化比想象的更复杂、更困难。借助于信息技术与似然率等统计理论的发展,法庭科学检验从经验性定性分析逐步向科学性定量检测转变,客观的、量化的技术手段已经在人身同一识别得到广泛地应用,随着书写方式的多元化及笔迹特征量化方式的探索,构建笔迹鉴定大数据平台尤显必要。
在笔迹发展史上,贝蒂隆是一个标志性的人物,受古人类的研究成果的启发,他主张所有的法庭科学问题都可以用测量的方法进行分析和判断,他成为了人体测量学的发明人,同时也是笔迹测量的尝试者。受当时技术发展水平所限,他主要的测量方法是通过照相技术放大进行。结果著名的德赖福斯案件中鉴定出现错误,直接证明了贝蒂隆笔迹测量方法的失败。从发展角度来看,不难发现,贝蒂隆笔迹鉴定量化的失败并不是否定笔迹鉴定量化,而反映出来的是笔迹鉴定量化的复杂和困难。为了逐步提高笔迹鉴定的可靠性与稳定性,有效防控因人而异的鉴定结果,笔迹鉴定检验方法以传统的直观形态比较法为将逐步发展到与计算机图像识别、仪器测定、数学统计分析结合的综合比较法。
随着科技的发展,当今的科技水平已经远远超过贝蒂隆所在的时代,计算机图像处理技术、统计学、光学、计算机人工智能技术等已经得到了长足的发展,这为笔迹鉴定量化的研究提供了坚实的技术支撑,这是笔迹鉴定发展的大好机遇。不可否认,尽管困难重重,但是笔迹鉴定量化研究是笔迹鉴定的发展方向,也是笔迹鉴定这门古老法庭科学进一步走向现代科学的机遇所在,使得鉴定结论科学可靠性与稳定性有了进一步的保障。它山之石,可以攻玉,运用计算机比较识别、仪器测定等科技含量高的方法让量化研究已经具备成熟的条件,能发现更多的微观特征,这为鉴定意见提供更充分的科学依据了。
随着书写形式多元化,如在线签名、电子屏签名、机器人书写等,这为朝着笔迹鉴定量化研究提供可能与必要。只要采用科学的、正确的笔迹特征量化手段,将笔迹鉴定特征进行数据化与科学化,经过统计学方法的分析,实现智慧鉴定就指日可期啦。虽然目前被定量赋值的笔迹特征在笔迹鉴定中往往不是特征价值高,不能较好地反映个体书写习惯特定性的特征,仅仅将这些笔迹特征作为似然率模型评价笔迹鉴定意见的参数。
笔迹特征赋值与数据化研究有了初步结果,可以说,在线签名、机器人书写是“书写人”利用电子笔等特殊书写工具,书写在电子板等特殊承痕体之上,同时计算机自动记录笔画形态以及书写过程中的力度、速度等方面的特征信息的签名笔迹。这些特征信息的数值能通过电子信息设备同步记录,再通过开发的算法模型对这些数据进行可视化的分析。总之,借助信息测量技术对笔迹特征进行标准化测量,并将测量数据作为大数据分析平台储存的数据,相比传统经验判断相比,智慧鉴定分析的结果更科学、更可靠和更稳定。
在法庭科学鉴定的大家庭中,笔迹鉴定搭配上智慧鉴定是时代发展趋势。由于传统笔迹,在形成过程中没有电子设备的参与,鉴定人员对离线笔迹鉴定通常只能从静态特征入手,无法获知其书写时准确的力度和速度值,也没有实证研究笔迹特征的频率与权重,因此无法通过大数据分析技术对其结论进行精准的判别,因而笔迹鉴定因其较强的经验依赖性而时常受到质疑,这也驱使笔迹鉴定专家和计算机工程师利用人工智能探索笔迹智慧鉴定的路径。
智慧司法鉴定是指,依托大数据理念和思维,运用互联网、云计算、深度学习(seep learning,DL)等技术手段,以海量数据为支撑,设置鉴定机构管理网络,以实现鉴定委托和鉴定材料补充、鉴定管理智能化、标准化的新型鉴定管理模式,在鉴定实施过程中辅助完成对鉴定材料的特征等各项信息全面获取、深度 分析、自动比对,从而实现司法鉴定数据化、科学化和客观化的新型鉴定实施模式。总而然之,构建大数据分析平台是智慧司法鉴定的基础和核心,也涉及司法鉴定委托、受理、鉴定及归档等管理全过程,这些过程采集的非结构的数据,也有效地辅助大数据平台对相关信息数据进行相关性的分析,有效地实现鉴定结论的科学性、可靠性和稳定性。
大数据是互联网时代的高频词,大数据分析技术是第三次工业革命,笔迹智慧鉴定正是建立在大数据分析平台的基础上。正因为一切社会生活皆可能数据化是大数据的特征和标志,因此笔迹鉴定大数据平台建设原理分为三个步骤:首先收集结构化和非结构化的数据,然后对数据处理和标注,最后是运行构建的算法模型从海量的数据中获取鉴定结果的辅助信息。
对于任何大数据分析来说,首先就是要采集数据,笔迹鉴定大数据分析平台的数据主要来源三个方面:一是利用人工收集录入的方式,笔迹鉴定过程中委托案件内容的信息、检材与样本的附属信息以及委托环节关联性信息等,这些信息数据不仅对委托与受理案件有用,对司法鉴定结论的分析有参考性与启示性。二是收集文献与资料有关对笔迹特征统计、测量与赋值的实证数据;三是多元方式书写过程中自动生成以及抓获的数据。电子设备可以记录书写过程中笔尖的位置、速度、加速度、压力、移动方向以及笔的倾斜角度等信息,如对在线签名的分析一般可以通过调取书写形成信息来完成。
数据在采集之后,就需要对海量的数据进行科学存储,构建完善的关系数据库,形成机读的基础性架构,方便终端用户储存和使用。从客观层面而言,笔迹特征本身是一个复杂的集合体,“1990年以来,DNA鉴定中采用的方法就是基于使用似然率(likelihood ratio)来量化证据力度的贝叶斯框架。” 大数据库在使用的过程中是对大量的信息进行收集和处理,大数据分析平台能够从数据中分析得出具有重要意义的部分,支撑司法鉴定的稳定性和可靠性,真正发挥采集大数据的自身价值。
数据处理可以说是算法和模型中最核心的技术之一,面对庞大而又复杂的数据,该工具能够运用一些计算方法或者是统计的方法等对数据进行处理,包括对它的统计、归纳、分类等,从而能够让用户深度的了解到数据所具有的深度价值。似然率本身是一种可能性,蕴含着不确定性的本质,利用似然率模型评价笔迹鉴定意见在我国司法实践中能够被事实认定者所采纳。
笔迹特征确定的参数和数据化问题目前还处在研究阶段,没有成熟的方法,各专业人员正进行着不同的尝试有人提出在提取形状特征和纹理特征的基础上,采用多特征融合的方法,并且对这些特征赋值后进行归一化数据处理,再通过向量机对笔迹特征进行分类,根据机器对个案特征的学习来匹配价值权重,综合评判差异点与相同点的数值来推算概率性结论,这也是辅助鉴定系统的过程。当然,保障准确性的关键在于数据库中的统计数据具有代表性,这要求数据库收集被鉴定人的样本数量足够大,且书写方式和笔迹特征足够丰富。
没有将主观判断客观化是经验型鉴定的缺陷。传统笔迹鉴定模型是分别检验、比较检验、综合评价、复核,鉴定人先通过观察,对被鉴定笔迹样本和检材分别检验,了解熟悉各自的特征,再将二者进行比对检验,把握检材和样本之间的相同点和差异点,最后在所有检验的基础上对二者开展综合评价,出具鉴定结论。由于传统笔迹鉴定掺入鉴定人过多的主观判断和经验依赖,其鉴定结论受到质疑与挑战。大数据分析技术的背景,研究人员尝试通过构建模型与平台来提高鉴定结论的可靠性与稳定性。刘莉等人于2018 年提出的方法。由于同一个人的签名曲线的走势总是相似的,刘莉等人基于这一点,提出了一种曲线相似度的度量方法,它将离散的点集以曲线的形式描述,然后对其相似变换和曲线采样,并计算其相似距离,通过这种方式可以得到较准确的匹配距离。有的针对在线签名研究提出非参数回归和卷积神经网络(CNN)等技术方法。
现在采取的是似然率的评价方法,遵循“先一般特征、后细节特征”的笔迹特征检验顺序,并需要找到特征符合点与差异点,只是在综合评价阶段运用了似然率计算方法。基于似然率模型评价产生的笔迹鉴定意见同样蕴含着上述不确定性本质。由于样本的有限性与书写人的多变性,在鉴定意见本质上表现为不确定性。因此,“确定性笔迹鉴定意见与不确定性笔迹鉴定意见仅仅是鉴定人选择了不同的鉴定意见表述形式。确定性笔迹鉴定意见不会因100% 确信的表述形式而抵消不确定性本质,不确定性笔迹鉴定意见则是对笔迹鉴定本身实事求是科学认识的结果。”
司法鉴定实施智慧化路径应建议功能相对独立的模块,通过大数据平台发挥各个模块的功能,在鉴定过程中完成对鉴定材料的特征等各项信息全面获取、深度分析、自动比对,以实现司法鉴定数据化、科学化和客观化的新型辅助鉴定系统。
在近年笔迹鉴定过程中,涉及的个案种类十分复杂,多样性和多元化的发展趋势正在逐渐完善。鉴定机构在进行鉴定之前应当详细、全面统计受理案件的非结构数据,如案件的内容信息,检材与样本的附属信息以及案件委托信息等,这些信息应进行电子版本,根据司法行政部门要求,进行良好的分类和存储,类似于公安机关对案件侦查中的基础信息录入。同时利用大数据平台进行搜索查询工作,这有效了解案件是否重复鉴定,同时平台根据输入信息科学推送类案,这也有助于辅助鉴定信息的采集与标注。
大数据分析平台受案模块的数据库,应该是全国司法鉴定机构的数据集合体。同时严格执行标准与规范,不断扩展相关数据来保障大数据分析平台正常运转的前提。司法部或司法厅等严格按照既定规章制度和法律法规进行相关数据采集与录入工作,这是保证智慧鉴定有效性和准确性的必要条件,能有效辅助鉴定人员进行科学鉴定,让老百姓在每一个鉴定案件中都能感受到公平正义。
笔迹作为一种形态痕迹,很难完全被数字精准量化,笔迹特征需要鉴定人的主观观察和分析,意由静到动,再由动致静,反复琢磨、认识笔迹特征背后的潜在的书写动作习惯。众所周知,由于人各不同,笔迹相异,不同书写条件、不同书写情绪都可能导致书写人写出不同的书写动作,这需要鉴定人有丰富实务经验与逻辑分析能力,不然鉴定结果就受到质疑与不可接受。而大数据分析平台中笔迹特征统计模块,就是对笔迹特征进行合理设置,然后科学量化,来帮助司法鉴定人员保证鉴定的准确性和科学性,这是统计数据和机械的计算模型所不能替代的。在数据采集过程中,一方面是针对具有代表性笔迹特征的数据要收集,一方面通过在文献资料收集实证研究的数据,主要是笔迹特征量化参数和合理赋值方面。然后依据大数据分析平台进行智慧鉴定,就有效提升司法鉴定的效率和质量。
因此,在进行大数据平台建立的过程中,数据库是其核心内容,采集海量的数据,能够支撑数据整合和运算,通过算法与模型建立关系数据库,就能够针对信息进行精准的计算。如同一份文件使用的是同一批次的纸张,因此其色泽、光泽、厚薄、底纹、水印、图案、荧光纤维等理化特性应当基本一致,如果使用相同批次的纸张上这些参数值却不一致,那么这笔迹载体材料就存在问题,笔迹特征典型性的量化依赖于人群笔迹特征数据库的建立,数据库的质量也直接影响到鉴定结果的准确性。
“互联网+智慧司法鉴定”在自身发展的进程中初步取得了一些成果,当然与当事人美好的司法追求还有很长的建设之路。现今已有研究人员提出基于 Hash 函数、卷积神经网络、多特征融合等技术的笔迹识别算法,纷纷利用大数据分析平台综合比较模块建立辅助司法鉴定智能化。一旦发现送检材料书面上出现与应检笔迹相似的笔迹时,就应立即意识到这笔迹是否为模仿的。通过辅助司法鉴定综合比较模块中智慧鉴定能力,为减轻检验鉴定人鉴定的难度与主观认知。总之,笔迹鉴定是人工智能和笔迹鉴定相结合的产物,笔迹鉴定智慧化正蓄势待发,通过辅助司法鉴定系统,鉴定人员可在短时间内完成原先只有笔迹鉴定专家才能完成的笔迹鉴定的无数可能性。因此,应引导司法鉴定机关、高等院校、研究院等教育单位进行辅助司法鉴定智能化的研究和发展。
大数据的核心作用是数据共享,让存储的数据产生各种“价值”,这就是大数据分析平台要做的主要事情。与发达国家相比我国的大数据资源共享机制十分薄弱,存在一定的问题和不足。从鉴定高质量发展的角度,在司法部或司法厅应完善现代司法鉴定管理机制,深度整合信息社会发展成果,要求各管辖司法鉴定机构在智慧鉴定平台上提供所有案件的标准化的数据信息,保证数据库建设能够进行整体的有序发展。
大数据分析平台案件管理模块,就是要求全国所有司法鉴定机构的信息资源应当进行有效的整合,构建成信息全方位、多角度的共享机制建立,促进司法鉴定信息建设的稳定性和持续性,保证司法鉴定具有自身的科学性,提升司法鉴定的整体质量。健全资源共享机制是以海量数据为支撑,共享包括鉴定委托智慧化、鉴定受理智慧化、鉴定过程智慧化和鉴定归档智慧化等。
总之,随着信息技术的发展以及司法鉴定专业技术研究的不断完善,建立大数据分析平台是进行司法建设的必经阶段,这一平台的建立能够促进司法鉴定发展的稳定性和标准性,大数据分析平台的发展是互联网不断发展的衍生产物,在进行“互联网+智慧司法鉴定”建设进程中发挥着举足轻重的作用。因此,高质量发展司法鉴定,就应当加强对互联网技术的使用,建立健全自身的大数据分析机制,充分利用现代信息技术,有效提升司法鉴定的公正和权威。