基于随机森林的故意杀人案件犯罪侧写研究

2021-12-04 02:38李全辉

法制与经济 2021年6期

李全辉，刘丹

一、引言

犯罪侧写（Criminal Profiling），又叫犯罪行为分析或犯罪心理画像。随着二十世纪六七十年代美国暴力犯罪的兴起，美国联邦调查局行为科学部在二十世纪七十年代提出犯罪侧写这一概念。不同的学者对犯罪侧写有不同的定义，联邦调查局将其定义为一种侦查分析，即“根据他或她所实施的犯罪行为来鉴别犯罪人的主要人格特征和行为特征的侦查过程”[1]18-20。Brent Turvey将犯罪侧写定义为“推断实施犯罪的行为人独特的人格特征的过程就是犯罪侧写”[2]。李玫瑾教授对犯罪侧写的定义是“在侦查阶段根据已掌握的情况对未知名的犯罪嫌疑人进行相关的行为、动机、心理过程以及人员心理特点等分析，进而通过文字形成对犯罪嫌疑人的人物形象及心理特征群的描述”[3]。

目前，犯罪侧写已广泛应用于公安刑事侦查工作中，尤其是当现场没有直接证据指向特定的嫌疑人时，犯罪侧写能为侦查决策提供重要的参考价值，其主要通过对犯罪现场进行勘查以及调查访问，并由经验丰富的公安干警或具备相关专业知识的专家对缺乏线索的案件中的犯罪嫌疑人展开分析，以缩小侦查范围。犯罪侧写在侦破一些重大案件时发挥了重要作用，最著名的莫过于发生在二十世纪四十年代至五十年代的“疯狂炸弹手”案件。布鲁舍尔博士根据现场特征对犯罪嫌疑人的特点进行分析，甚至推测出犯罪嫌疑人喜欢穿双排扣衣服，当抓获嫌疑人时，的确在其家中发现许多双排扣西装。犯罪侧写的神秘性激发了诸多学者的研究兴趣[1]15-17。Turco从精神分析角度展开研究，强调了早期依恋、精神障碍等精神分析理论内容对于解释杀人行为起到的重要作用，并在此基础上提出了侧写的四个方面，包括：调查现场以分析犯罪人的人格、行为模式和发展经历；结合神经生理学和精神病学知识进行画像；运用精神分析理论分析犯罪人的早期经历、发展历程和社会化过程；结合现场证据、被害人和犯罪人信息刻画犯罪人的人口统计学特征[4]。Canter提出了侦查心理学（Investigative Psychology）概念，指出犯罪侧写应该从心理学理论角度开展研究，目的在于运用心理学理论辅助侦查活动[5]。杨玉章教授基于实证研究提出“三定侦查法”犯罪心理画像理论，主要包括定性质、定范围和定脸谱，其中定性质是指解析犯罪动机，即根据犯罪现场、被害人、现场感知人等的分析研究确定刑事案件性质[6]。熊立荣教授通过对犯罪人罪后行为进行分析，拓展了犯罪心理画像的理论内容，这是依据心理学等原理，利用已掌握的犯罪人信息、犯罪信息及犯罪人犯罪后所处的环境，对犯罪人犯罪后可能的、具有司法价值的行为和状况进行分析和预测的一项专门工作[7]。以上为对案件进行犯罪侧写时较为常用的方法，对刑侦案件的侦破有很大的帮助。但利用上述方法进行犯罪侧写时，主要依靠犯罪侧写师的个人素养、现场勘查所获得的证据材料，以及对之前类似案件的经验积累，进而对未知案件的作案人特征进行主观推断，这对犯罪侧写师的专业知识、从业经验等要求较高。另外，附加的心理因素也将影响侧写结果，因此犯罪侧写的可靠性和科学性饱受争议。由此，提升犯罪侧写技术的关键在于如何避免画像师的主观臆断，如何客观、公正地分析犯罪行为与犯罪人的心理特征、行为特征和社会特征之间的关系。

利用计算机技术并结合相关算法构建自动预测模型可减少画像师在进行案件犯罪侧写时因人为主观因素产生的误判。2005年美国杜克大学的Baumgartner针对案件犯罪侧写建立了基于贝叶斯网络的预测模型，首次将贝叶斯网络应用于犯罪侧写中，该方法为犯罪侧写的研究提供了一种新的思路[8]2706。2012年，Colombini等人提出了一种基于计算机技术的数字画像技术，该技术将传统犯罪心理画像技术和智能电子设备相结合，以人机互补、以人为主的原则重建犯罪现场，从而为犯罪侧写提供重要的参考信息[9]。

然而，犯罪侧写也存在一定的局限性，在美国曾发生过不少由于错误的犯罪侧写结论而导致的冤假错案。例如在Kirk Bloodsworth的案件中，没有找到能指引侦查方向的有价值的线索，于是侦查人员根据现场特征和被害人特征进行侧写，根据侧写结论从众多嫌疑人中找到了与侧写结论高度匹配的嫌疑人马林，以至于侦查人员对马林是凶手的侧写结论深信不疑，甚至办理这件案子的州检察官也认为马林就是杀人凶手。然而，随着DNA技术的发展成熟，DNA检验结果证明马林是无辜的。即便DNA技术排除了马林的嫌疑，但是由于侦查人员过分信赖犯罪侧写，导致他们仍然坚信马林就是凶手。侦查人员的主观臆断占据主导地位，而忽视了犯罪侧写与马林并不匹配。

人为主观因素对犯罪侧写的结果影响较大，不同的人对于经验、犯罪学、心理学、现场勘查学和行为科学等知识所掌握的层次不同，对同一个案件会得出不同的侧写结论。随机森林算法有强大的学习能力，具有分类准确率高、抗干扰能力强等优点，目前随机森林算法较少应用于犯罪预测领域。因此，为了降低人为主观因素对犯罪侧写结论的影响，本文对数据展开实证分析，采用随机森林的分类算法代替人工对犯罪嫌疑人进行侧写，通过对单作案人—单受害人的故意杀人案中犯罪现场的犯罪行为特征和被害人特征进行建模，从已侦破的案件中获得故意杀人案件较为典型的犯罪特征，从而推测出未侦破案件中作案人的特征。

二、随机森林

随机森林是一种分类算法，由Leo Breiman[10]在2001年提出，是树预测器的组合。该算法认为每棵树都依赖于独立采样的随机向量的值，并且对森林中所有的树具有相同的分布。随着森林中树木数量的增多，森林的泛化误差收敛到一个极限。树分类器的泛化误差取决于强度森林中的个别树木以及它们之间的相关性。随机森林是一种有效的预测工具，注入正确的随机性可以使它们成为准确的分类器和回归器。单棵树的分类能力可能很小，但在随机产生大量的决策树后，一个测试样本可以通过每一棵树的分类结果经统计后选择最可能的分类。随机森林是机器学习中十分常用的算法，它具有简便高效、实用性强、分类准确率高等优势，在医学、经济学、计算机视觉等众多应用领域取得了巨大的成功[11]。随机森林也是Bagging集成策略中最实用的算法之一，其流程如图1所示。

图1 随机森林流程图

利用MATLAB建立随机森林犯罪侧写模型，随机森林算法函数在MATLAB中直接调用，设置适当参数，算法模型建立后利用训练集训练模型，用测试集评估模型。本文使用精确度来评估模型的预测准确率，精确度为正负样本被正确分类的概率，其计算公式为：

其中：

P（Positive Sample）为正例的样本数量；

N（Negative Sample）为负例的样本数量；

TP（True Positive）为正确预测到的正例的数量；

TN（True Negative）为正确预测到的负例的数量。

三、作案人侧写建模

目前，犯罪侧写根据调查员或法医心理学家的解释将犯罪现场特征和犯罪特征联系起来。本研究寻求通过随机森林建模方法，从已侦破的案例中有效和系统发现变量之间不明显和有价值的模式。随机森林可以用来提取行为模式，并深入了解哪些因素影响了这些行为。因此，当一个新的案件被调查时，由于罪犯尚未被识别，轮廓变量是未知的，观察到的犯罪现场变量被用来推断未知的变量是基于它们在结构中的连接和相应的数值权值，其目标是产生一个更系统和更具经验的方法，并使用由此产生的随机森林模型作为一个决策工具。

（一）数据集

基于已侦破的犯罪案件建立一个可用于计算机学习的数据集可以有效解决犯罪侧写分析过程片面化的问题。随着计算机技术的发展，越来越多的先进技术在公安工作中得到广泛应用，对刑事侦查工作产生了深厚的影响。随着数据集样本容量的不断扩大，犯罪侧写模型可以学习到犯罪现场行为特征、被害人特征和作案人特征之间更高维的映射关系，实现案情特征的串并，以达到高效推理的目的[12]。

本研究共收集了150个故意杀人案件，案件样本来源于中国裁判文书网。裁判文书中包含案情简介、作案人信息、受害人信息、犯罪现场勘查、司法鉴定以及证人证言，完全满足本研究的数据要求。为了便于研究受害人特征、犯罪现场特征和作案人特征之间的映射关系，本文所选择的案件均为单受害人和单作案人。

（二）变量

本文全面综合各种信息分析行为证据特点之间的相关性，对作案人的身体特征、社会特征和心理特征等进行综合画像，并结合犯罪侧写的实际情况对50个案件进行统计分析，提取特征变量。

变量的选择标准是：1.行为不容易被误解，是明显可观察到的；2.行为反映在犯罪现场，例如，伤害的类型；3.行为表明罪犯如何对受害者采取行动并与之互动，例如，受害者被捆绑，或被堵住嘴，或遭受酷刑。根据上述选择标准，选取出描述可观察犯罪现场的49个被害人变量，78个犯罪现场变量以及91个作案人变量。

对被害人的研究可以帮助我们推测出作案人对作案对象的选择原则、作案动机以及作案人与被害人之间的关系等信息。本文统计出61个被害人出现的特征，包括被害人的性别、年龄、婚姻、住址、职业、爱好以及感情状态等方面的特征，通过对一些低频率特征的剔除，最终选择了49个被害人特征作为输入变量。

犯罪现场勘查是刑事犯罪侦查中非常重要的一步，犯罪现场可能留有嫌疑人作案时的痕迹物证，通过对犯罪现场的分析可以重建犯罪过程，能够有效推断出作案人的相关特征。本文共统计出78个犯罪现场特征作为输入变量，包括案发地点、案发时间、作案工具、工具来源、现场行为和法医报告等。

作案人特征是本文最终需要得到的预测结果。通过对被害人和犯罪现场的分析，得到作案人特征。本文根据统计分析提取出91个作案人刻画指标用作随机森林模型的输出变量，包括作案人的性别、年龄、教育水平、职业、与被害人的关系、住所、作案动机、犯罪前科、性格、爱好等。

（三）样本分析——特征分布情况

本研究的样本中，被害人特征方面，女性被害人占比52.7%，男性被害人占比47.3%。在所有的受害人中有85.3%是本地人，67.3%已婚，10.7%离婚；从文化程度来看，67.3%的受害人为初中以下文化程度，文化程度低；56%的犯罪现场是被害人的住所；10.7%的受害者住在犯罪现场附近；8%的受害者死于其工作场所。

在犯罪现场的行为特征中，58%的案件作案工具是刀具，作案工具的选择具有随机性，39.3%的案件作案工具为随身携带至现场，55.3%的案件作案工具来自现场，在无预谋的案件中，作案工具选择的随机性较强。法医报告指出，有10.7%的人死前饮酒，头部和颈部为主要致命部位。

在作案人特征中，男性作案人占比91.3%，女性作案人占比仅8.7%，78.7%的案件是本地人作案，作案人的文化程度普遍较低，无固定职业，初中及以下文化程度的作案人占比75.3%。10.7%的作案人有犯罪前科记录，25.3%的作案人具有自杀倾向，22%的作案人有精神或情绪方面的疾病，作案时为限制刑事责任能力人。从作案人与被害人的关系可以看出，多为熟人和近亲属作案，其中熟人占26.7%，夫妻关系占29.3%，陌生人作案仅占8%。从作案动机分析，55.3%的作案人是出于一时冲动，28.7%是因为感情纠纷，12%是因为家庭纠纷，14%是出于报复杀人，还有8%是因为对生活失去希望，企图和被害人一起死亡。

（四）案件编码

根据统计分析提取出的49个被害人特征、78个犯罪现场特征和91个作案人特征按照固定顺序汇总成“案件特征提取模板”，其中被害人特征和犯罪现场特征作为输入变量，作案人特征作为输出变量。所有变量均为二值化数值，模板对应位置特征值为1，代表该特征在此案件中出现，特征值为0，代表此特征未在此案件中出现。利用案件特征提取模板将案件编码成一个一维的二值化向量，便于机器学习。

四、算法实现

本文采用交叉验证学习方法。将150个样本分成3组，每组50个，当其中两组作为训练集的时候，剩下一组则作为验证集，重复3次。随机森林算法在MATLAB软件中可以直接调用，本实验将随机森林树的个数设置为100，对每一个输出变量单独预测，共预测91次，最后统计预测准确的作案人特征数，得出单个特征预测准确率。经过计算后最终通过求均值得到88.9%的整体预测准确率。通过部分特征预测结果如表1所示：

表1 部分特征预测结果

五、结语

本文针对人为主观因素对犯罪侧写带来较大影响的问题，构建了基于随机森林的自动预测模型代替人工的犯罪侧写。利用统计分析方法建立“案件特征提取模板”对案件特征进行编码，并对随机森林犯罪侧写模型进行训练，通过对“案件特征提取模板”和模型训练算法的更新，即可实现对预测精度的优化。结果表明，本文采用的方法整体预测准确率为88.9%，与Baumgartner[8]270679.0%的整体预测准确率相比，利用随机森林进行犯罪侧写建模方法的整体预测准确率有所提高，实现了更加精确的预测。