苗林林
(南京森林警察学院 侦查系,江苏 南京 210023)
刑事案件构成要素相关性分析应用研究
苗林林
(南京森林警察学院 侦查系,江苏 南京 210023)
我国公安机关信息化已经进入建设的第三阶段,其主要任务是围绕信息深度挖掘和深化开展公安行业云计算、大数据、移动警务等项目的建设。但从实践来看,目前公安机关信息化技术应用仍停留在“只进不出”的水平,信息研判能力薄弱。此时应认识到“大数据”的意义不仅限于数据本身的大体量与多类型,更在于作为一项分析技术能够实现对海量数据的高速处理和有效分析。从数据利用的角度出发,研究基于刑事案件构成要素之间的关联构建相关性分析方法,实现对要素之间相关程度的估量,再利用要素及其相关程度进行模型分析,提高公安工作预测与决策的准确性。
刑事案件构成要素;关联;相关性分析;并案侦查;犯罪预测
近年来,随着我国公安信息化改革与建设的不断深入,大数据、云计算、人工智能等概念与技术已被纳为未来警务建设的重点内容与发展方向。孟建柱同志在2016年全国社会治安综合治理创新工作会议讲话中指出:“大数据已成为促进国家治理变革的基础性力量,要把大数据等现代科技手段与社会治理深度融合起来,为社会治理插上腾飞的翅膀。”同年,郭声琨部长在全国公安机关社会治安防控体系建设推进会议上强调:“在社会动态化、信息化条件下,信息资源已成为第一资源。要大力加强大数据时代公安基础信息化工作,不断提高维护公共安全和服务人民群众的能力水平。”回看我国公安信息化建设进程大致经历了三个阶段,2003年至2008年期间为第一阶段,主要进行基础设施建设,建成23类业务应用系统、8大资源库以及公安通信网络基础设施;2009年至2011年为第二阶段,完成优化完善网络、安全技术、信息中心三类基础设施,开发推广公安情报信息综合应用平台、警用地理信息基础应用平台、部门间信息共享与服务平台,建设扩展基础性、国家安全和维稳、少量急需业务、地方自建等四类应用系统。2012年至今为第三阶段,主要围绕信息深度挖掘和深化应用积极探索实践开展公安行业云计算、大数据、移动警务等建设。在此基础上,公安部又提出于“十三五”期间,通过全力打造公安信息化的升级版,努力形成建设集约化、应用平台化、数据集群化和服务整体化的信息化新格局,提升动态化条件下的基础信息化水平,促进公安信息化与公安工作的深度融合,不断推进传统警务向现代警务的转变,全面提升公安机关维护社会和谐稳定的能力和水平。
建设的同时也应明确,发展“大数据”技术不能仅停留在广泛收集、存储数据的水平,更要能够让规模数据的内容、价值服务于公安工作。2090年代以来,欧美诸国已经开始利用COMPSTAT、COPLINK等数据库软件,整合系统分析技术,利用已存储的信息对犯罪行为模式、犯罪热点进行分析与预测。美国建立的PREDPOL犯罪预测系统、实时打击犯罪中心以及新加坡研发RAHS系统,都对犯罪预防起到极大的推动作用。台湾警方亦能够使用路口监视系统、车牌辨识系统以及关系型分析平台实现大数据操作。纵观我国,在短短几年时间,由各省公安机关与科技公司合力研发的各类与公安机关业务相关的信息系统在已经大规模投入使用,这些平台和系统主要负责对时间、地点、痕迹物证、财产损失情况、犯罪嫌疑人以及相关车辆情况等案件信息进行实时采集并录入系统,在实现对案件信息有效查询与共享的同时,系统中累计的大规模数据亦能够为情报研判提供支撑。但是,实践工作中仍旧存在大量问题:其一,数据采集不够完整,缺乏对数据统一、规范的监管;其二,各警种、各地方对同一数据存在不同利用标准,数据结构、类型各异。其三,办案人员惯用经验分析、因果分析思维处理数据,开展“整体数据”、“关联分析”的意识、能力不足。其中最为突出的问题在于,目前应用的信息处理技术仅能够完成增、删、改、查询与统计任务,信息关联查询与综合利用能力较低。侦查人员多沿用传统的数据分析工具和方法,对数据进行处理时多使用简单的累加、比对、百分比计算等方法,缺乏模型构建和算法应用方面的创新。以云计算技术为例,目前,只是初步实现“云平台”硬件资源的动态分配,而大规模分布式计算及负载均衡能力尚待进一步加强。各类信息资源未能得到充分挖掘与有效利用,未能实现智能分析的目标。因此,选取刑事案件构成要素为研究对象,从数据挖掘与分析的角度,提出相关性方法对刑事案件构成要素进行关联分析,希望能够利用分析结果准确预测犯罪,提高侦查工作效率。
(一)关联分析的含义
“关联”一词可以理解为个体及内部各个部分相互之间发生的牵连和影响。“关联分析”则既可理解为对个体及其部分间的牵连和影响的分析,也可以认为是一种利用个体及其部分间的牵连和影响来分析个体及其内在组成部分的分析方法,这层意思也是此次研究相关性分析的出发点。数理统计学也认为社会经济现象间存在着大量的相互联系、相互依赖、相互制约的数量关系,这种关系可分为两种类型:一类是函数关系,它反映现象之间严格的依存关系。在这种关系中,对于变量的每一个数值,都有一个或几个确定的值与之对应,最为典型的函数关系是因果关系。另一类为相关关系,在这种关系中,变量之间存在着不确定、不严格的依存关系,对于变量的某个数值,可以有另一变量的若干数值与之相对应,这若干个数值围绕着它们的平均数呈现出有规律的波动。即“现象间客观存在的,但数值不严格的,不容易确定的依存关系即为相关。”[1]
在面对少量现象或数据时,人们能够通过假设和检验来揭示他们内部之间的必然性规律来建立函数关系,其结果虽然明确但能够处理的样本容量有限。但随着“大数据”时代的来临,面对源源不断的信息流,人们难以在大量关联关系中选择出确定性的理论假设,更无法逐对研究数据之间存在的必然性函数 (因果)关系,于是将方向调整为研究现象或数据间表层的、非确定性的依存关系,期望获得更为广泛的情报、线索,减少有效价值的流失。正如维克托·迈尔·舍恩伯格提出的大数据时代思维变革三大特征所言:第一,思维所据以进行的不再是随机样本,而是全体数据;第二,不再追求精确性,允许混杂性;第三,思维依据的规则不再是因果关系,而是相关关系。[2]89因此,依据大数据寻找现象间确定性因果关系之外,更要注意把握现象之间非确定性的相关关系。即大数据时代思维根本变革之一是从依靠因果性分析扩展为重视相关性分析的发展趋势。
(二)关联分析的方法
依据关联分析的第二层意思,可以推定出关联分析方法的含义。关联分析法是指如果两个或多个事物、现象之间存在一定的联系,那么其中一个事物或现象就能通过其他事物、现象进行预测。关联分析法虽然在社会科学中尚没有得到一个普遍认可的定义,但在自然科学中被阐释为“根据因素间发展态势的相似或差异程度,来衡量因素间的关联程度,寻找系统中各因素间影响结果值的重要因素,从而掌握事物的主要特征。”[3]主要包括系统分析法、决策树法、相关性分析法、遗传算法等等多种方法,研究选取相关性分析作为刑事案件构成要素关联分析的方法。
构成要素,是指构成一事物必不可少的,能使此事物区别于彼事物,具有层次性、系统性的重要组成单元。“刑事案件构成要素,是指刑事案件的内在组成部分及各部分之间的相互关系和排列状况”。[4]14“对一个事物的把握,其实,就是对其要素的把握。刑事案件的案情分析,实质就是对刑事案件构成要素的分析。刑事案件的侦查终结,实质就是查清了刑事案件的全部要素”。[5]“认识刑事案件的关键路径就是将这个复杂系统分解和还原为它的组成部分,通过对它的构成要素的揭示和分析达到更好地认识刑事案件的目的。”因此,使用相关性分析方法对刑事案件构成要素进行分析能够从根本上把握刑事案件发生、发展的趋势和规律。刑事案件究竟由哪些要素构成呢?理论界有以下两大类观点:纵向动态构成理论和横向静态构成理论。动态构成理论认为纵向动态构成要素具体包括:犯罪思想基础及诱因的驱使、犯罪动机的形成、犯罪预备活动、犯罪实施、实施犯罪之后的相关活动。而静态构成理论又有“五要素”论、“七要素”论之说,“五要素”论者认为刑事案件是由人、事、物、时、空五大要素组成;“七要素”论者认为何事、何时、何地、何物、何情、何故、何人构成了刑事案件。“五要素”与“七要素”说差别不大,其理论内容相对一致。此外,还有理论提出信息化要素等观点。文章选择以静态构成要素作为研究的基础,并在应用数据挖掘技术进行要素分类时对七要素理论进行不同程度的细化。究其原因,除了由中国人民公安大学侦查系孟宪文教授在其主编的全国公安系统发行本科教材《刑事侦查学》中使用这一理论的之外,还存在如下两方面的原因:一方面,相关性分析是利用历史数据发现要素间相关关系,无需体现刑事案件发生、发展的动态过程;另一方面,要素分类愈详尽,愈能全面呈现影响分析目标的要素种类,有利于计算影响因素与目标之间的相关程度,进而准确判断分析目标态势。
相关性分析是一种利用统计学原理衡量社会经济现象中数量依存关系的方法。计算数据间相关程度并进行置信度检验和利用这种相关程度构建分析模型,进行变量判断和预测是该方法的主要操作步骤。统计学对数据间相关程度进行测定的工具有很多,根据数据类型的不同,测定对象的不同可分为卡方统计量分析、方差分析、回归分析等多种方法。方法之间运用的数学原理不同,所测得的相关程度与置信度也各有差异,侦查人员可根据实际情况选择测量工具及模型。因此,应在此处进行说明,利用相关性方法对刑事案件构成要素进行分析,其目的并非通过此法得出必然性的、排他性的如犯罪嫌疑人身份、所在位置、犯罪行为时间、空间、工具等确定结论,而是先要分析和发现各个要素之间,要素与案件整体之间的相关关系,再利用这种相关规律协助侦查或进行犯罪预测。
最后需要强调的问题是,以上关于刑事案件构成要素相关性分析的观点以及相关性分析方法的操作,都只是从论理角度进行的描述。如果仅仅凭借人工计算只能实现对少量数据的整理、运算,不但耗时量大,分析效率不高,而且样本容量较少,计算出的相关程度可信度极低,可能影响命题的成立。因此,在犯罪信息呈“大数据”状态的背景下,必须利用计算机技术完成“海量”数据的收集、存储、共享、挖掘与分类,才能准确选择算法,挖掘多维关联原则,最终实现侦查工作的深度信息化。
首先,在刑事案件构成要素相关性分析中需要利用数据仓库、数据挖掘和聚类分析等技术对反映案件材料的数据进行挖掘整理。与数据库简单记录、保存、变更数据的功能不同,数据仓库是对数据库中已经保存下来的数据进行整理分类。数据仓库由以下几个部分组成:数据仓库最基本的元素即数据元;各类应用系统所保存的数据库即源数据;源数据进入数据仓库所经过的数据抽取、提炼、修正的过程,即数据清洗的过程;数据仓库技术核心,即依据不同数据属性、维度等对数据进行显示的技术;数据挖掘工具。自侦查信息化探索付诸实践以来,通过各个系统、平台收集到的信息已能覆盖社会基本面的各个角落,但是大量信息被积聚下来的同时却往往被束于高阁,大量重复、碎片化的数据存在,缺乏系统的挖掘和分析。数据挖掘是指在现有的大量数据中,通过决策树、聚类分析、神经网络等算法发现数据间隐性的相关关系及其特征。一般说来,利用数据挖掘技术可实现如下几种目的:分类、估计、关联分组、聚类、描述和可视化,其中如需得出某种特定结果或条件时,一般采用决策树,如需进行数据分类以便于进一步研究时,往往选择聚类分析和神经网络等算法。利用相关性方法对刑事案件构成要素进行分析主要涉及到估计、关联分组、聚类、描述等算法的使用。近年来,数据仓库技术已经得到重视并被应用到治安、交管、侦查等多个公安机关业务部门,但在刑事案件侦查工作中的应用还只停留在寻找刑事案件的时空规律,发现特定人群身份背景等层面,如何利用数据挖掘技术发现刑事案件构成要素之间的深层联系,拓展信息数据利用渠道,并在此基础上提高刑事案件侦查工作信息化整体程度是本次研究的主要方向之一。在此,对该技术在构成要素相关性分析中应用的原理进行简要阐述:第一,将刑事案件构成要素根据实际情况细划为发案时间、地点、天气、性质类别、作案手段、被害人基本情况、损失财物价值等若干字段。第二,根据案件分析的需要对不同字段进行层次结构划分,即完成数据仓库设计。第三,选择平台录入设计好的数据仓库结构,并确定不同字段的维度和属性,将有关联的维度联系起来形成数据结构图。第四,利用工具将元数据填充至数据仓库之中并生成多维数据集,为浏览和分析数据打好基础。第五,对数据集中的数据根据需求进行聚类,形成不同数据“簇”,不同数据“簇”之间具有显著差异,“簇”内变量则趋于同质化。因此,聚类也可以作为独立的相关工具获取数据分布情况,聚类分析即是通过观察每一簇数据的特征,对“簇”内数据进行分析。
其次,根据数据“簇”的不同属性,选择不同算法进行关联规则挖掘或相关系数测定,给出支持度或置信度,并在此基础上建立预测模型。主要涉及到三种不同统计学方法的使用,其操作原理会在应用部分进行详细解释。
(一)利用要素相关性分析实施并案侦查
“并案侦查,是指侦查部门对判明为同一个或同一伙犯罪嫌疑人所做的多起案件合并起来,实行统一组织、指挥和行动的侦查措施。”[5]219而由同一个或同一伙犯罪嫌疑人实施的案件被称为系列性案件。并案侦查是打击团伙、系列性犯罪以及高发、多发犯罪的有力措施。该措施在应用过程中存在两个难以把握的重要环节:其一,在一定范围之内,侦查人员难以判定已经发现的刑事案件是否属于同一人或同一犯罪团伙所为。特别是在同一性质的案件发案数量较大,作案团伙较多的情况下,难以将不同团伙与其实施的刑事案件联系起来。计算机网络技术在协助侦查的同时,亦能够帮助犯罪人突破时空局限,隐匿身份。对于串并案件来说,时空范围越大,案件数量越多,串并的准确程度就越低。从串并案件的结果来看,若所串案件非同一犯罪人或犯罪团伙所为,则不但不能汇总、集中发现犯罪嫌疑人特点,确认犯罪嫌疑人,还会使单个案件的侦查陷入僵局。若所串案件虽为同一犯罪人或犯罪团伙所为,但串并的范围过小,许多案件不能被纳入侦查范围,则第一不能发现犯罪嫌疑人特点,第二弱化并案侦查“一举多得”的效用,团伙所实施的其他案件不能被发现。其二,串并之后难以发现并抓获犯罪嫌疑人。侦查人员在决定对某些案件进行并案之后,需要根据系列性案件材料中反映出来的案件或犯罪嫌疑人特点总结发案规律,刻画犯罪嫌疑人。但在案件基数庞大且仍处于增长中的我国,即使经过串并,面对系列性案件中隐含的海量信息内容,侦查人员仍旧难以凭借简单的主观判断在分散化的,特征各异的刑事案件构成要素中提炼出指向犯罪嫌疑人的线索。因此,文章主张在并案侦查实施过程中应用相关性分析方法。一方面提高串并案件的准确性,另一方面帮助快速认定、抓获犯罪嫌疑人。
侦查人员据以判断是否进行并案的前提条件是已经掌握的不同案件材料中反映出来的,相同或相近的如时间、空间、工具痕迹、血迹、犯罪嫌疑人人身特征等要素,但这些要素在提示和判断诸多案件的犯罪嫌疑人是否同一问题上所起的作用却有所差异。如凭借指纹、足印、生物检材等要素,侦查人员能够较为准确的判断是否串并案件,因此这些要素 (条件)一般被称为串并“硬件”,其他如时间、地点、工具痕迹等不能完全据以判定是否串并案件的,称为串并“软件”,同时也应看到,各类“软件”的“提示”作用也有所差异。特别是在案件数量较多,案件材料暴露不充分的情况下,侦查人员很难对“软、硬件”的提示程度进行准确把握。根据关联分析的原理,可以把这种“提示”程度理解为在不同刑事案件中,构成要素的相同或相近与犯罪主体同一的关联程度。因此,相关性分析的第一步就是对刑事案件各个构成要素与“串并案件”的决定是否有关,关系程度如何进行估量。操作层面上我们可以简单使用概率统计方法进行相关性测算,即通过计算一定数量的系列案件中,单个案件反映出的一致或相似要素出现的次数,以次数多少衡量相关程度的大小,但是这种统计方法难以排除由抽样随机性所带来的误差,因此借鉴回归分析统计方法将各类“串并条件”对并案侦查的支持程度转化为数值型变量进行测算。回归分析利用两个变量,因变量Y与自变量X建立模型,目的在于了解两个或多个变量间是否相关、相关方向与强度如何,并利用此数学模型通过观察特定变量来预测研究者感兴趣的变量。如果回归分析中只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。现将利用回归分析研究一致性或相似性刑事案件构成要素与并案侦查是否相关,相关程度如何的原理简略表述如下:首先,根据已成功串并的系列性案件历史数据计算相关系数,构建数学关系式,用以说明一个或一组变量变动时,另一变量或一组变量平均变动的情况。将系列性案件中单个案件总量作为因变量Y进行取值,将单个案件中出现的不同种类一致性要素次数作为自变量X进行取值。从一组数据出发,计算相关系数r,确定变量之间的数学关系式。r的取值范围是 [-1,1],r值为正数时,表示自变量与因变量之间存在正向相关关系,为负值时表示二者存在负向相关关系;为0时二者无线性相关关系,为-1或1时二者完全相关,且为函数关系,说明当案件中出现这一类型的一致性要素或串并条件时可以即刻决定串并。此处仍需说明的是,r值仅仅作为自变量与因变量之间线性关系的度量,不能用于非线性关系描述。研究串并条件的“可信度”问题,只需回答是否具有相关关系以及相关程度大小,无需考虑以怎样的方式进行相关,因此利用线性关系进行描述更为直接明了。其次,对关系式的可信程度即r值的显著性进行检验,说明哪一类要素对决定串并案件的影响是显著的。最后,建立回归模型,根据目标案件中出现的不同要素的类型、数量、频次等情况判断是否可以进行并案侦查。并案只是侦查的前提,其目的是为了缩小侦查范围,突出案件规律和犯罪嫌疑人特点,建立起系列性案件与犯罪主体之间的关系。因此相关性分析第二步的应用是考虑利用回归模型发现案件规律与犯罪嫌疑人,一方面,侦查人员可以重点分析对决定串并案件具有显著影响的要素内容,进一步探究案情,发现嫌疑人的线索,可以保证线索的来源与内容都具有一定可信性。另一方面,可利用回归模型进行犯罪预测,模型中反映出来的如稳定的时空规律,相同案件性质,一致的工具痕迹,微量物证等内容可以提示未来发生同系列案件的要素内容与特点,侦查人员可据此进行犯罪预测,及时采取措施,抓获现行。
(二)利用要素相关性分析发现、收集刑事案件证据
首先,应说明刑事案件侦查发现、收集证据的过程,就是侦查人员通过收集证据,查明案件事实的过程。认识案件事实就是不断完善刑事案件构成要素的过程。所以发现、收集案件证据的实质是通过证据完成对刑事案件构成要素的发掘、完善和表达。其次,需承认刑事案件构成要素之间具有关联性,同时要素间的关联性是刑事案件构成中必不可少的组成部分。第一,马克思主义唯物辩证法认为整个自然界和人类社会就是各种事物相互联系的总体,刑事案件与侦查活动自然不能例外。第二,作为侦查学基本原理之一的“洛卡德物质交换原理”认为犯罪过程的实质即是物质交换的过程,是犯罪人作为一个物质实体在实施犯罪的过程中与其他物质实体发生接触和互换关系的过程。可以把刑事案件构成各个要素的发生、发展过程看作是物质交换的结果。因此,构成要素之间存在必然关联,侦查人员亦可以利用要素间的关联认识刑事案件构成要素发生、发展的过程。一方面可以鉴别已收集到的案件构成要素的真假,另一方面可以由已知要素出发,利用要素之间的关联发现更多隐藏证据,织就案件事实网络,最终形成证据链条。如在杀人碎尸、抛尸案件中侦查人员一般会根据抛尸现场数量、位置、痕迹物证、作案工具来源地等信息推测杀人现场位置、交通工具、犯罪嫌疑人活动范围,并结合被害人经常性活动场所的位置推测出嫌疑人犯罪行为、轨迹等线索,再根据这些线索寻找视频资料、手印足迹、微量物证、通话记录等重要证据,逐步完善证据链。
案情分析工作即是侦查人员根据已知案件材料,研究材料 (要素)之间的关联,发现案件线索的过程。但是,这种关联分析往往是建立在侦查人员经验性、直觉性的主观判断之上,判断结果具有偶然性与不确定性。尤其是在我国目前激增的案件数量面前,有限的警力资源无法进行大规模材料信息的处理与分析。此时,可引用相关性分析方法,从数理统计的角度为要素间关联分析提供更为客观、全面的数据支持,同时借助计算机技术,实现便捷、高效的数据处理。借用统计学卡方统计与列联分析的方法研究分类数据之间的相关关系。首先,需要侦查人员根据经验和刑事案件发生的显著规律对刑事案件构成要素内容进行细化,并建立某对构成要素之间关联的假设。仅以发案时间与案件性质两个要素为例,将案件性质细化为抢劫、杀人、盗窃、强奸等类型,可以发现不同类型对应的发案时间在年内有显著差异。一般来说,强奸案件在第二季度发案量较高,抢劫、盗窃于第四季度发案量巨大,杀人案件则在四个季度内呈平均分布态势,但春节前夕会有明显增加。还可以对某一类案件性质进行详细分类与关联,如盗窃案件又可分为入室盗窃案件,集中发案于凌晨一点至三点之间;街面发生的扒窃案件,集中发案于上、下午室外人流量高峰时段。其次,为了验证以上规律或假设的真实性,我们依据某一范围内案件的历史数据进行卡方检验。假设某省全年的盗窃案件中,不同方式(性质)盗窃案件发案数与时间有关,为验证假设是否成立,卡方检验需要将发案时间范围进行若干具体分类,根据全年入室盗窃发案总数,计算某一时段内发案数的观察值 (实际发生案件数)和期望值 (按照案件性质比率估算的案件数),并比较二者是否具有显著差异。当卡方的计算值远大于时段分类数自由度下卡方值时,案件性质与时间要素有显著相关性。最后,在二者相关的前提下,利用列联分析¢相关系数,V相关系数等相关程度测量方法说明要素之间的相关程度。在掌握这些相关规律与相关的密切程度之上,我们可以根据不同案件的发案时间特征推测案件性质,也能够依据案件性质估算这一类型案件发案时间规律。此外,需要说明的是,案件构成要素之间的相关规律复杂繁多,目前无法完全实现依靠技术自动发现全部要素内容之间的相关关系,仍旧需要侦查人员根据办案经验人工选择相关要素进行验证。
(三)利用要素相关性分析实现犯罪预测
犯罪预测作为犯罪学的研究方向之一,是实现精准打击和犯罪预防的前提。在我国,由于受到犯罪学理论基础与研究环境的制约,犯罪预测理论与方法的研究一直未能取得突破性进展。根据2011-2015年国家统计局公布的各类刑事案件数据,盗窃、诈骗、抢劫三类财产型案件的立案数占每年刑事案件立案总数的三分之二,而且数量仍在持续增长。至2015年,全国共立“盗、抢、骗”案件602万起,突破全部刑事案件总数三分之二而达到的84%。其中盗窃案件发案数量最大,诈骗案件次之,且较前一年增幅明显。相比于发案趋势,案件侦办情况却不容乐观,2012-2105年盗窃案件年侦破数量仅为立案数量的三分之一。经过08年以来公安部联合多个部门的重力打击,2015诈骗案件侦破数量虽较2008年有所上升,但仍只占到当年立案数的二分之一。针对以上情况,全国公安机关将开展为期3年的打击“盗、抢、骗”专项行动,坚决打击盗窃、抢夺、诈骗、销赃等多发性侵财犯罪活动。但针对上述案件,仅仅依靠事后打击,通过侦查工作发现、抓获犯罪嫌疑人不但所起作用有限,而且虚耗警力资源,影响犯罪打击的整体效率。可以将突破的重点扩展到事前预测上来,利用“数据”分析技术实现高发、多发案件的精准打击。
目前,很多学者都在着手开展大数据背景下犯罪预测的研究,进行了多种方法、模型的尝试和开发,有学者提出构建时空定位信息管理系统进行犯罪预测,有学者建议搭建犯罪时空网络,利用历史数据描述刑事案件在时空范围内的分布,预测未来某一类型案件发生的时空点位和积聚程度。还有学者认为应利用决策树等方法在给定条件范围内进行数据运算,得出预测结果。以上观点无论是研究的切入点还是核心理论都具有某种程度的一致性:首先,都是利用历史数据计算未来结果预测犯罪。其次,都选择从刑事案件构成中时间、空间两个要素入手进行预测。最后,都是利用构成要素间的相关关系构建模型,测算刑事案件在未来某一时空范围内发生的概率及分布状态。有所不同的是,有的理论、方法是单独研究时间或空间某一个要素,有的是将时空要素作为整体设计数据分析模型。文章在以上观点的基础上提出利用刑事案件构成要素相关性方法进行犯罪预测,其核心理论仍然是利用要素之间的相关关系分析未来某一时空范围内刑事案件发生情况。但有所不同的是,第一,刑事案件构成要素相关性方法在考虑时空要素之外还加入了对案件性质、现场痕迹、损失价值等多个要素的考虑,能够使预测结果更加详尽、准确。第二,除了简单测量单个或多个要素发生的概率 (可能性系数)之外,还要利用计算机技术对要素进行聚类及多维度相关性计算,发现其深度关联规则,实现多类型、大容量数据分析,为侦查机关提供更为全面的预测结果。
除了利用概率统计与回归分析等方法进行犯罪预测之外,再尝试方差分析的方法,利用研究分类型自变量对数值型因变量是否具有显著影响的思路,判断某类型构成要素内容能否对预测结果构成影响并估量影响的大小,为预测结果提供解释。首先,在历史数据中选取案件样本,此处的案件可以是系列性案件,也可以是在某些构成要素方面具有高度一致性或相似性的案件。将案件性质、时间、空间、工具痕迹等要素作为分类型自变量,而各个内容一致或相似的要素内容在样本案件中出现的次数即为数值型因变量。其次,计算全部数据误差平方和 (SST),不同类型内部(组内)数据误差平方和 (SSE)与不同类型之间(组间)数据误差平方和 (SSA),其中 SST=SSE+SSA。如果要素类型对预测结果没有影响,则组间误差中只包含随机误差而没有系统误差,类型间误差与类型内部误差应该很接近;反之,类型间误差除了随机误差还会包含系统误差,此时认为要素类型对预测结果有显著影响。最后,用组间误差平方和占总误差平方和的比例反映要素类型与预测结果关系强度。当然,考虑到实际情况下不同类型要素之间存在交互作用,可选择双因素方差分析方法,其基本原理如上。随后,可利用测得的关系强度,根据侦查实际需求进一步构建预测模型,对一定时空范围内的刑事案件构成特征进行预测。
以上论述是刑事案件构成要素相关性分析应用研究第一阶段的成果,仅仅是围绕刑事案件构成要素相关性分析在刑事案件侦查工作中的应用范围及方法所进行的理论阐述,将会在后续工作中尝试研究相关性模型的建立与应用,为侦查“大数据”的处理与分析提供思路和理论依据。
[1]谢景文,吴小平.统计学原理 [M].北京:北京理工大学出版社,2010.
[2]维克托 · 迈尔·舍恩伯格.大数据时代:生活、工作与思维的大变革 [M].周涛.译.杭州:浙江人民出版社,2012.
[3]吴泽仁.用关联分析法标定新层 [J].断块油气田,1997,(09):27-30.
[4]郝宏奎,陈刚.侦查学[M].北京:中国公安大学出版社,2014.
[5]马忠红.论刑事案件的构成要素 [J].中国人民公安大学学报 (社会科学版),2012,(05):91-99.
An Application Study on the Relativity of the Constituents of Criminal Cases
Miao Lin-lin
(Dept.of Investigation,Nanjing Forest Police College,Nanjing 210023,China)
The information age of public security organs has entered the third generation and the main task is surrounding the deep excavation of information and the projects construction of cloud computing of public security industry,big data and mobile policing.However,in practice,the application of information technology in public security organs is till in the phase of"Only-In-No-Out"and the capacity of information study is relatively weak.Therefore,we shall realize that the significance of big data lies not only in the large volume and diversity of big data,but also as an analyzing technique in the speedy treatment and efficient analysis of mass data.This paper studies the relativity of the constituents of criminal cases from the perspective of data application and conduct a model analysis to improve the accuracy of the forecast and decision of public security work.
constituents of criminal cases;connection;relativity analysis;mixed cases investigation;crime forecast
DF61
A
1009-3745(2017)05-0037-08
2017-08-30
国家社会科学基金项目“大数据背景下公安情报分析与关联模式研究”(16BFX091)
苗林林 (1988-),女,辽宁铁岭人,南京森林警察学院侦查系讲师,从事侦查学研究。
责任编辑:林 衍