数据关联背景下芝加哥市一般盗窃案件的多维度分析

2018-09-13 04:34朱小波叶信岳
犯罪研究 2018年4期
关键词:案发盗窃案维度

朱小波 李 昕 叶信岳

一、引言

近年来,无论是理论界还是警方、政府等犯罪治理部门对盗窃犯罪都进行了详细的研究和深入的探讨。在国内学界,以中国人民公安大学为代表的诸多研究团队长期致力于从犯罪地理、犯罪时空的角度对犯罪热点识别、成因分析、热点转移以及犯罪预测进行研究。①陆娟、汤国安、张宏等:《犯罪热点时空分布研究方法综述》,载《地理科学进展》2012年第4期。在一线实战单位,各地公安部门陆续开展了以“智慧警务”、“数据警务”为引领的警务革新项目,以期在大数据时代,通过海量犯罪数据挖掘、分析,优化警力布置,精确治理犯罪。在国外,早在20世纪初,美国芝加哥大学的社会学者McKay等针对芝加哥城市犯罪区位特征进行研究,并深入分析了环境特征与犯罪率的关系。②Wim Bernasco and Richard Block,“Robberies in Chicago: A Block-Level Analysis of the Influence of Crime Generators,Crime Attractors, and Offender Anchor Points”,Journal of Research in Crime and Delinquency,2011,48(1),PP.33-57.近年来,以地点警务创始人戴维·韦斯伯德(David L. Weisburd)为代表的学者们一直关注街区等地理微观因素在解释犯罪中的作用。最近,该团队在华盛顿州西雅图进行的一项关于犯罪集中程度的纵向研究中发现,该市每年50%以上的犯罪事件都集中在5%至6%的街道上。因此,注重犯罪的微地点(Micro places)能使警方的预防犯罪工作起到事半功倍的效果。

另一方面,我们也应看到,盗窃犯罪是一项十分复杂的犯罪形式。目前,从理论方面解释受害的日常活动理论、③吴宗宪:《西方犯罪学》,法律出版社2006年版,第14页。剖析犯罪嫌疑人的理性选择理论以及与犯罪情境相关的一些理论,①J.J.Turanovic,M.D.Reisig,“Risky lifestyles, low self-control, and violent victimization across gendered pathways to crime”,Journal of Quantitative Criminology,2015, 31(2),PP.183-206.显然还不足以对盗窃犯罪做全面的剖析。在实证方面,目前对窃案发生的社会原因探讨较多,但对各类影响因素的实证考量,尤其是对城市近年来的大数据量的盗窃样本进行多维度分析、数据关联检验的研究较少。②柳林、张春霞、冯嘉欣等:《.ZG市诈骗犯罪的时空分布与影响因素》,载《地理学报》2017年第2期。加之犯罪数据较难获取,目前对于盗窃犯罪的实证分析研究只能在有限的范围内进行开展。因此,相对来说研究的深度还有待提高。

由此,本文选取美国芝加哥市2015年1月1日至2017年12月31日接报的一般盗窃③根据2016年美国联邦调查局发布的《统一犯罪报告》(Uniform Crime Reports)的定义,theft意为为非法占有、携带、剥夺他人实际占有或推定占有的财产的行为。例如自行车、汽车零件和配件盗窃,入店行窃(shoplifting)、扒窃(pocket-picking)或是并非通过暴力、强迫、欺诈手段获取他人财物的行为。预谋盗窃(attempted larcenies)也包括在内,而盗用(embezzlement)、伪造(forgery)、支票欺诈(check fraud)等被排除在外。警情为研究样本,首先从时间的月、周、小时和空间的道路维度对该市的窃案报警进行总体分析,在关联相关数据后,得出总体的时间和空间特征。第二步,在盗窃案件发生的具体位置这一维度进行数据深入挖掘、分别得出发生在街面(Street)、别墅(Residence)、公寓(Apartment)的三种多发性窃案的高发时间、空间特征并甄别其异同性。最后,在人口普查区尺度上,尝试找出影响盗窃案发生的因素,力求从多维视角“透视”窃案背后隐藏的“秘密”,同时也为我国大城市的盗窃犯罪治理提供借鉴。即本文旨在解决三个问题:(1)芝加哥市一般盗窃报案总体时间分布和空间聚集性展示与检验;(2)确定三种多发性窃案的高发时间、空间特征、案值大小和高发警务区;(3)分析一般盗窃案件发生的“强关联”因素。

二、研究区域概况

芝加哥市位于美国伊利诺伊州的库克县,毗邻五大湖之一的密歇根湖,是美国仅次于纽约市和洛杉矶的第三大城市。芝加哥南北长40.23公里、东西宽24.14公里,陆地面积约为588.3平方公里。人们习惯上将其分为北部、中部和南部三个部分。

数据显示,2017年芝加哥市警察局共接报118231起报警,其中暴力案件30154起(主要包括:谋杀、抢劫、强奸、攻击他人),财产类案件88077起(主要包括:入室盗窃、一般盗窃、盗窃机动车)。财产案件几乎是暴力案件的三倍。其中又以一般盗窃案件(Theft)接报数最多63949件,占财产案件的72.6%,总报警量的54%。同期纽约市的该类案件接报量为107589件,洛杉矶市接报66091件,全美该类案件接报总数为5638455。对比芝加哥市的人口为2704958人,纽约市人口8537552人,洛杉矶总人口3976322人,美国的总人口为323127513人④表一的数据均来自于United states census网站。。计算得出,芝加哥居民每一千人中成为盗窃案受害者的指数为23.64,洛杉矶为16.62,纽约为12.6,而全美的平均指数为17.44。再对比芝加哥市(陆地)面积606平方公里,纽约市(陆地)面积789平方公里,洛杉矶市(陆地)面积1290平方公里,得出芝加哥每平方千米发生一般盗窃案件的指数为 105.5,洛杉矶为 51.23,纽约为136.3 ,美国平均仅为0.6。

表1 美国三大城市2017年一般盗窃案件案发情况

通过上表可以清晰的看出,芝加哥市是三个城市中的面积最小、人口最少的城市,但每千人受害指数却最高,接近纽约的两倍,并且其每平方千米的窃案发生率位居第二,达到了洛杉矶的两倍之多,盗窃案件居高不下,安全形势不容乐观。

三、主要数据与研究方法

(一)数据来源和相关说明

本文运用的犯罪数据来源于芝加哥市警察局的CLEAR系统(Citizen Law Enforcement Analysis and Reporting,即公民执法分析和报告系统)。为了保护犯罪受害人的隐私,地址只在道路(Street)级别显示,具体门牌号位置不做确定。该数据集包括了 2015年 1月1日至2017年12月31日美国伊利诺伊州芝加哥市警察局接报的所有犯罪事件,内容包括案件编号(ID)、案由(Primary Type)、对应警务区(Beat)、案件坐标(longitude latitude)等22个字段。其中案由字段包括贩卖人口(human trafficking )、阻碍执法(interference with public officer)、恐吓(intimidation)等共30种罪名。本文抽取字段名为“theft”即一般盗窃的数据,总量为182673条。(在美国警方的数据统计中,普遍将一般盗窃犯罪归为除了入室盗窃(Burglary)和机动车盗窃(Motor Vehicle Theft)之外的所有盗窃。)经过数据清洗,去除无法获取经纬度坐标和撤销报警的数据,最终得到 176508条。通过Arcgis软件,对每条一般盗窃案的报警数据通过经纬度实现自动落点。

研究中的其他数据主要包括芝加哥市各人口统计区的黑人数、白人数、亚裔数、总人口数、单亲家庭数、房价、贫困率、房屋新建(改建)许可颁证数等均来自于美国国家统计局的官方数据,且也都在人口统计区级别进行收集。

(二)研究方法

1.数据可视化:

为了清晰的表达数据,本文首先采用数据可视化的方法。第一步,将所有数据进行汇总,然后运用基于JavaScript的Cross filter组件进行动态数据过滤,并采用dc.js进行可视化展示。

如图1所示,左侧为基于Leaflet的芝加哥一般盗窃案的热度图,根据犯罪地点的经纬度坐标进行自动汇集,数量从高到低依次按照红、黄、绿进行可视化显示。中间为所有案发道路的犯罪数量横向柱状图,并按照数量从多到少进行排序。右侧上方为一般盗窃案的数据总量。右侧下方用饼状图分别展现了Description(案情描述),Location(案发位置),District(警察分局)和Beat(警务巡逻区)的犯罪数量对比。其中柱状图和饼状图采用dc.js的可视化展现方式,可进行实时交互,用户可以选取其中的任意一项或多项,通过Cross filter组件进行数据过滤并联动展示。例如,点击Location中的Street就可以同时显示与街面盗窃案相关的案情描述、高发警察分局和警务巡逻区。犯罪时间统计则采用移动窗口的方式进行时间范围的数据过滤。

图1 芝加哥市一般盗窃案件可视化分析界面

2.随机森林回归算法

随机森林回归算法是 Breiman(2001)提出的基于决策树分类器的融合算法,其基本思想是基于统计学理论,利用 Bootstrap重抽样方法从原始样本中抽取多个样本,对每个Bootstrap 样本构建决策树,然后将所有决策树预测平均值作为最终预测结果。①王雨晨、过仲阳、王媛媛:《基于随机森林的犯罪风险预测模型研究》,载《华东师范大学学报(自然科学版)》2017年第4期。随机森林回归可以看成是由很多弱预测器(决策树) 集成的强预测器。该算法在运算量没有显著提高的前提下提高了预测精度,对多元共线性不敏感,可以很好地预测多达几千个解释变量的作用,被称为当前最好的算法之一。本文采用 Python语言作为模型运行的平台。

四、芝加哥市一般盗窃案件的多维度分析

(一)一般盗窃案件的总体时空分布检验

1.时间特征

(1)按月度划分(图2):通过芝加哥市2015-2017年的一般盗窃犯罪报案折线图,可以看出明显的规律性特征。每年的二月都是盗窃犯罪的最低谷,随后从三月开始发案就呈初步上升趋势,这一趋势一直持续到八月达到峰值,随后从九月开始,开始逐步回落。

图2 芝加哥市2015-2017年的一般盗窃犯罪报案月度折线图

(2)按星期维度划分(图3),周一到周日的案发总量分布较为平均,未见明显的差异性。

(3)按小时维度划分(图3),呈“中间高两端低”的金字塔型,该类报警一般是从8时开始上升,一直到12时,随后12-18时,报警数量呈高发趋势,持续在全天的最高位运行,即下午时段为一般盗窃案最高发的时间段。从20时至次日凌晨6时,报案量又开始逐步下降。

图3 芝加哥市2015-2017年的一般盗窃犯罪报案周、小时案发图

(二)空间特征

(1)街道维度:在全部的176654件盗窃案件报警中,报案量前六位的街道分别是:N MICHIGAN AVE(密歇根北大道,3585件)、N STATE ST(州北街3518件)、N CLARK ST(克拉克北街,2771件)、W NORTH AVE(西北大道,2689件)、S STATE ST(州南街,2665件)、S MICHIGAN AVE(密歇根南大道,2149件),总计17377件,占全部盗窃报案量的9.84%。如果将N MICHIGAN AVE和S MICHIGAN AVE,N STATE ST和S STATE ST看成一条道路的话,那么芝加哥市的窃案高发区域就非常明确的集中在上述四条道路上。N MICHIGAN AVE和一街之隔的N STATE ST都处于整个城市的最核心,是芝加哥市最著名的高层购物中心,百货商场、高级餐厅的聚集地。密歇根北大道的其中一段从 Oak street到芝加哥河,被誉为“Magnificent Mile”(华丽一英里)。而克拉克北街则长达13公里,拥有众多的历史景点、各式餐馆和两个球队主场,在最南端又背靠著名的林肯公园。可以想见,每天如织的人潮和货物的进出,繁荣了经济的同时也带来了大量的窃案。

(2)警方维度:对应案发最高的是第一分局(接报 19235件)和第十八分局(接报18103件),最高的巡逻区是1834号巡逻区域(3915件),1833号巡逻区域(2597件)。

图4 芝加哥市一般盗窃案件空间分布热力图(截取案发量最高的前六位街道显示)

(二)三种具体多发性盗窃犯罪的时空分布检验

在微观层面,通过数据关联,本文根据窃案报警数量,筛选出案发前三位的主要位置(Location)分别为街面(Street)、别墅(Residence即House)、公寓(Apartment)的案案件逐一进行深入挖掘分析。

1.发生在街面的盗窃案件报警量为44867件,占一般盗窃案件总量的25.4%。经过数据关联发现,街面盗窃案件的案值在500美金及以下的占27646件,占61.6%,500美金及以上的占15753件,占35.1%。因此,从整体上讲,街面案件的案值普遍不高。再聚焦到街道发现,该类报警最高的是N MILWAUKEE AVE(密尔沃基北大道,615件)。该大道是仅次于MICHIGAN AVE的商业街,坐落着琳琅满目的服装、礼品和精品店。另一方面,地铁蓝线(Blue line,从奥黑尔国际机场始发经市中心到福利斯特公园)也是沿该大道走向。由此可知,在地铁和商业的为城市带来了大量的人流,同样也很可能成为盗窃分子首选的作案地。其次的四条街道:N CLARK ST、W NORTH AVE、S MICHIGAN AVE和S Doctor Martin Luther King Junior Drive(马丁路德金南路)。对应案发最高的警务区是十四分局(接报791件)和十八分局(接报456件),案发最高的巡逻区是1424号(1004件)。

在时间维度上:①年度特征:每年二月和十二月一般都是发案的低谷期,同时四月之后一直到十月的春、夏、秋季普遍多发。②周维度分布相当平均,周一到周日案发相差无几。③小时维度就可以看出端倪,该类案件一般从下午14时开始上升一直到18时达到高峰,并且这一趋势一直延续到22时,随后才逐渐下降。因此,从三年的数据可以非常明显的看出每天的18时-22时(傍晚至上半夜)是街面盗窃案件高发时段。注意,这一点与前述分析的一般盗窃案发的整体时间趋势有所不同。

2.发生在别墅的盗窃案件报警量为13018件,占总量的7.4%,经过数据关联发现,案值在500美金及以下的为5928件,占45.5%,500美金以上的有3365件,占25.9%,其余案值不详。因此,别墅盗窃案有将近一半在500美金以下,情况与街面盗窃案件类似,案值较低。关联到具体街道显示,案发前五位的街道S Doctor Martin Luther King Junior Drive、S MICHIGAN AVE(密歇根南大道)、S INDIANA AVE(印第安纳南大道)、S WABASH AVE(瓦巴什南大道)以及S EMERALD AVE(艾姆莱德南大道),全部处在南区。众所周知,芝加哥的南区是美国最大,也是最为危险的贫民窟之一,95%以上居住的是芝加哥最为穷困的少数族裔,尤其以非裔美国人为主。该区域还建设许多Public House(即保障房或是公租房),通常分配给位居社会最底层,无力承担住房费用的穷苦民众乃至乞丐居住。由于住户经济条件原因,治安通常十分败坏,甚至沦为犯罪窝点。对应案发最高的警务区是分局是第七分局(接报1023件)和第八分局(接报966件),案发最高的警务巡逻区是512号巡逻区域(160件)。

在时间维度上:①年度特征:每年十月之前的八、九月会有一波小高峰。②周维度分布也基本是平均分布,周一到周日案发相差无几。③小时维度上,每天的9-10、12-14时两个时间段案发量非常高。这一点尤为明显,值得警方加以关注。

3.发生在公寓的盗窃案件报警量为10440件,占总量的5.9%。通过运用同样的方法,发现公寓盗窃案件的案值在500美金及以下的为4697件,占45%,500美金以上的有2443件,占 23.4%。案值情况与前面两类案件如出一辙。另外,同样的方法获取案发前五位的街道分别是:S DR MARTIN LUTHER KING JR、N SHERIDAN RD(谢里单北路)、S MICHIGAN AVE 、S INDIANA AVE 、S SOUTH SHORE DR(南岸南路)。由此可见,除谢里单北路之外,其余的又都位于南区,而且 S DR MARTIN LUTHER KING JR、S MICHIGAN AVE和 S INDIANA AVE这三条街又重复出现,说明该地区的窃案情况已经相当糟糕,应当引起当地警方和政府的足够重视。对应案发最高的警务区是第三分局(接报851件)和第六分局(接报793件),案发最高的警务巡逻区是421号巡逻区域(187件)。

在时间维度上:①年度特征:在每年的夏季七、八月份是该类盗窃案的高发月份,临近圣诞的十二月也需要注意。②周维度分布也基本是平均分布。③小时维度上的案发呈“白天多、夜间少”的趋势,每天的8-18时段要明显高于20-24的时间段,其中9-10、12-13时为一天中公寓盗窃案发最高的两个时段。由此可见,窃贼都明显有等住客离家上班后,实施盗窃的意图。

此外,以上三种多发性的盗窃案有一个非常明显的共同特征就是在凌晨时段22时-次日9时左右案发量是一天中最低。

五、一般盗窃犯罪的影响因素分析

(一)指标选取

目前大多数对于美国犯罪问题的研究普遍采用的解释变量为贫困率,单亲家庭数,房价中位数、人种、就业率、本科学位获得率等等。①Yan Zhang, Jihong Zhao, Ling Ren, Larry Hoover,“Space–Time Clustering of Crime Events and Neighborhood Characteristics in Houston”,Criminal Justice Review,2015,40(3),PP.341-356.但本文在考虑上述因素的同时,将芝加哥市房屋管理局的住房新建(改建)许可数据也作为解释变量加入其中,检验其对一般盗窃案发的影响程度。

(二)模型选择

借助SPSS软件对因变量(一般盗窃案发数)进行正态性检验(用Shapiro-Wilk检验),发现处于离散分布状态,不服从正态分布,且标准化残差过于集中。因此,该数据并不适用多元线性回归模型。随后,考虑Poisson回归模型和负二项回归模型进行分析,但是拟合效果均不理想。最后,本文尝试运用 Python3.6软件构建随机森林回归算法进行解释。

(三)模型训练与测试

1.数据预处理

考虑到房价、贫困率、犯罪数等变量的数值差距较大而且单位不同,因此考虑将其转化为无量纲的纯数值,便于不同量纲或者量级的指标能够进行比较和加权。本文采用z-score标准化方法进行数据预处理。z-score标准化:标准分数(standard score)也叫z分数(z-score),是一个分数与平均数的差再除以标准差的过程。其公式表示为:

2.特征选择

根据随机森林自带的特征选择算法,得到八个影响因子及其估计结果(表3)。

表3 随机森林模型估计结果

结果显示:新建、改建房屋许可证数与房价中位数对一般盗窃犯罪的影响程度较大,其中新建、改建房屋许可证数对一般盗窃案发数影响程度达到了0.628,这可以理解为政府每颁发一张新建、改建房屋许可证,就有62.8%的可能发生一起盗窃案件。这一关系背后的深意尤其值得我们注意。众所周知,一个地域的新建、改建房屋许可是该地区经济活力的直接反映。结合前文对该市一般盗窃案空间聚集的检验,市中心最繁华的“华丽一公里”密歇根大道是一般盗窃案发案最高的区域,与此同时,2017年政府在区域共颁发了736张新建、改建房屋许可证,冠绝整个芝加哥市。因此,足可见该地区的经济活力之强,并且随之而来的人流、物流、车流也都为窃案提供了可乘之机。在结合房价的影响程度来看,对于盗窃这类典型的侵财类案件来说,“经济因素”无疑还是犯罪嫌疑人首要考量的对象。与之形成鲜明的对比的是,总人口、贫困率、各人种数对一般盗窃犯罪的影响并不大。

(四)回归结果评估

在本次算法测试过程中,随机抽取80%的犯罪数据作为训练集,另外20%作为测试集。训练集用于训练分类模型,测试集用于评估模型的好坏。训练集的作用是用来拟合模型,通过设置分类器的参数,训练分类模型并拟合出多个分类器得出最优模型后,最后通过测试集进行模型性能评价,以此来衡量该最优模型的性能和分类能力。即可以把测试集当做从来不存在的数据集,当已经确定模型参数后,使用测试集进行模型性能检验。

因此,根据训练好的随机森林算法模型,对20%的测试集进行测试,得到如下结果:

(1)MSE是预测数据和原始数据对应点误差的平方和的均值,计算公式如下:

通过计算的出该模型的MSE(均方差)=0.215

(2)RMSE(均方根误差),也叫回归系统的拟合标准差,是MSE的平方根,计算公式如下:

通过计算的出该模型的RMSE(均方根误差)=0.4637

(3)R-square(确定系数),计算公式如下:

“确定系数”是通过数据的变化来表征一个拟合的好坏,其正常取值范围为[0,1],越接近1,表明方程的变量对y的解释能力越强。本文模型的R2(确定系数)= 0.7199,拟合度较高,说明该模型解释度较好。并且由图5、6可以看出,该模型的可靠性较高。

图5 随机森林模型算法真实值与预测值对比

横轴:表示从801个人口统计区内,抽取的20%即160个人口统计区的相关数据作为测试集。纵轴:考虑到因变量一般盗窃犯罪数的数值(最小值为2起,最大值5597起)分布情况,因此本文对一般盗窃犯罪数即纵轴取对数处理,使之范围在0-10内,这样也利于作图表达。

图6 误差分布

横轴:表示从801个人口统计区内,抽取的20%即160个人口统计区的相关数据作为测试集。纵轴即误差(真实值减去预测值的绝对值),越接近于0表示越结果越稳定,预测效果越好。从图中可以看出,除了第90个到100个测试数据中有个别误差较大外,其余数据均小于1,结果较好。

六、结论

本文以美国三大城市中安全形势最严峻的芝加哥市为例,综合运用数据可视化、数据关联等技术对该市2015-2017年的17余万条一般盗窃数据进行过滤和制图表达,并同时进行了数据联动展示,分析其时空分布特征。

时间特征:每年的二月都是盗窃犯罪的最低谷,随着天气转暖,从三月开始发案就呈初步上升趋势,这一趋势一直持续到八月达到峰值,随后从九月开始,开始逐步回落。周一到周日的案发总量分布较为平均,未见明显的差异性。每天的12-20时是一天中的发案最高峰,需严加注意。

空间特征:该类案件呈现出在市中心“华丽一公里”区域内的高度聚集。再深挖一步,对三种微观类型的多发性盗窃案件,即街面盗窃、别墅盗窃和公寓盗窃进行聚焦,挖掘其共性和特性。最后,通过随机森林回归算法建模分析得出新建、改建房屋许可证数与房价中位数对一般盗窃犯罪的影响程度较大,而传统意义上我们认为的“影响因素”总人口、贫困率、各人种数等反而对一般盗窃犯罪的影响并不大。

本文的研究仅仅是一次有益尝试,目前还处在探索阶段,需要在后续研究中不断进行深化与探索。例如,考虑到空间异质性问题和自相关性的问题,在今后的深入研究中还将引入地理加权回归模型或者空间滞后模型等空间分析技术,力求最终的分析和建模更加精确。

猜你喜欢
案发盗窃案维度
理解“第三次理论飞跃”的三个维度
名画盗窃案
入室盗窃案
雨夜盗窃案
认识党性的五个重要维度
浅论诗中“史”识的四个维度
录下的证据
俄前特工中毒案案发地发现神经毒气
喇叭盗窃案
漏洞百出的证言