陆育卉, 赵 海, 刘 晓, 施 瀚
(1. 东北大学 计算机科学与工程学院, 辽宁 沈阳 110169; 2. 辽宁省葫芦岛市人民检察院, 辽宁 葫芦岛 125000; 3. 北京百分点科技集团股份有限公司, 北京 100089)
复杂网络理论研究体系是理解复杂系统和探究事件发展规律的一种动态方法.犯罪数据关系网络,简称为“犯罪网络”(criminal network),作为复杂网络的特例,对其开展的研究起源于美国的911恐怖袭击事件.为了预防犯罪再次发生,学者们开始更多地运用科技手段对犯罪数据进行分析.相关部门开始投入更多资源收集整理各种犯罪数据以作研究支撑,一些学者开始用网络分析方法对各种犯罪组织的结构进行构建.比如在911恐怖事件发生后,美国学者就利用社会网络分析方法来甄别该犯罪组织的核心成员[1];Jonathan基于前者收集的数据,通过对比删除成员前后对犯罪组织结构造成的影响,开展一系列动力学研究;黄慧霞[2]分析了我国近年来边境贩毒组织网络结构的集权程度、角色位置、网络弹性等特点.
通过学者们对各类型犯罪的大量研究,时空聚集特性十分显著[3].从空间角度统计,犯罪活动通常发生在一个可识别的范围里;从时间意义上,犯罪发生存在高发的时间点或时间段.在传统的犯罪网络研究中,时间和空间往往作为两个无关联的维度被单独分析,从而忽视了时空相互作用影响可能增加的犯罪风险问题.近年来,立足于时间和空间存在相互影响的角度,人们开始在分析和挖掘犯罪活动的组织模式中得出一些新的结论[4-5].Contreras等[6]提出了时空立方体的概念,将时间轴与水平地图垂直构建三维空间,该构造方法能更直观地观测到测试案例在时空上的集合特点和变迁规律.日本学者利用时空立方体概念定位了京都2003—2004年的盗窃案件,可以证实该方法能更好地帮助研究者识别出犯罪热点区域,清晰地解读了其随时间的变化而发生转移的情况[7].
在我国也有诸多研究团队开始从犯罪地理、犯罪时空的角度进行相关研究.以中国人民公安大学为代表,在对犯罪热点判定、成因剖析、热点转移、预测等方面有了诸多研究成果.在一线部门,各地公安机关相继开展了以“智慧警务”为引领的信息项目,收集利用海量警务数据,通过挖掘、处理,优化警力布置,惩治预防犯罪[8].
本文根据犯罪的时空聚集特性,定义了时空影响域概念,提出了一种新的犯罪网络构造方法,利用复杂网络手段,对犯罪网络建模与拓扑特征分析方面做一些深入探讨,为犯罪大数据的科学分析提供更多参考.
根据犯罪行为学和环境犯罪学等理论已经发现,一旦一个地点成为犯罪的目标,附近的地点面临着在短时间内经历同样事件的高风险.犯罪学有限空间理论表明,犯罪事件对周边产生的时空影响是在极值范围内的.那么,本文将该时空影响范围定义为时空影响域[9-10].某区域发生一起犯罪案件,该案件的时空影响域指的就是其造成持续影响的时间窗口及其对周边地理空间的影响范围.
文献[11]借用流行病学的统计方法,假设犯罪热点在短期内不发生变化,将犯罪行为建模为一系列的随机事件,分析该事件影响研究目标受侵犯的风险概率.
以盗窃案举例,对于i地点的盗窃事件,最简单的假设是它们是随机发生的,定义一个随机过程,其中每起盗窃事件都是独立于所有其他事件的.显然,同一地点两起盗窃案件不能同时发生,因为它们会被简单地认为是一起事件.从数学上看,这种现象可以建模为泊松过程,在t到t+δt时间间隔内发生一次盗窃的概率:
P1(δt)=e-λδtλδt.
(1)
由一般泊松分布得出发生k次盗窃的概率:
(2)
那么在一个时间区间δt内没有犯罪发生的概率:
P0(δt)=e-λδt.
(3)
现在考虑i地点在T时刻发生第一次犯罪事件,从参考点t=0时开始计算,在0到τ时间内无犯罪事件发生,那么T>τ,因此,
P(T>τ)=P0(τ)=e-λτ.
(4)
扩展可以得出τ到τ+δt时间发生犯罪的概率:
P(τ
e-λτ(1-e-λδt).
(5)
如果把式(5)除以δt,然后取极值δt→0,可以得出时间间隔为τ的标准泊松过程概率密度函数:
P(τ)=λe-λτ.
(6)
空间影响域的概率推导方式也如此.
用(Si,ti)表示犯罪事件发生的时间和地点,令Tn={t1,t2,…,tn},Dn={S1,S2,…,Sn},量化犯罪重复发生的典型时间尺度和空间影响范围.时空影响域的模型表达式如式(7)所示:
ψn(Sn+1,tn+1|Dn,Tn,χn)=
(7)
其中:tn+1和Sn+1为下一次即将发生的犯罪事件的发生时间和空间位置;v(dSn+1)表示区域dSn+1取极限;N(dSn+1,dtn+1)表示空间面增加dSn+1、时间增加dtn+1时该区域发生的犯罪数量.
该模型将犯罪事件的时间属性和空间属性抽象出来,通过对二者采用数学方法进行建模计算,以准确评估犯罪事件预期发生概率.不同的犯罪类型,其时空影响域的极值不同,相比于个案发生,团伙犯罪向周围空间扩散的能力更强,则在空间上产生的影响范围更大,而连续犯罪持续的时间影响更长[12].而对于相等的未来受侵犯风险,不同的犯罪类型也表现出不同的时空影响域值,犯罪时空密度大的犯罪类型时空影响域值偏小[13].
每次犯罪事件的发生都会对周围的时空造成影响,犯罪事件发生后该区域会形成以该事件为中心、空间影响域为半径的圆形影响区域S,T为该事件造成持续影响时间影响窗口.每次犯罪事件发生产生的时空影响域U(T,S),未来在该区域内发生的同类型犯罪均可看作受本次事件所影响,而本次犯罪事件与该影响区域外发生的犯罪则没有直接关系.对于任意两节点i∈V和j∈V,设Ui(Ti,Si)为节点i的时空影响域,那么当j∈Ui(Ti,Si),即j既在i的时间窗口中,又在其空间影响范围内,则存在一条由i到j的边(i,j).
图1为构建犯罪网络过程的示例,根据式(7)的统计结果,图1a中的圆形区域为犯罪事件发生后形成的空间影响域,图1b中犯罪案件发生时间顺序为A到I,假设该类犯罪案件时间窗口为3个单位.2时刻B处发生的犯罪案件虽然在空间影响域上覆盖至D,但时间上未影响到时刻5发生的事件D,因此无连边;F在E的空间影响域内,且发生在E产生的时间窗口内,因此产生一条由E指向F的边,其他节点的连边关系以此类推.那么示例网络拓扑如图1c所示.
图1 网络构建示意图
定义犯罪网络拓扑如下:
定义1设图G=(V,E)是由|V|=n个节点和|E|=e条边组成的一个有向图,对于任意2个节点i和j,若j∈U(Ti,Si),则存在一条边(i,j)使i指向j,其中U(Ti,Si)为节点i的时空影响域.
芝加哥位于美国伊利诺伊州东北部的库克县境内,密歇根湖西岸,地势平缓,是美国第三大城市,也是世界的国际金融中心之一.城市东西宽约24公里、南北长约40公里,面积约为600平方公里,市区东部由北到南为湖畔区,居民人数占全市人口的三分之一.南区是芝加哥大学、芝加哥港所在地,西区以众多的景区和文化、宗教圣地著称.
本文运用芝加哥市警察局公民执法分析和报告系统公开发表的犯罪数据[14]进行分析.该数据集包括了2012—2017年警察局接报的所有犯罪事件,总量为783万余条,数据结构包括案发日期、案由、案情描述、经纬度坐标等22个字段.其中案由字段包括盗窃、殴打、刑事毁坏、非法侵入、阻碍执法等共35种罪名.
本文选取案发频繁常见的,案由为“Theft,Robbery,Narcotics”的三种罪名分别组成盗窃、抢劫、毒品犯罪类型的网络,并剔除了经纬度和时间为空或异常等无效数据.Theft即一般盗窃,总量为1 543 062条.在CLEAR系统中,一般盗窃犯罪指的是不包括入室盗窃犯罪和机动车盗窃犯罪的其他一切盗窃行为.抢劫罪(Robbery)总量为292 536条,毒品犯罪(Narcotics)总量为849 081条.通过Gephi工具,对每条数据通过经纬度实现自动定位落点.
根据式(7)模型,分别提取盗窃、抢劫、毒品犯罪事件时间属性(日期)和空间属性(经纬度),进行建网分析.本文设置未来受侵犯危险概率为0.6(根据式(6)),分别计算三种犯罪类型的时空影响域值.
因空间影响范围接近泊松分布,空间影响域取值为其峰值且近似取整.时间窗口为达到未来受侵犯危险概率值时向上取整.不同犯罪类型的空间影响域值及时间窗口如表1所示.
本文利用2017年数据将三种类型犯罪分别组网,其犯罪网络拓扑的节点位置是基于真实地理坐标确定并标注的,明确的位置信息会给研究带来帮助,如图2所示.直观上来看,三种拓扑均存在明显的热点聚集现象,在热点内部连接紧密,相较外部区域连接则较为稀疏.这说明犯罪网络中存在着那些彼此之间影响非常大的节点,同时也暗示了这些热点区域可能存在活跃的犯罪活动.在某些区域上节点高度聚集,具体的网络拓扑特征分析如下文.
表1 不同犯罪类型的时空影响域值
图2 地理坐标下基于时空影响域的多类型犯罪网络
网络的度分布符合幂律分布即为无标度网络,即大多数节点的度值很低,只有少数节点拥有高度值.随机网络相对于规则网络最重要的区别就在于没有该特征[15].由于本文提出了一种新的犯罪网络构造方法,因此有必要验证使用本文方法得到的犯罪网络是否具有无标度特征.
定义2对于幂律分布有p(k)~k-α,其中p(k)是度值为k的节点出现的概率,α为幂指数.度分布的幂律现象愈明显,网络愈呈现无标度特性,网络的鲁棒性就愈强[16].双对数坐标下不同犯罪类型节点度分布频度如图3所示.图中直线为幂律的拟合结果,具体数值参见表2.
在犯罪网络拓扑中,一个节点的入度值大小代表着周围区域发生的犯罪对本节点产生的外部环境压力大小,入度值越大,则该节点面临的安全环境压力越大;而出度值大小代表着该节点对周边环境产生的压力大小,出度值越大说明犯罪发生对周围安全环境的压力越大.
表2 2017年不同犯罪类型网络信息
实验表明,该网络在不同犯罪类型、不同网络规模均表现出稳定的无标度特征,即大部分犯罪事件的产生对周边环境的影响较小,而少部分犯罪事件却产生了巨大的影响.该特性的映射关系可以作为用复杂网络的理论和方法研究犯罪关系网络的依据.
图3 双对数坐标下节点的概率度分布
定义3节点i的聚集系数Ci为该节点与其所有邻居之间的连接数与网络中最大连接数的比值:
(8)
其中:Ei是节点i与其邻居节点之间的连接边数;ki是节点i邻居节点的数量.聚集系数是用来描述一个图中节点之间集结成团的程度系数.网络的平均聚集系数为所有节点聚集系数的平均值:
(9)
设两个节点的最短路径上的边数为di,j,网络的平均路径长度D定义为
(10)
D即为任意2个节点最短路径长度的平均值.它是评价网络转发通信能力的重要参数,较短的平均路径长度使网络具备更快的传输速度.
表3为2017年不同犯罪类型网络的参数.通过表3可以看出,无论何种犯罪类型的网络,其平均聚集系数都远大于同等规模下随机网络的平均聚集系数,表现出显著的聚集性.另一方面,三种犯罪网络的平均路径长度相比其网络规模小得多,同该网络规模的对数相接近.可见三种类型的犯罪网络均具有明显的小世界特征.这一结果说明同类犯罪事件间存在着紧密联系,具有非独立性,该结论为预测节点间关系提供了基础.
表3 2017年不同犯罪类型网络的参数
如图2所示,不同类型的犯罪网络形成的聚集区域各有不同.盗窃案高发区域集中在芝加哥市的东部,处于城市核心区,拥有众多景点,聚集着最著名的高层购物中心、百货商场、高级餐厅.每天如织的人潮和货物的进出,繁荣了经济的同时也带来了大量的窃案.抢劫犯罪多集中在西部和南部,而毒品犯罪非常明显地集中在城市西部.
根据对本文数据集中社区信息的统计,西北部白人为主的社区犯罪率最低,城南、城西黑人居民超过90%的社区的犯罪率最高.结合芝加哥市非裔美国人人口分布图(图4),该图与图2中抢劫犯罪网络和毒品犯罪网络的热点区域高度重合,可见这两种犯罪与种族密切相关.尽管目前芝加哥白人、拉丁裔和黑人所占人口比例基本相同,但85%的抢劫、毒品案却都发生在黑人贫困区.可见人口结构、社会联系、集体效能等社会经济要素对犯罪现象及其空间格局具有直接影响.
为准确评估犯罪网络社团划分情况,将模块度作为一项重要衡量指标,通过将社团划分结果与对应零模型横向对比,进而度量和评价划分质量.假设对于某个特定的真实网络,存在一种划分社团方式,则划分后全部社团内的边数总和可用式(11)计算:
(11)
其中:A=(aij)指的是网络的邻接矩阵;Ci为节点i在网络中所属的社团;Cj为节点j所在的社团.当δ取值为1说明这两个节点同属一个社团,否则δ为0.
对于一个相同规模大小的零模型,如果用相同的社团划分,那么所有社团内部的边数总和的期望值为
(12)
其中,pij是零模型中节点i与节点j之间的连边数的期望值.
一个网络的模块度就定义为该网络的社团内部边数与相应的零模型的社团内部边数之差占整个网络边数M的比例,即
(13)
模块度作为网络社团划分的定量分析方式,可以直观反映划分质量,其取值主要由网络中众多节点的社区分配情况决定,网络划分的质量越高,强度越强,该值越趋近于1.
图4 芝加哥市非裔美国人人口分布
本文在模块度概念的基础上,结合文献[17]中社团发现算法,对三种犯罪网络的社团分布进行了划分,并在此基础上进一步计算了模块化程度.图5给出了各类犯罪网络的社团划分情况,以及其最大连通子图,其中的不同灰度代表了不同的社团划分.
图5 三种犯罪网络社团划分可视化图
在比对图中不同犯罪网络的模块划分和模块度之后(表4)发现,网络之间社团化的程度有着显著的区别,其中模块度最高的是一般盗窃,其次为抢劫,最低的为毒品犯罪.鉴于犯罪情况在城市不同功能区域存在地理差异性,网络中社团程度高度相关于其所在地理位置.对同一个社团中的不同节点来说,或者其空间距离相对接近,或者它们处于相同的城市区域;同样,如果网络中存在规模较大的社团,也意味着该社团对应的地区有着较高的犯罪率.
表4 三种犯罪网络社团划分结果
1) 根据犯罪的时空聚集特性和有限空间理论提出了犯罪网络的空间影响域模型,并由该模型构建了芝加哥盗窃网络、抢劫网络和毒品交易网络,进而分析其网络特性与网络行为特征的相关关系.
2) 三种犯罪网络的度分布均服从幂律特性,其幂律值为1~2;节点的出度与入度呈现正相关性.其入度值越大表明该事件周边面临的安全环境压力越大.出度值越大说明该犯罪发生对周围安全环境造成的压力越大;
3) 三种犯罪网络均具有局部高聚集性.大部分为低犯罪率区,部分为高犯罪率区,盗窃行为多发在中部商业发达的地区;抢劫行为多发在西部和南部;毒品犯罪主要发生在西部地区.
4) 不同的犯罪类型体现了不同的聚集特点.人口结构、社会联系、集体效能等社会经济要素对犯罪现象及其空间格局具有直接作用.
5) 三种犯罪网络社团化的程度均很明显,其中盗窃的模块度最高,犯罪网络中的社团程度很大程度上与地理位置相关,网络中较大规模的社团对应着实际犯罪活动较为频繁的地区.