吴升,黄智函
(福州大学福建省空间信息工程研究中心,数据挖掘与信息共享教育部重点实验室,福建福州 350002)
在公安的工作业务中,犯罪活动的空间分布规律是一项重要的情报信息,它不仅关系到相关工作业务的效果评估和警力资源的部署,还会影响到治安防控策略的制定与实施[1].而在犯罪活动的空间分布规律中,犯罪高发区域又是人们关注的一个重要方面.犯罪活动在空间上呈现出一种聚集现象,具体表现为某些区域内的犯罪密度显著高于周边区域,这就是犯罪热点[2].犯罪热点现象往往隐藏着犯罪活动的深层次社会和环境因素,对打击和预防犯罪有着重要的意义.
犯罪空间分布理论在国外发展较早,如Caccato等[3]基于空间统计和GIS方法研究了瑞典城镇和农村暴力犯罪案件的空间分布规律演化,实验结果证明犯罪高发区正在向瑞典农村地区蔓延.Berry等[4]研究费城内各邻域的区域特性和青少年犯罪率的关系,通过收集邻域社会经济因素变量,探索青少年惯犯率和犯罪与特征变量的相互作用.国内也有不少学者对犯罪热点的分析方法进行了研究,陆娟等[5]通过调节研究区每个空间网格内的犯罪期望值,提出基于多尺度聚集的犯罪热点探测方法,实现了基于不同尺度聚集的犯罪热点探测.王占宏[6]根据犯罪特点对扫描统计法进行改进与优化,并提出基于线状犯罪案件的扫描统计法,使扫描统计法能用于线状分布犯罪案件的热点扫描.刘大千等[7]利用地理学中区位商的研究方法,研究长春市不同类型犯罪活动的空间分布规律.但目前利用不同分析方法对犯罪空间分布规律进行分析与比较研究的案例还比较少,基于实际犯罪数据的案例研究更是稀少.为此,基于福建省公安厅提供的盗窃犯罪数据,运用不同的空间分析方法及犯罪热点分析方法,在借鉴国内外相关研究理论和实践经验的基础上,对福州市盗窃犯罪活动的空间分布规律进行分析.
采用福州市主城四个区——鼓楼区、台江区、晋安区、仓山区2012年10月份盗窃案件数据进行犯罪空间分布规律分析.案件总量为1 012起,数据为表格形式,表格字段包括案发时间(年、月、周、日、时等字段)、案发地的地理坐标、案件描述等.
1954年Evans和Clark提出利用最近距离统计量测度点模式,此后人们便开始研究点模式.点模式研究是指在日常工作当中,很多地理实体(如学校、医院、网吧等)都可以抽象为点,并利用点图来表现其空间分布规律.犯罪点模式分析主要研究案事件在空间分布的总体态势[8],即案件点集数据在几何分布上的特点,如:热点区域(密度较大的地区)、空间分布格局(均匀分布(uniform))、随机分布(random)、集聚分布(clumped)等.点模式研究方法主要有中心点法、标准差椭圆法、核密度估算法、热点探测等.
1.2.1 标准差椭圆法
平均中心或空间均值是指一组点的中心位置或平均位置.在进行点模式统计分析时,中心点分析往往是空间分析的第一步,它能够反映事物的集中趋势,平均中心的位置代表案件的总体偏移趋势,比较不同案件的平均中心和不同时间的中心能跟踪犯罪的发展趋势.通过分别计算案件的X坐标的均值和Y坐标的均值求出平均中心,计算公式如下:
式中:xi代表点的横坐标;yi代表点的纵坐标;N代表样本容量.
标准差椭圆法是用以表达点集空间分布的一种有效直观的方法.所表达的点集具有一定的方向偏离的地理现象[9].标准差椭圆的计算公式为公式(2)~(4),分三步实现:1)以和为中心,将每个案事件点代入公式(2),以平均中心点为参照对所有点进行坐标转换,计算出椭圆的旋转角度θ;2)根据上一步得到的θ值,计算沿x轴和y轴的标准差,N代表点的数量,如公式(2)所示,分母中的2为使得估算结果不出现偏差现象,因为沿着坐标轴有两个常量(X均值和Y均值);3)根据上一步的结果计算标准差椭圆的x轴和y轴.因为数据为案件发生的具体坐标,不含属性值,因此公式中不计算权重值.
1.2.2 层次聚类法
层次聚类法的基本原理是将所有点数据自顶向下进行分裂或自底向上进行合并,这两种方式分别称为分裂和凝聚.但对于犯罪空间分析而言,凝聚算法更加适用.本次研究采用最近距离层次聚类的方法,即根据每个案事件点的最邻近距离,通过定义一个“极限距离或阈值”、“聚集单元”和每个聚集单元的最小数目,然后计算聚集单元与每个点对的最邻近距离,当最邻近距离小于该极限距离时,将该点计入聚集单元,据此将案事件点数据聚类为若干区域,称为一阶聚类;同理,对一阶聚类利用同样方法,得到二阶聚类,以此类推得到更高阶犯罪热点区.
1.2.3 核密度估算
核密度估算是在每个犯罪案件的空间位置上设定相应的核密度函数,然后用该区域内所有犯罪案件的密度函数来体现犯罪案件的空间分布规律[10].对于某个区域内的犯罪案件数据,以所有犯罪点邻域内的核密度函数的贡献总和来表示其空间密度分布.因此,对于空间上分布的犯罪案件x1,x2,…,xn中的任意一点xk,其邻域内的其他点xi到xk的距离决定了对xk贡献率.设核函数为K,则xk点处的犯罪概率密度表示为:
式中:h为核函数的带宽,K用高斯正态分布函数表示.其中h对估计结果有较大影响:当h较小时,犯罪活动显示的热点分布较为集中;当h较大时,犯罪活动显示出的热点分布较为分散,热点区域间的过渡相对平滑,视觉效果更好.目前对h的取值还没有较好的定义,需要进行多次试验才能达到理想的估算效果[11].
标准差椭圆也称为点集的有向分布.点集所代表与描述的通常是具有一定方向偏离的地理现象[9].因此基于盗窃案件点集数据,在地图上计算和绘制标准差椭圆,可用来分析盗窃犯罪总体的空间集聚和发展方向.如图1所示.其中椭圆长轴表示盗窃案件扩散的方向,短轴反映盗窃案件聚集程度的高低.
图1 盗窃案件标准差椭圆Fig.1 The standard deviation ellipse of theft crimes
图2 盗窃案件最近邻层次聚类Fig.2 The hierarchical clustering of theft crimes
从图1可见,盗窃案发地的平均中心处于福州市中心区域——台江区的茶亭街道附近.犯罪聚集区为鼓楼区、台江区西部和仓山区北部,犯罪的总体发展趋势是向福州西北部和福州东南部(城门镇)延伸.但标准差椭圆只是从总体上把握案件的分布趋势,并不能反应犯罪相对聚集的多个区域,为此我们使用最近邻层次聚类方法进行进一步分析,以识别出犯罪热点区域.
最近邻层次聚类是一种自底向上的策略,首先将每个案件作为一个簇,然后根据案件的点间距合并这些案件为越来越大的簇,从而形成犯罪热点区域.因此,基于盗窃案件点集数据,应用最近邻层次聚类进行热点分析,可以有效地识别出热点范围和热点簇数量.每个聚集单元的最小数量设为20个,距离阈值设为1 km.如图2所示.
从图2可见,通过最近邻层次聚类分析得到的热点区域呈现出以下特点:在一阶聚类犯罪热点中,一共得到11个一阶聚类,最大的犯罪热点位于鼓楼区,面积为2.41 km2,该热点区域包含157起盗窃犯罪案事件;二阶聚类犯罪热点的面积为7.43 km2,包含4个一阶聚类犯罪热点.可见,层次聚类法具有良好的量化功能,可通过对犯罪热点的分级分类,进一步找出相对集聚的多个区域和重点目标区域.但最近邻层次聚类仍然不能有效表现出整个研究区域犯罪分布的连续变化和精确的集聚中心,为此我们使用核密度估算方法进行进一步分析.
核密度估算是在每个犯罪活动的空间位置上设定一个核密度函数,然后用该区域内所有犯罪活动的密度函数来体现犯罪活动的空间分布规律.实验中,带宽参数选择过大会屏蔽细节区域的分布规律,而带宽选择过小则也会使估计结果偏离真实值,核函数采用正态分布,多次试验后将带宽设为1 km.该方法不仅可以识别犯罪高发区域中心,而且可以形成一个犯罪发生密度由高至低连续变化的区域[10].在最近邻层次聚类结果的基础上,我们进一步叠加核密度估算的分析结果,如图3所示.
从图3可见,盗窃犯罪相对高发区域包括鼓楼区东南、台江区西北、仓山学生街和浦上大道中段等区域,犯罪集聚中心为台江区的中亭街、祥坂村和晋安区的福州火车站.对于福州主城区内的盗窃犯罪活动,其分析结果是用所有盗窃犯罪活动邻域内的核密度函数的贡献和来表示密度分布.结合核密度估算和层次聚类,既能分级分类地表达出案件分布规律,又能表达犯罪分布的连续变化和精确的集聚中心,可以直观有效地发现犯罪高发区域.分析结果突出了犯罪的聚集状况,可作为调动警力资源的辅助信息,也可以将分析结果对公众公开,使得公众在这些地区活动时,提高警觉,降低犯罪的发生.
1)福州市盗窃案件的分布具有较明显的空间分布规律,呈现出多个犯罪高发区域与集聚中心.标准差椭圆法适合于发现案件的总体集聚与空间发展方向;最近邻层次聚类法适合于发现多个相对集聚的犯罪区域和重点区域;核密度估算法适合于发现犯罪分布的连续变化和精确的集聚中心.
2)通过比较层次聚类法和核密度估算法的分析结果可以看出,层次聚类法具有良好的量化功能,使人们对犯罪空间分布规律进行分级分类,从而确定重点和关键区域,但其在效果展示上没有核密度估计算法美观,它还需要人们根据不同情况主观地设定一个大致的距离阈值;核密度估计法得到的效果比较平滑美观,但也存在一些不足,比如可视化效果没有统一标准、带宽参数的选择难以确定等.
3)叠加最近邻层次聚类和核密度估算的分析结果,核密度分析虽然很难划出热点的分布范围,但它可以识别犯罪高发区域中心;层次聚类法在效果展示上没有核密度估计算法美观,也无法确定犯罪高发区域中心,但在确定具体的犯罪热点分布范围上更有优势.通过叠加两者能综合表现出犯罪的连续变化、集聚中心、相对集聚范围和重点区域,具有较好的效果.
最后,本文分析了盗窃案件的空间分布特征,但盗窃案件有不同类型,如扒窃、入室盗窃等,不同类型的盗窃案件除了各自的空间分布规律,还与许多社会经济因素相关.因此,结合具体盗窃案件的特点,对案件空间分布的影响因素进行分析,将是下一阶段的研究重点.
[1]陈亮.犯罪制图的理论与实践进展研究[J].中国人民公安大学学报:自然科学版,2008,14(2):65-69.
[2]汪兰香,陈友飞,李民强,等.犯罪热点研究的空间分析方法[J].福建警察学院学报,2012,26(1):16-20.
[3]Ceccato V,Dolmen L.Crime in rural Sweden[J].Applied Geography,2011,31(1):119-135.
[4]Berry W,Jones H.Investigating spatial patterns of crime through police statistics,crime surveys and census profiles:findings from Dundee housing estates[J].The Scottish Geographical Magazine,1995,111(2):76 -82.
[5]陆娟,汤国安,张宏,等.一种犯罪热点探测方法[J].测绘通报,2012(4):30-32.
[6]王占宏.基于扫描统计方法的上海犯罪时空热点分析[D].上海:华东师范大学,2013.
[7]刘大千,郑可欣,姜欢.长春市犯罪活动的空间格局分析[J].中国刑事法杂志,2012(2):104-111.
[8]闫庆武,卞正富,王桢.基于空间分析的徐州市居民点分布模式研究[J].测绘科学,2009,34(5):160-163.
[9]Eck J,Chainey S,Cameron J,et al.Mapping crime:understanding hotspots[M].Washington D C:National Institute of Justice,2005.
[10]颜峻,袁宏永,疏学明,等.用于犯罪空间聚集态研究的优化聚类算法[J].清华大学学报:自然科学版,2009,49(2):176-178.
[11]陈鹏,李锦涛,马伟.犯罪热点的分析方法研究[J].中国人民公安大学学报:自然科学版,2012,18(3):53-57.