上海市违法案件热点分布及其影响因子分析

2013-08-01 07:15王占宏
微型电脑应用 2013年6期
关键词:冷点热点数据挖掘

蔡 晔,王占宏

1 前言

当前在公安部门被广泛采用的仍然是人工分析的手段。这种人工分析的方法往往面临很大的挑战:例如分析的数据和信息通常分布在许多不同的数据源,信息量大且缺少关联性;并且人工的分析手段通常被看作是一种特殊的专业技能,很难在一个大的组织中进行经验的共享和传递,因而存在一定的局限性。

从国内外与数据挖掘相关的研究领域中,我们发现,采用可视化技术将不同类型的数据和数据间隐含的关联信息进行描述和展现,并借助众多空间数据挖掘的方法)来发现和揭示数据中隐含的公共要素和关联,已成为该领域研究所采用的手段和方法的发展趋势。

城市违法案件在一定的地域环境下,并不是随机分布的,而是与该地区的人口、环境、经济、政策、社会因素有着必然联系,并表现为一定的时间和空间形态。掌握违法案件的时空分布规律,对有效打击违法案件、提高民众对社会安全信赖程度起着非常重要的作用。在众多的空间数据挖掘方法中,热点分析是理解事件间隐含关系的有效工具,通过热点分析可以有效地对事件做出回归分析和前景预测,因此将违法案件治理、预防与热点分析结合起来将更好地帮助研究人员得出科学的结论。

在空间数据挖掘领域里,学者们就热点分析所做的研究工作大致可分为如下几类:划分技术、网格技术、密度技术、层次聚类技术以及空间自相关。这些方法各有特点,但空间自相关不仅能够探测热点,还能够揭示事件间的联系,所以本研究中采用自相关分析方法。

本文采用上海2009年盗窃、抢劫违法案件数据进行处理和热点分析,并选取了常住人口密度、来沪人口密度等可能影响违法案件发生的18 个指标,进行了主成分分析,探索隐含的空间关联模式。有助于打破以往被动预防违法案件的局面,主动对重点区域、重点指标加强管理,为城市预防违法案件措施在空间上的合理布局,提供决策导向和参考。

2 研究区域与方法

2.1 研究区域与数据

(1)研究范围

研究区域上海,地处长江三角洲前缘,面积约为6340平方公里,1900 多万常住人口,是中国经济、金融、贸易和航运中心,共19 个 区县,包含“中心城核心区”包括黄浦、静安、卢湾、虹口;“中心城边缘区”包括杨浦、闸北、普陀、徐汇、长宁;“近郊区”包括青浦、松江、嘉定、闵行、宝山、浦东;“远郊区”包括金山、奉贤、崇明。数据处理和统计的单元为派出所辖区,共有441。

(2)数据来源与处理

空间数据来源上海警用地理信息系统,包括行政区、派出所范围。案件数据来自上海市公安局网上办案信息系统,根据研究需要重点抽取了2009年抢劫、扒窃数据,并按照派出所进行统计。人口、房屋数据来自上海市实有人口信息管理系统,包含户籍人口、外来流动人口、境外人口、出租房、闲置房、自住房、集体宿舍、工地工棚,娱乐休闲等场所数据来自上海市公安局派出所综合信息系统,上述数据通过ETL 工具根据研究需要进行抽取,并进行了预处理。

2.2 研究方法

(1)热点分析Hotspot analysis

本次研究采用了ARCGIS9.1的热点分析工具,热点分析工具为数据集中的每一个要素计算 Getis-Ord Gi*,得到高值或低值要素在空间上发生聚类的位置。

Getis-Ord 局部统计可表示为:

其中xj 是要素j的属性值,wi,j 是要素i 和j 之间的空间权重,n 为要素总数,且:

(2)主成分分析

主成分分析 (Principal Component Analysis,PCA )是一种掌握事物主要矛盾的统计分析方法,它可以从多元事物中解析出主要影响因素,揭示事物的本质,简化复杂的问题。

本次研究中,我们把盗窃、抢劫案件1 到12 月份热点区域常住人口密度、来沪人口密度、境外人口密度、出租房数、闲置房数、自住房数、集体宿舍数、工地工棚数、旅店数、娱乐休闲场所数、歌舞厅数、网吧数、桑拿洗浴场所数、游艺游戏机房数、台球厅数、酒吧数、咖啡吧数、茶室数量18 个指标,利用SPSS 进行了主成分分析。

3 结果与讨论

3.1 违法案件热点的时空分布

计算结果得出了盗窃、抢劫案件每个派出所的Z、P 值,当P 值<0.05 时,形成的Z值有两个区间,即Z>2.58,Z<-2.58,说明两类案件都具有明显的空间聚集,即具有热点和冷点。如图1、图2所示:

图1 上海市2009年1~12 月盗窃案件违法案件热点/冷点时空分布

图2 上海市2009年1~12 月抢劫案件违法案件热点/冷点时空分布

上海市盗窃案件和抢劫案件的热点、冷点时空分布图,图中深红色表示案件的热点区域,深蓝色表示是案件的冷点区域。

图1 显示盗窃案件违法案件热点主要以“中心城核心区”为中心,随季节变化而动态变化,前3 季度主要向东西方向延伸,而第四季度向南北方向延伸,而远郊区基本是违法案件冷点。图2 显示,抢劫案件违法案件热点主要集中在中心城边缘区和近郊区,而中心城核心区在大多数季节是违法案件冷点。

3.2 违法案件热点相关因素的主成分分析

分析结果显示同类案件不同时间的主成分分析结果基本一致。而盗窃案件和抢劫案件的分析结果还是有较大的差别。

如表1,表2所示:

表1

表2

2009年9 月上海盗窃案件的主成分分析结果,表2 剔除了累计贡献率大于85%以后的成分。

2009年9 月上海抢劫案件的主成分分析结果,表4 中剔除了累计贡献率大于85%以后的成分,如表3,表4所示:

表3

表4

根据分析结果和实际调查,影响盗窃案件的主要因素是娱乐休闲场所、歌舞厅、游艺游戏机房、桑拿洗浴场所,而影响抢劫案件的主要因素是来沪流动人员密度和出租房屋数量。

4 结论

我们通过对上海2009年1 月~12 月的盗窃、抢劫数据进行空间数据挖掘,发现了上海盗窃、抢劫违法案件的整体态势和空间上的动态变化趋势,并通过主成分分析,解析出了影响盗窃、抢劫违法案件热点的主要影响因素。所以,我们建议在市中心区域加强娱乐休闲场所、歌舞厅、游艺游戏机房、桑拿洗浴场所等的管理,而在近郊地区加强来沪人员和出租房屋的管理,并加强巡逻。

[1]白亮.数据挖掘浅析[J].厦门科技,2010,(03)

[2]张修鹏 李捍东 孙航白保良.论数据挖掘技术及应用[J].现代商贸工业,2012,(11)

[3]张鹏.浅谈数据挖掘技术及其应用[J].科技信息(学术研究),2008,(12)

[4]彭振龙丘金寿.基于数据仓库的电子政务数据挖掘研究[J].宜春学院学报,2012,(4)

猜你喜欢
冷点热点数据挖掘
热点
基于变形焦炭塔的冷点处套合应力分析
探讨人工智能与数据挖掘发展趋势
热点
热点需强化 冷点无漠视
结合热点做演讲
世界家庭医生组织(WONCA)研究论文摘要汇编
——居住在“冷点社区”与健康欠佳、享有卫生服务质量欠佳间的关系
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
热点