陈 威 阳许军
(1.武汉邮电科学研究院 武汉 430074)(2.武汉虹信技术服务有限责任公司 武汉 430074)
随着社会的发展,人口流动的日益频繁,社会治安形势的多样性、复杂性,犯罪作案手段隐蔽性和向高智商犯罪发展的趋势,治安和维稳形势的快速变化以及警务功能的不断细化和拓展,传统的警务和社区综合治理模式已越来越不能适应维护社会稳定和治安的发展变化,越来越难以掌握当代社会治安和维稳的主动权[1]。因此带来一系列社会稳定、治安管理等难题,给社区警务工作造成了空前的难度和压力。
为了适应新形势的需要,本文提出构建基于数据分析的治安情报研判系统。通过对社区人口数据,以及由人产生的日常生产生活数据进行收集、整理、归类,与既有的公安警务数据、社区网格管理数据进行多源信息融合分析,挖掘数据中蕴藏的巨大价值,进行有效的情报研判,从而实现对流动人口和重点防控人员的科学管理、动态管理和长效管理,在指挥调度、警力配置、联防联控等治安防范工作中变被动为主动,将有限的治安力量投放到最关键的位置。使基层治安和维稳工作的资源配置更加科学、协同配合更加便捷、管理服务更加高效,在维护国家稳定、保障社会安宁和人民安居乐业方面具有重大意义,对平安城市和智慧城市的建设提供有力的补充和支撑[2]。
当前,全国多数地区在进行治安工作时仍停留在传统的人工研判形式,费时费力效率低下,缺乏准确性和预见性,当然有部分社区治安机构已尝试建立了治安数据综合管理平台,平台包含了社区人员信息、车辆信息、违法信息等相关数据,形成了一个庞大的治安信息数据库,且数据信息基本能够做到实时收集。而目前对治安情报数据的分析,多数只能做到一般的统计分析,缺乏与案件相关的人员、车辆、居住地等相关信息的关联分析和挖掘分析,故从这些数据中获取的信息量仅占了整个数据库中的很少部分信息量,无法发现隐藏在案件背后的发生规律和发展趋势,难以达到精准制定预防决策的要求。
基于数据分析的治安情报研判系统的搭建,目的是利用数据分析的科学手段,研究出能够科学分析影响社会治安各种因素的方法,从而挖掘出传统分析方法不易得到的客观规律,进行有效的情报研判。系统包含两个方面的关键技术:一是创建治安情报综合分析数据仓库,二是确立治安情报分析主题与挖掘模型。
在创建数据仓库之前,我们首先要获取数据源[3]。基于数据分析的治安情报研判系统的数据源,主要包括社区警务数据、网格数据,比如社区内的车辆信息、人口信息、重点防控对象等,同时还要获取社区内的人员车辆出入记录、视频监控、门禁道闸、能源消耗等多方面的相关数据,这些都是数据仓库的基石。
数据仓库是一个数据集合,它具有面向主题、融合性高、容量大、相对稳定、时变等特点。整个系统架构包含数据源、数据仓库、数据集市、数据应用、数据管理[4]。数据源先将系统的所有初始数据提取出来,然后进行清洗转换,再将其汇入数据仓库。数据仓库存储分析研判数据,将所有研判数据集中起来,便于管控。数据集市通过对各种研判主题构造一系列数据集,从而增强系统的适应能力,而且数据也更易于重复利用。数据应用是数据的展示层,可以通过web、app等形式向用户提供查询统计、多维分析、数据挖掘、可视化等功能。数据管理用于确保整个研判系统安全可靠的运行。系统的总体结构如图1所示。
图1 系统总体结构图
情报研判系统采用常规的数据分析方法,如关联分析、回归分析、聚类分析、时间序列模型等方法[5],根据社区治安情况的特点,建立适用于情报研判的分析主题,然后根据不同的主题选取相关的挖掘模型,由此进行各种情报数据的分析挖掘。
可以将治安情报的挖掘分析分为两类,一类是描述型的,能够发现数据的内部结构和之间的联系,另一类是预测型的,能够根据历史数据预测出数据将来的变化走向,后文将会详述这两类分析。
基于数据分析的治安情报研判系统通过对社区警务平台数据及其他相关数据进行预处理获得数据源,然后创建治安情报综合分析数据仓库,在此基础上,进行案件信息的统计分析,案件与案发时间地点等因素的关联分析,案情发展趋势预测的挖掘分析,案件数据处理结果的可视化分析,经过这一系列操作之后,通过提供接口输出情报分析研判结果,从而实现了社区治安情报的综合分析研判。整体流程如图2所示。
4.2.1 统计分析
统计分析是对历史案件统计的项目与未曾统计到的项目的扩充,是对之前的统计功能与欲改进功能的完善,具体包括案件信息任意分析、案件特征综合分析、案件发展趋势分析、案件发生原因分析等。
图2 系统整体流程图
现对上述各类分析分别作出解释。任意分析,就是对案件信息的任意条件进行单一和组合分析[6];特征分析,就是对案件性质以及重点区域和人员进行统计分析;趋势分析,就是通过多维度统计分析出某时间段(年季月周或特殊节假日,如国庆、春节等)内的案情发展趋势;原因分析,就是在统计案件发生的直接原因时与历史重大相似案件产生原因相结合进行综合分析。
4.2.2 关联分析
针对案件来讲,基本都有作案时间、作案地点、案件性质、受害人群等一系列的要素[7],而且通常情况下在案件情况相同或相似时,差不多就能推测出该案是由同一个人或团伙所致。关联分析不仅是为了对各种类型案件进行区别划分,更主要的目的是对多起案件所获取的现场资料展开分析,由此分析结果便可缩小嫌疑人的范围,甚至锁定嫌疑人。
系统首先从数据仓库中提取出案件信息,通常情况下,关联案件具有很多相同或相近的属性,故可将特征相似的案件近似地归到一组,从而这些案件就能被关联起来。那么,如何对相似案件进行归类呢?
对于未曾归类过的数据集合,通常会采用“聚类”算法。“聚类”算法就是在无需人为参与的情境下,根据一定的规则,对有处理需求的数据集合自动归类。“聚类”算法能够对大量文本数据进行处理,并且处理效率较高,故其在案件归类中有着广泛的运用。选择k-means算法作为案件归类的核心算法,因为其在“聚类”算法中快速高效[8],并且许多编程语言库都提供了其算法实现。该算法的主要思想是通过判断两个空间节点间的距离,距离越近说明两点具有越高的相似性,然后将距离最相近的节点归到一起,称之为“簇”,这样不同的“簇”就可以等效为一个案件类型。本系统中该算法在案件归类时有如下实现过程。
1)将案件的属性如时间、地点、人群等各作为一个坐标维度,各案件作为坐标系中的一点,各点坐标就等效于其代表案件的对应属性。
2)设定一个k值,在坐标系中任选k个点当作“质点”,将各案件归并到距离最相近的“质点”集合内。
3)将各集合中最具该集合各点共性的案件重新当作“质点”,由此再次划分新的案件集合,并再次将各案件坐标点归并到新划分的集合内。
4)重复执行第3)步,当划分的案件集合不再改变时停止,此时,案件的关联分类便完成了。
4.2.3 挖掘分析
1)描述型挖掘分析
通过对案件单因素分析,能够大致判断案情危害程度与定性影响因素之间独立与否、相关与否。这里我们用到卡方检验的方法,该方法是可用于判断定性变量间是否存在关联性[9]。模型方程式为
式中,fi是统计样本的实际观测值,fe是统计样本的理论期望值。
在案件单因素分析的基础上,构造案件危害程度与案件多个相关因素(如年龄、性别、是否独居、出行记录、人际关系等)之间的累积逻辑回归模型,更一步确立定性变量间的函数关系,用来反映变量间的相互影响,计算出危害系数值[10],从而得到相应的分析结论。模型方程式为
式中,β0,j为偏置,βp为权值系数,p为变量数目,P为案件相关因素的危害系数,此值越大,代表危害程度越高。
2)预测型挖掘分析
构造治安情报各项因素的多元线性回归模型,以此评价案情的发展趋势,从而能够依据历史案件数据对各项指标进行长远的趋势预测。线性回归分析是用来推断多个变量之间相互依存定量关系的分析方法[11],假定变量Y和变量X1,X2,…,Xp间存在线性关系,那么可写出多元线性回归方程式:
式中,β0为常数项,p为变量数目,βj(j=1,2,…,p)为回归系数,ε为误差。
构造治安情报各项因素的时间序列自回归移动平均模型,研究序列值相关关系的统计规律,依据案件历史数据计算出案情短时间内预测值,从而预测时间序列的短期走势。时间序列自回归移动平均模型(ARMA模型),在研究平稳时间序列时有着广泛运用[12]。ARMA(p,q)模型中,AR意为“自回归”,MA意为“移动平均”,模型可表示为如下方程式:
式中,p为自回归项数,φi为自回归系数,q为移动平均项数,θj为移动平均系数[13]。
4.2.4 可视化分析
所谓可视化就是将上述一系列分析结果通过图形化界面直观地展示出来,可以借助JavaScript或Python等编程语言提供的图形化库来实现。这样就能从宏观上把控社区治安情况的各项指标,比如区域分布、人员分布、发展趋势等,并且对重点可疑对象、地点可以实现预警通知,从而为社区治安工作的开展带来了极大的便利。
基于数据分析的治安情报研判系统对于开展社区治安工作提供了极大的帮助,通过对治安情报各项指标的综合分析研判,能够在实际治安维稳工作中起到指导和决策的作用,充分体现了“情报主导警务”的思想[14]。在实际应用中还可根据实际情况开展如下的重点分析研判工作。
1)情报特征专项分析
开展案发时间、地点分布特征,人员年龄、职业分布特征,案件原因、性质分布特征等专项分析,能够根据需要去重点关注某些因素。
2)案件高发因素分析
开展案件高发因素分析,比如案件高频出现的时间地点以及屡犯人员,以便及时盯防,从而降低风险。
3)案情发展趋势分析
开展案情发展趋势分析,可以预测出未来潜在的安全威胁,以便提前采取相应防范措施。
本系统虽然是基于社区数据搭建起来的,但是通过大数据的手段,完全可以将其推广到地区、城市等更高层次,这样更有助于实现社会综合治理和平安城市的目标。
综上所述,在当前社会治安依旧难以稳定的形势下,面对潜在的各种安全威胁,社会治安部门对于案情分析研判的精准性和针对性要求日益增加,对于案件数据的挖掘需求也日益急切,因此,本文设计了一套实用的治安情报研判系统,对于发现庞大复杂的案件数据背后潜在的发展规律,以便采取科学的防范措施和有效的决策起到了重大的实际作用。
如今,大数据技术飞速发展,未来社会治安维稳的情报数据量会相当庞大[15],所以治安情报研判系统的功能及性能需求也越来越高,可能还需要多个子系统的相互协助配合,这也是今后新社会形势下系统需要不断改进和完善的方向。