一种基于长短期记忆模型的盗三车犯罪预测研究

2021-07-30 01:19刘学仁鲍世方
微型电脑应用 2021年7期
关键词:犯罪案件记忆

刘学仁,鲍世方

(上海公安学院 信息化与网络安全系,上海 200137)

0 引言

城市化进程的不断加快和互联网共享经济的发展为人民群众带来便利的同时,也为盗窃案件的发生提供了温床,这不仅损害了公共财产,而且对社会造成了很多不安定因素。由于案件的流动性以及线索的局限性,给民警破案带来了很大困难。如何预防和打击盗窃案件的发生一直是犯罪研究的重点和难点。通过犯罪预测可以有效指导巡逻警察的工作,从而更准确和及时地预防和打击犯罪的发生。因此,犯罪预测的研究不仅可以节省对公安安全的人力投入,而且可以提高人民对社会治安的满意度。

盗三车是盗窃机动车、盗窃电动车、盗窃自行车案件的简称,多发生在大中型城镇以及人口密集和流动性大的场所,对公共财产和社会治安构成极大威胁,对社会造成了很多不安定因素。

犯罪预测是制定犯罪预防措施和打击犯罪的重要科学依据。通过对过往的犯罪数据,分析可能影响犯罪的各种相关因素,形成相关的预测模型,对在未来特定时空范围内可能出现的犯罪现象的判断。它是犯罪学理论体系中重要的组成部分,是开展针对性犯罪预防的前提条件,由初期的以预防为宗旨,发展到对犯罪现象的超前性研究和对社会犯罪预防战略的制定和实施的研究[1]。

犯罪预测泛指所有用于犯罪预测的手段和途径。专家预测法和相关因素分析法是犯罪学界比较推崇的宏观预测方法;伯吉斯再犯预测法和格吕克再犯预测法是犯罪预测常用的微观预测方法[1]。

长短期记忆网络[2](LSTM)是循环神经网络的改进,该方法有效解决了循环神经网络在处理长周期数据间传递过程中造成有效信息丢失的问题。1997年首次发表关于长短期记忆网络论文。LSTM的改进就是用来处理和预测间隔和延迟比较长的时间序列事件。

国内的相关研究虽然起步比较晚但发展迅速,肖延辉、王欣等[3]提出基于长短记忆型卷积神经网络的犯罪地理位置预测方法;兰见春[4]提出基于Spark的犯罪预警分析系统的设计与实现;雷阳[5]提出基于TensorFlow的犯罪时间序列预测。针对以上问题,在本文中,我们基于长短期记忆网络模型,研究预测盗三车犯罪的方法,巡逻民警可以依据可依靠的犯罪预测数据,调整巡逻的时间和地点,有效地预防犯罪的发生概率,保障社会公共安全。

1 盗三车犯罪数据整理

本文研究的对象为盗三车犯罪数据,主要为报案人以及对犯罪情况的描述信息包括报案人、案件的发案起始时间、发案截止时间、案件发生地点以及被盗车辆信息。以某市2015-2019年盗三车案件信息作为原始数据。如表1所示。

表1 盗三车案件描述

1.1 处理案件数据

盗三车案件原始数据并不适合用于研究,为了方便预测模型的实验,通过数据处理,形成用于研究的数据集,这些案件数据集包含报案人、案件的发案起始时间、发案截止时间、案件发生地点以及被盗车辆信息。

数据处理的目的是为了确保预测结果不受异常数据影响而对数据进行检验、修正、整理的过程,主要包括对缺失数据、错误数据和重复数据的处理,处理的方法包括数据一致性检查、无效值或重复值剔除、缺失值估算以及其他不符合要求的干扰数据删减。

(1)检查数据一致性

数据一致性检查涉及两种方式,一种是针对相同类型数据的取值范围判断其是否在取值范围内;另一种是根据不同类型数据之间的相互关系校验数据是否满足数据间的关系。比如通过检查发案地点区划信息,可以判断案件发案地点是否合理以及是否相互矛盾。

(2)处理无效值、缺省值和重复值

为避免因数据问题影响预测结果,数据处理时合理去除一些无效值以及通过已知数据填充缺省值,可以保证预测结果的相对合理性。对于无效值和重复值可以考虑整列或整行删除;对于缺省值可以结合上下文进行估算。

1.2 提取盗窃案件地址信息

案件地址是盗窃案件中最重要的数据,但是由于采集标准和途径的不一致,造成对案件地址描述的不一致,给研究带了很大不便。本文通过提取标准的案件地址数据来保证预测的可靠性。提取步骤如下。

(1)基于标准地址库匹配的规则

利用标准地址库保证盗窃案件地址提取的准确性,基于完全和近似匹配的规则,从案情描述中提取地址信息,记录匹配到标准地址信息,用于标记案件信息。

(2)基于放大规则提取地址信息

对于步骤(1)没有匹配到地址信息的案件信息,通过匹配上一级地址的规则,提取放大后的地址信息,记录提取到的地址信息,用于标记案件信息。

通过以上规则仍无法提取到地址信息的案件数据,无法作为犯罪预测的参考,可以排除这些案件数据,避免影响预测结果。

1.3 提取发案时间相关数据

(1)提取案件发案时段数据

案件发案时段一般存在于案件的描述里,这些数据可以利用程序从描述信息中提取到案件可能发生的起始时间和结束时间数据。

(2)提取发案星期月份和季节信息

根据第一步提取到的案件发案时段数据,通过程序获得案发日期、星期、月份以及季节信息。

(3)获取发案天气信息

利用中国天气官网公开的历史天气数据,根据第一步提取到的案件发案时段获取案发当天的天气情况。

1.4 提取发案位置数据

根据发案地址信息,利用高德地图服务API,获取发案地址的坐标信息及周边POI点信息。以高德地图为例:

(1)根据地址获取坐标

AMap.plugin('AMap.Geocoder',function(){

var tGeocoder =new AMap.Geocoder({city:'021'})

tGeocoder.getLocation('地址',function(tStatus,tResult){

if (tStatus =='complete' &&tResult.info =='OK'){

/*tResult变量保存对应详细地理坐标信息*/

}

})

})

(2)根据坐标获取周边POI点信息

var map =new AMap.Map("container");

AMap.plugin(["AMap.PlaceSearch"],function(){

//构造地点查询类

var placeSearch =new AMap.PlaceSearch({

type:'餐饮服务',//兴趣点类别

pageSize:5,//单页显示结果条数

pageIndex:1,//页码

city:"021",//兴趣点城市

map:map //展现结果的地图实例

});

var cpoint =[116.405467,39.907761];//点坐标

placeSearch.searchNearBy('',cpoint,200,function(status,result){

});

});

2 盗三车犯罪预测研究

犯罪预测研究是识别历史案件,总结学习历史案件信息,预测案件发生规律的过程,传统的犯罪预测研究方式是基于统计分析和参数估算的研究,但是统计分析和参数估算过于依赖分析人员的经验,预测的准确性很难提高;由于警务数据多牵涉到个人隐私,很少对外共享,大多研究者获取不方便,因此这方面的研究者较少,相关成果也相对较少,采用传统机器学习方法针对时空特征进行分析,很难提高犯罪趋势预测的准确性[6]。

循环神经网络(RNN)是一种改进的多层感知器网络,用于处理序列数据,如图1所示。

图1 经典循环神经网路图

1997年由Hochreiter等[7]在循环神经网路(RNN)的基础上提出长短期记忆,Alex Graves等[8]于2014年对长短期记忆进行改进。

语音文本早期多使用长短期记忆(LSTM)进行处理,近年来在金融等其他领域开始使用[9]。本文提出运用长短期记忆(LSTM)算法结合时间、空间等相关案件数据构建“盗三车”类型案件犯罪预测模型。

长短期记忆(LSTM)算法是基于循环神经网路(RNN)的改良,扩大了循环神经网路的应用场景,通过确定新的输入是否被记忆、遗弃或输出,来解决了循环神经网路在长周期事件中有效信息丢失的问题,学习长周期数据间的依赖信息。

长短期记忆(LSTM)和循环神经网路(RNN)都包含正向传播计算,基于时间的反向传播算法和权重更新优化算法。但循环神经网路模型在权重更新过程中会引起梯度消失甚至梯度爆炸这种极端情况,这会导致数据在传播过程中忘记较长周期的有效信息,因此不适合处理具有较长延迟事件的序列。预先设置RNN模型的延迟事件长度很难达到最佳的主观设置,LSTM模型应运而生,以解决RNN模型的长期依赖问题。LSTM的主要区别在于对RNN“记忆体”的改造以及对记忆信息的过滤,保留有用信息的传递,过滤无用信息的传递。LSTM设置了使历史犯罪信息有选择地通过的渠道,以便将相应的犯罪信息过滤或添加到“记忆体”中。LSTM将历史案件数据和新输入的案件数据的有效数据进行叠加,这就保留了历史案件数据的有效预测数据,而不会因为乘法的影响使部分有效数据丢失。因此,LSTM不会在长周期的案件中导致对预测有效信息的丢失,可以处理长周期案件预测的记忆问题。如图2所示。

图2 LSTM模型结构图

长短期记忆(LSTM)是基于一个循环神经网络(RNN)结构,在每一层增加一个滤波器(输入、输出和遗忘)通道。判断网络输出层的当前状态是否达到阈值,以确定网络上一层的输出是否达到阈值。如图2所示,使用Sigmoid函数来计算当前层的存储状态作为输入,当输出结果达到当前设定的计算阈值时,就将输出通道的存储状态与当前层的存储状态的乘积作为下一层的输入;当输出结果未达到当前设定的计算阈值时,就忽略当前层的输出。在每个模型的反向传播训练过程中,每个层(包括通道节点)的权值都会被更新。

本文基于TensorFlow深度学习平台,利用长短期记忆网络模型进行实验,通过参数调整优化训练模型的预测效果,最终输出盗三车预测结果,具体的实验环境如表2所示。

表2 实验环境信息

本文基于某市2015-2019年盗三车盗窃案件信息(其中70%作为训练数据,30%作为验证数据),使用本文提出的长短期记忆网络模型预测下个周期犯罪发生情况,对比结果如表3所示。

表3 长短期记忆网络模型实验结果

本文提出的长短期记忆网络模型预测效果优于传统的参数估算预测方法。

通过实验结果,可以看出本文提出的LSTM预测模型在预测的准确率上提高了12个百分点,这对犯罪的预防和打击有所提高。

本文所述模型系统,现已为某市公安机关安装使用,并成为执法部门日常社会面治理、打击预防犯罪,警力投放部署的重要依据和主要手段。结合公安实战应用,本模型对于盗三车案件预测准确率超70%,为降低盗三车案件数量,维护人民群众财产安全作出一定贡献。

3 总结

盗三车案件是城市社会生活常见犯罪类型之一,是社会治安管理工作的重点,它是一种特殊的犯罪形式,存在团伙作案或掩护作案,通常发生在隐蔽的场所,在被害人不在场或者不注意的情况下,在极短时间内采用特殊的作案工具,盗窃被害人车辆(机动车、电动车、自行车),留下的现场信息有限,加大了破案难度,损害了人民群众的财产以及安全感。本文基于长短期记忆模型的盗三车犯罪预测方法,希望可以通过犯罪预测,加强犯罪预测和警力分布,减少盗三车案件的发生,提高相关案件侦破率,从而保证人民群众财产安全。

猜你喜欢
犯罪案件记忆
公园里的犯罪
一起放火案件的调查:火灾案件中的“神秘来电”
“左脚丢鞋”案件
Televisions
环境犯罪的崛起
HD Monitor在泉厦高速抛洒物案件中的应用
儿时的记忆(四)
儿时的记忆(四)
记忆翻新
3起案件 引发罪与非罪之争