张力,李永超
(河南省新乡市公安局)
案事件预警、预防主要研究的内容是基于同一类过往案事件信息及其涉及的嫌疑人、受害人、物品等信息,提取其外貌、行为、轨迹等各种特征,明确各个特征的权重,构建该类案事件涉及人员的特征模型算法,并利用新发该类案事件涉及人员物品的数据特征,对模型算法参数进行验证、优化、完善。同时,利用该算法对人员数据特征库进行动态相似度计算,监测分析所有人的数据特征,达到对该类案事件高精度预测的目标。
通过提取某类案件的时间规律和空间规律进行时空关联分析,获得此类型案件的时间、空间的聚集性关联规则关系,从而获得出该类案件在某个时间、某个地点发生的概率,为民警打防工作提供理论支撑。同时,根据案件作案方式、作案工具、案件特点等特征,结合该类案件的时间、空间聚集关联规则,为民警案件串并提供新的手段。
提取某市公安局400多起已破盗窃电动车案件,对其进行关联规则分析和时空聚集性分析,并对案件串并案关联分析,通过分析盗窃电车高发时间段为后半夜24时左右,下午17时-21时,中午12时左右。提取案件的位置坐标信息处理后撒点,发现在位置分布上聚集分布。
随机抽样统计模拟方法蒙特卡罗,泛指所有基于统计采样进行数值计算的方法。蒙特卡罗方法的基本思想是,如果需要处理对某种事件出现的概率进行求解的问题时,或者是计算某个随机变量的期望值时,通过某一种“试验”的方法,计算得到这种事件出现的频率,或者这个随机变数的平均值,并以此作为该问题的一个解。我们使用该方法对盗窃案件进行时空聚集性分析。
通过Apriori算法挖掘电车盗窃案件的数据关联规则,找出案件信息中在不同的时间段频繁重复出现的数据,总结分析得出上午在小区街路巷多使用撬锁盗窃电动车。前夜多在在居民小区发生盗车占盗窃类案件的4.6%。
通过分析案件的特征以及人员的特征,依据案件特征提取人员的特征,我们将这些分解成向量,之后再计算向量距离,便可以得出该案件和人员的相似度了。这种方法很简单,在计算用户特征向量和被推荐项的特征向量的相似性时,使用的是cosine方法,计算两个向量之间夹角的cosine值。例如:某小区的盗窃案件已知嫌疑人的特征,对人员进行数据排查。首先提取案件特征示,与人员的基础特征、行为特征进行对应。
通过将所有人员的特征的和案件的特征进行相似度计算,最终提取相似度0.90以上的人员,作为案件的嫌疑人推荐给民警,提高排查效率。ATag表示案件特征,RTag表示人员特征,对应的值为向量化的值。
由于公安案事件业务的特殊性,采用tf-idf(词频-逆文档频率)的方式计算案件特征权重,会有较大偏差,案件特征的权重主要依靠行业知识或民警的经验。基于现有知识或民警经验设置权重,改善设计人员推荐算法,能有效提高嫌疑人推荐的精确度问题,解决案件的大规模嫌疑人排查工作,并随着知识的增加、经验的丰富、特征的完善,推荐结果也越来越精确。
机器学习(Machine Learning, ML)是一门多领域交叉学科,其目标致力于研究通过计算机来模拟人类学习行为的方法,从而获取新的知识或技能,进一步重新组织已有的知识,并不断改善自身的性能[3]。因此使用机器学习进行由人到案的预测模型设计,成为有效方法,为我们在公安业务中案事件预测预警提供一定的信息支撑。
模型构建需要大量的数据参与,主要包含训练集和测试集。案件预测模型构建过程中使用训练集对数据进行学习、训练,构建模型。构建后的模型使用测试集进行验证,通过验证模型输出结果的性能,进一步对模型进行优化。
构建案件预测模型遵循一定的流程(见图1):
严寒的冬季已是冰封水面,为了让鱼儿安全越冬,我们建议在结冰前把增氧机移向料台附近,每天定时开机半小时左右,这样以保证增氧机附近即使在严寒的冬季也不结冰,以达到冰下水体长期通风换气、提高水体溶氧的作用。另外,对渗水的池塘,要定时加注新水,保证冰下水的深度最好在1~1.5m之间。加水时一定要从下而上加水,切莫形成二茬冰,防止鱼类冻伤冻死。同时在大雪天气要合理地清扫积雪,保证冰下浮游植物的光合作用。
案件预测预防模型采用SVM算法对训练集进行处理。案件有多个案件特征,人员也有多个特征,人员数据和历史案件构成了模型的训练样本,但是案件特别是某一类案件的样本数量都算不上海量。SVM算法不需要大量的原始样本数据进行训练,但其参数C和g,即惩罚系数和核函数半径,需要根据经验来选取,并根据结果进行优化选择。
因为SVM分类器原理上只能单输出,对应特征预测模型即输出其中一个特征,所以根据人员特征的数量构造对应的分类器,即构造特征预测分模型。
分模型的训练过程(见图2):基于PSO算法参数寻优得到SVM的最优参数C和g,然后利用SVM算法对训练数据进行训练,并得到分模型。
训练过程中,S为原始数据集,SK表示包含某个特征的数据集,即分模型数据集,MK表示分模型,dk表示分模型的特征输出。汇总后,最终形成嫌疑人特征集合。
图1 基于SVM的嫌疑人特征预测原理图[4]
图2 分模型的训练过程
4.3.1 预测模型的特征选择
根据保密需要、犯罪案件信息以及案事件预测的目标,预测模型的选择的输出嫌疑人特征为:年龄、性别、民族、是否重点人员和是否吸毒。
根据嫌疑人特征需要构建5个SVM分类器,分模型的输入为案件基本信息特征和受害者特征,SVM分类器的输出结果是分模型是嫌疑人的某一个特征值的集合。也就是说案件预测预防模型的输出为特征集合。
4.3.2 验证模型过程
①验证过程中选取历史案件共计2981条数据,作为原始数据集,将该数据集数据信息进行特征值量化。例如时间特征的量化,把一天24个小时划分为:6:00 ~ 12:00 为 1,12:00 ~ 15:00为 2,15:00~ 18:00 为 3,18:00 ~21:00 为 4,21:00 ~ 24:00t为 5,24:00~次日6:00为6。年龄特征量化,把年龄划分为0~18岁为1,18~30岁为2,30~40岁为3,40岁~50岁为5,50~60岁为6,60岁以上为7。性别、案件类型、职业情况、民族、教育情况、婚姻状况等均采用公安数据标准代码进行简化。将案件嫌疑人的特征也进行量化处理。
②将所有数据进行归一化处理后,随机提取2881条数据作为训练数据。归一化后将各个特征的值将处在[0~1]之间。归一化选择线性函数归一化,公式如下:
式中:为特征归一化后的值,X为原始值,Xmax、Xmin分别为特征的最大值和最小值。
③使用粒子群算法对分模型进行SVM参数设置、并优化,确定参数。
④使用SVM训练得到嫌疑人特征的分模型,然后汇总分模型作为最终的嫌疑人特征模型。
⑤模型验证过程。将剩余的100条数据作为测试数据集,验证模型的性能。
1)参数优结果
使用粒子群算法对分模型进行SVM参数设置,通过对5个分模型SVM参数寻优,得到最后参数C和g,然后使用该最优参数来训练数据集,构造5个分模型,将分模型输出汇总,并作为特征预测模型的输出。
2)分模型的精确率和召回率
利用得到的参数,采用10折交叉验证的方法,可以得到各个分模型的精确率Pc和召回率Rc,并计算加权调和平均值Fc,其中模型的预测效果比较好的是性别和是否重点成员两个特征的值分别达到了84.9%和93.1%。民族和吸毒情况模型的值为74.5%和67.2%,也达到良好效果。年龄预测模型的值最低为58.6%。
基于案事件预测、预警、预防问题,从公安业务三个场景研究预测模型的设计方法。主要依靠从各类数据中,提取的案件和人员特征数据进行分析预测,达到了一定的效果,为案事件的预测预警预防探索新的方法。由于目前案件、人员特征数据还不够全、也不够多,后期需要进一步完善公安行业的特征数据,并通过大量的数据提高各个模型的精度,实现服务实战的目标。