对恐怖袭击事件记录数据的量化分析与研究

2019-11-05 08:48王向爱庄元强谢为顿周金华王利平
经济数学 2019年3期
关键词:数据挖掘

王向爱 庄元强 谢为顿 周金华 王利平

摘 要 恐怖主义是人类的共同威胁,利用数据挖掘可以为反恐防恐提供有价值的信息支持.基于数据挖掘的思路,从恐怖袭击事件中提取能描述危险程度的特征属性,构建量化分级模型,并考虑准确率评价指标进行优化.通过组内平方和法分析改进高斯混合模型(GMM),对恐怖组织进行聚类分析,侦查出潜在最相关的嫌疑人.建立相关模型结合统计分析,得到恐怖袭击发生的主要原因、时空特性和蔓延特性,并对未来全球反恐态势进行预测,帮助反恐组织提高反恐的精准性和打击能力.

关键词 应用统计数学; 恐怖袭击事件; 数据挖掘; GMM聚类分析

中图分类号 O213文献标识码 A

Abstract Terrorism is a common threat to mankind. The purpose of this paper is using data mining to provide valuable information support for counterterrorism and terrorism prevention. Based on the idea of data mining, the feature attributes that can describe the degree of danger are extracted from the terrorist attacks, and the quantitative grading model is constructed, and the accuracy rate evaluation index is considered to optimize. Then, the clustering method was optimized by the withingroup square method, and the Gaussian mixed model (GMM) model is used to cluster the terrorist organizations to detect the suspects which is the most relevant. In addition, through statistical analysis and established mathematical models, the main causes, spatiotemporal characteristics and spread characteristics of terrorist attacks are obtained, and the future global counterterrorism situation is predicted to help antiterrorism organizations improve the accuracy and strike ability of antiterrorism.

Key words Sapplied statistical mathematics; Terrorist attack; Data mining; GMM clustering analysis

1 引 言

恐怖襲击具有明显的破坏性和暴力型.极端组织及极端分子的恐怖袭击极大威胁了社会的正常发展和工作,同时对人民的生活和经济财产造成了损害,对社会和经济都产生了重大的影响.近几十年来,全球各个国家都已经遭遇过很多不同程度的恐怖主义袭击事件.比如,当时震惊世界的“911”事件,事件的爆发不仅给美国带来了惨重的人员伤亡和经济损失,而且对全球的影响也是巨大的.2014年发生在中国昆明火车站的恐怖袭击事件,都说明了恐怖袭击事件就在我们身边,我们必须提高反恐意识,从这些发生的恐怖袭击事件中总结经验,认真做好反恐准备工作.

自从“911”事件发生后,国内外学者极大的重视恐怖袭击事件的研究.王前钱和宋明爽(2017)[1]对近几十年来研究恐怖袭击事件的文献进行分析,发现研究恐怖袭击事件的文献可以从1986年开始,而且2001年是恐怖袭击事件文献显著增加的一个转折点,由此可见,“911”事件为所有人敲响了警钟.但是恐怖袭击活动依旧频频发生.反对恐怖主义是世界各国都必须承担的责任和使命,深入挖掘恐怖袭击事件的相关数据对人们认识恐怖主义有很大的帮助,同时也能有效帮助提高反恐防恐的效率和效益.因此,如何根据历史数据准确地预测出未来的恐怖袭击事件,并对反恐提供相应的建议成为亟需解决的问题.

近年来,学者们越来越倾向于用大数据和统计分析的方法来研究恐怖袭击事件.例如,龚伟志等(2015)[2]针对传统算法在建立恐怖袭击风险预测模型时存在的缺陷,提出了大数据分析的模型,利用恐怖袭击事件的历史数据对未来进行预测,并做了仿真分析,大数据建模得出的结果具有比较高的准确率和效率.刘明辉(2018)[3]利用Kmeans聚类分析的方法,对1992年至2015年发生的民航系统恐怖袭击案件进行分析,预测2016年民航系统的恐怖袭击风险.结果发现,该方法能够智能地对统计数据进行分类,可以推广使用.另外,李永群等(2019)[4]利用数据挖掘的方法,分析了全球恐怖主义数据库中的数据,并对某些地区的反恐态势作出了预测,提出了相应的建议.目前,利用数据挖掘的方式进行恐怖袭击事件分析研究尚处于不成熟时期,大多数研究仅限对恐怖袭击事件的数据进行统计分析,还存在着巨大的潜在价值可被进一步挖掘.

本文基于美国马里兰大学搜集并构建的全球恐怖主义数据库[5] (Global Terrorism Database,GTD),以及2018年全国研究生数学建模竞赛C题的背景,首先通过数据挖掘思路,从恐怖袭击事件的变量中提取能描述危险程度的特征属性,考虑准确率评价指标优化构建的量化分级模型;通过组内平方和法(WSS)对聚类数进行参数敏感性分析,改进GMM聚类算法,实现对尚未被宣称负责的恐怖袭击事件进行潜在最相关的嫌疑人侦别;最后分析了近三年恐怖袭击事件的原因、时空和蔓延等特性,为下一年防控反恐提供有效的建议.

2 模型的建立与求解

2.1 危险性评价模型的建立与求解

(1) 数据处理

首先对数据进行预处理,去掉空值过多的属性和案件,通过方差分析计算得到各个属性的方差,初步筛选得到国家、目标、武器、财产、连环相关性、受伤亡和死亡人数这七个主要属性.针对国家属性,考虑到越少发生恐袭的国家,一般发生恐怖袭击的事件都比较严重将各个国家的恐怖袭击案件数分为五个等级.针对目标属性和武器属性,将这两个指标和伤亡人数联系起来,得到每个武器的在案件中的平均伤亡人数,进而得到武器的类型的危险性进行排名,并大规模杀伤性武器给较高危险性评分.针对财产损失,选property、extend的水平,构建财产损失分数.针对realate1的属性也通过五分位法处理.对于恐怖袭击造成的伤亡数目,即数据中的n_kill和n_wound这两个属性,进行归一化处理.

(2)模型的构建

首先,根据通过分析得到能描述危险程度的主要特征属性构建如下量化分级模型:

式中:F为评定事件严重程度的分数,K为死亡人数,W是受伤人数,P代表财产损失.frank是量化分析所得到的分数,T是目标对象,w是武器类型,r是是否具有相关事件.

最后,把分数F归到0-5分的区间中,其中4-5分,定为一级事件;3-4分,定为二级事件;2-3分,定为三级事件;1-2分定为四级事件;而0-1分,定为五级事件.

(3)模型的优化针对以上式(1)所示的模型,通过在数据集中随机选取的1000个点,得到各个变量之间的余弦相似度,发现kill和wound兩者的相关程度非常高,如果直接加入,可能会间接提高kill的权重.因此对通过准确率评价指标来对模型的权重参数进行调整.

准确率评价指标具体根据模型推荐的事件对应真实事件命中程度,来评价危害等级评定的准确性,准确率公式如下:

式中,P是事件准确率,Nm是模型推荐的事件,是抽样的事件数,通过此模型来优化模型.

(4)模型结果通过python编程得到最优值,此时恐怖袭击测试集样本的分级准确率达到94.32%,从而使得分级模型具分级效果最佳,与恐怖事件的真实的危险性以及所造成危害的严重性相匹配.通过模型(1)对任务中的事件进行分级,具体见表1.

2.2 恐怖袭击事件模型的建立与求解

(1) 数据预处理

首先对2015和2016年的数据进行数据预处理,筛选出能较好地描述恐怖袭击行为的特征属性,剔除不需要的数列,减少不必要的处理量.该组织或个人的危害性从大到小选出前5,同时在已处理的数据集中,增加了问题1中得出的分数和事件类型这两个特征属性,通过机器学习对文字型数据的特征属性重新编码,删除有缺失值的数据,最终得到10140个案件.

(2) 模型建立

高斯混合模型(GMM)算法是数据挖掘中,聚类分析常用而且较为成熟的算法,GMM的概率密度函数如下:

通过似然函数度量用恐怖袭击事件与嫌疑恐怖组织之间特征相似程度,取为这些数据点的概率乘积取,为了方便计算取对数得到似然函数累加和的形式,计算方式如下式所示:

式中,N为数据点的个数,似然函数通常采用求导并令导数为零后解方程的形式求解,得到合适的参数,完成参数估计的过程.

(3) GMM聚类结果

在2015-2016年所有署名的14917个恐怖袭击案件,总共有457个组织有过声明,得到每个组织平均作案案件数为323,因此通过对未署名恐怖袭击案件聚类的聚类数目取为323.首先对所有的2015年和2016年的有组织宣称负责的暴恐事件的地区分布进行观察,根据式(3)计算得出概率密度,迭代直到(4)所得的似然函数收敛为止,根据恐怖组织的名称进行可视化分析以数据中的经纬度分别作为x,y轴,不同颜色代表不同的恐怖组织.得到图1(a)的结果恐怖组织恐怖袭击地区分布图.然后将各个事件的编号属性添加进去,得到图1(b).

根据图1(b)中的各恐怖组织恐怖袭击事件地区分布情况,得到大部分的恐怖组织的活动都呈现集中分布的现象.

究其原因,恐怖组织倾向于在势力范围进行恐怖袭击.所以从地理层面分析可见,相同区域的恐怖袭击事件为相同团伙及个人作案的概率极高,即空间分布是侦查犯罪嫌疑团伙极大的考虑因素.

图2为2015和2016年未知组织恐怖主义发起恐怖袭击的空间分布情况.根据前面筛选的特征属性对这些未知组织的恐怖组织进行聚类分析,将聚类得到的结果见图3(x坐标是事件的发生的经度,y坐标是事件发生的维度).此外,还考虑了运用Kmeans聚类的方法[6],但是得到聚类的结果不好,因此不再做具体分析.

(4) 模型改进

聚类的数目会对聚类的效果有较大的影响,会影响结果的可靠性.对模型改进进行参数敏感性分析,对于最佳的聚类数目,根据组内平方和(WSS)来确定最佳聚类数目的方法,得到了聚类数目与WSS的关系图见图4.

由图4可得,从聚类数目从1到60,WSS下降得较快,之后下降速度平缓趋于稳定,聚类数目达到200后,发现已趋于平衡,所以聚类数目的范围选在60~200之间,做一个敏感性分析.分析结果发现,随着聚类数目增多,类也会随之变小,但是过多的类别,会导致某些案件附近会没有某种类别的点,从而导致结果的不准确性.因此,为使得聚类相对集中,且目标点周边有足够的类,取聚类数目为150.

(5) 改进后的结果分析

根据建立的危险性评价模型通过计算如上每个聚类中的frank危险性分数的总值,然后进行排序,从结果中取前五个最大案件,得到危险性评分前五的聚类号分别为132,145,61,117和78的聚类类型,如图5为目标点的聚类命中情况.然后,对这五个组织的行为特征和恐怖袭击事件特征构建特征向量,用余弦相似度进行关联度判定,最相关的则排在最前面,可以得到表2的排序

2.3 下一年反恐态势预测分析

(1) 背景分析

恐怖袭击事件的发生的主要原因有极端思想的扩散和侵害,以及不同恐怖组织的浪潮加剧了恐怖事件的连续性,并且由于国际上的反恐合作不够重视,以及地域等因素,使得各个国家之间不合作,互相形成了恐怖气氛.同时根据数据,可以发现大部分恐怖袭击都是以实现政治、经济、宗教或社会目标为目的,同时还具有胁迫、恐吓或煽动更多群众的意图来达到宣传恐怖主义的目的.

(2) 统计分析

为了研究恐怖袭击事件发生的主要原因,从世界银行网站上获取了从1998年至2017年的相关经济数据,与附件中给出的恐怖袭击的次数进行了皮尔逊相关系数计算,得到的计算结果见表3.

从表3中可知,上述中相关的经济指标和恐怖袭击事件最相关的是按图表集法衡量的GNI(现价美元)国民总收入,和汇款与职工报酬也有较高的相关性.通过上表可得,基于经济的因素恐袭的次数呈一定的相关关系,恐怖袭击次数和人口增长成负相关关系.所以在对反恐态势进行预测的时候必须从根源,如宗教、经济发展和人口分布等因素进行分析.

(3) 时空特性

a. 趋势分析

从图6中可以看出恐怖袭击次数,伤亡人数的趋势基本一致,都是从1998年到2014年之间不断增长,但是从2014年开始呈现下降趋势,由于全球反恐意识的增强,以及各国反恐措施的增加.

再对2015到2017三年的数据进行分析,发现恐怖袭击事件在不同的月份有波動趋势,因此统计了每年所有月份恐怖袭击事件发生的规律,同时得到了每个月平均恐怖袭击事件的危害程度,依据案发次数得到表4和表5.如表4为近三年每个月平均恐怖袭击事件的危害程度,可以发现,基本上每年的12月,是恐怖袭击事件的低发时段,而每年的5月份和8月份都是恐袭事件的高发时段.再结合表5中统计得到的数据,可以发现这一结果可能和伊斯兰教的传统节日有关系.

从时间分布来看,12月份发生恐怖袭击的概率较低于其他月份,而5月和8月发生的概率较高,而且恐袭的严重程度更高,这也是需要重点防范的时间段.根据上面分析,发现恐怖袭击的发生与节日有关联.因此,做了进一步探索,分析了近三年的节日趋势(见表6),从表中数据分析,对于节日来说,每年的恐怖袭击数目逐年减少,有时甚至会低于平均值,可能的解释是反恐组织或者相关政府已经注意到此规律,在节日时加强了戒备,而在未过节时则没有这种关系.结果说明,目前这些恐怖分子越来越不容易在节日时发起恐怖袭击,却容易在普通日子发起恐怖袭击,此发现也是防范恐怖袭击需要注意的地方.

在分析近三年来恐怖袭击事件发生的空间特性时,得到表7,即2015年至2017年不同地区恐怖袭击次数的分布情况.根据表7,可以得到恐怖袭击主要集中在撒哈拉以南的非洲、中东和北非、南亚等地区,结果表明这些地区的恐怖袭击风险依然较高,反恐态势仍然十分严峻.

在分析了恐怖袭击频发的地区后,对近三年来恐怖袭击次数在不同国家的分布情况也进行了研究,发现主要集中在伊拉克、阿富汗、印度、巴基斯坦、菲律宾、尼日利亚、也门、埃及、叙利亚等国,他们的总占比就达到了72%.其实,通过新闻等有效信息,不难理解他们是恐怖袭击的高发区,因为这些国家经常发生战争,而且受宗教等影响较大,导致了国家局势动荡,因而恐怖袭击不断,由此可见,这些国家反恐形势十分严峻.

(4) 蔓延特性

a. 模型建立

在解决蔓延特性问题时,是从城市和国家两个层面来考虑恐怖袭击的蔓延特性,因此,分别建立了年度城市蔓延分数和年度国家蔓延分数两个模型,具体公式如下:

式中,c是当年的某组织的活动城市数目;cl是去年某组织的活动城市数目;n是当年的某组织的活动国家数目;nl是去年某组织的活动国家数目.

b. 结果分析

根据以上式(5)和式(6),分别获取了表8和表9所示2015至2017年十大作案次数最高的恐怖组织.分析表8得到,城市蔓延分数越高,则恐怖组织活跃的城市相比去年越多,说明该恐怖组织正在发展壮大,需要引起国际反恐组织的警惕.

分析表9,可以发现,2017年ISIL活动的国家减少了23.07%,而SPIS活动的国家增长了200%,说明ISIL恐怖组织的活动可能受到了抑制.因此,国际反恐组织需要警惕SPIS恐怖组织,防止其进一步蔓延.

综合以上对十大恐怖组织在城市和国家的蔓延分析,可得SPIS恐怖组织在城市和国家层面,都呈现扩大趋势.因此,国际反恐组织需要加强监控,及时控制住该组织势力扩大.同时,需要注意,NPA恐怖组织在国内,其扩展迅速,也需要引起国际反恐组织的警惕.

b. 结果分析

以组织Islamic State of Iraq and the Levant (ISIL),编号238和Taliban组织,编号502为例.针对每年某个组织宣称当年的所有的事件,作为该组织当年的中心,针对三年所有事件的坐标中心,作为该组织三年的中心.通过测算不同年份当年中心和三年中心的距离,来判定该组织当年的活动是否具有蔓延性.图7是238和502组织的各个事件在经纬度上的分布情况,其中黄、绿、红分别代表2015年、2016年和2017年238组织宣称负责的事件;蓝色颜色由浅至深,是2015、2016、2017年502组织宣称负责的事件.由图可得出,238组织的事件分布的更加广泛,而502组织分布得更加集中.

将图7(a)进行局部放大得到图图7(b),从图7(c)组织238和图7(d)组织502,可以进一步观察到核心点的蔓延趋势,从图中可以清楚的看到,238组织每年中心都在发生明显变化,而502组织中,当年的偏移相对来讲较小.

为了验证直观判断的偏差性,对两个组织当年案件中心到3年中心的距离做方差分析,同时界定方向,如果与前两年相比,2017年是远离中心的,记为正,否则为负,最终得到表10的结果.

从表10,可以得到,238组织的方向为正,方差

比较大,则它的蔓延性和扩散性就越强,换言之,238组织的恐怖袭击事件更分散,而且有向外蔓延的势头.而502组织的方差比较小,则它的蔓延性和扩散性更弱.从事实上来分析,塔利班近年来的活动范围确实比较小而且相对固定,但ISIL不然,它是渗透到很多地区来发动恐怖袭击,所以分析得到的结果也得到了事实的支持.根据此种方法,还可对其他恐怖组织的蔓延性进行计算,再通过方差分析作为来衡量各个恐怖组织蔓延的趋势.从而可以更好的针对蔓延的恐怖组织进行有针对地防范.

(6) 级别分布

根据BDP数据分析网站,得到图8所示2015年至2017年的全球危险等级分布图.

根据式(8),对2016年和2017年的恐怖袭击级别变化趋势进行计算,取较有代表性的地区分析,得到如表11.

综上分析可得,对个别区域需要特别重点加防,撒哈拉以南的非洲、中东和北非、南亚等地区是冲突地区,国际组织帮助发展经济,解决地区贫困,宗教、政治冲突等因素是解决恐袭事件的根本措施.北美、西欧国家等发达国家需要注意对极端恐怖主义的防治,而且恐怖组织的蔓延有跨国家跨城市的趋势.因此对恐怖事件降低为零的地区对恐怖主义势力不能掉以轻心.

3 结 论

通过数据挖掘思路,从恐怖袭击事件的变量中提取能描述危险程度的特征属性,考虑准确率评价指标优化构建的量化分级模型,结果表明模型具有较高的准确性,而且较为客观和直观;进一步采用GMM模型聚类,通过组内平方和法对聚类数进行参数敏感性分析,改进聚类算法,可以有效地帮助反恐组织侦查潜在最相关的嫌疑人;最后对近三年的恐怖袭击事件进行挖掘,基于模型分析对下一年反恐态势的预测,帮助反恐组织对恐怖袭击事件原因、时空和蔓延等特性有更为全面地了解,提高反恐的精准性和打击能力.

参考文献

[1] 王前錢, 宋明爽. 恐怖袭击事件之分析与思考[J]. 法制博览, 2017(16): 287-289.

[2] 龚伟志, 刘增良, 王烨等. 基于大数据分析恐怖袭击风险预测研究与仿真[J]. 计算机仿真, 2015, 32 (4): 30-33.

[3] 刘明辉. 基于Kmeans聚类分析的民航系统恐怖主义风险评估[J]. 数据分析与知识发现, 2018, 2 (10): 21-26.

[4] 李永群, 应万明, 袁飞, 韩玉春. 基于数据挖掘的全球恐怖主义数据库数据分析[J]. 经济数学, 2019(2): 91-94.

[5] Lafree G, Dugan L. Introducing the global terrorism database[J]. Terrorism&Political Violence, 2007, 19(2): 168-173.

[6] Jain A K. Data clustering: 50 years beyond Kmeans[J]. Pattern recognition letters, 2010, 31(8): 651-666.

猜你喜欢
数据挖掘
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
数据挖掘技术综述与应用
基于GPGPU的离散数据挖掘研究
利用数据挖掘技术实现LIS数据共享的开发实践
高级数据挖掘与应用国际学术会议
高级数据挖掘与应用国际学术会议