唐正 朱衍丞 邱凌峰
摘 要:为分析恐怖组织不同维度的特征数据及特征之间的内在联系,在全球恐怖主义数据库中选取5个典型国际恐怖组织,基于特征画像,运用统计学、机器学习、关联规则挖掘以及地理信息系统数据分析方法,对恐怖袭击特征属性进行分析。结果表明,5个恐怖组织偏好不同的袭击区域,但普遍偏好炸弹/炸药与枪支类武器;在特征关联上,攻击类型、目标类型和武器类型3类属性的特征关联较为明显。该方法在反恐情报分析中适用于挖掘不同涉恐人员的特征差异。
关键词:恐怖組织;特征画像;全球恐怖主义数据库;关联规则挖掘;梯度提升决策树
DOI:10. 11907/rjdk. 182658
中图分类号:TP319文献标识码:A文章编号:1672-7800(2019)001-0128-04
Abstract: In order to effectively analyze multidimensional characteristic data of terrorist organizations and the interrelationship between the characteristic data, we select five typical international terrorist organizations from the Global Terrorism Database. Based on feature profiling, we use the method of statistics, machine learning, association rule mining and geographic information system to analyze the attacking characteristic attributes. According to the results, attacking preferences of the five typical terrorist organizations are considerably related to the attack regions but they all prefer to choose the weapons of explosives/bombs and firearms; in the association characteristic attributes, the associations of the three types of attributes, namely attack type, target type and weapon type are obviously correlated. The method is suitable for mining the characteristics of different potential terrorists in the intelligence analysis of counter-terrorism.
0 引言
近年来,世界范围内的恐怖袭击事件频发,恐怖组织数量繁多,造成了生命、财产等重大损失,并引发了公众恐慌、社会动荡等一系列重大社会问题。研究恐怖组织的特征属性及内在联系对反恐情报分析具有重要作用,是当前国内外反恐情报工作关注的重点[1-4]。
随着目前大数据处理能力的不断提升,利用恐怖组织特征数据进行反恐情报分析等相关研究受到越来越多学者关注。位珍珍[5]通过对恐怖袭击目标和袭击手段等特点的分析,总结出“后9·11时代”恐怖主义现状及发展趋势;赵法栋等[6]通过对恐怖组织的研究,揭示了恐怖组织的袭击行为模式;曾向红等[7]对“基地”组织和“伊斯兰国”两个影响力较大的恐怖组织进行了组织结构分析;薛安荣等[8]基于贝叶斯方法对恐怖组织改变其行为策略的问题进行研究。
以往研究均在不同层面上对恐怖组织特征属性进行分析,从而为反恐情报分析工作提供决策支持。当前研究对静态属性特征的分析仍较为欠缺,对各类特征之间的关联性及重要性分析也存在不足。如何从大量涉恐数据中对恐怖组织及涉恐人员特征属性实现多维度、多角度、分层次的分析研判是目前国内外研究的重点。特征画像是指以人员为主体[9]对其各维度特征进行分析。因此,本文基于特征画像,综合多种数据分析方法,在全球恐怖主义数据库(GTD)中选择5个典型国际恐怖组织(塔利班、光辉道路、哥伦比亚革命武装力量、伊斯兰国和索马里青年党),对其静态属性数据进行挖掘与分析,从而实现对恐怖组织特征的刻画,为反恐情报工作提供决策支持。
1 数据来源与数据预处理
本文的恐怖袭击事件数据来源于全球恐怖主义数据库(Global Terrorism Database,GTD)[10-12],该数据库是全球恐怖主义研究与恐怖主义预警中心(START)开发的数据库,是目前最全面的恐怖袭击事件开源数据库之一[13-14]。本文基于GTD数据库中全部约170 000条可用数据(1970- 2016年),综合考虑袭击次数和组织规模,选取塔利班(Taliban)、光辉道路(Shining Path)、哥伦比亚革命武装力量(FARC)、伊斯兰国(ISIL)和索马里青年党(Al-Shabaab)5个典型国际恐怖组织,对其主要特征进行分析。
综合考虑数据完整性与相关性,本文选择袭击月份(imonth)、袭击地区(region)、攻击类型(attacktype1)、袭击目标类型(targtype1)、使用武器类型(weaptype1)、死亡人数(nkill)6个维度特征刻画恐怖组织基本特点。其中,攻击类型、袭击目标类型和使用武器类型均存在“未知类型(unknown)”这一子类型,由于其不能体现恐怖组织选择偏好,无法对特征属性进行刻画,本文将“未知类型(unknown)”剔除。
基于目标类别的相似性,将袭击目标类型中“政府(一般)”、“政府(外交)”和“暴力政党”合并为“政府类”;将“军队”、“警察”合并为“军队警察类”;将“堕胎诊所”、“教育机构”、“新闻媒体”和“NGO(非政府组织)”合并为“社会组织和机构类”;将“食物或水供应处”、“电信(基础设施)”、“公用设备”、“机场和飞机”、“海事(包括港口和海运设施)”和“交通设施(除航空外)”合并为“基础设施类”。通过以上归类,目标类型的类别更为明确,特点更为突出。
将使用武器类型(weaptype1)特征中武器种类相似的类别进行合并。本文将“生物”、“化学品”、“放射性”和“核”合并为“核生化类”。
根据我国《生产安全事故报告和调查处理条例》相关规定,将死亡人数(nkill)分为3个等级,分别为:“死亡少于10人”、“死亡11~30人”与“超过30人死亡”。
2 恐怖组织主要特征刻画
为分析恐怖组织在恐怖袭击中的选择偏好,即攻击类型、袭击目标以及武器类型特点,本文利用雷达图统计方法,对恐怖组织3类特征进行刻画。
如图1所示为典型国际恐怖组织攻击类型的选择偏好,不同组织对攻击类型选择偏好各不相同,本文选取暗杀、武装攻击、爆炸、绑架和设施/基础设施攻击5个类别进行刻画。5个恐怖组织均倾向于首选爆炸类攻击类型,武装攻击类是塔利班、光辉道路、哥伦比亚革命武装力量和索马里青年党的第二选择,但伊斯兰国的第二选择是绑架类;针对典型国际恐怖组织目标类型选择偏好,本文选取商业场所、政府、军队警察、社会机构、基础设施以及私人公民和财产6个类别进行刻画。军队警察类是塔利班、光辉道路、哥伦比亚革命武装力量和索马里青年党的第一选择,但伊斯兰国倾向于攻击私人公民类。光辉道路的目标选择中,商业场所、政府、军队警察、基础设施和私人公民财产5类目标被袭击次数均很高,说明光辉道路无明显选择偏好;对于使用武器类型的选择偏好,本文选取核生化、枪支、炸弹/炸药、燃烧和近战5个类别进行刻画。5个恐怖组织均倾向于首选炸弹/炸药类武器类型,枪支是5个恐怖组织的第二选择。
3 不同恐怖组织差异性分析
本文利用梯度提升决策树算法,以不同特征作为分类属性对恐怖组织进行分类预测,并分析不同特征属性对恐怖组织刻画的贡献度。通过机器学习方法,可定量分析各类特征对恐怖组织类型划分方面的贡献度。
3.1 分类算法介绍与数据集构建
梯度提升决策树(Gradient Boosting Decision Tree,GBDT)是一种应用十分广泛的算法,能够快速学习数据中的潜在联系,生成推荐结果。其中Gradient Boosting 是一种基于用户回归与分类问题的机器学习技术,利用多棵分类决策树,并将所有树的结论相加作为最终答案。GBDT不需要复杂的超参数(hyper-parameter),也不需要太多参数调试(parameter-tune)即可具有很好的学习能力[15-17]。考虑到本文要使用多种属性对5个恐怖组织进行预测,普通决策树无法实现该情况下的分类,故选择GBDT作为分类算法。
本文选定上述5个恐怖组织作为分类目标,选择袭击时间、袭击地区、攻击类型、袭击目标类型、使用武器类型与死亡人数6个维度特征作为分类属性。其次将所选数据划分为训练样本与测试样本,通过梯度提升决策树对以上属性进行预测学习,建立分类器,利用测试样本对构建的分类器进行分类测试。利用python 3.6中的random工具包按照0.05的比例在数据记录中随机抽取测试样本,重复抽取100次进行分类测试,观察分类结果。
本文选择精确率与召回率作为分类结果评价指标。机器学习中常用评价指标主要为精确率(Precision)和召回率(Recall)。精确率表示样本中分类正确的正样本与所有分类为正样本的个数比,而召回率用于衡量分类正确的正样本与所有正样本个数之比[18],其中被分类为某特定恐怖组织的样本作为本次实验的正样本。设分类正确的集合为A,错误集合为B,则有:
本文旨在通过分类器对不同恐怖组织袭击偏好进行刻画,应关注测试集中每个组织分类情况,即该恐怖组织是否被正确分类,若分类错误则应被归为哪一类。因此,选择召回率作为分类结果评价指标。
基于基尼不纯度,利用Scikit-learn中的重要度排序模块对特征属性进行重要度排序。对分类具有较大贡献度的属性,其重要度也较高。
3.2 实验过程与结果分析
本文选择100次分类结果标准差作为衡量分类器鲁棒性的评价标准。经过计算,5个恐怖组织平均精确率标准差在0.02~0.06之间波动,平均召回率的标准差在0.01~0.04之间波动,表明分類器对该数据集具有较好的适应能力,鲁棒性较强。取100次分类均值作为最终分类结果,设平均精确率标准差为[S(P)],平均召回率标准差为[S(R)]:
表1为基于6个维度特征的典型恐怖组织分类结果,其中分类详情为测试样本被分类为哪些组织及其相关数量。以光辉道路分类详情为例,0、209、18、0和0分别表示光辉道路被分类为塔利班、光辉道路、哥伦比亚革命武装力量、伊斯兰国和索马里青年党的数量,可以看出有209个样本被正确分类,18个样本被错误分类为哥伦比亚革命武装力量。由于分类器已被证明具有较好的鲁棒性,故仅选择1组分类详情进行展示。结果表明,塔利班、光辉道路、伊斯兰国和索马里青年党的召回率均很高,塔利班、伊斯兰国和索马里青年党甚至达到100%,哥伦比亚革命武装力量的召回率为0.27,其大部分被错误分类为光辉道路,说明哥伦比亚革命武装力量特征与光辉道路很相似。如表2所示为各类特征重要度排序,袭击地区特征的重要度为85.5%,说明恐怖组织的区域性特点很强,而其它特征对于刻画恐怖组织的贡献度相对较低。
4 恐怖组织不同特征关联性分析
恐怖组织各类特征属性之间存在一定关联性,对其关联性进行挖掘,可掌握其发动恐怖袭击的选择偏好,为反恐情报分析提供支持。本文通过关联规则挖掘算法对每个恐怖组织分别建立一个数据集,分析每个数据集中特征之间的关联性。
4.1 算法介绍
关联算法是数据挖掘中的一类重要算法,主要目的是从一个数据集中发现项之间的隐藏关系,其在分类上属于单维、单层及布尔关联规则,主要算法为Apriori算法。Apriori算法分为两步:①以迭代方式,根据用户设定的支持度检索出数据中的频繁项集;②利用这些频繁项集构造出满足用户设定最小信任度的强关联规则[19]。
本文进行关联规则挖掘的特征变量选定为袭击时间、攻击类型、袭击目标类型、使用武器类型和死亡人数共5类,其中最小信任度设为0.75。
4.2 结果分析
通过对每个数据集进行关联规则挖掘,筛选后得到结果如表3所示。
分析结果表明,恐怖组织最常发动的攻击类型是武装攻击和爆炸类,发动这两类攻击更倾向于使用炸弹/炸药和枪支类武器,因此恐怖组织之间的相似度很高,这也是表3分类结果不理想的原因。不同恐怖组织特征属性之间的关联特点也不同,如塔利班倾向于使用燃烧类武器发动设施/基础设施类攻击;光辉道路倾向于使用枪支类武器对政府类目标实施暗杀行为;哥伦比亚革命武装力量也倾向于使用枪支对政府及私人公民财产类目标进行袭击;伊斯兰国倾向于使用近战类武器,对私人公民财产类目标进行绑架;索马里青年党的特征属性则无显著关联。
5 结语
本文基于GTD数据,对恐怖组织主要特征进行刻画,利用梯度提升决策树算法对恐怖组织进行分类,并通过关联规则挖掘对恐怖组织特征之间的关联性进行分析,结果表明:①对于攻击类型特征,5个典型国际恐怖组织均倾向于首选爆炸类,武装攻击是塔利班、光辉道路、哥伦比亚革命武装力量和索马里青年党的第二攻击类型,但伊斯兰国的第二选择是绑架类;②对于袭击目标类型特征,军队警察类是塔利班、光辉道路、哥伦比亚革命武装力量和索马里青年党袭击目标的首选,但伊斯兰国倾向于攻击私人公民类,光辉道路袭击各类目标均很频繁,其无明显选择偏好;③对于武器类型特征,5个恐怖组织均倾向于首选炸弹/炸药类武器,第二选择是枪支;④5个典型国际恐怖组织的区域性特征十分明显,因此全球反恐应因地制宜,针对不同区域特点进行精准反恐;⑤5个典型国际恐怖组织普遍偏好武装攻击和爆炸类攻击模式,但不同恐怖组织的特征关联不同,塔利班组织倾向于使用燃烧类武器发动设施/基础设施类攻击,光辉道路倾向于使用枪支类武器对政府类目标实施暗杀行为,哥伦比亚革命武装力量也倾向于使用枪支对政府及私人公民财产类目标进行袭击,伊斯兰国组织倾向于使用近战类武器类型,以私人公民和财产为目标进行绑架。通过所挖掘的特征关联有助于掌控恐怖袭击风险源头,为情报分析及风险防控提供有力支持。
参考文献:
[1] 邓博. 恐怖分子个人数据的主要构成及其运用[J]. 国防科技, 2015,36(6):81-89.
[2] 李本先,张薇,梅建明,等. 大数据在反恐情报工作中的应用研究[J]. 情报杂志,2014(12):1-5.
[3] 周相坤,陈扬帆, 王帅响. 反恐情报中恐怖分子个人数据运用研究[J]. 中国公共安全:学术版,2016(3) :18-21.
[4] 梅建明. 论反恐情报的特征与作用[J]. 江西警察学院学报, 2009(1):52-55.
[5] 位珍珍. 后911时代恐怖主义的GTD数据分析[J]. 情报杂志, 2017,36(7):10-15.
[6] 赵法栋, 庄弘炜, 金振兴. 基于MLE的恐怖组织袭击行为模式实证研究[J]. 复杂系统与复杂性科学, 2014,11(4):19-22.
[7] 曾向红, 梁晨. 从“基地”组织到“伊斯兰国”——国际恐怖主义组织结构的演化[J]. 中东问题研究, 2016(1):43-75.
[8] 薛安荣,毛文渊,王孟頔,等. 基于贝叶斯方法和变化表的恐怖行为预测算法[J]. 计算机科学, 2016,43(12):130-134.
[9] 赵刚,姚兴仁. 基于用户画像的异常行为检测模型[J]. 信息网络安全,2017(7):18-24.
[10] National Consortium for the Study of Terrorism and Responses to Terrorism (START).Database, global terrorism[EB/OL]. https://www.start.umd.edu/gtd.
[11] GODWIN A, CHANG R, KOSARA R, et al. Visual analysis of entity relationships in the Global Terrorism Database[C]. Spie Defense & Security Symposium. International Society for Optics and Photonics, 2008.
[12] XIAO W D, CHENG Z, YANG S, et al. Improvement of parallel sets and its application in analyzing Global Terrorism Database[J]. Journal of National University of Defense Technology, 2011,33(1):115-119.
[13] LAFREE G, DUGAN L. Introducing the Global Terrorism Database[J]. Terrorism & Political Violence, 2007,19(2):181-204.
[14] LAFREE G. The Global Terrorism Database: accomplishments and challenges[J]. Perspectives on Terrorism, 2010.
[15] 柯國霖. 梯度提升决策树(GBDT)并行学习算法研究[D]. 厦门:厦门大学,2016.
[16] LIU J Y,DING Y,TAO L I. Classification of flight delay based on GBDT[J]. Mathematics in Practice & Theory, 2018.
[17] SAKHNOVICH A. On the GBDT version of the B?cklund-Darboux transformation and its applications to linear and nonlinear equations and Weyl theory[J]. Mathematical Modelling of Natural Phenomena, 2012,5(4):340-389.
[18] 葛恭豪. 机器学习算法原理及效率分析[J]. 电子世界, 2018(1):65-66.
[19] 陈苗, 马燕. 数据挖掘在高校学生成绩预警中的应用研究[J]. 电脑知识与技术, 2017,13(4):204-206.
(责任编辑:黄 健)