一种基于改进迭代决策树算法的目标威胁评估模型∗

2017-11-28 01:57李寒雨李家志赵开敏
舰船电子工程 2017年10期
关键词:决策树分类器威胁

李寒雨 秦 克 李家志 罗 威 赵开敏

(中国舰船研究设计中心 武汉 430000)

一种基于改进迭代决策树算法的目标威胁评估模型∗

李寒雨 秦 克 李家志 罗 威 赵开敏

(中国舰船研究设计中心 武汉 430000)

为了解决当前目标威胁程度评估的不足,完善威胁评估体系,在对目标威胁数据特点进行分析的基础上,提出了一种基于改进迭代决策树算法的目标威胁评估模型。通过实例对比验证了该模型的有效性和正确性。

迭代决策树;威胁判断;评估模型

1 引言

目标威胁程度是指敌方目标对防空武器系统保卫目标的威胁程度,或对防空武器系统保卫目标实施攻击的可能性程度。威胁评估是我方对敌方目标威胁量化的一个重要过程,是指挥控制抉择的重要前提。在现代信息化战场,作战人员能够从各种先进的侦察设备和战场传感器获取敌方目标的原始数据,并通过数据预处理和一级处理得到目标类型、位置、速度等信息。如何对战场情报中这些目标信息进行分析处理,并迅速、准确地进行威胁评估,以适应高技术条件下现代战争对作战指挥“快节奏、高效率”的要求,是一项充满挑战的课题[1]。

目前,国内外对于目标威胁程度评估的研究主要采用的理论和方法有:多属性决策[2~3]、对策论[4]、案例推理[5]、模糊集[6~7]、证据理论[8]、直觉模糊集[9~10]、粗糙集[11]、贝叶斯网络[12~13]、神经网络[15]、支持向量机[16]、遗传算法[17]、基于知识推理的方法[18]、云模型理论[19]等。这些方法各有所长,分别适应不同的场景,他们之间的组合也能互相取长补短,提高处理的有效性。

迭代决策树(Gradient Boosted Decision Trees,GBDT)作为回归树的一种,在具有高效率的同时,相对于一般的机器学习算法具有防止过拟合、泛化能力强等优点,适用于目标威胁程度评估。GBDT的基本思想是通过构建多个弱分类器,经过多次迭代之后最终组合成一个强分类器。每一次迭代是为了改进上一次的结果,减少上一次模型的残差,并且在残差减少的梯度方向上建立新的组合模型[20]。本文拟将GBDT算法应用到目标威胁程度评估中,并采用目前较为流行的XGBoost算法包,进行实验。

2 迭代决策树模型

2.1 原理及方法

GBDT 是 1999 年由 Jerome Friedman[21]提出的一种新型迭代决策树算法,该算法由多棵决策树组成,最后将所有树的结果汇总作为最终答案。GBDT主要由三个概念组成:回归决策树(Regression Decision Tree)、梯度提升(Gradient Boosting)、缩减(Shrinkage)。

决策树是一种常见的机器学习方法,不仅可以用于分类,还可用于回归,它的作用在于数值预测,例如用户的人数,商品的价格等。GBDT在运行时就使用到了回归树的这个性质,它将累加所有树的结果作为最终结果。所以,GBDT中的所有决策树都是回归树,而非分类树。

梯度提升的基本思想是:沿着梯度方向,构造一系列的弱分类器函数,并以一定权重组合起来,形成最终决策的强分类器。在GBDT中每一棵树所学习的是之前所有树结论和的残差,这个残差就是一个加预测值后能得真实值的累加量。

缩减的基本思想是:每次步进小步逐渐逼近结果的效果,要比步进大步很快逼近结果的方式更容易避免过拟合。换句话说缩减思想不完全信任每一个棵残差树,它认为每棵树只学到了真理的小部分,累加的时候只累加小部分,只有通过多学几棵树才能弥补不足。缩减仍然以残差作为学习目标,但由于它采用的是逐步逼近目标的方式,导致各个树的残差是渐变的而不是陡变的。避免了过拟合。

算法的原理如下:

假定经过多次迭代已经产生了一个不太完美的分类器Fm,GBDT并不会去改变已经产生的分类器集合,而是加入一个新的分类器h,使得Fm+1的性能会更好,其中,Fm+1由式(1)得出。

假定理想状态下,h的加入能够消除Fm的误差,即

则可以知道

那么我们梯度提升的任务就是将h拟合,通过训练来修正Fm之前的误差,算法推导GBDT抽样出最终的目标是在已有训练集(x1,y1),(x2,y2),…,(xn,yn)上使得整体的损失函数的期望最小,即

根据风险最小化原则,梯度提升每一步求出的函数都需要最小化数据集上的损失函数,迭代构造模型,初始化F0(x)为常函数,有

在基函数H中选取最近的梯度f。则对应的系数γ:

在本例子中,损失函数h采用square-loss,各特征初始权值设置相同,则具体流程如下:

算法框架如下

2.2 GBDT算法的改进

1)初始权值的设定

梯度提升回归算法是一种组合决策树,通过对一系列的弱分类器累加,同时迭代逼近找出各分类器最佳权值,即损失函数在梯度下降方向时的参数,得出预测结果。原则上各个分类器的初始权值应该设置相同,即如算法框架Step1中所示,然而在多次实验后发现,目标类型与目标速度对威胁程度的影响远远大于其他属性,故将初始权值优化设计如下:

其中,βi为初始权值,Wi为权值影响因子。

那么算法框架Step1中初始化损失函数更改为

2)迭代树数量的设定

迭代树的数量表达了整个模型的复杂程度。根据奥卡姆剃刀原理[22]:在模型选择时,能够很好地解释已知数据并且十分简单的模型才是应该选择的模型。在实验过程中进行动态选择迭代树的数量。

采用交叉验证的方法,在验证集上偏差最小并且方差最小的迭代树数量作为最终模型。

3 实验设计

3.1 评价指标

本次实验的评价指标综合参考最后预测的平均绝对误差(MAE)和决定系数(R2)。

平均绝对误差(MAE)是所有单个观测值与算术平均值的偏差的绝对值的平均。与平均误差相比,平均绝对误差由于离差被绝对值化,不会出现正负相抵消的情况,因而,平均绝对误差能更好地反映预测值误差的实际情况。

决定系数(coefficient of determination,R2)是指回归平方和(SSR)在总变差(SST)中所占的比重。决定系数可以作为综合度量回归模型对样本观测值拟合优度的度量指标。决定系数越大,说明在总变差中由模型作出了解释的部分占的比重越大,模型拟合优度越好。反之可决系数小,说明模型对样本观测值的拟合程度越差。

3.2 目标威胁等级预测数据

取目标类型、目标速度、目标航向角、目标干扰能力、目标高度、目标距离作为输入变量,目标威胁值作为输出变量。借助python的pandas包对数据进行预处理,将标准化后得到的矩阵作为输入,目标威胁值作为输出,构造模型进行训练。数据及处理过程如下:

不失一般性,对某一时刻来袭的75组不同的态势进行分析,随机筛选其中60组作为训练集,剩余15组作为测试集。部分属性如表1所示。

其中,为了归一化处理数据,对各个属性采用G.A.Miller的9级量化理论进行量化,其中:

1)目标类型:目标的类型对威胁程度影响较大,其中大型目标如(轰炸机,歼敌轰炸机)威胁程度高,小型目标(如反舰导弹,隐形飞机)次之,直升机最小。按照大型目标、小型目标、直升机依次量化为3、5、8;

2)目标速度:目标的飞行速度直接影响对威胁的评估,即使是同一类型的目标,其速度不同,威胁程度也不大相同。其中,速度按照0m∕s~1800m∕s等间隔依次量化为9~1;

3)目标航向角:航向角越大,攻击意图越明显。其中,按照0°~36°等间隔依次量化为9~1;

表1 训练集部分数据

4)目标干扰能力:电子干扰是空袭部队典型的攻击手段之一。其中,干扰能力按照强、中、弱、无依次量化为2、4、6、8;

5)目标高度:飞行高度越低,目标被发现的概率越低。目标较远时,对我方的攻击意图不甚明显。近距离突然出现的目标威胁性较大。其中,目标距离按照超低、低、中、高依次量化为2、4、6、8;

6)目标距离:目标与我舰的距离越近,防御时间越短,威胁性越大。其中,目标距离按照0~450km等间隔依次量化为9~1。

预处理之后部分属性如表2所示。

将预处理之后的数据利用pandas的DataFrame函数进行转换,形成训练集矩阵,代入模型进行训练。

部分预测数据如表3所示。

由于GBDT模型属于树模型,其对于特征的敏感度不高,所以在此不做归一化等其他预处理工作。

表2 预处理后部分训练集数据

表3 部分测试集数据

3.3 实验结果与分析

本次实验引入随机森林算法(RF)作为对比,采用Python语言实现改进的GBDT算法与RF算法。

首先,为了评估初始迭代树数量对最终训练结果的影响,得到图1所示初始迭代树数量与R2值的关系。

图1 初始迭代树数量与R2值的关系

由图1可知,在初始迭代树个数设置为[1,20]时,上升趋势明显,在[20,45]时R2值略有波动,在初始迭代树个数大于45之后,在交叉验证过程中,不论是测试集还是训练集的R2数值都趋于稳定。综合考虑R2值与算法复杂度,初始迭代树个数设置为45。

由于所选取的数据包具有自动调整迭代树个数的功能,评定标准为在50次迭代中训练集的均方根误差不改变。最终模型迭代树个数为100。在迭代树个数为100,取得的实验结果与RF实验结果对比如图2所示。

图2 预测结果对比图

各个算法性能如表4所示。

表4 算法性能对比图

由预测结果对比图和性能表可以看出改进的GBDT算法的训练精度比随机森林要更高,效果更好。平均绝对误差为1.39%,满足威胁程度评估的需求。证明了该方法的有效性。

4 结语

综上所述,GBDT算法是由多个弱分类器累加组成的强分类器,具有很强的泛化能力,适合网格类数据的分析与预测。本文中,针对目标威胁值的特征,加入了初始权重调整函数,在具体运算的过程中加入了迭代树自动选择函数。实验表明,改进算法取得了较小的绝对误差和较大的决定系数,性能有一定的提升。对威胁程度评估提供了一个新的思路。然而由于条件限制,并没有进行实时预测功能测试,因此对于算法模型的实际运行情况分析将成为下一步研究重点。

[1]王浩,刘敬民,张洁,等.先进战斗机光电传感器综合系统及其光电对抗技术[J].光电技术应用,2005,20(5):67-72.

[2]Qu C,He Y.A method of threat assessment using multiple attribute decision making[C]∕International Conference on Signal Processing.IEEE,2002:1091-1095.

[3]王小艺,刘载文,侯朝桢,等.基于模糊多属性决策的目标威胁估计方法[J]. 控制与决策,2007,22(8):859-863.

[4]George J,Crassidis J L,Singh T.Threat assessment using context-based tracking in a maritime environment[C]∕International Conference on Information Fusion.IEEE,2009:187-194.

[5]Looney C G,Liang L R.Cognitive situation and threat assessments of ground battlespaces[J].Information Fusion,2003,4(4):297-308.

[6]付昭旺,寇英信,王琳,等.基于模糊综合评判法的空战多目标威胁评估[J]. 電光與控制,2009,16(9):29-32.

[7]黄洁,李弼程,赵拥军.基于Choquet模糊积分的目标威胁评估方法[J].信息工程大学学报,2012,13(1):18-21.

[8]Benavoli A,Ristic B,Farina A,et al.An application of evidential networks to threat assessment[J].IEEE Transactions on Aerospace and Electronic Systems,2009,45(2).

[9]张媛媛,冯琦,周德云,等.基于直觉模糊集的空战动态多属性威胁评估[J]. 电光与控制,2015,22(2):17-21.

[10]徐公国,段修生,李胜军.基于区间直觉模糊集的目标优先级求解方法[J].火力与指挥控制,2016,41(12):50-53.

[11]文志信,金栋,单洁.基于条件熵约简和粗糙集规则匹配的反辐射无人机作战目标威胁识别[J].舰船电子工程,2011,31(6):68-72.

[12]晏师励,李德华.基于动态贝叶斯网络的空战目标威胁等级评估[J].计算机与数字工程,2015,43(12):2150-2154.

[13]卞泓斐,杨根源.基于动态贝叶斯网络的舰艇防空作战威胁评估研究[J].兵工自动化,2015,6:006.

[14]李卉.基于BA优化BP神经网络的目标威胁估计[J].山西电子技术,2016(3):7-9.

[15]李姜,郭立红.基于改进支持向量机的目标威胁估计[J].光学精密工程,2014,22(5):1354-1362.

[16]Gonsalves P G,Burge J E,Harper K A.Architecture for genetic algorithm-based threat assessment[C]∕Information Fusion,2003.Proceedings of the Sixth International Conference of.IEEE,2005:965-971.

[17]Liang Q.KUPS:Knowledge-based Ubiquitous and Persistent Sensor networks for Threat Assessment[C]∕IEEE Conference on Military Communications.IEEE Press,2006:3582-3588.

[18]季傲,姜礼平,吴强.基于改良云模型的舰艇防空威胁评估[J].火力与指挥控制,2016,41(5):35-38.

[19]王改革,郭立红,段红,等.基于萤火虫算法优化BP神经网络的目标威胁估计[J].吉林大学学报:工学版,2013(4):1064-1069.

[20]孙克雷,邓仙荣.一种改进的基于梯度提升回归算法的O2O电子商务推荐模型[J].安徽建筑大学学报,2016(02):87-91.

[21]Friedman J H.Stochastic gradient boosting[J].Computational Statisticsamp; Data Analysis, 2002, 38(4):367-378.

[22]王珏,周志华,周傲英.机器学习及其应用[M].北京:清华大学出版社,2006:7-8.

A Target Threat Assessment Model Based on Improved Gradient Boosted Decision Trees

LI Hanyu QIN KeLI JiazhiLUO WeiZHAO Kaimin
(China Ship Development and Design Center,Wuhan 430000)

In order to solve the shortcomings of the current target threat assessment model,the target threat assessment system is improved based on the analysis of characteristics of target threat data,the improved gradient boosted decision trees is applied in target threat assessment model.With a compared example,this paper proves the usefulness and the accuracy of the model.

GBDT,target threat assessment,evaluation model

TP301

10.3969∕j.issn.1672-9730.2017.10.006

Class Number TP301

2017年4月8日,

2017年5月27日

李寒雨,男,硕士,研究方向:舰载电子信息系统。秦克,男,硕士,研究员,研究方向:舰船信息系统。李家志,男,硕士,工程师,研究方向:舰船信息系统。罗威,男,博士,工程师,研究方向:舰船信息系统。赵开敏,男,硕士,工程师,研究方向:舰船信息系统。

猜你喜欢
决策树分类器威胁
学贯中西(6):阐述ML分类器的工作流程
基于朴素Bayes组合的简易集成分类器①
人类的威胁
基于特征选择的SVM选择性集成学习方法
决策树和随机森林方法在管理决策中的应用
基于差异性测度的遥感自适应分类器选择
决策树学习的剪枝方法
决策树多元分类模型预测森林植被覆盖
搞笑图片
决策树在施工项目管理中的应用