基于DBN-XGBDT的入侵检测模型研究

2020-11-18 09:14王闰婷肖成龙郭鹏飞陈红霖

计算机工程与应用 2020年22期

陈虹，王闰婷，肖成龙，郭鹏飞，黄洁，陈红霖

辽宁工程技术大学软件学院，辽宁葫芦岛125105

1 引言

网络的高速发展使用户之间的信息交换和数据传输更为便捷，但伴随而来的是用户私密数据被攻击的危险，一旦网络受到未知攻击产生故障，极易导致重要信息被恶意泄露、非法使用，进而造成巨大损失。因此，怎样有效预测并及时处理网络攻击始终是网络安全的研究重点。在这种网络安全背景下，1980 年Anderson 首次提出了入侵检测的概念[1]，而后以入侵检测专家系统[2]（Intrusion Detection Expert System，IDES）为代表的检测模型相继诞生，这些系统按照一定的安全策略，通过软、硬件监控网络的运行状态，尽可能多地检测出各种入侵行为，以达到预防入侵行为的目的。

近年网络发展的速度突飞猛进，海量复杂的网络数据单凭入侵检测系统难以得到有效的监测和处理，进而导致入侵检测系统很难同时满足完整性和并行性的要求。因此，单一的入侵检测系统具有一定的局限性，如存在难检测出未知网络攻击类别、误检率高、检测率和正确率较低等缺陷。因此，人们将机器学习[3]（Machine Learning，ML）引入入侵检测系统（Intrusion Detection System，IDS）中可以很好地实现对未知网络攻击的经验学习，可有效提高对未知网络攻击类别的检测率。而深度学习和集成学习是机器学习的两个分支。深度学习[4]（Deep Learning，DL）在特征分类方面具有突出能力，结合到入侵检测模型中可有效识别攻击，提升各项检测指标。集成学习[5-6]（Ensemble Learning，EL）通过结合多个泛化能力弱的组件学习器，用投票等方法组建可以达到预期效果的学习器，将集成学习应用到入侵检测可获得更好的泛化性能。

Hinton等人[7]于2006年提出的深度信念网络（Deep Belief Networks，DBN）模型是深度学习模型的代表之一。深度信念网络使用层叠玻尔兹曼机的方法组成深度神经网络。它的一种应用是对数据进行压缩，即数据降维，可使海量、高维的网络数据得到更为优秀的处理，同时便于计算。另一种应用则是实现对数据特征提取及分类，使得DBN广泛应用在文本分类、语音识别等领域[8-11]。目前，已有将DBN应用于入侵检测领域的研究，高娜等人于2014 年将DBN 运用到入侵检测领域中，重点研究了入侵检测系统中大数据分类的问题[12]，随后DBN与IDS的结合应用更为广泛[13]。但单一DBN模型存在耗时长、内存占用多以及易陷入局部最优等缺陷，文献[14]针对传统海量数据难以识别的现象，提出一种DBN-MSVM 的入侵检测方法，提高了分类结果的准确性，但对低频攻击的误报率却高达83.5%。文献[15]提出一种DBN-OGB 入侵检测模型，通过DBN 对数据降维，提取特征，由多个梯度提升树进行分类识别，经实验证明该模型有效提高了对海量、非均衡数据中罕见攻击类别的检测性能，但处理非均衡数据的过程复杂，实验耗时长。机器学习、深度学习引起网络安全领域越来越多的关注，随着技术的日益成熟，将会成为入侵检测领域值得探索的研究方向[16]。

1993年Schapire首次将集成学习中早期的Boosting算法用于实际应用[17]，它是将多个弱学习器提升成强学习器的算法。随后，Freund和Schapire于1995年提出了改进的Boosting算法——Adaboost（Adaptive Boosting）[18]，该算法运行高效且实际应用广泛[19-20]。文献[21]在Adaboost算法之后提出了梯度提升决策树的概念（Gradient Boosting Decision Tree，GBDT），即梯度提升方法结合决策树基学习器构建的学习模型。而后在2014年，陈天奇等人在GBDT算法和随机森林算法的基础上提出极限梯度提升算法（eXtreme Gradient Boosting，XGBoost）[22]，给出了一个改进的正则化学习方法和默认缺失值处理方法等。因为XGBoost 算法是以GBDT 算法模型为基础，所以该算法的模型亦称XGBDT 模型。XGBoost 具有多种功能：快速处理，接受多种类型的输入数据，内置交叉验证，树剪枝，高度灵活，较其他增强模型能更好地控制过拟合。与传统方法相比，将XGBoost应用在入侵检测系统中不仅产生了高精度检测效果，而且效率更高[23]。

数据集的不平衡分布易导致模型检测错误，研究人员基于深度学习、集成学习深入研究了不平衡数据问题，提出了多种针对性的方案。Laxmi 等人[24]为解决不平衡数据导致模型的错误分类问题，采用DBN 训练不平衡数据，结合顶层BP反向微调，通过均方误差的特征选择方式，提出了能有效处理不平衡数据的分类模型，但由于损失函数的影响，导致模型较标准算法的分类性能欠佳。文献[25]提出了一种基于DBN 的重采样支持向量机集成学习模式，以解决信用分类中的不平衡数据问题，但模型还需从处理数据冗余、设置惩罚函数等角度进一步改进。集成学习在分类性能方面较深度学习表现得更好。文献[26]针对集成算法对不均衡数据分类易发生过拟合的情况，提出基于XGBoost算法进行特征选择、参数优化等规则实现对不均衡数据的分类，取得较好的分类效果，但单一分类器不能很好地拟合数据集。因此，本文将XGBoost 引入IDS 领域进行研究，设计的入侵检测模型总体思路为：应用DBN处理海量、高维网络数据的优势，结合XGBoost 的训练速度快、分类精度高、可并行处理和高泛化性能等特点，建立可有效识别并处理高维、复杂、不均衡入侵数据的检测模型。

综上，本文将DBN降维等数据处理技术融合XGBDT模型对入侵数据的分类策略，提出一种深度信念网络下极限梯度提升决策树多分类器入侵检测模型（DBNXGBDT）。建立该模型的大致步骤如下：首先，将数据预处理后再输入DBN中进行122维降至5维的操作，便于XGBoost分类器的计算。其次，将5类攻击每两类构成一组分类，在XGBoost 中采用二叉树分类方式，使得多分类下不平衡的结果变得相对平衡，减少XGBoost方法的计算次数，从而缩短训练时间。最后，利用NSL-KDD数据集[27]进行仿真实验，结果表明DBN-XGBDT模型可有效处理高维、不均衡数据，同时正确率、检测率、误报率等性能指标均有所提升，可作为解决不均衡入侵数据对罕见攻击检测率低的新方法。

2 相关理论

2.1 深度信念网络

深度信念网络（DBN）是一种概率生成模型，也是神经网络模型之一，旨在从高维复杂的数据中获得低维、便于计算的特征向量。经典的DBN模型如图1所示，通过层叠受限玻尔兹曼机（Restricted Boltzmann Machines，RBM）以及顶层采用的反向传播（Back Propagation，BP）算法组合而成。图1中虚线箭头为反向传播过程，误差为预期与实际输出结果之差，用于微调过程。DBN 模型将训练分为预训练和微调两部分。

图1 DBN模型

图1 所示的预处理箭头即为自底向上的预训练过程，此过程是无监督地逐层训练RBM，确保可以筛选出特征信息。微调过程可视为整体调优，可对应图1中的“反向传播”和“微调”。在DBN的顶层设置BP网络，接收RBM 输出的特征信息作为输入，有监督地训练分类器，而且每层RBM 网络只能确保所处层的权值达到最优（即局部最优），但最终目标为全局最优，因此利用反向传播网络将误差信息自顶向下逐层传播，进而微调整个DBN 网络。RBM 网络训练模型的过程可以看作对一个顶层BP 网络权值参数的初始化，使DBN 克服了BP网络因随机初始化权值参数而容易陷入局部最优和训练时间长的缺点。

（1）预训练核心架构——受限玻尔兹曼机。它是一种具有二层架构的、全连接无自反馈的随机神经网络模型，如图2所示。

图2 RBM模型

图2 所示RBM 模型为“层内无连接，层间全连接”的两层结构神经网络，上、下层为隐含层（hidden layer，h）、可见层（visible layer，v）。假设隐含层中有m 个神经元节点，可见层中有n 个神经元节点，并且各层中的神经元分别用vi、hj表示相应层中第i、j 个神经元节点的状态，其中{j|j=1,2,…,m},{i|i=1,2,…,n}。图2 中ai、bj分别为所在层的偏置，wij表示第i 个可见神经元和第j 个隐含神经元间的权值。欲确定模型，需将θ={wij,ai,bj}和各层神经元数量设定好。

（2）反向微调——BP算法。DBN根据BP算法中正向训练与反向微调的特性，在顶层运用此算法。d 为期望输出，o 为输出层结果，主要的误差公式为：

本文实现DBN算法的过程及伪代码详见3.2节。

2.2 极限梯度提升

极限梯度提升（XGBoost）算法属于Boosting集成学习方法，与Boosting的经典模型GBDT同样都是基于树模型的算法，而Boosting是一种将多个弱分类器最终提升为强分类器的方法，其目标函数具有累加性。同样地，XGBoost 算法继承了累加基学习器的思想，并给出由损失函数和复杂度组成的目标函数公式，如式（1）：

假设弱分类器叠加t 轮，式（1）的C 为常数，l 项表示第t 轮的损失，其中yi是第i 条数据的实际输出，是经过学习的前t-1 个分类器对第i 条数据的集成输出，ft(xi)是待学习的第t 个分类器，将实例映射到叶索引映射函数中，见式（2）：

式（2）中，q(xi)视为树的结构，w 表示叶的向量，因此每一次迭代即为树的建立。而式（1）第二项Ω 表示惩罚模型的复杂度，表示如下：

其中，T 为基分类回归树的叶子节点总数，wt为第t 个叶子节点的输出值，λ 与γ 为L2 正则化项的系数。为增强泛化性能，有效防止过拟合，要求生成的叶子节点不宜过多且权值不可太大。根据二阶泰勒展开式和式（1）～（3）将目标函数更新为：

定义实例集再对式（4）求解可得最优叶子权重和最优目标：

因为公式算法的核心是解决如何高效地寻找分割点来构建树问题，根据式（6）给出分割增益Gain 式（7），分割原则是当Gain 取得最大值时即为最优分割。

中括号中第一、二项为左、右子树分数，第三项为不分割时得到的分数，最后一项则为新叶子的代价复杂度。

3 DBN-XGBDT检测模型

现今的网络入侵数据呈现海量、高维的特性，各个攻击类别的数目相差巨大，造成分类偏向于占比多的类别，这种情况下的数据称为不均衡数据。大多数检测模型对此类数据的处理效果不佳，通常伴有计算耗时多、检测性能低等缺陷，故本文模型设计思想主要针对两方面：如何将海量、高维的数据集转换成低维、易计算的特征数据；如何解决攻击数据不均衡问题。处理不平衡数据问题的一个主要方法是集成学习。集成学习中XGBoost具有良好的分类训练能力，可以结合其他模型达到良好的预期效果，却难以处理高维的特征数据，而深度信念网络DBN在处理海量高维数据时能够有效实施降维，使得模型的计算效率更高，处理效果更好。故本文利用深度信念网络实现特征降维，融合XGBoost算法中构成强分类器的方法处理高维、不均衡入侵数据，最终提出了一个主要实现数据特征降维和处理数据不均衡的方案。

方案中，将入侵检测数据集输入并进行预处理。数据集中包含字符型和数值型，除攻击标签外需对字符型标准化处理为数值型；为缩小取值范围便于统一计算，需进一步进行归一化处理。再将预处理后的标准数据按比例划分为：训练数据集和测试数据集。随后输入训练数据集到DBN 模型中，进行内部RBM 预训练和BP权值微调的过程，实现对数据集的降维处理、特征提取，并获得训练好的DBN 模型。随后，训练数据通过这个训练好的模型输出特征数据，同有标签的测试数据集比对，实现性能测试。随机将两类标签分为一组，分别映射为－1和1，如normal和attack分别对应－1和1，若判定为1可在同映射规则下，再嵌套判定DoS和其他三类攻击，便于分类器进行二分类。将特征训练数据集输入XGBDT 分类器中，实现分类器的训练过程。再将特征提取过的测试数据集输入训练好的分类器中，将映射后的数据标签按投票法判定入侵行为的类别（入侵数据的类别或正常数据），输出相应的检测指标。上述建立DBN-XGBDT检测模型的方案如图3所示。

图3 建立DBN-XGBDT检测模型

3.1 数据预处理

（1）将数据集标准化（Data Standardization）处理，利用One-Hot编码（独热编码，用N 位状态寄存器对N个状态进行编码）首先将字符型的各特征值映射到整数值，再被表示为二进制向量，统一成便于后期计算的数值型数据，如tcp、udp、icmp 对应的数值编码为1，0，0、0，1，0、0，0，1。

（2）由于高维、复杂的数据会增加训练时间，存在“大特征取代小特征”的现象，故将数据进行归一化（Data Normalization）处理，从而缩小数据的取值范围，使得寻优过程平缓进行，更易准确收敛到最优解。

预处理过程详解见4.2节。

3.2 数据特征降维

高维数据多冗余特征，合理有效地对数据进行特征提取和降维操作，无论是在计算时间、内存空间，还是分类算法可用性上，都有显著的提升效果。上述过程是在DBN 模型中经多层RBM 预训练和BP 反向微调实现的。因此，算法1分为RBM预训练和BP反向传播两部分。预训练过程确保特征向量既能映射到不同特征空间，也能更多地保留特征信息，最终实现局部最优。首先初始化各层间的权值矩阵V 和W 、期望与输出层误差E 及学习率η，遍历输入向量和第一层隐层神经元节点，再将此二层作为一个RBM训练出参数（各层间权重、偏置），确定此参数后再将输出的神经元状态作为第二个RBM 的输入向量，“输出即输入”地逐层传递反复训练，并计算期望输出与实际输出的误差，为后面反向微调做准备。而反向微调过程的目的是更新参数，以此学得整体最优的训练结果。根据预训练输出层结果及误差，由各输出层至隐层的反向传播方式训练出相应的误差信号，实现各层参数的更新。

其中，DBN 模型实现参数微调的核心是基于误差反向传播的BP 神经网络，它被架构在整个模型的顶层位置，实现有监督的学习训练过程。算法1给出了标准DBN 算法，输入向量为X=(x1,x2,…,xi,…,xn)T，隐层输出向量为Y=(y1,y2,…,yj,…,ym)T，输出层向量为O=(o1,o2,…,ok,…,ol)T,期望输出向量为d=(d1,d2,…,dk,…,dl)T，输入层与隐层、隐层与输出层之间的权值矩阵分别为V=(V1,V2,…,Vi,…,Vm)T,W=(W1,W2,…,Wj,…,Wl)T；对输出层均有j={0,1,…,m},k={1,2,…,l}；对隐层均有i={0,1,…,n},j={1,2,…,m}；设p 为数据总量，η 为学习率，E 为期望与输出层结果的误差，初始值设为0。算法1如下。

2) 三级数量弹性契约的供应链在价格随机或是价格稳定的突发事件下显现出来的规律性质大体相同.它们的主要区别是：价格随机情景下批发价调整的幅度、供应链上企业的期望收益变化的比率，要比价格稳定的情况要大一些.由此可见，价格随机的突发事件对供应链系统的影响较大，企业需要采取定特定的手段以消除突发事件的影响.

算法1 标准DBN训练过程

3.3 训练分类器

将经过DBN 特征提取过的数据，按照标签每两类分为一组，通过投票方式选出攻击类别，再由基于XGBoost算法的二分类决策树训练，寻优选取最佳参数组合，最终计算出各个检测指标，与其他检测模型比对最终效果。

XGBoost算法在选取分割节点时，采用了贪心策略和最优化思想相结合的方法，即增益最大化决定分割。因而，训练分类器的核心是通过增益寻找最优分割节点，构建决策树完成特征选择的过程。过程如下：初始化一、二阶导数的和G、H 及初始增益Gain 的值，输入当前节点的数据集I 。将I 临时排序，对左、右子树的两类导数进行计算更新。特别的，当枚举遇缺失值时默认分裂方向为右，向左则相反。每次根据式（7）计算增益，选择增益最大的方向作为分裂方向，当树达到最大深度n 时停止建树，最终实现特征提取。

训练分类器的实现见算法2。

算法2 XGBoost构建树的过程

4 实验分析

考虑到集成学习、深度学习和统计学习在入侵检测中的优越表现，选取了3个具有代表性的模型作比较对象，分别是XGBoost、DBN-BP和DBN-MSVM模型。一方面，上述3 个模型均有处理不均衡数据分类的能力，也可应用到入侵检测领域中，确保实验结果是统一的、可比的。另一方面，它们可间接体现出单一模型与混合模型、机器学习中各分支算法间的性能比较。故选择以上3 个模型在数据集NSL-KDD 上进行实验，得出模型间的性能比对结果并加以分析。

4.1 实验环境及评价指标

（1）实验环境

本文算法实验环境如下：

操作系统：Win7_64位。

内存（RAM）：4.00 GB（3.89 GB可用）。

编程环境：Python3.6.4。

实验数据采用KDD CUP99数据集的子数据集——NSL-KDD数据集。

（2）评价指标

由于数据中不同攻击类别的分布是不均衡的，为方便评估模型的泛化能力和各个模型的检测性能，本文使用了正确率（Accuracy Rate，AR）、检测率（Detection Rate，DR）和误检率（False Detection Rate，FDR）进行度量。相应的计算公式如下：

其中蕴含的重要概念有：

（1）对于二分类问题，可将样例数据根据其真实值与预测值划分为TP、FP、TN、FN，定义如下：

TP（True Positive）为被正确地划分为正例的个数；

FP（False Positive）为被错误地划分为正例的个数；

TN（True Negative）为被正确地划分为负例的个数；

FN（False Negative）为被错误地划分为负例的个数。

（2）根据上述定义得到二值混淆矩阵，它可衡量一个分类器分类的准确程度，延伸出各个评价指标。二值混淆矩阵见表1。

表1 二值混淆矩阵

4.2 实验数据集及预处理

本文选取20%的NSL-KDD 数据集作为训练集，它是由KDD CUP99 数据集生成的，具有训练去冗余、测试无重复等优势。此数据集包含125 973个训练样本和22 544 个测试样本，每条数据由1 个攻击行为标签、41个特征和末尾的难度标记构成，本文在清理无效特征时将难度标记舍去。攻击行为标签主要包括5个类别：正常（Normal）、拒绝服务（DoS）、探测（Probe）、本地特权用户进入（R2L）、远端未授权进入（U2R）。NSL-KDD的训练、测试数据的分布情况如图4 所示。观察图4 可知不同类别中的数据分布是不均衡的，又因数据特征的类型复杂，不易统一输入模型进行训练，所以需要对数据集进行预处理以便于模型训练数据。而每条数据中前41 个特征数据包括字符型和数值型，又可根据功能分为4个特征类别：TCP连接的基本特征、内容特征、基于时间和主机的网络流量统计特征。

图4 NSL-KDD数据集分布

NSL-KDD 数据集中3 个离散字符型特征protocol_type（2）、service（3）、flag（4）需做标准化和归一化数据处理。而攻击行为标签作为分类的标准，同样需要数值化处理。本文根据上述三种特征中值的个数来构造相应维数的二进制编码。具体操作如下：

（1）离散型特征标准化。特征protocol_type包含3个值（tcp、udp、icmp），利用One-Hot 编码思想得到相应的二进制编码为1，0，0、0，1，0、0，0，1；同样将余下的两个特征含有的70、11个字符值映射到整数值上，再相应地完成二进制编码操作。给出部分字符型数据转化为数值型数据，见表2。

表2 数值化

（2）标签预处理。特别地，攻击行为标签在进行上述标准化操作之前，需将其与这41个特征剥离开，目的是提取有用的特征构造到标签的映射，为后面对攻击行为的分类、检测做准备。由于攻击行为标签共5 类，故本文将构造5维映射，二进制编码方式同（1）。

（3）数据归一化。将经过标准化处理的离散型特征数据统一映射到[0，1]区间。本文采用离差标准化公式对数据线性转换，公式为，其中max 是样本最大值，min 为最小值，每当输入新数据时需经上述公式重新计算，完成数据归一化操作。

4.3 参数设置

DBN-XGBDT 模型需通过设置参数使模型达到可控的拟合效果，本文参照文献[15]中的调优方法，为获取一组较优的参数集进行多次调参实验，使最终的训练结果达到较优水平。参数配置见表3所示。

表3 参数配置

每条NSL-KDD数据集中的41维数据特征，经处理后扩展为122个输入层节点，在DBN模型中设定两个隐层，设置对应各层节点数为90、60，而顶层输出维数为对应5类攻击行为，故设置为5。一次RBM的训练会处理50 条输入数据，将此训练过程最多重复110 次，误差阈值为0.01。顶层输出后反向微调需迭代100 次，误差阈值也为0.01。XGBoost中执行二分类操作（对应的默认设置为objective=binary：logistic），将正常与4 类攻击每次从中随机选取两类为一组，经投票选出“normal”与“attack”，方便最终计算混淆矩阵中的指标值。

4.4 实验结果

4.4.1 模型整体性能分析

为验证DBN-XGBDT模型的有效性，本文采用随机抽取的4组实验数据集进行验证，表4、表5分别给出训练、测试数据。

使用表4 和表5 所示4 组实验数据集，将本文模型与XGBoost、DBN-BP和DBN-MSVM模型进行实验，分别对正确率、检测率、误检率等性能指标进行对比，实验结果如图5～图7 以及表6 所示。由图5 可知，本文提出的模型较其他对比模型的正确率提升效果显著。图6的DBN-XGBDT不但显示出高检测性，而且在4组抽样数据环境下的结果较为稳定，其他对比模型的检测结果波动却很大。由图7 的分析可知，因随机性等干扰因素，除DATA1实验环境外，DBN-XGBDT模型的误检率较低且基本平稳，说明该模型在检测异常数据时能正确识别出两类数据——正常与攻击。通过指标值的3 个对比图，验证了本文所给的检测模型DBN-XGBDT是一种具有高可信度且较稳定的有效识别模型。

表4 4组训练数据

图6 检测率对比

图7 误检率对比

表6 平均指标对比 %

4.4.2 罕见攻击检测性能分析

此实验的主要目的是分析各实验模型针对罕见攻击U2R 和R2L 的检测性能，证明本文模型在识别不均衡数据方面有所改进。4.4.1 小节对各个模型的整体检测性能进行了实验分析，为进一步验证各个模型对不平衡数据中各攻击类型的检测性能，选取4组各攻击类型的测试数据数量多于训练数据的实验数据。原因是测试集中多为训练集中未出现过的网络攻击数据，以此模拟真实网络环境下可能出现的攻击行为，进而保证结果具有真实性和代表性。又由于真实网络环境中的数据分布也多呈现不平衡分布的特点，正常类型的数据量普遍多于异常类型的，故选取的数据集也遵循了此分布特性。

采用表7、表8 的数据集，将DBN-XGBDT 模型同XGBoost、DBN-BP和DBN-MSVM模型，对所有出现的攻击类别的检测能力进行对比。由于本文主要研究不平衡入侵数据中罕见攻击类别的识别能力，故给出针对R2L、U2R“小类”攻击的检测率对比结果，见图8、图9。为更直观地分析各模型针对各类攻击的检测性能，计算出平均检测率便于分析，结果见表9。

表7 4组训练数据

表8 4组测试数据

图8 R2L检测率对比

图9 U2R检测率对比

表9 平均检测率对比 %

表6 给出了3 个平均指标结果，本文模型较上述单一、混合分类模型的正确率分别提升了2.07 个百分点、1.14 个百分点，误报方面较混合模型显著下降，显示出DBN-XGBDT模型的整体检测能力良好。在此基础上，表9显示本文模型针对罕见攻击R2L、U2R的检测性能明显优于DBN-MSVM、DBN-BP、XGBoost模型。DBNMSVM、XGBoost与DBN-XGBDT针对常见攻击的检测效果基本一致，而XGBoost模型对罕见攻击的检测性能却逊色于DBN-XGBDT 模型，DBN-MSVM 较XGBoost对U2R 的检测率低。DBN-BP 模型在对前3 类攻击检测时表现良好，但识别少数攻击U2R 的检测率低至47.50%。上述3 个对比模型无法使得模型整体性能和针对罕见攻击的检测性能均达到同等水平，而且可以说是相差甚远。而本文模型实现了在保证模型整体的高检测性能的同时，切实有效地提升了对U2R 和R2L 的检测能力。较针对罕见攻击表现最好的XGBoost模型，DBN-XGBDT模型的平均检测率分别提升了18.49个百分点和3.73个百分点，说明本文模型可有效解决罕见攻击的特征属性难识别的问题。综上，DBN-XGBDT模型对高维、不平衡的入侵检测数据具有高检测性能，尤其在罕见攻击的识别上表现得更为突出。

5 结束语

针对现有模型在识别高维、非均衡分布的入侵数据时效果不佳的问题，本文提出了DBN-XGBDT模型。首先采用了DBN 逐层训练的降维方式，其次在对提升罕见攻击类别的检测性能方面，结合XGBoost中二分类法提升原多分类检测精度，以期提高不均衡数据集的正确率指标。实验结果表明，DBN-XGBDT 模型能够从高维、分布不均衡的网络入侵数据中提取出特征数据，与DBN-BP、XGBoost、DBN-MSVM 等已有的优越模型相比，本文模型明显提高了对罕见攻击的检测效果，平均正确率、检测率分别高达99.21%、98.67%，且具有较低的误报率。此外，它很好地解决了数据集中类别分布不均衡的问题，针对少数攻击类别的检测性能进行了改进，为网络入侵检测领域提供了一种新的研究方法。然而该模型还存在一些不足之处，虽然对U2R的检测率较现有模型有所提升，但并未完全实现高水平检测，因此采用何种方法可更好地选出模型的最优参数组，如何降低误检率有待进一步研究。