基于物联网的粮情监控系统中入侵检测研究

2020-03-14 07:43宋雪桦邓壮来
关键词:准确率联网监控

宋雪桦,汪 盼,邓壮来,解 晖

(江苏大学计算机科学与通信工程学院,江苏镇江212013)

粮食是关系到国计民生的重要战略储备物资,科学储粮在维护粮食市场、保障社会稳定和国家安全中具有一定的社会意义与经济价值[1]。随着通信网络技术的高速发展,以物联网[2](Internet of Things,IoT)为代表的高新技术在粮食安全保障领域的应用得到了长足发展,物联网技术在粮情测控、机械通风等领域中的应用越来越广泛。物联网是在计算机网络、无线传感网络等基础上建设而成的,这些网络自身存在安全漏洞和脆弱性问题,这使得基于物联网的粮情监控系统在信息安全上面临不少挑战。因此,对粮情监控系统的安全防范显得极其重要。

入侵行为主要是破坏目标资源的安全性、完整性以及可访问性,是物联网信息安全防范的主要方面。入侵检测是近年来出现的识别入侵行为的网络安全防御技术,但是面对基于物联网的粮情监控系统中的海量无标签网络数据,传统的入侵检测方法已经无法准确及时处理,要求建立稳定、可靠且高效的入侵检测模型以保障系统网络安全。

张馨等[3]针对物联网面临的网络安全问题,将几种入侵检测技术在物联网架构中的应用进行了对比分析,指出入侵检测的必要性。文献[4]利用反向传播(Back Propagation,BP)神经网络和AGENT 技术,将优化的BP算法应用到入侵检测系统(Intrusion Detection System,IDS)中,解决了IDS在复杂物联网环境中存在的低性能问题。Pajouh等[5]提出了一种用于物联网入侵检测的双层降维和双层分类模型,该模型的计算复杂度较低,因而对系统的计算和内存资源要求较少。

面对多样化的网络入侵行为,基于传统机器学习的入侵检测模型无法高效地对物联网网络层中的大量无标签入侵数据进行分类识别。Hinton等[6]提出的深度信念网络(Deep Belief Network,DBN)可以实现对大量无标签数据进行特征提取,该方法已成功地运用在语音识别、计算机视觉等领域。DBN模型具有强大的表达能力,能够提取海量网络数据丰富的内在信息,Salama团队[7]首次将DBN应用到网络入侵检测领域。Alrawashdeh 等[8]提出了一种基于DBN 的在线异常入侵检测系统,该系统在KDDCUP'99数据集上具有较高的检测率和较低的假阴性率。在基于物联网的粮情监控系统中,利用传感器采集大量数据进行信息传输及交换,海量的通信数据会导致系统网络安全防护的效率降低,日益智能化的网络攻击使得对异常入侵行为的检测更加困难,因此本文提出了一种基于深度信念网络的交替决策树入侵检测(Alternating Decision Trees-based Deep Belief Nets,DBN-ADT)方法,以实现数据特征降维,快速实现异常入侵行为分析和检测。

1 物联网与粮情监控系统

物联网按照一定的协议,利用信息传感设备,把物品和互联网连接,以进行信息交换与通信,实现对物品进行智能化识别、监控、控制等功能。基于物联网的粮情监控系统可以分为用于捕获数据的感知层、进行数据传输的网络层以及内容应用层等3个层次[9],如图1所示。

图1 基于物联网的粮情监控系统构架

1.1 感知层

感知层是物联网发展和应用的重要组成部分,主要利用不同类型的传感器对粮仓内外各种物理参数信息进行精准获取,实现对粮食信息的采集、捕获和识别。粮情监控系统集成有测量粮食内部温度及采集粮仓内外气温的温度传感器以及测量粮仓内外湿度的湿度传感器等,同时提供用于扩展的CO2、O2等浓度传感器接口。粮情监控系统一般以温度和湿度为主要检测信息参数,气体浓度为辅助参数。

感知层的主要安全问题是传感网的节点容易受到操控,包括网关节点和普通节点。普通节点一旦被控制,攻击者不仅可以窃取信息,还可以操控附在物品上的标签,影响对合法标签的正常读写。而对于网关节点,同样存在被恶意攻击的隐患,攻击者可以进行信号干扰,造成网络持续拥塞。此外感知层需要接入互联网,无可避免地会有来自互联网的攻击,主要有非法访问和拒绝服务攻击。传感网的节点由于结构单一、资源较小,在一定程度上限制了其数据存储、数据处理和数据通信等方面的能力,在受到攻击时,节点容易崩溃,甚至会导致传感网络瘫痪。

1.2 网络层

网络层在互联网基础上,综合各种有线和无线通信网、专用网络。网络层负责接收、传递和处理感知层捕获的信息。粮情监控系统采用互联网、移动通信网等实现粮仓与监控中心相互传输数据,工作人员在监控中心可以随时查询和了解各个粮仓的储粮情况,减少入仓检查次数,同时当粮仓出现异常时监控系统能够及时报警。

网络层主要安全隐患是路由攻击,包括拒绝服务攻击、窃取转发数据信息以及对路径拓扑的恶意行为。物联网的承载网络是互联互通的开放性异构网络,黑客利用网络漏洞可以随意窃取、修改和删除传输链路上的数据,同时可以伪装成合法用户进行网络服务,非法跟踪合法用户以获取有效的用户信息,从而进一步攻击,导致整个网络缺乏数据机密性和完整性保护。

1.3 应用层

粮情监控系统的应用层主要包括粮情测控模块、垂直管理模块、粮食安保模块和报警模块。粮情测控模块的功能是定时、实时采集温度和湿度等信息,并分析和保存这些数据。垂直管理模块采用互联网或者通信网络实现粮食管理部门对下属粮仓的远程管理和全面监控。粮食安保模块对视频传感器采集的信息进行分析、挖掘,及时发现粮仓出现的异常情况。报警模块接收其他模块传递的异常报警信息并及时通知相关人员,以便采取及时准确有效的措施,最大限度地减轻事故影响。

应用层的重要特征是智能性。为实现方便迅速地处理海量数据,需要运用智能处理技术,因此物联网中的应用层面临的安全挑战首先是应对海量数据的智能识别和处理。通常黑客会利用已知的应用漏洞注入恶意代码,对应用层数据进行窃听、注入和篡改,破坏应用的机密性。此外,在数据智能自动处理过程中,应用层需要建立相应的可控机制以及时有效地中断灾难并从中恢复、减少攻击带来的损失。

基于物联网的粮情监控系统的核心虽然是传统网络,却比之更加复杂,一旦发生病毒破坏、恶意代码攻击等安全问题,不仅导致信息资料的泄露,还会涉及系统中的实物,造成的损失往往比传统网络更加严重。入侵检测系统对异常网络数据进行检测,及时发现攻击行为,并在粮情监控系统中预警。为应对复杂的网络环境以保护粮情监控系统的数据安全,论文结合深度信念网络和交替决策树分类器提出了一种新的入侵检测模型。

2 基于深度信念网络的交替决策树入侵检测方法

物联网的海量无标签数据信息只有部分特征被入侵检测过程真正利用,而检测系统在排除大量无用信息时需要花费很大的计算量,浪费物联网中的有限资源[10]。因此采用深度信念网络挖掘和提取输入数据特征,将大量高维的无标签数据进行特征降维。同时在特征数据的基础上结合分类器对入侵行为进行分类识别,论文选用ADT分类器。

由于在粮情监控系统的通信过程中,待检测的数据包不是固定长度的,在确定深度信念网络的输入节点个数时有两种方法可以选择。一种方法是和待检测网络数据包的最大传输单元(Maximum Transmission Unit,MTU)保持一致,对不足MTU的数据包采用包尾添0的方式补齐。另一种方法是在数据包中选取固定的属性特征作为输入,比如NSL-KDD数据库将待检测网络数据包设置为包含41个属性特征的固定长度。论文采用第二种方法确定DBN的输入节点数量。

2.1 方法步骤设计

本文提出的基于DBN-ADT的入侵检测方法的总体框架如图2所示,主要包含5个模块。

(1)数据预处理。数据集采用NSL-KDD数据集,首先数值化数据集中符号型属性特征,将41维的原始属性特征映射为122维的特征数据,再进行数据归一化处理,获得标准化数据集[11]。

(2)DBN 预训练过程。通过非监督、贪婪地训练每一层受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)网络,将大量高维、无标签、非线性的原始数据映射至不同特征空间,从而保留数据的关键特征信息,获得较优的低维表示[12]。

(3)权值微调过程。反向传播网络设置在DBN的最后一层,利用被附加到网络顶层的带标签数据,接收预训练输出的低维表示作为权值微调的输入特征向量,有监督地自顶向下训练DBN模型。BP算法自顶向下将误差信息传播至每一层RBM,对整个网络的权值进行调整,从而获得最优低维表示数据。

(4)入侵识别分类。利用监督迭代算法构造ADT分类器,对最优低维数据集进行训练分类,最终识别5种网络攻击状态。

(5)网络攻击报警。根据分类结果进行报警响应,通知用户及时处理恶意入侵问题,保证系统网络安全稳定运行。

图2 DBN-ADT的总体框架

2.2 深度信念网络模型

DBN是一个具有若干潜变量层的概率生成模型,由多层无监督的RBM网络和一层采用BP算法的BP网络依次叠加构成,是一种深层神经网络。RBM是DBN的核心组件之一,包含可视层单元(v)和隐藏层单元(h)。图3展示了一个多层的DBN模型结构。每层RBM网络的隐藏单元被训练捕捉在可视层表现出来的高维数据的相关性,抽取数据维数较低的关键特征,将大量原始数据低维表示映射,从而获得较优的初始模型参数,然后利用BP算法对整个网络的权值进行有监督地调整,从而获得最优的低维表示数据。

(1)预训练过程

算法1 DBN预训练

输入:可见层输入特征变量v(υ1,υ2,…,υm),隐藏层单元个数n,学习速度ε,样本训练的迭代次数k;

输出:模型参数θ={W,a,b},其中W为链接权重矩阵,a,b分别为隐藏层和可视层的偏置向量;

初始化:设置Wij=ai=bj=0(i=1,2,…,m;j=1,2,…,n);

图3 DBN模型结构

For t=1,2,…,k

对于每个可视层输入特征变量(υ1,υ2,…,υm),将υi赋值给v(t);

For j=1,2,…,n(对于所有的隐藏层单元)

EndFor

For i=1,2,…,m(对于所有的可视层单元)

EndFor

根据(4)式和(5)式获得更新状态下的联合概率分布的梯度,更新参数θ,即:

EndFor

(2)权值微调过程

算法2 DBN微调权值

输入:从算法1中获得模型参数θ={W,a,b},学习速度η,训练样本<xi,ti>(i=1,2,…,m);

输出:微调后的模型参数θ={W,a,b};

初始化:模型参数θ和迭代次数n;

For t=1,2,…,n

For i=1,2,…,m(对于所有的训练样本)

计算xi的实际输出表示xi′;

计算输出层单元k实际输出表示与理想输出表示xi的误差梯度δk:

计算隐藏层单元h的误差梯度δh:

其中,θhk为隐藏层单元h 后续输出层单元k的链接权值;

更新每个网络模型参数θij:

2.3 交替决策树分类器

ADT是对经典决策树的一种扩展,将传统决策树和监督迭代算法相结合[13],由决策节点和预测节点的交替层组成。ADT分类器的设计如图4所示,ADT的独特表示允许在同一个预测节点下添加多个决策树桩,其中可以添加在圆圈中突出显示的附加决策树桩,以提高其预测准确性。每个预测节点都分配有一个权重,该权重表示该节点对最终预测结果的贡献,所有贡献权重的总和给出了最终的预测概率。

图4 ADT分类器

假设a=0.5,b=0.5,则得到sign( +0.4-0.6+0.2-0.2-0.1=-0.3 )=-1,又假设a=0.5,b=-0.5,则得到sign( +0.4-0.6-0.3-0.2-0.1=-0.8 )=-1,在这两种情况下,输出的分类结果都是-1,但是第二种情况比第一种更置信。

3 实验与分析

3.1 数据描述

KDDCUP'99 和NSL-KDD[14]是入侵检测研究中最常用的数据集,论文选取NSL-KDD 数据集对DBN-ADT方法进行评估。NSL-KDD数据集解决了KDDCUP'99数据集存在的冗余记录等固有问题,包含125 973个训练数据和22 543个测试数据。NSL-KDD数据集中的每个记录由41个属性特征组成,包含38个连续型属性和3个符号型属性,其中训练数据还包含1个类标签,包括5种攻击行为类型:拒绝服务攻击(Denial of Service,DoS),远程用户攻击(Remote to Local,R2L),用户到根攻击(User to Root,U2R),端口扫描攻击(Probe)和正常(Normal)。

3.2 数据预处理

首先采用属性映射方法将符号型离散数据转变成数值型数据,例如字段名为“protocol_type”的属性特征有3种取值:tcp、udp、icmp,将其分别变换为特征向量[1,0,0]、[0,1,0]和[0,0,1]。通过此法可以将41个原始属性特征映射成122维特征数据。然后最小-最大规范化处理获得的数据,以消除各属性间的量纲影响,根据

将各属性特征归一化到同一数量级,即[0,1]范围,式中,y为属性值,ymax,ymin分别为该属性的最大值和最小值。

3.3 DBN-ADT方法参数设置

实验平台采用Eclipse+PyDev插件,DBN-ADT方法参数设置如表1所示。NSL-KDD数据集经过数据预处理后得到122维特征,即输入层有122个节点。而文献[15]已经详细阐述了DBN的网络深度、输出层节点数等关键因素对入侵检测性能的影响。本文选取5层RBM网络结构,通过折半查找法逐步递归选择合适的隐藏层节点个数,其隐藏层节点数依次为110、80、55、35、10,即DBN-ADT 网络结构为122-110-80-55-35-10。在DBN 预训练过程中迭代次数选取30,而DBN-ADT 方法对网络入侵数据检测的准确率(Accuracy,AC)和误报率(False Alarm Rate,FAR)与基于BP算法的权重微调过程的迭代次数关系如图5所示。预训练和微调权重过程学习速度为0.06。

表1 DBN-ADT方法参数列表

图5 迭代次数和检测准确率与误报率的关系

当迭代次数增加时,DBN-ADT 方法检测准确率随之上升,误报率随之下降,并在迭代次数分别为160和150左右,检测准确率开始减小,误报率开始增大。因此在对比实验中权值微调过程的迭代次数选取160次。

3.4 实验结果分析

在对比实验中,将DBN-ADT方法与支持向量机(Support Vector Machine,SVM)和逻辑回归(Logistic Regression,LR)方法对不同攻击类型的识别准确率和误报率作为检测性能的评价指标进行分析。SVM和LR作为传统的分类方法,使用默认的参数设置。

3种方法对各类攻击实验结果如表2所示。从表中可以看出,DBN-ADT方法对于不同攻击行为的分类检测准确率高于SVM和LR方法,而且DBN-ADT具有较低的误报率。实验表明DBN-ADT方法能有效地提高网络入侵行为的识别能力。

为了进一步验证DBN-ADT 方法的实时性,在NSL-KDD 数据集中分别随机抽取30%、50%、80%、100%的数据,并采用3种方法进行识别准确率和检测时间(Ti)对比测试,实验结果如表3所示。

表2 3种分类方法针对各个攻击类型的性能比较

表3 DBN-ADT方法与SVM和LR的准确率和时间对比

从表3可以看出,在不同数据集上,与SVM和LR方法相比,DBN-ADT方法对攻击行为的识别准确率分别提高了至少7.24%、8.25%;在运行时间方面,DBN-ADT方法约缩短至SVM的1/2、LR方法的3/5。从总体的检测准确率和实时性来说,DBN-SC方法具有较突出的优势。

为了检验DBN的特征学习能力,论文采用DBN与主成分分析(Principal Component Analysis,PCA)和自编码网络(AutoEncoder Network,AEN)等方法进行对比,PCA、AEN选取默认的参数设置。首先利用特征学习方法进行特征提取,然后采用ADT分类器对降维的网络数据进行分类识别。在训练过程中分别抽取NSL-KDD数据集的30%、50%、80%、100%进行实验分析。

实验对比结果如表4所示,可以发现,在不同的数据集中,DBN的特征学习能力比传统的特征降维方法存在较大的优势,更适应对高维无标签网络数据的特征提取任务。在100%的数据训练阶段,DBN方法的准确率较PCA、AEN方法分别提高了3.46%和2.67%。

进一步测试DBN的特征学习能力,利用数据集中100%的数据训练,将ADT与DBN-ADT方法进行对比,实验结果如表5所示。DBN能够提取数据的关键特征,测试表明DBN-ADT方法不仅可以提高识别准确率,而且能降低ADT分类器的检测时间。

表4 DBN与其他特征学习方法的准确率对比

表5 ADT与DBN-ADT的实验对比

4 结束语

针对传统的入侵检测系统无法有效处理基于物联网的粮情监控系统中海量无标签网络数据的问题,本文充分利用深度学习在数据特征降维的优势,提出了一种面向粮情监控系统的基于深度信念网络的交替决策树入侵检测方法。该方法利用DBN对大量高维无标签数据进行特征提取,去除冗余特征,再利用ADT分类器对DBN降维的数据集进行入侵识别。对比实验表明,本文提出的DBN-ADT方法不仅提高了网络攻击分类准确率,而且显著地缩短了入侵检测的处理时间,为入侵检测在物联网中的应用提供了一种高效、可行的新的研究方法。

猜你喜欢
准确率联网监控
“身联网”等五则
《物联网技术》简介
《物联网技术》简介
The Great Barrier Reef shows coral comeback
基于无人机的监控系统设计
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
颈椎病患者使用X线平片和CT影像诊断的临床准确率比照观察
物联网下的智控萌宠屋