[胡向东 熊文韬]
面向智能家居的入侵检测方法研究
[胡向东 熊文韬]
摘要依托新兴物联网技术的智能家居面临着用户隐私泄露、测控指令截取与篡改等信
息安全风险。文章针对智能家居网络特点及潜在安全问题,提出一种基于特征匹配和网络流量统计分析的智能家居混合入侵检测系统,特征匹配作用在智能家居节点、网关部分,该部分基本规则库特征集的生成先采用K-means算法生成聚类,然后进行PCA特征提取,在检测过程中先对数据进行PCA特征提取,选取欧氏距离最小的聚类中心,然后进行特征匹配,相似度值超过阈值则匹配成功,判断为合法或非法数据,否则进行下一步。流量统计分析作用在智能家居服务器部分,选取合适的λ值,确定可信区间,主要针对能够引起流量变化的攻击。仿真结果表明:采用该方法可以有效提高智能家居网络入侵检测系统的检测性能,提升物联网智能家居系统的安全性。
关键词:物联网(IOT) 智能家居入侵检测K-meansPCA统计分析
胡向东
现为重庆邮电大学教授,主要研究方向为网络化测控及其信息安全,复杂系统建模仿真与优化等。
熊文韬
现为重庆邮电大学硕士研究生,主要研究方向为物联网信息安全。
作为物联网技术的典型应用之一,智能家居正在得到快速发展。人们在享受智能家居带来的各种便利的同时,却面临着智能家居系统中所采用的无线传感网(Wireless Sensor Networks,WSN)技术因通信开放性带来的多种信息安全隐患,如节点假冒,非授权访问,隐私泄露,系统测控指令的截取、篡改、伪造、重放或非法注入,拒绝服务等攻击。这些攻击将导致系统无法按照预定的功能正常运行,并可能泄露用户的隐私。因此,及时的发现智能家居网络所遭受的攻击并采取有效的应对措施是十分必要的。入侵检测属于主动防御是保障网络安全的重要手段,它是指在尽量少的影响网络性能的情况下,通过对入侵行为进行检测、分析,提高系统应对外部威胁的能力。
近年来,许多国内外专家、学者对物联网智能家居安全进行了研究,主要包括:(1)一种基于GSM的智能家居安全策略[1],对智能家居的报警机制做了研究,但仅限于硬件控制层面;(2)一种基于嵌入式互联网的智能家居安全防护系统[2],对系统运行中的硬件设计及安全防护做了研究,但未涉及其信息控制安全;(3)一种时间序列加密智能家居安全控制系统[3],涉及人机交换的安全性,但不包括信息传输与控制安全,且对下位机的控制需要短信密码确认,存在不便利性;(4)一种基于国产SM4密码算法的智能家居安全控制系统[4],以加密方式进行数据传输。这些研究都属于被动防御机制,能够一定程度上提高智能家居网络的安全性,但对于复杂多变的入侵行为,这些缺乏主动防御手段的安全研究成果还不足以构建起完备的智能家居安全解决方案。
智能家居入侵检测方面的研究还较少。文献[6]是一种无线智能家居传感器网络基于移动代理的异常检测方法,在网络中设置中间件,检测的主要是内存资源丰富的簇头节点等,检测范围小,局限性比较大。
本文提出一种基于特征匹配和网络流量统计分析的智能家居入侵检测系统,保证高检测率的同时降低误检率,有效提升物联网智能家居系统的安全性。
1.1智能家居网络整体系统
本系统模型中运用到的传感器节点数目相对较少,网络节点的部署方式为确定性、静态网络,并采用星型网络拓扑结构。
带入侵检测的安全智能家居系统构成如图1。在智能家居系统中,智能家居物联网系统主要可以分为以下几部分:
监测节点,如烟雾探测器、可燃气探测器、温湿度传感器、光照传感器、红外传感器、摄像头等;
控制节点,如ZigBee(CC2530)等,保证传感器或控制器与主节点和家用电器间的相互通信;
路由节点,主要用于信息路由和转发,实现信息收集汇总;主路由节点,将路由节点的信息收集汇总,并与家居网关进行信息交互;
家居网关,可用于过滤对网络的访问,是智能家居网络的信息处理和存储中心,实现人机交互和智能控制等;
报警响应模块,报警器等相关装置,用于入侵与异常报警和处理;
用户远程智能终端:智能手机、平板、PC等终端设备远程登陆智能家居系统,对智能家居系统各节点进行控制。
图1 带入侵检测的安全智能家居系统
本文选取ZigBee模块作为智能家居物联网的组网节点,模块包括处理器CC2530(256k)、晶振电路、复位电路、电源、天线、传感器模块等。组网节点属于微器件有非常小的存储空间和代码存放空间,且计算能力有限、用于安全相关的存储空间非常有限[5],这些硬件约束条件使得复杂的入侵检测算法根本无法运用。
针对物联网智能家居网络节点的硬件特点、约束条件和可能受到的攻击,本文设计的入侵检测方法如下:特征匹配算法,作用在节点和网关,主要针对的是外来系统或节点控制指令的发布、重放攻击、非法指令等;网络流量统计分析部分针对的是智能家居服务器,主要针对DOS攻击等能够引起流量明显变化的攻击类型。
1.2智能家居入侵检测模型
本文设计了一种特征匹配和网络流量统计分析的入侵检测方法,该方法是把特征检测和异常检测相结合的新的混合检测方法,其中特征匹配属于特征检测;网络流量统计分析属于异常检测。模型如图2。
图2 智能家居混合入侵检测模型
针对物联网智能家居网络节点的硬件特点、约束条件和可能受到的攻击,该模型分为两大块,分别为智能家居节点、网关部分和智能家居服务器部分,各模块的功能如下:
入侵检测特征匹配:该模型的第一核心模块,对数据进行初步检测,与基本规则库进行匹配得出结果,异常情况直接报警响应,合法数据包直接丢弃,其他情况发给下一步;
基本规则库:包含非法特征库和合法特征库两个部分,非法特征库中存储的是已知的非法行为模板,凡是符合这个特征库的行为都视为非法行为。合法特征库中存储的是己知的合法行为模板,凡是符合这个特征库的行为都可视为合法行为。定期接收来自外部新特征更新库的特征更新;
外部新特征更新库:收集最新的匹配特征规则,包括入侵特征与合法特征,定期对基本规则库进行更新;
数据流量统计器:对网络流量进行统计,整个周期是一个固定周期的时间片,时间片结束就是一轮;
模块系统时钟:为数据流量统计器等提供时钟信号;
异常情况存储器:按照时间先后顺序记录前轮异常流量值;
检测器:该模型的第二核心模块,也是最重要的模块。负责统计各时间片的网络流量情况,与事先训练生成特征库得出的可信区间比较,对网络流量异常与否进行判断。
本模型通过上述七部分模块协同作用,达到对智能家居网络节点、网关、服务器的检测和判定,其中基本规则库和可信区间的建立至关重要,因为二者关系到入侵检测的检测速率和检测准确度。智能家居入侵检测模型中前后两部分之间相辅相成,在不同的位置,对数据进行详细检测,提高检测率,降低了漏检率,有效的提升系统整体安全性的同时,对系统运行效率影响较小。
1.3基本规则库的建立
训练过程中将常见的入侵类型数据对象和合法类型数据对象数据先采用K-means算法对样本进行聚类,经过k次迭代之后,样本内的数据被聚成k类,使得各聚类内部的数据相似度最大,类间数据的相似度最小。然后,对各聚类分别使用PCA分析进行降维处理,根据降维后的主成分在样本中对应的维度提取特征,生成该聚类的特征集作为基本规则库中存储的特征用于入侵检测进行特征匹配。规则库的建立与该部分检测模型如图3。
2.1基本规则库生成—基于K-means聚类与PCA算法
智能家居无线传感器网络节点和网关是整个网络的基础,但该部分计算能力有限、存储空间较小制约复杂入侵检测算法的应用,硬件特点和约束条件以及面临的威胁使得该部分只能采用一种轻量级入侵检测方法,本文方案中的基本规则库采用基于K-means聚类与PCA主成分析算法并通过优化得到,检测方案采用特征匹配的方法。
K-means一种基于距离的聚类算法[20],相似性评价指标为欧氏距离,对数据集,我们将其看作若干个簇,簇由距离靠近的对象组成,每一个簇就是一个聚类,相同簇中对象之间的距离越小,相似度就越大,使用K-means聚类算法就是将所有对象按相似度聚类,并计算每一类的聚类中心。
K-means聚类算法每个数据经过k次迭代,k为聚类中心个数,对于一个样本Y,欧氏距离最小的聚类中心通过公式(1)得到,并以最后得到的k个聚类中心为数据的最优聚类中心。
其中,d(i,j)表示对象i和对象j之间的距离,分别为i与j在k维上的数据。
K-means聚类算法的工作流程如下:
(1)选取k个对象作为初始聚类中心;
(2)计算其他对象到聚类中心的距离;
(3)根据最小距离原则重新划分数据对象;
(4)重新计算每个聚类的均值作为新的聚类中心;
(5)重复直到不再发生变化。
对于初始数据集进行K-means聚类以后,将具有相似特征的数据集合到了一起,然后在此基础上使用PCA进行分析和处理,达到降维目的,从而减少不必要特征的影响。
PCA[21]是一种降维算法,在面对较为复杂的系统和大量数据时,可以将其包含的无用信息去除,保留必要的信息。将PCA算法运用到入侵检测规则库建立中,可以有效的减少系统处理的特征数量,从而缩短检测时间。PCA算法描述如下:
2.2智能家居节点和网关特征匹配部分
智能家居节点和网关特征匹配部分的基本规则库特征集,分为合法特征集和非法特征集。两个库分别将智能家居网络常见的合法行为和非法行为的基本属性进行聚类并提取特征。检测过程如图3 ,工作流程如下:
(1)对网络数据包进行PCA特征提取,这样有利于减少数据特征数量为特征匹配减少能量开销和缩短匹配时间;
(2)与基本规则库特征集的中心数据进行欧氏距离的比较,对数据进行聚类定位;
(3)定位完成后找到基本规则库特征子集进行特征匹配;
(4)特征匹配以相似度为标准,匹配成功则执行相应响应或通过操作,其他类型则进行下一步检测。
智能家居网络节点和网关由于其运算能力有限,资源受限,复杂的入侵检测算法无法应用在网络中。本文充分考虑智能家居网络节点、网关部分硬件特点和约束条件,通过K-means聚类和PCA特征提取生成基本规则库特征集,使得计算开销降低,资源占有量减小,对于待检测数据先进行PCA特征提取,后进行特征匹配,在减少不必要时间和能量开销的同时,计算量也得到降低。
2.3智能家居服务器流量统计分析部分
智能家居服务器,由于其不同于节点、网关,拥有较强的计算和存储能力,能够处理较大的数据,故本文选取服务器流量值作为统计分析的对象。
整个智能家居服务器部分,定义一个时间周期为一个固定时长的时间片,一个时间周期简称为一轮。异常数据存储器是一个递增函数,初值为0,在第一轮开始时清零,发现一个异常流量值就编号计1,并且统计流量值大小与出现的时间,异常流量存储器里面的数据称为异常值。
数据流量统计器按照时间先后顺序记录下n轮不为0的流量值,记为:。对于,本文进行如下运算:
式(1)表示对前n轮的流量值求和;式(2)表示对流量值求平均数;式(3)表示对n轮数样本值取样本估算标准偏差。
求得样本估算标准偏差以后,将根据标准偏差设置正常情况的可信区间,本文设置为。当第轮的流量值时,检测器就判断该轮网络中有入侵行为发生,同时异常情况存储器记录此次的异常流量值;当时,检测器判定为正常流量值。
(4)式可化解成如下:
3.1仿真平台环境与实验说明
仿真环境在英特尔Core i3-3240 (双核)3.40GHz,内存4 GBytesDDR3 SDRAM,Windows 7旗舰版的PC机上进行。用Matlab仿真平台构造智能家居网络入侵检测模型进行性能评估。
整个仿真模拟节点都默认为互为邻居节点,恶意节点模拟攻击。第二部分的初始一段时间为训练阶段,对模拟网络的数据流量进行采样,再进行统计分析,得出可信区间,检测器通过得出的可信区间进行判断。仿真实验的入侵模型为能够引起流量变化的DOS(Denial of Service)攻击。通过直接重放数据集的流量值大小进行第二部分模拟实验。可信区间训练参数如表1。
表1 可信区间训练参数表
检测数据集为KDDCUP99[11]入侵检测数据集,该数据集可分为训练数据(有标识)和测试数据(无标识),数据集的类型分为Normal、DOS、Probing、R2L、U2R五种,每个数据含有41个特征,具体标识情况如表2所示。KDD-CUP99原式数据集较大,不便于处理操作,故本文选择在10%的训练集(kddcup.data_10_percent.gz)中随机抽取10000个,将其训练成基本规则库特征集,对10%测试集(kddcup.newtestdata.unlabeled_10_ percent.gz)进行检测来评价本文方法的性能。
按照 KDDCUP99 原始数据集中各类攻击所占比例随机地从 10%测试集中选择 950 条记录得到各组测试数据,其中 Normal、DOS、Probing、R2L、U2R 分别为 300、300、300、20、30 条记录,用于性能测试;本文将入侵行为的检测率、误检率、漏检率用来评价算法的性能。三者定义为
表2 KDDCUP99数据集标识类型
3.2仿真性能分析
3.2.1智能家居节点和网关部分
智能家居节点和网关部分特征匹配算法是通过K-means聚类算法对初始训练集进行聚类,然后通过PCA特征提取降维生成基本规则库,而这一操作的关键之一就是k值的选择。本文对比了不同k值与基本规则库生成时间之间的关系,如图4,由图可知时间随k值的增大呈增加趋势,k值越大,系统计算时间就越长,对应计算量也增大。经过多次实验对比发现:k=10,此时能取得良好的聚类时间和效果,不会出现剪影值过低、聚类不精确的现象,结合智能家居网络节点、网络资源有限等约束条件,本文取k=10。
图4 k值与基本规则库生成时间关系
Richard Lippmann代表性评估检测结果[21]如表3,本文将以此作为对比。本文对测试数据的检测结果如图5、图6、图7。通过多次实验测试,本文选取相似度阈值为0.85,若得到检测数据相似度值大于或者等于0.85则认为该数据与基本规则库特征集相似度大,匹配成功,与合法特征集匹配成功则为合法,与非法特征集匹配成功则为非法;反之,则匹配失败数据进行下一步检测。
表3 Richard Lippmann评估检测结果[21]
图5 Normal数据误检率
图6 DOS数据检测率
图7是对Probing数据进行检测的结果图,由图可知,300个数据中检测出297个数据,故检测率为99%,而Richard Lippmann评估检测结果只有82%。
综上所述,本文在基本规则库特征集的生成上采用K-means聚类算法产生聚类,然后通过PCA特征提取进行降维,检测过程中先对数据进行PCA特征提取,从而达到保持较好性能的同时,对系统资源占用较小,仿真结果表明在Normal误检率、DOS数据及Probing数据检测率上有了较大改善。
图7 Probing数据检测率
3.2.2智能家居服务器部分
智能家居服务器流量统计分析部分的仿真结果如图8、图9、图10。本文提出方案的关键是入值的选取,这个关系到实验的准确性,本文选取1、1.5、2、2.5这四个入值作为对比。该部分主要应对DOS攻击等能够引起流量值变化的攻击,故实验模拟DOS攻击。
图8 入值对检测率的影响
图8对比了不同的入值对检测率的影响,由图可知,入值越大,可信区间越宽,检测率在相同的DOS攻击强度下越低,而随着DOS攻击强度的增加,检测率都是整体呈现增长趋势的。
图9 值对误检率的影响
图10对比了不同的入值对漏检率的影响,由图可知,入值越小,可信区间越窄,漏检率在相同的DOS攻击强度下越低,而随着DOS攻击强度的增加,漏检率都是呈现下降趋势的。
图10 值对漏检率的影响
综上所述,智能家居服务器部分运用统计分析得出的可信区间,而值选取成为本方案的关键。选取合适的值来确定可信区间,使得检测率在一个较高水平,误检率在一个较低水平,漏检率也维持低水平,达到最优组合,是保证智能家居服务器部分入侵检测性能的关键。
随着物联网技术的推广,智能家居的普及,智能化的生活方式令人期待,然而我们在享受便利的同时,迫切需要为智能家居网络引入入侵检测系统,以确保其安全。
本文提出了面向智能家居的混合入侵检测模型,分为:节点和网关部分、智能家居服务器部分。针对节点、网关部分特点,采用K-means聚类算法和PCA特征提取的方法,生成基本规则库特征集,同时检测时先对待测数据集进行PCA特征提取,仿真结果表明:在对系统运行产生较小影响的情况下,有效的提高了整个智能家居网络节点、网关应对一些常见威胁的能力;智能家居服务器部分采用流量统计分析的方案,得出可信区间,实验结果表明:合适的λ能够使得检测率在一个很高的水平,而误检率和漏检率都在一个较低的水平。
参考文献
1陈帅,钟先信,刘积学等.基于GPRS的智能家居安全监控[J].计算机测量与控制,2011,(02):326-328
2Yang X,Zhang Y,Zhao R.Study and design of home intelligent system based on embedded internet[C]//Embedded Software and Systems Symposia,2008.ICESS Symposia’08.International Conference on.IEEE,2008: 344-349
3邓彬伟,李超.时间序列加密智能家居安全控制系统的设计与实现[J].电子产品世界,2012,(09):33-35
4胡向东,韩恺敏,许宏如.智能家居物联网的安全性设计与验证[J].重庆邮电大学学报(自然科学版),2014,4:171-176
5胡向东,魏琴芳,向敏.物联网安全[M].北京: 科学出版社,2012:53-54
6刘帅,朱俊杰,马振燕.无线传感器网络中基于统计异常的入侵检测[J].火力与指挥控制,2009,7: 129-132
7Usman M,Muthukkumarasamy V,Wu X W,et al.Wireless smart home sensor networks: mobile agent based anomaly detection[C]//Ubiquitous Intelligence & Computing and 9th International Conference on Autonomic & Trusted Computing (UIC/ATC),2012 9th International Conference on.IEEE,2012: 322-329
8Karl of C,Wagner D.Secure routing in wireless sensor networks: attacks and countermeasures[C]//In: First IEEE International Workshop on Sensor Network Protocols and Applications.Anchorage,2003
9Hettich S,Bay S D.KDD cup 1999 data [EB/OL].[2014-09-23].http://kdd.ics.uci.edu/databases/kdd-cup99/kddcup99.html
10Jianliang M,Haikun S,Ling B. The application on intrusion detection based on k-means cluster algorithm[C]//Information Technology and Applications,2009.IFITA’09.International Forum on.IEEE,2009,1: 150-152
11Richard L,Joshua W H.The 1999 Darpa off-line intrusion detection evaluation [J].Computer Networks,2000,34(4): 579-595
DOI:10.3969/j.issn.1006-6403.2016.05.003
收稿日期:(2016-2-24)