闫学娜 艾华 景红娜 张继蕾
关键词:云计算;入侵检测;特征选择;模糊C均值
1引言
云计算是IT领域中一种按需取用及付费的全新商业模式。云计算因其节约成本、维护方便、配置灵活,能够应对大数据时代的产生的IT资源问题,已经成为企业、个人等优先选择的一项服务。然而,云计算其巨大的市场对入侵者也有着巨大的诱惑力。由于规模巨大、结构复杂、用户繁多,其潜在攻击面较大,网络安全机制亟待完善,云环境相应的安全问题也呈直线上升趋势。本文将聚类分析应用到云环境中检测异常流量数据,是对入侵检测系统的一种完善。
2云环境下入侵检测特点
2.1云环境的复杂性
云计算主要有用户基础架构即服务(IaaS)、平台即服务(PaaS)、软件即服务(SaaS)、网络即服务(Naas)4种模式。金融企业及个人用户等通过互联网即可购买和使用相应的服务及资源。目前,国外主要的云提供商有亚马逊(AWS)、谷歌云、微软Azure和IBMCloud等,国内主要的云提供商有阿里云、百度智能云、腾讯云、中国电信天翼云和华为云等。不同云提供商提供的服务不尽相同,多面向基础服务、企业应用、安全防护、网络与存储、数据库服务,而且在新兴技术(如人工智能、物联网和边缘计算等)方面,也有布局,涉及领域较广。
2.2云环境面临的威胁
云计算环境聚集了大量的物理和虚拟资源,基于远程云的基础架构,通过互联网提供IT服务。网络安全机构Sophos公司发布的一份《2020年云安全状况》调查报告表示,近四分之三的企业发生了云安全事件,这表明云安全事件时刻都在发生。《中国互联网发展报告》指出,2018年云平台已成为网络攻击的重灾区,2022年恶网络行为加速向工业互联网领域渗透,云安全形势非常严峻。自网络诞生以来,攻击和安全漏洞则一直存在。基于云的解决方案已在公共互联网上公开,这也为黑客人侵和计算机病毒入侵提供了一定的便利。
3基于聚类分析的入侵检测技术
3.1入侵检测技术
入侵检测这一概念于1980年提出。通过对东西流量数据和南北流量数据的主动监测来防止入侵的发生。可以实现针对非法入侵的拦截、响应并进行记录,因此入侵检测系统是网络安全防御的重要组成部分。云环境中,将若干入侵检测系统(IDS)布置在不同的主机上或虚拟机上,利用分布式存取技术采集数据,对云内部及外部海量网络数据进行监控。云环境中,对于完全依靠专家对入侵特征主观提取的方式已经不完全适用,而人工方式构造检测规则更新的时效性差。通过算法提取信息的数据挖掘手段适合云环境下的海量数据检测,聚类分析是其中一种。针对模糊分析的应用研究也成为学者的关注点。
2000年,Dickerson等[1]应用模糊理论设计了一个基于代理的入侵识别引擎。2016年,刘绪崇等[2]对模糊C均值聚类算法的目标函数进行了优化,针对云计算应用,设计了一个入侵检测模型。2017年,唐光艳[3]提出一种基于约束模糊聚类思维的网络入侵检测方法,并通过实验将此方法与神经网络方法进行了比较。2020年,朱玺等[4]利用模糊C均值聚类算法计算类内平衡隶属度,构成模糊隶属函数,在模糊隶属函数中引人类间平衡隶属度,设计了“类内+类间”的隶属度函数模型。
3.2改进的模糊C均值聚类算法
利用模糊集合及隶属度函数的模糊C均值聚类(FCM)算法中,隸属度表示每个数据点属于某个聚类中心的程度。
3.3模糊入侵检测系统架构设计
入侵检测过程分为云数据采集、特征提取、模糊检测和入侵响应4个步骤。具体如图1所示。
3.3.1云数据采集模块
云计算环境中,越来越丰富的业务带来了流量的变化,东西流量成为主要流量方式。当前,存在很多针对大规模网络数据采集的方法,如基于Sketch的数据采集方法[5]、FlowRadar数据采集方法[6]等,满足云环境海量数据量采集需求。启动数据采集进程收集云环境数据,输出由时间戳、源地址等组成的高维网络数据记录。
3.3.2特征提取模块
高维网络流量数据存在不相关和冗余特征,使入侵检测系统的性能受到极大的影响,既降低了检测速度,又消耗了大量的计算资源。特征选择算法能够有效解决高维数据所带来入侵检测系统的性能降低问题。当前,常用的特征选择算法有遗传算法、基于正余弦算法和群智能优化算法等[7-8]。通过特征选择算法,对特征进行选择,剔除不相关的或者冗余的特征,以提高检测速度及准确性。
3.3.3入侵检测模块
误用检测和异常检测是两种不同的入侵检测方法。相较于误用检测,异常检测能够识别未知的网络攻击行为。包括基于神经网络、基于粗糙集理论、粒子群及模糊聚类算法的入侵检测技术已经被广泛引入异常检测相关问题中。本文利用改进的模糊C均值算法作为入侵检测模块的核心算法。入侵检测模块先指明若干聚类中心,再利用模糊C均值算法对数据进行聚类分析,标记异常数据,最后对标记为异常类的数据样本做出预警。
3.3.4入侵响应模块
在检测到存在异常数据行为后,入侵相应模块将被启动。通过通知、人工响应、动化响应等做出对应的处理。比如,封堵攻击IP、关闭对应端口等。当前,入侵检测系统对入侵响应就是通知安全运维人员进行处理。现代黑客常使用自动化攻击的手段,这就需要入侵检测系统向自动化响应方向发展。自动化响应通过建立警告与响应之间的映射关系或者对发生的攻击进行推理做出动态决策,快速响应异常事件的发生。
本文针对云环境中数据的复杂性与大量性,以云数据采集、特征提取、模糊检测、入侵响应4个基本模块来构建入侵检测系统,将模糊聚类理论应用到云环境下的入侵检测中,以提高云环境下入侵检测的效率以及准确率,为解决云环境中的安全问题提供参考方案。