在网络入侵检测中应用机器学习的相关探讨

2018-04-15 10:29张舒婷
电脑与电信 2018年7期
关键词:决策树机器神经网络

张舒婷

(太原学院,山西 太原 030032)

1 引言

随着网络信息技术的不断发展及其在人们生活工作学习中的广泛使用,社会对于网络的依赖程度越来越高。而在网络信息化社会时代发展趋势下,诸如病毒入侵、DNS攻击、垃圾邮件等网络入侵也呈现出复杂化、多样性的发展特征,极大地影响了社会网络应用的正常发展。在这样的背景下,入侵防护系统(Intrusion Prevention System,简称IPS)逐渐成为传统IDS的替代产品,由于传统IDS在网络入侵检测中误报率高以及资源消耗大并且需要人工过多的参与等方面的缺陷,不能够很好地应对当前网络入侵的进化。而IPS融合了入侵检测技术和防火墙技术,其安全解决方案逐渐成为安全技术的主流,而网络入侵检测功能在IPS研究和应用中都占有非常重要的地位。由此进行网络入侵检测中应用机器学习的相关探讨有着非常重要的理论意义。

2 机器学习概述

机器学习,简单来说是通过智能技术的应用,利用机器学习现有知识,并根据所学的知识识别并获取新认知和技能的方法。机器学习研究和实践早在上世纪五十年代在发达国家就已经受到重视,我国关于机器学习以及基于机器学习的网络入侵技术应用研究较晚,但是发展较快,当然与发达国家相比仍然存在着一定的技术差距和研究实践等方面的差距。自机器学习依托智能技术诞生以来,随着智能技术网络环境和外在应用环境以及自身革新等因素的影响,机器学习从科学研究逐渐应用到某些具体的领域,并且机器学习的理论体系得到了完善,以机器学习多领域理论的完善为基础,机器学习方法中网络神经、支持向量机、增强学习、遗传进化等方面的入侵技术应用有了很大的发展。网络入侵检测从本质上来说是分类和建模的问题,机器学习方法通过对于学习特点的掌握,利用所集合的信息资源,对网络入侵的可能性可以做到较为科学的预测和识别,其已经在模式识别上有了较大的发展。

3 机器学习方法应用于网络入侵检测技术

3.1 基于模式识别思想认识的技术方法应用

把入侵检测看作是分类问题,通过对网络流量和主机审计等相关设备数据信息的总结分析,区分出系统运行正常与否。在机器学习训练样本不均衡或者数据集未识别的状态下,把网络检测问题从复杂的环境中抽取出来,只对问题本身进行检测。对于这类检测问题,基于统计机器学习理论的解决方法有很多,比如k近邻算法、聚类、模式匹配、支持向量机以及神经网络等。拿其中的神经网络来说,神经网络是一种具有高度并行计算能力、自学能力和容错能力的处理方法,通过自适应学习技术区别网络异常问题或者误用问题。当前对于神经网络技术的研究有很多,比如BP神经网络模型、SOM自组织映射模型、针对SYN泛洪攻击和端口扫描攻击的神经网络算法等。

3.2 基于规则识别思想认识的技术方法应用

把入侵检测看作一个知识集合,通过机器学习能力的获取,提取知识集合的内在规则,从而正确表达出这个知识集合,以此区别出网络系统是否存在异常问题。这种思想认识是针对当前网络数据源越发多变、多类型以及高维数等发展特点开发出来的机器学习算法。面对多属性、非线性海量网络数据资源,通过基于符号归纳机器学习方法比如决策树、粗糙集等对数据资源进行简化处理,提取出系统正常行为的运行规则,实现对于异常状态的预警和检测。就拿决策树来说,决策树是一种非常常用的分类器,机器学习通过训练集构建决策树,利用决策树进行分类,决策树的识别过程对于专业领域知识没有过多依赖,其算法运行的关键在于分裂属性的划分上。并且由于不依赖知识,设计简便易行,与此同时能够在短时间内处理大量的网络流量数据信息,是非常实用的网络入侵检测方法。

3.3 基于训练样本集思想认识的技术方法应用

把入侵检测看作训练样本集,通过赋予检测系统一定的搜索策略,在样本集范围内搜索出需要找到的问题。由此,机器成为一个搜索问题的工具,学习的过程即是对于问题的寻找过程,通过学习,寻找到目标函数的最优解。随着基因遗传学的发展,遗传学的相关学术研究被引入机器学习学科领域,遗传和进化机器学习算法成为这种思想认识的有力解决方案。遗传进化机器学习算法能够检测未知攻击,同时具有极高的准确率,通过数值求解多参数、多变量、多目标和在多区域的NP难优化的问题,有着较好的识别能力,省去了大量的资源消耗。在学术研究方面,基于遗传算法的异常入侵方法有着较高的学术认可度。

3.4 增强机器学习的方法应用

增强学习(Reinforcement Learning)是机器学习四大研究方向之一,又被称为强化和评价学习,增强机器学习之所以受到学术研究的特别关注,一方面由于现实环境的飞速变化,比如网络攻击技术智能化、多样化的发展趋势,要求网络入侵检测系统在实时性上有一个较大的突破,通过可伸缩性的入侵网络检测体系的构建,能够使网络入侵系统动态适应网络环境的变化。另一方面增强机器学习方法的优越性上,多Agent系统学习是当前应用最广泛的增强机器学习的方法,由于Agent表现出来的自适性、移动性、智能性等特点能够在网络入侵检测技术中得到较好的发挥,同时多种机器学习方法的结合能够更好地解决遇到的实际检测问题。

4 基于机器学习的网络入侵检测技术发展方向

4.1 基于机器学习的网络入侵检测技术性能评估

前面就当前几种机器学习方法在入侵检测技术的应用中做了细致的论述,针对基于统一网络入侵检测问题,不同类型的学习方法的实际应用效果是性能评估的主要内容。当然性能评估是出于人的主观角度,以实用为目的。学习类型不同以及学习目标不同,所表现出来的实用性也有一定的差别,比如统计机器学习,主要从模式分类的角度来检测入侵的问题,表现在机器学习上以泛化能力为目标,而基于遗传进化学习方法则是从数据简约和规则提取的角度来看待入侵检测问题的,因此其学习目标可以理解为数据认知能力。具体来说,神经网络学习方法能够在有无参数的状态下进行泛化研究,不需要学习知识的数据设计,但是其缺点也很明显,其学习过程中,训练节奏较慢,由此其对于网络实时监测的能力较弱;支持向量机学习方法以其样本数据小,较高的训练接受能力,可以解决高维、非线性类型的检测问题,但是其缺陷在于对于数据信息的要求度较高,表现在检测应用上缺乏灵活性和泛化能力较弱。总体来说,对于基于机器学习的网络入侵检测技术来说,如何降低资源消耗、减少训练集以及如何提高准确精度是机器学习方法的一个衡量标准。当然任何学习方法都有一定的局限性,针对不同的环境和应用视角,同一种机器学习方法在应用过程中可能表现出百分之百的准确和百分之百的误报率。由此还需要根据现实需求以及时代发展需求,正确看待机器学习方法的性能评估。

4.2 基于机器学习的网络入侵检测技术的发展困境

目前,基于机器学习的网络入侵检测研究已经在包括系统安全、网络安全以及应用安全领域中提出了很多切实可行的解决方案和应用方法。但是从模式识别的泛化能力、检测精度以及当前学术界极为关注的实时性问题上,基于机器学习方法的解决方案还有很长的路要走。从机器学习方法这个主体来说,其未来在网络入侵检测技术的应用程度还要从其技术突破以及机器学习算法研究突破两个方面进行,我们都知道机器学习算法当前缺乏一定的公开透明性,比如在神经网络入侵检测技术应用时,很容易出现算法错判的问题,由于模型运行的不可解释性,导致了对于代码的分类总结不够明确。由此产生的机器智能化发展是否安全的学术思考值得在未来机器学习研究中给予重视和关注。从网络入侵检测角度来看,基于机器学习的网络入侵检测应用发展,当前最主要的影响因素来自于网络攻击技术及其发展特点的分析判断上,从目前来看,网络攻击越来越多地采用分布式、多目标以及多层次的组合式攻击,面对黑客攻击手段越发智能化、多样化和有预谋的特点,基于机器学习的网络入侵检测技术必然要构建多节点部署、分布式检测以及适应网络动态发展网络检测体系。另外还比如黑客也可以利用机器学习应用到网络入侵方面,机器学习网络入侵检测技术加密资源消耗问题,这些都是当前以及未来不容忽视的重要问题。

猜你喜欢
决策树机器神经网络
机器狗
机器狗
神经网络抑制无线通信干扰探究
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
未来机器城
基于决策树的出租车乘客出行目的识别
基于神经网络的拉矫机控制模型建立
复数神经网络在基于WiFi的室内LBS应用
基于肺癌CT的决策树模型在肺癌诊断中的应用