彭亚非
摘 要:随着大數据技术在各领域中的应用,大大地减少网络安全事情的发生率。本文将详细阐述基于网络流量元数据的安全大数据分析。
关键词:网络流量;元数据;大数据分析
近年来,网络攻击事件频繁发生,传统的安全防御体系难以满足网络需要。大数据技术具有用户追踪和情报收集的功能,可以通过实时监控网络的数据历史,以提高网络安全,大大地避免网络攻击事件的发生,对网络信息安全领域有着重要的意义。
1 网络流量分离平台
现阶段大数据分析技术已收到界内所有人的关注,但很多人对于大数据分析的理解始终停留在表面,关于大数据的生成方式一无所知。大数据分析需要大量的数据集作为基础条件,过小的数据集无法支持大数据分析,对于真实情况不能很好的进行反馈,而这也将失去继续改进的机会。目前大多数的企业的IT服务对于信息安全方面的要求较高,而本文将提到的网络流量分流平台是在网络交换路由设备的各特性基础上建立起来的多性能平台,完全可以满足当前企业网络的流量分析,而且由于其实分布式的部署方式,可以使流量线性分流,从而大幅度扩大流量规模,实现信息的实时分离和汇聚,从而提高海量元数据分析的稳定性。
2 元数据的定义、采集和存储
在传统主干网中,主要通过实时分析各主干节点路由器传输的信息,并挖掘与其相关的历史信息,迅速发现导致网络流量连接异常的安全事件,已达到安全监测的目的。例如通过获取flow信息来源,进行预警,从而借助特定端口的网络扫描能力,迅速查找流量放大攻击事件。但随着网络攻防和安全防御方法逐渐被人了解,紧靠flow信息的收集已经逐渐不能满足网络的安全监测需要。无论是企业网还是校园网,其入侵监测系统主要是根据网络流量进行信息报警的系统,报警过程产生的大量数据为元数据类型中的一种。但入侵检测的效果与特征规则库的更新及质量有直接关系,检测功能很难作用在未知和新型的安全威胁,而且它具有很强的实效性,一旦没有捕捉到安全事件,则不会再次检测。对于商业入侵检测系统的研究,由于详细程度较低,且输出类型较少,所以无法支持研究,对此,通过开源的Snort,以分布式部署的方式,同时运行多个检测引擎,从而形成大规模的检测系统,不仅性能较高,且能够快速进行更新,可控性也有极大的提高[1]。
从网络流量中可以获取到非常丰富的各种类型元数据的信息量,而且在很多单位和企业中,就算将所有的数据进行存储也不会付出超过自身无法承受的代价。通过Web访问的元数据可以直接检测不加密的HTTP请求和响应报文;通过FTP访问的元数据可以直接检测FTP请求和响应报文;通过域名请求和响应的元数据可以直接检测DNS协议的Response和Query信息;通过五元组和flow元数据可以直接进行应用层协议分析。当前大多数商业流量控制产品或在审计用户行为过程中产生的各种类型和格式的元数据都是由Socket或Syslog进行输出而成的,但考虑到实际的性能,很多时候都是在开源库和开源软件的基础上以满足10G流量处理的需要而提取的元数据。如今10G流量可以使用分布式部署方式实现大规模流量分析,及本地文件储存各类元数据的功能[2]。
3 大数据分析平台
由于大数据分析是对不同的目标和对象进行分析,因而需要使用的分析平台也就有针对性。使用Hadoop平台的HDFS文件系统存储从网络流量生成的大量元数据,通过HIVE进行对安全关联数据的挖掘,可以大幅度减少不必要的数据集。当前传统关系型数据库包括MySQL、PostgreSQL等,能存储不同类型的安全事件和相关联的信息。传统关系型数据库具有高实时性查询功能,能满足常规数据的实时查询,Hadoop具有低实时性的查询功能,可以用于查询海量数据,两者有各自的优势,也有一定的缺点,只有进行互补提高自身的效率,以开通更优质的业务服务。此外,处理数据过程中,对Linux Shell命令组和Python脚本进行合理的运用,也可以促进系统运行效率的提高。
使用大数据分析实验平台Hadoop,主要因为其具有24台物理机节点,可以极大地满足安全分析的需求。其中存储计算节点有21个,管理节点有2个,作业提交节点有1个,所有的节点都有配置合适的CPU、内存、SSD硬盘、SATA硬盘,并利用以太网的万兆流量,将所有节点的网络进行连接,最后形成大容量的HDFS[3]。
Hadoop在部署软件过程中使用Cloudera Standard4.8.0版本进行的,且采用CDH4.6.0+IMPALA 1.3.2+SOLR 1.2.0作为系统的组件。MapReduce统计是当前查询中最常用的软件,其中应用程序包括SQL语句和HIVE。投入使用后,通过浏览器的GUI查询可以发现其使用效果还存在不稳定的因素,而且为实现自动化的目标,最后还是在命令行界面进行实际的查询。现阶段Hadoop平台无论是响应应用需求时间还是全部硬件性能都还可以接受,因而索引还没有通过分区列和压缩进行优化。当然,目前对Hadoop平台性能的优化研究并没有停止,直至查询效率实现最优化为止。
4 基于挖掘和关联的大数据分析
前期进行的统计分析是为后续安全分析提供数据,而前期的数据属于混杂的大数据,不利于后期的分析,因此在前期时需要将大数据转换成小数据。在这个过程中,首要目标是先要在IP的基础上建立和形成一系列黑白名单。白名单制能够自动对前期的网络流量进行调整,为确保安全分析的效率,它可以提前处理掉许多无用的数据,以便后期的处理分析和存储。黑名单制能够根据数据所处的区域,进行锁定操作,从而对数据的发展和变化趋势进行跟踪,从而有效地提高安全监测效率。
部分安全漏洞对网络的损害极为严重,但其发生较为突然,而使用大数据分析后,可以对这种安全事件及时反映,并迅速对安全等级进行测定。多种WebShell和通过网站传播的木马在攻击网络时都可以从元数据中提取出明显的特征,利用各种挖掘算法并关联分析,就能了解投放的人、时间、地点等。网络攻击者在制造网络安全事件后,都会在入侵完主机后消除各种痕迹,但这些痕迹却早已经被基于网络流量的元数据记录下来。不管是哪种攻击方式,只要入侵过主机,都会有痕迹存在,而元数据则可以将这些痕迹进行还原,了解攻击方式、地点及时间,从而第一时间追踪到攻击者的IP地址。当然并非所有的攻击都能够进行实时阻断,其中必然会有一些忽略,但事后会自动开启安全应急响应措施进行补救,实用性还是比较高的,而这都是基于元数据的积累上,元数据太少,就可能无法发现攻击,安全事件就会频繁发生。随着网络安全监测被人熟知,攻击渠道可能已经不再局限于HTTP协议,还可以用过SSL加密或其它渠道发起高持续性威胁攻击。现阶段的高校还无法完全防御这种攻击方式,但提取应用层协议存储和IP流量中的元数据,可以直接分析攻击方式,就可以实现在攻击时第一时间发现,并根据痕迹及时进行跟踪,从而降低或避免损失[4]。
5 结语
网络安全问题一直是全球都关注的话题,随着信息技术的发展,网络攻击方式越来越多,而传统安全防御体系也存在防御乏力的现象。大数据技术是基于这种背景下研究出来的新型防御技术,它的主要价值在于分析和跟踪,通过分析大量的数据,还原安全事件的形成过程,并进行实时跟踪,对网络安全领域有着重要的意义。
参考文献
[1]姜开达,李霄,孙强. 基于网络流量元数据的安全大数据分析[J]. 信息网络安全,2014,05:37-40.
[2]付钰,李洪成,吴晓平,王甲生. 基于大数据分析的APT攻击检测研究综述[J]. 通信学报,2015,11:1-14.
[3]蔡宗慧,郝帅. 基于信息保障技术框架网络安全技术整合及应用研究[J]. 电脑编程技巧与维护,2016,13:89-90.
[4]庄怀东,杜庆伟. 一种基于SDN的数据中心网络动态流量调度方法[J]. 计算机与现代化,2016,07:80-86.