◆白 硕 徐 辉
大数据技术在网络安全分析中的应用
◆白 硕 徐 辉
(哈尔滨理工大学荣成学院 山东 264300)
在当今信息化时代,网络安全变得尤为重要,其不但关乎国民的信息安全,更是可能涉及到国家的安全。特别是最近几年,世界范围内网络安全事故频繁发生,给人们的生产生活带来了极大的困扰,国家也逐渐加强了对信息安全的重视程度,并将其作为了一项重要的国家战略进行落实。现在的网络规模正在不断地扩大,借助大数据来进行网络安全分析势在必行。本文就是以网络安全的数据收集、存储、检索和分析等为切入点,详细剖析了大数据是如何运用于网络安全之中的,文章最后通过大数据技术完成了对网络安全平台的一次搭建。
大数据;网络安全分析;攻击检测
在网络时代比较重要的一年就是2014年,这一年国家正式建立安全委员会,针对处理相关网络及信息安全问题,至此,网络安全问题已经演变成了一项重要的国家战略。但是,就现在面临的情况来看,国家的网络信息安全环境依旧比较恶劣,时常会出现安全攻击事件,木马入侵、流氓软件的植入、私密信息的窃取等恶性行为事件数量依旧居高不下。在该情况下,如果仅仅依靠防范措施,那是显得远远不够的,严谨的排查和提前预警已然是最新安全能力的核心。
以往的安全分析都是基于大数据的情况下进行的,这种形式在现在已有普遍的应用,最典型的就是入侵检测、安全审计等。但是现在互联网的宽带化趋势,以及应用多样化趋势,都使得各种安全数据逐年增加。如果还是依靠原来的分析方法显然不能够处理现在的问题。与此同时,很多新兴的安全隐患等也都对安全检测带来了新的挑战。大数据的具体特点基本可以概括为四点,其依次是:volume、variety、velocity、value。在此基础上的安全分析,一般都是具有很高的效率,而且成本也不高,同时还能够储存大容量,有鉴于此,即可以完成对大量信息的处理。在当下,怎么实现将大数据技术使用在信息安全领域已经变成了世界范围内研讨的重点。
网络构架经过多年的发展变得越来越繁杂,由此使得安全数据来源更加多样化,数量上也在不断增加,最简单的就是从数量级上来看,之前是在TB数量级现在已经过渡到了PB数量级,内容上也更加注重细节,维度也变得更加宽广起来;各种网络设施在功能上都在不断地优化,数据传输能力都在不断地加强,对各种信息的收集能力也在不断地强化;各种网络安全隐患依旧存在,而且问题还比较严重。除了上文提到的一些情况,还有一些有计划性的恶意攻击行为比较严重,这就使得在进行网络安全维护时,必须要考虑到信息多样性和复杂性。
网络安全信息的剖析主要是依靠载体进行的,而这种信息的载体通常就是日志和流量两大类,然后资产、漏洞、访问等将作为辅助信息作为参考。通过引入大数据技术可以为行业带来新的活力,该技术的原理就是,首先将日志与流量数据收集在一个地址上,然后使用有效的采集、储存、分析和检索技术,在时间和效果上提高分析效率。
在进行采集时一般都是借助工具实现的,通常使用的是Chukwa等工具,具体的方法就是使用分布采集,作用对象就是日志信息,速度基本可以达到每秒数百兆;借助数据镜像能够更好地实现目标。
在当前的网络时代,数据种类和应用形式都是纷繁多样的,如果想要实现多种数据储存,同时还要提高信息的搜索和处理速度,就应该进行分类处理,使用不同的方法存储不同的信息数据。
在进行安全数据的搜索时,一般运用的是基于MapReduce的检索框架,具体原理就是将查询语言的每个分析节点进行加工,然后借助分布式的并行计算方法进行处理,继而实现数据检索速度的提高。
在进行数据分析时,一般是基于Storm或者Spark等流式计算架构来进行的,其中还会使用到复杂事件处理技术,这也是问题处理的关键所在,再然后就是确定电联分析计算方案。需要注意的是以上都是对实时数据的处理,包括信息实时监控和异常捕捉等。其次,对于非实时数据的处理,一般利用的是Hadoop架构,在计算方法上使用的是HDFS分布式存储和MapReduce分布式计算。
由上文介绍不难看出,大数据技术的优点在于,可以使得存储和处理速度实现大幅度的提高,在更短的时间内找到多源异构数据,关联出系统内部更多的安全隐患、以及各种攻击性特征等。举例而言,在此我们将僵尸网络作为分析对象,其不但可以有效的整合流量与DNS的访问特性,还能够对数据源进行深层次的拓展和剖析,把所有分组数据整合起来,对溯源数据和莫管数据进行攻击。再举一个通俗例子,这时,我们找到了一个受到入侵,或者存在安全隐患的电脑主机,既能够关联出在大系统下,其他的端口是不是存在一样的问题,这样做的好处就是能够提前找到安全隐患,维修人员就能够尽早的防护或者是处理。
我们对网络安全平台从下到上进行介绍,它们依次是数据采集层、大数据存储层、数据挖掘分析层、数据呈现层。对于数据采集层而言,它的作用就是借助分布式方法收集使用者信息、发生的事件信息以及安全威胁等信息。大数据存储层关键就是体现在存储上,不仅能够实现海量存储,还能够保证存储的时间,而且还可以完成结构化、半结构化以及非结构化的数据统一存储,其中,均衡算法的引入将有效地将数据信息散布于文件系统上,这样做的好处在于,在进行下一次的数据检索时可以节省大量的时间。对于数据挖掘分析层,就是完成数据的分析关联、对外界情景的解析、以及对特征的寻觅,通过这种方式来找出安全事件,一旦系统中出现不正常网络行为,就能够快速地诊断出来,与此同时,还可以对数据信息进行检索和定位。最后一点的数据呈现层是对大数据结果进行可视化展现,用各种不同的途径来体现网络安全状态。
(1)数据采集技术。该平台的数据采集融合了三种不同的形式,他们分别是Flume、Kafka、Storm。Flume的作用就是实现大规模数据的收集、整合与传送,它不论是在可靠性上,还是在实用性上都是极为良好的,通过定制的数据,用户能够找到来自不同端口的数据,然后对数据进行简单的加工,再传输到数据定制方。
针对变化多样的流式数据展开加工,一般将Kafka作为一种缓存来使用的。Kafka中成分复杂,不仅有很多生产者,而且还有诸多代理与消费者,在全局层面上进行全方位的逻辑处理,使得其变成往来频繁的分布式发布订阅系统。针对其中的数据管理问题,Kafka使用了Zookeeper框架进行处理,由此达成负载的均衡与协调。
(2)数据存储技术。对于已经采集好的数据信息一般都是借助HDFS来存储的,HDFS分布式文件系统优点显著,由上文所述,其首先具有极为强大的吞吐功能,其次就是有很高的容错性,每个数据节点都能够存放数据文件,经过划分我们以64兆字节作为一个基础的存储单位。在一个时间段内是不能同时访问一定数量的文件的,如果非要执行这个操作,就极其容易损伤系统性能。故而,如果要实现高效率的数据处理,就需要用到HDFS数据块,对所有采集得到的数据进行统一的收集,然后进行有效的处理,将文件大小控制在64兆字节。
(3)数据分析技术。在该技术中,一般通过Hive实现数据的统计与分析。具体就是运用Hive对API展开包装,然后通过原先预制的插件进行数据的处理、分析与统计。当涉及到事件流的关联与分析时,就会运用到CPE,他所作的处理就是将系统数据仿制成各种事件,然后剖析各事件之间的相互关联,之后搭建各种事件关系序列库,用以实现对事件难易程度的转变,以此从海量的信息库中找出其中的网络安全隐患。
综上所述,通过在网络安全中运用大数据技术,能够更好地达成精准、快速、低成本的目的。在当前阶段,行业内部都在研究,怎么实现网络安全中大数据技术的高效运用。笔者通过大量网络漏洞与攻击实例为出发点,探讨了大数据技术在该领域的采集、存储、检索以及分析的应用手段,切实有效地优化了网络安全防御的精准度和高效率。
[1]王帅,汪来富,金华敏等.网络安全分析中的大数据技术应用[J].电信科学,2015.
[2]孙玉.浅谈网络安全分析中的大数据技术应用[J].网络安全技术与应用,2017.
[3]贾卫.网络安全分析中的大数据技术应用探讨[J].网络安全技术与应用,2016.