◆修 健
网络安全分析中的大数据技术应用分析
◆修 健
(河北海事局后勤管理中心 河北 066000)
在网络安全运行中应用大数据技术,能够集中管理分散的日志和流量数据,通过采集、储存、检索以及分析等技术来提高网络安全分析与处理的效率,缩短网络安全分析的时间。同时通过信息关联、阶段性组合以及场景关联的方式来分析、预测安全事件的关联性,找出安全漏洞,实现被动防御向主动防御的转变。本文主要分析了网络安全分析中的大数据技术应用,以供参考、完善。
网络安全;大数据技术;应用分析
在网络架构中,网络安全分析数据日渐复杂,来源以多样化呈现,内容十分丰富,但是由于网络安全漏洞日渐增加,如果不及时更新系统软件,增强防御能力,势必给网络安全环境带来不利影响。因此运用何种技术来增强防御能力,对系统安全漏洞、高持续性工具与数据泄露等问题进行预测,提高网络安全分析与处理效果,是当前急需解决的首要问题。
随着互联网技术迅猛的发展,与互联网技术有关的设备、系统为人们提供优质网络服务的同时,也增加了网络安全分析工作的难度,具体体现为:一方面,网络安全分析需要处理的数据量日渐增加,使得数据种类趋向于多元化,这就要求网络安全分析进行多维处理、采集、整合,并根据数据种类储存到相应数据库中,才能提高分析效果。另一方面,由于以往的网络安全分析系统的数据储存,均是储存在结构化数据库,这种储存方式的成本投入较高,为了有效控制成本的投入,需对储存的数据信息进行处理,减小数据储存的容量来储存,使得部分数据在储存的过程中被丢失,不能正常使用,难以满足数据储存的要求。而大数据技术的应用,有利于在确保储存效率的基础上,对有关的数据信息进行分析、处理,快速储存到相应的数据库中,确保数据储存的完整性与真实性。并且大数据技术的储存方式均以分布式数据库完成,与以往的结构化数据库储存方式相比,可节约成本的投入,且对于硬件要求较低,通过异构数据的储存与访问即可顺利完成储存,操作方便。此外,在网络安全分析中应用大数据技术,可从不同的角度来分析与处理数据信息,并加以整合,储存有效的数据资源,从而实现网络安全系统数据处理准确度的提升。可见,在网络安全分析中应用大数据技术,能够弥补以往网络安全系统技术的不足,让网络安全分析效率的提升变成可能[1]。
对于网络安全分析,离不开数据信息的储存。而有效引入大数据技术,可针对数据信息的种类,选择相应的储存方式来储存,从而提升数据信息储存与查询的速度。例如对于日志信息与流量历史数据等信息的储存,可通过大数据技术的GBase、HBase列式在短时间内响应、检索数据,根据安全实施标准化处理来计算网络组织构架,并以Hahoop分布式作为依据,在节点上计算对数据的设置进行分析,然后使用Hive脚本挖掘和分析网络安全,形成统计报告与分析警告,以列式方式储存于数据库中,最后以Storm、Spark的计算方法将需要分析的数据信息放置在各个计算节点当中,一旦数据信息通过各个计算节点时,系统会自动进行分析,从而完成数据信息的统计和安全警告,以流式方式将最终分析结果储存到数据库。
数据采集即集Flume、Kafka与Storm为一体对数据进行采集、整合,采集有效的数据资源,形成完整数据报告,并以分布式呈现,确保传输者接收不到同源头的数据,部分数据经过再次加工后将数据传递给接收方。但需要注意的是,对流式数据加工时,应以Kafka为数据采集与流式数据的缓存格式,让其成为分布式发布的订阅系统,为生产者、消费者以及代理商提供数据服务[2]。
在网络安全分析中应用大数据技术,在采集数据时,主要以MapReduce为检索依据,对在各个分析节点的数据查询请求进行处理时,通过分布式的并行计算方法对数据进行再次计算,以提高数据信息检索能力,快速找出网络异常的安全行为,追溯存在安全隐患的数据,然后对这些数据定位,等待网络安全分析处理,从而保证网络安全运行。
对于数据的分析即以Strom和Spark的流式计算架构为依据,通过复杂事件处理技术与定制的电联分析计算方法来对数据内存进行分析,以此来做到远距离监控、捕捉与安全信息等有关的异常行为。此外,对于非实时性的数据的分析,应该以Hadoop架构为基础,同时利用分析事态、数据聚合、离线统计风险、数据挖掘以及数据抽取技术,通过HDFS分布式储存与MapReduce分布式计算的方式,排查攻击源,为进一步网络安全分析工作奠定基础[3]。
在网络安全分析中应用大数据技术,能够提高储存和分数的速度,在规定的时间内采集分析多源异构数据,找出系统中的安全隐患与关联不同阶段的攻击行为[4]。例如在网络安全数据分析中应用大数据技术,结合流量同DNS的访问特征来分析僵尸网络,拓宽数据源查询的路径,实时采集全分组数据集合、莫管数据以及对溯源数据等信息,并进行深度关联分析外界情报,同时查找某个主机被攻击的痕迹以及安全漏洞,并做好防范准备,真正做到及早发现、及早处理。
基于大数据网络安全平台从上到下,主要分为4层:数据采集层、大数据储存层、数据挖掘分析层以及数据呈现层。其中数据采集层可实时采集在流、用户身份信息、事件以及威胁情报,为下一步网络安全分析工作的开展提供技术支撑。大数据储存层可通过分布式文件系统储存大量的信息,实现结构化、半结构化和非结构化的数据集中储存,并通过均衡算法在分布式文件系统上均衡分布数据,快速检索数据信息,从而提高数据检索的能力。数据挖掘分析层能集数据分析关联、特征提取以及分析情境为一体,通过相应技术与措施对异常网络行为进行查找,并溯其根源,了解网络运行状态,实现安全事件的挖掘,以快速搜索查询数据信息。而数据呈现层可提高大数据分析结构的可视化,通过不同角度将网络安全状态呈现出来。对于网络安全平台实现的技术支撑,考虑到需要储存海量的数据信息,需以HDFS分布式文件系统作为依据,以元数据管理节点文件系统为命名空间,以64兆字节数据库为基本储存单元,在数据各节点分布储存不同种类的数据文件。但是由于元数据节点的数量和数据文件的比例为反比关系,如果在短时间内访问数据文件的数量过多,极易影响到网络系统的性能,不能正常访问。因此为保证数据处理与分析的效率,需要使用HDFS数据块来储存数据,并进行加工处理,确保每个数据文件储存的大小控制在64兆字节内。此外,基于大数据技术的网络安全平台建设,在数据分析效率的提升方面,需通过Hive来分析和统计数据储存的状况,采用类似SQL中的Hive QL语言来检索非结构化的数据信息,并通过Hive来封装API,采用专用的插件进行开发以实现不同数据的处理、分析和统计,从而满足网络安全分析工作的需要[5]。
综上所述,随着互联网数据量日渐增加,给网络安全分析工作的开展带来了巨大压力。而大数据技术的有效运用,能够基于大数据技术构建的网络安全平台建设下,充分发挥大数据技术自身的采集、储存、分析、检索等作用,对多源数据和多阶段组合进行关联分析,从而提高系统快速检索、查找能力以及储存容量,为数据的追溯与检索提供技术支撑。
[1]孙玉.浅谈网络安全分析中的大数据技术应用[J].网络安全技术与应用,2017.
[2]梁智雄.大数据技术在网络安全中的应用与研究[J].数字传媒研究,2017.
[3]王帅,汪来富,金华敏等.网络安全分析中的大数据技术应用[J].电信科学,2015.
[4]曾秋梅.网络安全分析中的大数据技术实践探究[J].信息系统工程,2017.
[5]鲁宛生.浅谈网络安全分析中大数据技术的应用[J].数码世界,2017.