◆刘资茂
网络安全分析中大数据技术应用的分析
◆刘资茂
(调峰调频发电公司 广东 510000)
当前时代被称为“网络时代”、“信息时代”,其突出特征是网络技术的广泛应用,但随之而来的网络安全问题也引起了广泛担忧。基于此,本文以当前网络安全分析的不足作为出发点,针对网络安全分析中大数据技术的应用进行探究,包括大数据技术在网络安全分析中的应用优势、应用步骤等,并结合实际情况给出相关具体内容。旨在通过分析明确当前状况、完善理论,从而为后续网络安全分析工作提供一定的参考。
网络安全分析;大数据技术;分析效率;分析范围
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据技术则是指大数据的收集、应用过程,在网络安全分析工作中,由于目标对象的广泛性、多变性,传统分析方法存在一定不足,大数据技术因此拥有了一定的应用空间,分析其具体应用对后续工作有一定的帮助。
网络安全分析往往针对全网和与网络相关的各个节点、各项工作的流程,因此分析资料必须是充足、完善的,当前部分网络安全分析工作或者只能针对某一个问题进行分析、或者存在分析过于笼统,缺乏实际意义的问题,分析的结果价值并不大。究其原因,可以发现资料不足是造成上述问题的主要因素,多变的网络安全情况和影响要素使得资料收集、整理、汇总都存在问题,导致网络安全分析工作难以有效开展。
分析效率方面,鉴于资料的缺乏,人员即便对收集所得所有资料都进行详细的研究,所获得的结果也依然是有限的,而当较多资料出现时,传统分析方法又面临着效率低下的问题。值得注意的是,网络安全分析缺少大量的实际工作经验,小规模分析可以针对个别问题进行,大规模分析则无从着手,这也进一步降低了工作的效率。比如面临10家网吧提供的网络资料,分类整理简单快速;而如果提供资料的是100家网吧,传统模式下的分析效率就会显著下降。
分析范围方面,在进行实际研究时,人员往往缺少资料作为分析对象,难以作到全面分析,如某地研究人员准备分析木马攻击导致电脑系统崩溃的概率,传统模式下的问卷调查或者网络调查,能够收集的资料数目十分有限,可能只能得到当地的少数资料,且资料的普遍性、代表性方面也难以保证,这种情况下,分析工作也难以有序开展。
(1)详实丰富的资料
大数据技术的突出优势是可以采集海量信息。本质上说,大数据工作的依托是互联网,其资料来源是庞大的互联网信息共享池,这种级别的信息来源远远超过了传统模式下的信息源,使得任何方面的分析都能够拥有足够丰富的资料。人员应用大数据时,只需在拥有权限、且网络处于有效连接的状态下搜索数据即可,能够快速方便的获取详实丰富的资料。
(2)较高的分析效率
大数据技术工作的主要技术支持是计算机,数据资料的规模越大,对计算机性能的要求越高。现代条件下,提供服务的通常是第三方,人员提供数据资料或者资料需求,第三方公司可以利用计算机群、云计算技术等完成快速的计算工作,以往需要几个月甚至几年时间完成的大规模计算,大数据时代下可以在几天甚至几小时内完成,分析的效率大大增加,这也是网络安全分析中大数据技术的主要应用优势。
(3)较广的分析范围
由于大数据技术的资料来源是整个网络,庞大的互联网共享池能够提供来自各个行业、领域、地区的数据资料,只要这些行业、领域、地区的网络连接节点的人员将数据信息上传至网络,其他节点的人员就能在权限允许的情况下,对共享资源池中的资料进行调取,这使得大数据技术下网络安全分析能够在更广的范围内进行。坐在北京办公室里的技术人员能够在几秒钟的时间获取来自南京甚至纽约的信息资料,因而较广的分析范围是网络安全分析中大数据技术的应用优势之一。
(1)数据收集
研究人员一般讲大数据分为结构化数据、半结构化数据和非结构化数据三类,其中非结构化数据越来越成为数据的主要部分。据IDC的调查报告显示,互联网中90%以上的数据属于非结构化数据,这些数据的特点是价值信息含量低,需要总结分析才能发挥价值,这部分数据是大数据的主要内容,其每年都按指数增长60%。在以云计算为代表的技术创新大幕的衬托下,这些原本看起来很难收集和使用的数据开始容易被利用起来了。实际进行网络安全分析时,首先要进行的是对这些数据的收集,假定分析目标为网络安全事件的发生率,人员可以在不同终端搜索结构化数据作为核心,再收集半结构化数据和非结构化数据,共同生产数据库。需要注意的是,数据收集工作往往需要持续较长时间,为保证其具有价值,应设定基本的搜索标准,避免无价值数据的流入。此外,也可以直接通过第三方大数据服务提供商直接获取核心数据[1]。
(2)参数确立
参数的确立是应用大数据进行网络安全分析的中心环节,在完成了数据收集后,需要通过参数确立完成数据的统计与分析工作。根据数据的结构化、半结构化、非结构化进行数据分析,然后建立分门别类的事件关系序列库,使各类数据由海量、低价值、无序、复杂变成少量、高价值、有序、简单的,然后在大量的信息数据中查找网络安全的隐患,进而针对安全隐患的情况拟定处理策略。
参数的确立需要根据收集情况具体进行,由于各地网络安全的问题类型不尽相同,发生率也存在区别,不能采用固定参数的方式进行数据分析和筛选。假定某地互联网覆盖率较高,每天存在大量的数据传输工作,那么威胁其网络安全的很可能是木马攻击以及信息传输信道的拥堵问题,在挑选参数时,就应首先考虑木马和传输信道[2]。将木马攻击+信道拥堵作为指标,挑选数据并分析其发生情况。同样,如果某低互联网覆盖率较低,数据传输较少,各类问题的发生率普遍不高,在挑选参数时,应综合考虑该地网络安全问题的总体情况,选择高频率出现的安全事件作为参数,筛选资料。
(3)模型分析
模型分析是大数据技术的一项衍生技术,就网络安全分析工作而言,其除了能够直观了解网络安全现状之外,还可以作为后续工作的支持,这种支持的主要方式就是在大数据基础上建立的分析模型,即网络安全分析架构[3]。
网络安全分析架构分为数据采集层、存储层和挖掘分析层三个部分。数据采集层主要指分布于网络上的各个节点以及计算机,其功能是对各类安全事件进行收集;存储层的功能是将采集层收集的各类信息进行粗加工和集中存储,粗加工是指按年月、地区等进行分类,使数据带有一定的规律性,便于调取;挖掘分析层能够将数据进行关联分析,提取数据的特征,通过这种方式可以实现安全事件的挖掘,并能够很快地发现网络异常的安全行为,其是模型的只要应用模块。人员将各类参数带入模型中后,可以了解安全级别、危险情况等信息,并根据模型分析的结果调整实际工作。
本文分析、探讨了网络安全分析的不足以及大数据技术在网络安全分析中的应用。网络安全是被广泛关注的问题,目前的网络安全分析存在一定不足,包括分析资料不足、分析效率低、分析范围较小等。应用大数据技术则能够解决上述问题,其具有较高的分析效率、较广的分析范围,且资料详实丰富。网络安全分析中大数据技术的应用步骤为数据收集、参数确立、模型分析三个步骤。后续工作中,应用相关理论有助于网络安全分析中大数据技术的进一步应用。
[1]陈平阳.浅析基于Spark技术的网络安全大数据分析平台[J].福建电脑,2017.
[2]吕铖钢.税收治理、竞争参与和国家利益——主权理念下对制税权的初步阐释[J/OL].江汉学术,2017.
[3]管磊.基于大数据的网络安全态势感知技术研究[A].中国计算机学会.第31次全国计算机安全学术交流会论文集[C].中国计算机学会,2016.