借助大数据对网络安全事件自动分析与深度挖掘研究

2019-10-08 05:07党会博
无线互联科技 2019年14期
关键词:大数据技术网络安全

党会博

摘   要:当前网络安全问题日益严峻,将大数据技术应用在网络安全事件自动分析与深度挖掘中,可以提高网络安全事件的分析效率,文章主要分析了网络安全事件中的大数据自动分析技术、深度挖掘的相关流程及注意事项,期望提升大数据技术对网络安全与深度挖掘的支撑能力。

关键词:大数据技术;网络安全;深度挖掘

随着网络技术的发展,网络安全事件的发生日益频繁,已经从个人蔓延到了金融、通信等多个领域,如2019年发生的澳大利亚维多利亚州政府3万名雇员个人信息外泄事件、万豪酒店5亿客户数据泄漏事件、10多款IOS应用被发现与安全恶意软件有染、德国数百名政客私人信息泄漏事件、安全传输层(Transport Layer Security,TLS)1.2协议现漏洞,印度国有天然气公司泄露了数百万客户的敏感信息、俄罗斯50多家大型企业遭到未知攻击者勒索等,造成了严重的不良后果,因此,应该加强对网络安全事件的研究,降低网络安全事件的发生率。

当前的网络安全事件具有趋利性、隐蔽性和广泛性等,网络安全问题正在成为一个大数据分析的问题,因此,应该应用大数据技术加强对网络安全事件的分析和检索,以快速、实时洞悉网络安全事件的发生,及时做出响应和判断。

1    网络安全事件大数据自动分析技术

1.1  大数据处理技术

在对网络安全事件进行分析时,需要应用大数据处理技术,对网络安全数据进行批量计算和流式计算等,具体分析如下:(1)批量数据处理技术。批量数据处理技术的示意如图1所示,计算之前先对数据进行存储,之后进行存储数据的集中计算,由于吞吐计算量大,通常应用在网络安全事件中的技术包括高级持续性威胁(Advanced Persistent Threat,APT)检测、欺诈检测、网络安全日志分析、网络全流量分析等,处理过程中应用的典型的大数据处理架构为Hadoop,Apache Spark。(2)流式数据处理技术。该技术是一种实时、高效的数据处理方法,可以在内存中直接进行流式数据的实时计算,处理效率非常高,处理时间为数百毫秒到数秒。数据处理中应用的典型架构为Twitter的Storm,Storm适用于处理网络会话流还原或流汇聚;Apache Spark中的Spark Streaming,具有一定的延时,实现数据的分批处理。(3)交互式数据查询技术。在对网络安全事件进行分析时,主要强调以人作为安全分析的主體和需求主体,而大数据交互查询技术基于NoSQL类型的数据存储构建数据索引目录进行交互式查询,查询时间为数十秒到数分钟,处理灵活,为网络安全分析提供了技术支撑,在网络安全事件交互查询处理中,应用的典型系统为Google的Dremel系统、Apache Spark系统。

1.2  大数据安全分析技术

大数据安全分析技术主要包括安全可视分析技术、安全事件关联分析技术、用户行为分析技术。安全可视分析技术当前为网络安全研究的新兴领域,该技术将网络安全数据以图像的形式表现出来,借助人的视觉能力帮助分析人员及时发现和感知网络安全问题,分析过程中常用到大规模网络处理与大规模图形数据处理、多视图协同分析技术等,但是该技术当前还不太成熟,应用较多的架构为基于Web的视觉分析应用程序NVisAware和基于Spark的网络安全态势可视化工具NStreamAware。安全事件关联分析技术需要实现不同网络安全事件的关联,找出这些事件之间的联系,以便及时发现入侵者的行为。主要的安全事件关联分析方法为网络和主机关联分析、攻击步骤关联分析、安全设备报警关联分析、不同领域安全事件关联分析等[1]。用户行为分析技术是当前应用的IT安全行业防止黑客攻击的新技术,用户在应用网络时会留下审计跟踪记录、网络流量等,通过对这些用户信息的收集和处理,可以得到用户行为基准线,而应用用户行为分析技术可以更加准确地识别除了用户以外的其他威胁网络安全的实体,关注网络流量异常和偏离正常操作的行为,用来保护计算机不受到内部和外部等其他威胁,用户行为分析过程中应用的大数据技术为时序数据挖掘分析技术、聚类分析技术、关联规则分析技术等。

2    大数据对网络安全事件的深度挖掘流程

网络安全信息深度挖掘是对信息进行从属关系、学科性质及层次关系的组织,实现信息分类汇总的过程,数据对网络安全事件的深度挖掘流程包括数据采集存储、数据清洗处理、数据分析挖掘、数据交换共享等[2]。

2.1  数据采集存储

网络安全事件的数据采集分析主要采用集中式采集和分布式采集两种方法,数据采集是数据分析和处理的基础,存储时需要根据大数据平台的相关要求将数据转换成非结构化数据,数据存储时在满足存储要求的同时需要从成本角度选择适宜的存储架构,如采用基于“廉价PC服务器+大容量SATA硬盘”为主的分布式存储架构。

2.2  数据处理

网络安全数据采集之后,在进行大数据分析之前,还需要进行处理,包括网络安全数据导入、归纳整理等。数据导入主要有人工录入数据、网站上的静态数据链接、动态数据链接等,数据的归纳整理采用萃取、转置、加载(Extract-Transform-Load,ETL)工具,根据定义好的关联规则将目标数据抽提到数据库。

2.3  数据深度挖掘

网络安全事件的数据分析包括结构化和非结构化数据的处理,需要采用相关算法对数据深度挖掘分析,包括神经网络算法、聚类算法、Adam算法、基于内容的协同过滤算法等,本文主要分析深度神经网络算法和基于内容的协同过滤算法[3]。

2.3.1  深度神经网络算法

深度神经网络算法的具体流程如下:首先,将网络用户的行为特征映射为高维空间,以此作为神经网络的输入。其次,根据用户的点击行为记录作为训练样本对网络模型参数进行训练,提取用户信息,计算用户与用户正常行为的相关性,以此作为网络异常行为的评分依据。

具体如下:假设x,y分别代表输入向量和输出向量,神经网络中的隐含层用hi代表,i=1,2,...,N-1,Wi代表神经网络中第i层的权重矩阵,bi表示第i层的偏置。则有以下公式:

其中,f(x)表示激活函数,在本文中用tanh作为隐藏层和输出层的激活函数。其具体公式如下:

最后,计算用户U和用户正常行为数据集V的语义相关性大小R(U,V),计算公式如下:

其中,yU为经过分析提取后的用户信息,yV为经过分析之后的用户正常行为数据集的分布式向量,对二者进行相关性评分,并根据评分从大到小进行依次排列,发现异常行为反馈给网络安全事件分析者。

2.3.2  基于内容的协同过滤算法

基于内容的协同过滤算法可以根据用户行为库,确定与用户的行为差异较大的客户端,及时锁定异常行为,采用基于内容的协同过滤算法,必须为每位用户建立行为相似度矩阵。

3    网络安全事件自动分析与深度挖掘的注意事项

大数据技术在网络安全事件自动分析与深度挖掘中的应用,还需要注意相关的问题,如建立网络安全事件的数据资源体系、应用保密技术等,具体论述如下:(1)实时更新以大数据技术为核心的数据资源体系,为网络事件的安全分析提供数据基础,不断扩大网络安全事件数据分析的数据总量,完善数据分类,加强不同类型的网络安全数据的收集。(2)建立构建以人为本的用户关系管理,使得网络安全相关数据内在关联得以深度挖掘。利用大数据技术可以实时掌握用户的日常行为数据,并且挖掘这些数据的内在深度关联,实现用户的兴趣、习惯等分析,产生用户动态链接列表,便于及时发现异常行为。(3)在应用大数据进行网络事件分析时注重保护数据隐私安全,使用保护数据隐私的数据挖掘方法。(4)不断应用新的“智慧”技术,随着智慧服务理念的提出,大数据技术也应该与时俱进,与物联网技术等结合,实现网络安全信息的深度挖掘,将与网络安全相關的各种数据进行融合汇总,利用智慧服务理念实现隐性知识的显性化,构建网络安全事件分析智慧空间。

4    结语

随着大数据技术的发展,它的应用范围在不断扩大,应用效果也在不断提升,因此,将其应用在网络安全自动分析和深度挖掘中将会是一种趋势,以提高网络安全事件的分析效率、降低网络安全事件的发生率。同时,大数据技术的应用促进了网络安全管理的模式转变,可以综合、及时地感知网络安全信息,遏制网络攻击,提升大数据技术对网络安全与深度挖掘的支撑能力。

[参考文献]

[1]陈兴蜀,曾雪梅,王文贤,等.基于大数据的网络安全与情报分析[J].工程科学与技术,2017(3):1-12.

[2]张文元,张倩.大数据技术与档案数据挖掘[J].档案管理,2016(2):33-35.

[3]李玉平.大数据时代下的网络安全问题研究[J].中国新通信,2017(2):50.

猜你喜欢
大数据技术网络安全
网络安全知多少?
网络安全
网络安全人才培养应“实战化”
上网时如何注意网络安全?
大数据技术对新闻业务的影响研究
“4.29首都网络安全日”特别报道