大数据技术下安全审计系统的研究分析

2020-05-19 15:14陶然张苏炯
中国信息化 2020年4期
关键词:结构化传统系统

陶然 张苏炯

目前,传统技术的安全审计系统已经不能符合时代发展的要求。在经济水平不断提高的背景下,大数据技术得到了应用,可以为安全审计系统的改造和开发提供技术保障。与传统安全审计系统进行比较,应用大数据技术的安全审计系统可以提高应对结构化数据和非结构化数据的能力,同时可以在大量数据中挖掘对用户具有价值的信息数据,从而保证审计信息的有效性。

一、传统安全审计技术存在的问题

随着新时代的到来,信息化程度不断提高,信息系统得到了迅速发展,信息系统安全审计内容和对象越来越复杂,一定程度上增加了审计信息的工作量。在企业中,对于大型信息系统而言,管理节点个数动辄将超过几十万。在需要审计的重要节点中,一般会超过1000个。此外,它的节点类型存在不同,主要包括应用系统、网络设备、数据库、服务器和安全设备等。在每天的操作日志和访问中,已经超过了数亿条,甚至达到了几百亿条。在数据量到达TB数量级后,会对传统安全审计系统造成严重威胁。在进行审计工作的过程中,审计对象类型各种各样,日志格式也会存在不同。运用传统关系型数据库的过程中,储存这些大量的异构数据存在一定的难度。

二、大数据技术对安全审计系统的重要意义

在运用大数据技术构建安全审计系统的过程中,需要分析和采集大量的数据,保证大量异构数据处理的质量。在大数据技术不断成熟的背景下,可以为网络技术的发展提供技术保障。运用大数据技术构建安全审计系统的过程中,以下几点得到了优化:

安全审计系统处理数据的过程中,提升了存储、采集和分析能;

不仅提升了应对结构化数据的能力,还提高了处理非结构化数据的能力;

运用大数据技术可以建立相关的模型和算法,更加深入地分析历史信息数据,从大量数据中挖掘出对用户有价值的信息。

三、大数据技术下安全审计系统的设计

(一) 大数据量的审计数据采集与存储

在采集大量审计数据的过程中,审计系统的采集能力受到了很大威胁,导致出现系统响应慢和数据丢失的现象,甚至可能存在进程拥塞和停止响应的情况。大数据时代背景下,可以运用采集探针的部署方法,按照实际采集数据量的需求部署一个或者多个数据采集探针。探针得到数据后,需要运用TCP协议与分析平台进行连接,压缩并加密需要传输的信息数据,以提高采集数据的能力。对于数据冗余模块而言,这并不必需。但是,在日志数据中并没有充足的维度信息,或者需要提高增加维度的次数,需要设置定义数据冗余模块。通过运用冗余维度定义器,可以定义冗余的维度信息和来源,如内存、数据库和文件等,并且需要指定扩展方式,在数据日志中纳入信息数据。在存储数据的过程中,需要运用较快的内存NoSQL对原始数据进行冗余,并且采取一定的节点实施并行冗余;或者可以在Hadoop中完全执行批量Map,从而可以转化数据的格式。

(二)数据归一化和关联分析

在采集审计数据后,需要对这些大量的数据进行划分,然后根据标准要求对这些数据进行归一化,同时可以对这些数据进行预处理。与传统审计产品进行对比,它处理事件的流程一样,但是也存在不同,需要处理大量的數据。在对传统产品进行实时关联分析的过程中,通常使用内存数据库的方式,但是存在板内存资源或者SQL语句效率问题的情况下,会对规则引擎的处理能力造成影响,造成规则引擎出现检测不出异常的现象。在实时规则分析引擎中,以大数据集群的复杂事件处理流程作为引擎,保证并行运行多种规则的有效性,从而保证检测异常事件的实时性。实际中,需要运用Storm+Esper的方式。对于Storm而言,在统计计算大量数据方面得到了应用,可以提高反馈统计效果的速度。在Storm框架中,需要运用事件处理流程,保证运算数据的准确性。在运用Storm的内存数据过程中,可以进行关联分析运算。在运用Esper的情况下,它的实时关联分析的引擎为复杂事件处理功能,可以提高系统关联分析的有效性。

(三) 历史数据统计分析

在安全审计系统中,对统计分析提出了一定的要求,需要在离线状态下对存储在集群中的海量数据进行统计分析。在面对大量数据的情况下,对于传统的审计产品,它的ETL工具并不能起到什么作用。究其原因,主要在于转化数据格式时需要的成本较大,能力方面不能满足大量数据的处理需求。在传统的审计产品中,关系型数据库不能满足大量数据的运算,并且已经超出了检索数据的范围。在大数据技术的审计系统中,主要包括离线统计和分析功能。在对存储大量数据进行分类总结和分析的过程中,运用分布式计算集群的方式可以满足常见分析的多种需求。在Hadoop上层中,对Hive+Hbase框架进行部署,其对于Hive和Hbase来说含有的特征不同。Hbase的特征为面向编程、低延迟、非结构化等,而Hive的特征为面向分析、高延迟、结构化等。在Hive数据仓库中,对于Hadoop属于高延迟,而Hive集成Hbase,目的为使用Hbase含有的特性,通过Hive提供的Hive SQL简化对Map/Reduce任务的编写,利用Hive与Hbase之间的互补提高事件分析结果运算的效率,然后通过核心模块将该命令转变为Map-Reduce,交给Hadoop集群后生产报表,方便报表中心进行查看,从而可以离线统计分析存储在HDFS上的数据。

(四)数据挖掘

挖掘数据的过程中也运用大量历史数据进行分析,但是与前面统计及分析过程存在不同。在运用大数据技术的情况下,挖掘数据不会存在预先设定的主题,主要是在现有数据的基础上运用各种算法进行计算,从而保证预测效果的有效性,满足分析高级数据的各种需求。同时,运用各种挖掘算法可以运算已经成型的审计分析模型。这些挖掘数据方式是传统审计产品中不存在的。通过挖掘数据技术的运用,可以发现存在的系统配置误配现象,还可以发现较为隐藏的违规访问和网络攻击。现阶段,已经有很多挖掘数据法得到了应用,现有技术中不存在难度,但是有效结合算法与信息安全行业模式还需要很长时间进行调试和训练。

(五)高效便捷的海量事件追溯

在安全审计系统中,追溯系统有着重要地位。实际运用时,在分析大量数据的基础上,对用户使用中存在的问题进行解决,通过追溯系统的运用,分析平台中含有的各种结果,然后定位事件源。因此,运用追溯系统可以保证处理大量事件的高效便捷。

四、结语

随着新时代的到来,信息化程度得到了迅速发展,信息系统的复杂程度也在不断提高,说明安全审计的内容会更加繁琐,增加了单位审计信息的工作量。在我国社会经济不断发展进步的背景下,各种数据不断涌现,形成了大数据技术系统,并得到了广泛应用。与传统信息系统进行比较,应用大数据技术的安全审计系统不仅可以提高计算的工作效率,还可以提高系统的存储能力。

作者单位:陶然 四川省公安厅科技信息化处

张苏炯 北京北信源软件股份有限公司

猜你喜欢
结构化传统系统
顾丽英:小学数学结构化教学的实践探索
借助问题情境,让结构化教学真实发生
一种无人机缓冲系统
深度学习的单元结构化教学实践与思考
品“助读系统”之妙
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
直扩系统中的窄带干扰抑制
直扩系统中的窄带干扰抑制
少年力斗传统
清明节的传统