马强
摘 要: 针对当前漏洞信息数据挖掘系统挖掘效率过低、不具备实时查询能力的问题,设计一种基于关联规则的漏洞信息数据挖掘系统。对系统的硬件进行重点设计,硬件分为数据处理层、数据挖掘层、数据存储层和数据查询层四个层次。数据存储层利用HBase数据库存储数据,数据挖掘层负责读、写和挖掘三项工作,显示层采用MVVM框架,以模块化的方式绑定数据,填写标签。根据硬件设计结果给出软件流程,软件分为数据量化、可量化的数据子集抽取和模糊聚类三步。为检测系统的实际应用效果,与传统数据挖掘系统进行对比實验,结果表明,设计的数据挖掘系统能够在短时间内挖掘出大量的漏洞信息数据,挖掘效率更高。
关键词: 关联规则; 漏洞信息; 数据挖掘; 挖掘系统; 数据漏洞; 信息关联
中图分类号: TN915.08?34; TP393 文献标识码: A 文章编号: 1004?373X(2020)05?0082?04
Design of vulnerability information data mining system based on association rules
MA Qiang
(Department of Computer Science, Changzhi University, Changzhi 046011, China)
Abstract: In view of the low efficiency and lack of real?time query ability in the current vulnerability information data mining system, a vulnerability information data mining system based on association rules is designed. The design is focused on the system hardware, which consists of data processing layer, data mining layer, data storage layer and data query layer. In the data storage layer, the HBase database is used to store data. The task of reading, writing and mining are performed in the data mining layer. The MVVM framework is adopted for the display layer, which binds data in a modular manner and fills in the label. The software flow, which consists of data quantization, quantifiable data subset extraction and fuzzy clustering, is given according to the hardware design. The system is compared with the traditional data mining system to test the application effect. The results show that the designed data mining system can mine a large number of vulnerability information data in a short time, and the mining efficiency is higher.
Keywords: association rule; vulnerability information; data mining; mining system; data vulnerability; information association
0 引 言
目前整个社会已经进入了“互联网+”时代,各类数据以指数型方式增长,如果能够在这些复杂的数据中找到有效的关联规则,就能够解决诸多数据方面的问题[1]。数据挖掘系统是基于上述理念研发的新型设备,该系统将统计学、数据库、机器学习等理论融合到一起,确定数据之间的关联规则[2]。关联规则挖掘在数据挖掘中有着独特的优势,进行关联数据规则挖掘能够分析出数据项目之间的频度关系,从而得到更加准确的数据挖掘结果[3]。
漏洞信息数据是数据类型之一,随着数据量的增加,漏洞之间存在的某些规则就会变得更加明显,利用数据挖掘系统能够更好地处理漏洞信息,确定漏洞信息的位置,预测漏洞产生的时间,并及时解决[4]。当前大部分漏洞信息数据挖掘系统是在单机上进行工作的,处理过程过于依赖单机,处理能力十分有限,一旦单机内存不足,处理效率就会迅速降低,在解决大规模漏洞信息数据挖掘这一方面存在很大的局限性[5]。
在这种情况下,本文基于关联规则设计了一种新的漏洞信息数据挖掘系统,重点研究了如何提高漏洞信息数据挖掘效率,以并行化改进的方式提高计算速度。最后在大数据和较小支持度的环境下,利用HBase数据库测试了设计的数据挖掘系统的工作效果[6]。本文研究的漏洞信息数据挖掘系统不仅能够寻找到旧漏洞,也能够发现旧漏洞和新漏洞之间的关联,在漏洞危害预防领域发挥着重要作用。
1 基于关联规则的漏洞信息数据挖掘系统硬件设计
本文设计的漏洞信息数据挖掘系统在Hadoop云平台上运行,得到的所有数据最终都会被迁移到HBase数据库中,漏洞信息数据挖掘结果展示方式为可视化展示,同时加入了实时查询功能[7]。
对系统的硬件结构进行分层设计,具体层次包括数据处理层、数据挖掘层、数据存储层和数据查询层,能够有效地处理数据库中的所有漏洞信息,提高数据库安全[8]。
系统硬件内部拥有大量工作节点,即使有少部分工作節点失效,也不会影响整个系统的正常运行。除此之外,本文还加入了扩展型设计,当处理的漏洞信息数据增加时,系统会自动增加工作节点,确保系统的工作容量。
硬件结构如图1所示。
1.1 数据存储层设计
HBase数据库的整体思路都是基于Hadoop演化而来的,是Hadoop的子项目之一。HBase的底层存储支撑结构为Hadoop,上层结构的编程框架使用的是MapReduce编程框架[9]。HBase数据库属于非关系型数据库,具有很强的分布能力和扩展能力,十分适合漏洞信息数据挖掘工作。
数据存储层内部结构如图2所示。
分析图2可知,本文设计的数据存储层可以存储大量的半结构化数据和非结构化数据,这对漏洞信息的存储有较大帮助[10]。
由于漏洞信息种类繁多,所以许多漏洞信息中的数字编号是不全的,传统挖掘系统只能记录信息量详细的漏洞数据,导致大量漏洞数据丢失。HBase数据库能够详细地记录这些不确定数据漏洞,通过多项分析补充漏洞信息[11]。
HBase数据库支持动态增加数据模式,数据更新或维护时,不需要再像传统漏洞信息数据挖掘系统一样停机运行,提高了运行效率。HBase数据库采用紧密记录方式存储漏洞信息数据,避免浪费存储空间[12]。
数据存储层中的存储单元不仅能够通过Row确定,也可以通过Column确定,根据时间顺序排列所有的漏洞信息数据,排序方式为倒序,处于最顶端的漏洞数据就是漏洞信息数据挖掘系统最后挖掘出来的数据[13]。
本文设计了3个HBase数据库,提供了超大存储量空间,数据库内部拥有多个类型节点,Master节点负责写,Slave节点负责读,这种明确的分工方式可以更好地部署数据,不需要额外操作。存储层将会得到由数据构建成的两个表格,一个是输入表格,另一个是输出表格,表格格式如图3所示。
为更好地输出表格信息,系统提供多个插入接口,与HBase数据库连接,每个插入接口还设定了导出接口,方便信息配置,配置的信息主要包括初始化对象、主机IP、节点IP以及各类端口号等。为了加快数据存储速度,本文还在存储层中加入了regions平衡数据负载,加大数据吞吐量。经过上述调整后,有效地缓解了数据存储层的工作压力。
1.2 数据挖掘层设计
应用关联规则设计了数据挖掘层,在Hadoop平台上以并行化的方式运行,能够同时挖掘大量的漏洞信息数据,支持MapReduce访问模式,入库端负责挖掘层的写操作,查询端负责挖掘层的读操作。
数据挖掘层会将一个大的漏洞信息数据挖掘任务分成多个子任务,分割数量要根据平衡数据数量来确定,数据挖掘层结构如图4所示。
图4中的数据读输入内部依靠的是Key?Value存储系统,通过该存储系统将所有的漏洞信息数据统一成TableMapper
数据写输入会将得到的所有结果记录到一个表格中,以记录时间命名。
挖掘操作利用C?apriori算法,将所有的漏洞信息集合成频繁项集,确定频繁项集中数据的关联规则,得到挖掘结果。
1.3 显示层设计
以图形的方式将漏洞信息数据挖掘系统挖掘到的结果在图形用户界面显示,本文设计的显示层具有查询和检索功能,每一次挖掘结果都会生成一份综合分析报告。显示层采用的框架为MVVM框架,以模块化的方式绑定数据,填写标签,前台和后台负责不同的工作。
显示层执行流程如图5所示。
分析上述流程图可知,为了使初始化扫描更加全面,所有的漏洞信息数据都要生成Scan格式,通过新建的Scan对象确定被检测的所有漏洞信息数据是否需要进一步检索。分析漏洞信息数据是否满足检索条件,如果满足检索条件,则会被存入到Valuefilter文件中;如果不满足检索条件,则会被存到Getscanner文件中。所有的漏洞信息数据可以利用HBase数据库查询,借助多类型表达式筛选,不符合筛选条件的数据,将不会展示给客户。显示层主要功能为显示漏洞信息之间的关联度。
显示界面如图6所示。
除了界面显示之外,还有切分表显示和BLOCK索引显示,确保实时全面地向用户显示漏洞信息,查询速度也可以提高至毫秒。
2 基于关联规则的漏洞信息数据挖掘系统软件设计
设置的漏洞信息数据挖掘系统软件环境如下:Ubuntu 12.04操作系统、JobTracker服务节点、Slave TaskTracker服务节点、HBase集群。节点的设置情况如表1所示。
根据上述节点表格和设计的漏洞信息数据挖掘系统硬件,给出软件流程图,如图7所示。
观察图7可知,本文设计的漏洞信息数据挖掘系统执行过程可以细分为如下三个步骤:
1) 数据量化。将得到的数据漏洞信息进行量化处理,分析漏洞信息的所属类型,并根据漏洞危害进行等级分类。
2) 将可量化的数据子集抽取出来。对数据的详细信息进行记录,形成一个固定的视图。
3) 模糊聚类。利用关联规则判断漏洞发展趋势,利用模糊聚类的方法将连续值转换成模糊量,从而确定数据挖掘系统的挖掘结果。
3 验证实验
3.1 实验目的
为了检测本文研究的基于关联规则的漏洞信息数据挖掘系统的实际应用效果,与传统挖掘系统进行对比,对实验结果进行分析。
3.2 实验参数设置
设置实验参数如表2所示。
3.3 实验结果与分析
根据上述参数进行实验,选用本文研究的漏洞信息数据挖掘系统和传统数据挖掘系统,同时对漏洞信息数据进行挖掘,记录在相同时间内两个系统挖掘的数据数量,根据挖掘结果对两种系统的性能进行具体分析。
得到的实验结果如图8所示。
观察图8可知,在相同时间内,本文系统挖掘的漏洞信息数据数量远远超过传统挖掘系统挖掘的漏洞信息数量。当挖掘时间为10 min时,传统挖掘系统和本文挖掘系统的挖掘能力差距较小,传统挖掘系统挖掘的漏洞信息数量为100个,本文挖掘系统挖掘的漏洞信息数量为150个;当挖掘时间为30 min时,传统挖掘系统和本文挖掘系统的挖掘能力差距较为明显,传统挖掘系统挖掘的漏洞信息数量为180个,本文挖掘系统挖掘的漏洞信息数量达到300个;当挖掘时间为60 min时,传统挖掘系统和本文挖掘系统的挖掘能力差距十分明显,传统挖掘系统挖掘的漏洞信息数量为300个,本文挖掘系统挖掘的漏洞信息数量达到600个。
由于传统挖掘系统使用的挖掘算法过于单一,所以在短时间内只能处理单个类型的漏洞信息数据,而本文设计的挖掘系统将多种算法融合到一起,所以在相同的处理时间内本文系统能够处理多种类型的漏洞信息数据,提高了处理速率。
综上所述,本文基于关联规则设计的漏洞信息数据挖掘系统具有很强的数据挖掘能力,能够在短时间内挖掘出大量数据,工作效率高,处理能力强,具有市场发展空间,在计算机安全管理中发挥着重要作用,值得大力推广与使用。
4 结 語
本文在前人研究的漏洞信息数据挖掘的基础上,利用关联规则设计了一种新的漏洞信息数据挖掘系统,重点设计了数据存储层和数据挖掘层,通过实验验证了系统的可行性。本文的研究数据挖掘系统对于网络信息整理、网络信息分析都有着重要意义,但是本文引用的算法在计算过程中存在一些弊端,未来需要进一步加强。
参考文献
[1] 张辉.基于关联规则的运动训练生化指标数据挖掘系统设计[J].现代电子技术,2018,41(7):183?186.
[2] 宋丽萍,韦建国.基于关联规则挖掘技术的学生数据分析系统的设计与实现[J].长沙大学学报,2017,31(2):58?61.
[3] 许学添,邹同浩.基于弱关联挖掘的网络取证数据采集系统设计与实现[J].计算机测量与控制,2017,25(1):123?126.
[4] 张奥多,张昕,李怡婷.基于关联规则的餐饮服务智能推荐系统[J].广西科技大学学报,2017,28(3):117?123.
[5] 刘丰年.基于数据挖掘技术的教学质量评价系统开发[J].安阳工学院学报,2017,16(6):76?80.
[6] 雷学锋.基于关联规则的矿井监控数据挖掘分析[J].煤炭技术,2017,36(11):289?291.
[7] 杨珍,耿秀丽.基于FCM与关联规则挖掘的产品服务系统规划分析[J].软件导刊,2017,16(11):137?140.
[8] 赵纪涛,王婷.教育大数据环境下基于关联规则的答卷分析模型研究[J].现代计算机,2017(10):44?47.
[9] 陈宏.基于关联规则挖掘算法的用电负荷能效研究[J].电子设计工程,2017,25(4):79?82.
[10] 张延旭,胡春潮,黄曙,等.基于Apriori算法的二次设备缺陷数据挖掘与分析方法[J].电力系统自动化,2017,41(19):147?151.
[11] 杨世海,李涛,陈铭明,等.基于数据挖掘的智能电网在线故障诊断与分析[J].电子设计工程,2017,25(1):136?139.
[12] 冯卓慧,冯前进.基于关联规则的再犯罪特征分析[J].浙江理工大学学报(社会科学版),2017,38(1):57?60.
[13] 林媛.非结构化网络中有价值信息数据挖掘研究[J].计算机仿真,2017,34(2):414?417.