韩明轩
(中国科学院大学工程科学学院,北京 100089)
如今由于科技的飞速进步,使得大型计算机网络越来越完善,可以让更多的人体会到网络和科技的发达。目前网络已成为我们生活和工作必不可少的一部分,虽然大型计算机网络给我们带来了很多的便捷,但是其安全方面却给我们带来了很大的隐患,特别是网络入侵现象经常发生。
数据挖掘技术主要是把关键的、隐藏的内容在有所干扰的随机数据集群里挖掘出来,此项技术属于一种交汇的技术,其所挖掘出的数据存在很大的辅助和抉择效果。因此,把此种技术用到大型计算机网络中的非正常数据挖掘当中,可以有效地管控原始数据,给用户带来很多优势。此项技术首先要对大型计算机网络中的初始数据展开处理,处理环节主要为数据洗涤以及格式转换。其中数据洗涤是为了消除初始数据里的噪音、重叠数据以及缺少的数据;格式转换是为了让洗涤以后的数据特征更为突出,以增强非正常数据挖掘的精准程度。
现如今,随着科学技术的不断发展,对大型计算机网络的数据挖掘技术的要求也越来越高,非正常数据挖掘系统要根据实际情况来设计,这样才能确保大型计算机网络的整体安全。此系统的构成主要为数据挖掘器、分析模块以及数据库。首先,数据挖掘器。它是安于其特定节点的,以随时监管网络运行中非正常的现象,同时对其展开处理。其次,分析模块。它是负责分析经过数据挖掘器处理后的数据的,更加深入的挖掘出非正常数据。最后,数据库。它是前两项提供处理以及方案的。
对于大型计算机网络非正常数据挖掘系统来说,数据挖掘器属于大型计算机网络初始数据的接收部位,来取得数据挖掘技术里的信息,在数据挖掘器运行之前,数据库会先依照大型计算机网络中的初始数据特性来设计挖掘计划,与此同时展开驱动,这里需要强调的是数据挖掘器是按照计划进行工作的,按照相应的计划对数据进行转化和处理,数据最终会保留下来。数据挖掘器具有许多优势,这里需要提到的是数据挖掘器的自我检查属性,这种属性可以最大程度的满足各类顾客的需求和要求,如果没有达到顾客的满意,数据会保存在缓存器中,等待新的数据出现,系统会立即立即驱动数据挖掘器,最终达到所需的要求。大型计算机网络中非正常挖掘系统的分析模块功能强大,这个模块会对数据处理器的最终结果进行探究。为加大系统的扩展属性,则需全面应用系统的计算节点,以降低节点的失效率,对此便研发出了二次激活的方法,来加大系统计算节点的寿命。二次激活的的主要原理是当系统计算节点出现问题和疲惫时,分析模块就会快速工作自动的释放补替节点,这样有利于疲惫的节点快速的恢复和调整。这里还需要强调的是分析模块包含许多的替补节点,当节点失效时会自动的寻找下一个适合的计算节点,把补替节点和属性类似的节点放在一起分析,是为了增强大型计算机网络中的非正常数据挖掘系统扩展程度,使结果更精确。
收敛性检测方法是非常重要的,在大型计算机网络中必须有具备极强收敛性的非正常数据挖掘技术方可确保其结果的精确。检测收敛性的强弱直接影响整体的数据挖掘,因此,必须对收敛性的好坏做出一定的评估,展开相应的实验。此次实验要借助某大型计算机网络实验室,其中配备的设备要求为3GB的内存、四核i7的处理器和500GB的硬盘,对主机输入方法,同时加进两种类型的大数据集群,此两种集群数据节点为4万与80万个。通过观察数据节点可知:当数据节点里的数据不发生波动时,这样的情况就代表已经收敛,这时主机就不会再向下传递数据,这种方法就是收敛性。要是大数据里的数据节点较多,则收敛时间会较短。在这2种大数据集群里,收敛的时间分别是1.2s、4.3s。经调查发生,其他方法的收敛时间主要为10.8s,这便体现出本次方法收敛性较好。
为检测数据挖掘系统对大型计算机网络中的非正常数据更新的情况,就必须对系统的可扩展属性展开检测。本文主要对比的系统有Hadoop数据挖掘系统、并行图算法数据挖掘系统。通过以上实验的基础,仅留存了大数据集群2,同时分别对横向与纵向的集群数据节点随机输入了3万个非正常数据。通过以上三种系统的使用,可以对大型计算机网络中的数据进行深度的挖掘,实验后发生这三个系统的纵向扩展性都小于横向。和另外两个系统比,本系统的非正常数据挖掘节点非常多,而且节点失效率小,由此证实了本此设计的数据挖掘系统有很好的扩展属性。
通过上述内容我们可知,我们能够清楚本次所设计的新型大型计算机网络中的非正常数据挖掘技术不仅有极强的收敛性,而且也具有较强的扩展属性,能够把大型计算机网络中的非正常数据精确、可靠的挖掘出来。