赵志杰
(金乡县大数据中心 山东 济宁 272200)
在信息技术的不断发展中,互联网技术已经进入生产和生活,并且出现了大量的企事业、政府部门、个人等用户。随着用户数量的增加,用户存储在其设备上的数据和信息量也随之增加,并且该信息成为黑客和木马病毒窃取的目标。目前,数据挖掘技术已经取得了长足的发展,并且变得越来越适用。数据挖掘不仅会帮助各类用户进行分析和集成所需的信息资源,而且还会挖掘并警告一些危险数据,对网络的正常运行提供了数据支持。
在提高了信息数据传输的效率同时,也对信息数据获取的安全性提出了更高的要求。多年来,传统技术模型经常影响结构化数据库用于存储信息的使用[2]。此过程不仅成本高昂,而且还会导致少量数据丢失。通过使用大数据挖掘技术,可以降低丢失数据信息的风险,提高工作效率,保证了网络的正常运行。另外,大数据挖掘技术的深度发展可以有效地加强网络安全防御体系。因此,大数据挖掘技术的应用和研究在网络安全中起着非常重要的作用。
数据挖掘技术的原理应分为几个模块:①数据源模块:该模块的主要功能是将数据集成到网络中,并将集成的数据源发送到终端主机。此阶段不需要处理过多,仅需要简单的预处理,最重要的是了解某些数据的关联结构;②预处理模块:预处理模块的主要任务是对数据进行分类,统一规划数据格式并将其转换为主机可以识别的格式。数据分类主要基于源IP和数据的端口位置,使用预处理技术可减少数据冗余,提高数据识别能力;③数据挖掘模块:此模块可以通过此步骤,更精确地识别数据之间的潜在关系,并为以后的进一步决策准备数据分析基础;④规则数据库模块:规则数据库模块包括对以前病毒类型的存储和新病毒类型的更新,存储有关先前清除的病毒的特征并分析当前的挖掘结果。当出现新病毒时,它将被添加到存储库中;⑤决策模块:是整个系统此时的最后一个模块,决策模块是挖掘结果的最终决策。如果病毒与库中出现大面积吻合,则可以将其视为应直接防御,若匹配程度不高,但是挖掘结果表明风险很高时,做出进一步决策,如果确认,则将其收集在库中[3]。
防御系统的构建包括以下步骤:①关联原则:数据挖掘技术是关联原则的的基础,数据挖掘决策主要基于因果关系,时间序列以及简单数据之间的三种类型的关联关系;②聚类分析:在聚类分析中,必须首先将具有相同特征的数据分为几类,以便不同的组具有不同的特征。在挖掘中,可以挖掘组之间的关系以实现疏密识别,对于总体控制非常有用;③分类分析:统计方法主要用于分类分析。通过按类别输入预定义的分类个体,我们充分利用机器学习方法来创建模型并达到数据分析的目的;④异类分析:异类分析的本质是找到与其他数据无法分组的或有显著差异的数据。此类数据通常是数据挖掘中的一项突破口,可以在其中获得所需的结果[4]。
随着大数据时代的到来,分类算法和聚类算法等数据挖掘技术已成为一项重要技术,并已发展成为一种使用可视化和遗传算法等研究方法处理大量数据的强大方法。
传统网络入侵检测方法的缺点也使犯罪分子可以容易利用,异常入侵检测和误用入侵检测是网络入侵检测的两种方法:①误用入侵检测方法:可以检测到相关的历史记录,但是它无法检测到一些新的入侵行为和警告。该检测结果的实际影响很小,以至于在当前检测到网络入侵时逐渐淘汰了这一方法②异常入侵检测方法:这种检测方法比误用入侵检测方法先进得多,可用于有效执行入侵筛选的一些小型网站,它非常高效且方便。但是,如果入侵网络的方法比较聪明且伪装的好,或者如果识别出大型网站,则此方法似乎无能为力。随着网络的不断发展,该技术的适应性越来越差。迫切需要开发专注于数据挖掘的网络保护技术[5]。
数据挖掘是一项系统性任务,可以分为四个步骤:数据提取,预处理,挖掘和样本评估。首先分析原始数据;然后处理数据以使其适合挖掘;然后使用适当的算法提取对应的信息;最后,以标准化方式评估和显示生成的知识模式。大数据背景下的入侵检测技术是网络安全技术的重要研究课题之一。该技术是指在用户网络被黑客入侵之前及时检测并阻止入侵者,但不会造成严重破坏的技术。它在检测多种网络攻击和确保网络安全方面起着重要作用。在实际的应用过程中,必须重复数据挖掘任务的每个步骤并进行深入研究,这就需要数据挖掘技术的不断改进和创新。
总之,数据挖掘技术是当前用于网络安全重要技术,用户必须有效落实这种技术以防止黑客入侵和病毒,防止信息丢失。基于此,本文主要对该技术的主要原理、功能、研究现状进行了相关分析,希望在网络安全中的应用进行更深层次的的创新,从而保证网络环境的安全性。