郭畅
(沈阳现代制造服务学校,辽宁 沈阳 110148)
当下,计算机网络信息普遍存在着黑客攻击与篡改、病毒或木马程序入侵与窃取等风险,从而给国家、企业或个人带来威胁与损失。强化计算机网络信息安全,对于民航、铁路、电力、气象等信息化产业而言,既是自身安全发展的需要,而且也关系着经济社会安全。因此,国家和企业均十分重视计算机网络信息防护。从防护方法运用看,多数运用贝叶斯分类算法(BC),但此种防护方法运用领域的广度远不及大数据聚类算法(CALD)。大数据聚类算法不仅应用领域广,而且其技术成果相对较为成熟,但在网络信息安全防护的研究与运用中,该方法也存在着对目标属性的非线性关系的揭示不够明晰,造成一些问题来源不够确定。这就需要准确应用大数据聚类算法的反向传播模型,精准计算网络中的各中复杂关系,从而提高网络信息安全分析的科学性。本文以民航空管部门值班记录数据为样本,对计算机网络数据进行仿真与测试,以期为防护计算机网络信息安全提供技术支持。
作为数据挖掘的一个主要概念,聚类意即根据某一标准,把数据集分割成不同的类或簇,使得同一类或同一簇的数据彼此足够相似、非同一类或非同一簇的数据非足够相,有助于分析者发现数据中隐藏的逻辑关系与形势。该算法包括单机与多机聚类算法,前者又分为传统聚类算法(基于分区、分层、密度、网络、模型的聚类算法)、抽样聚类算法(基于随机选择、层次方法、大型数据库聚类算法)和降维聚类算法,后者又分为并行聚类算法(划分数据并将其分布于不同机器上)以及基于Map Reduce 聚类算法如图1所示。这些算法既有优点,也有其缺点,如传统聚类算法虽然实现简单,但难以处理数量较大的数据;抽样聚类算法虽然时空开销较小,但聚类的精确性却容易受到抽样质量的影响;降维聚类算法虽然能够减少数据集、优化处理开销、高效且可扩展,但难以为高维数据集提供有效解决方案;并行聚类算法虽然高效,但算法却不容易实现;基于Map Reduce 聚类算法虽然具有很强的扩展性,但软、硬件资源消耗较多,难以为选择、提取等常用操作提供原语,且基于Map Reduce 的每个查询难以实现。
图1 大数据聚类算法分类
这需要在大数据聚类算法运用中强化其合理性,充分发挥其优点而规避其缺点。随着聚类技术的发展,大数据聚类算法已广泛运用于市场营销、金融、通信、农业、医疗、移动网络等领域,为这些领域的计算机网络信息安全防护提供了技术支撑与保障。比如,在金融领域,基于上市企业的盈利、偿债能力指标等进行聚类试验,可以获得股票板块分类,为投资者提供借鉴;在移动通信领域,根据原始数据处理,通过聚类算法挖掘用户的关注热点及其行为模式,从而为用户提供精确的位置服务等。
计算机网络信息存在的风险问题,主要包括网络安全风险,如网络系统存在漏洞与缺陷、病毒与黑客攻击、恶意代码或恶意设备植入系统等;计算机系统风险,如相关设备配置不尽合理、运行不尽稳定、功能不尽完善,加之系统设计不够科学、管理不够规范,容易计算机病毒入侵、传染和扩散,从而造成计算机主板损坏、数据丢失、工作效率下降;信息数据风险,如数据泄露、数据篡改、数据滥用、违规传输、非法访问、流量异常等。大数据聚类算法运用的基本思路,是通过构建评估模型,分析计算机网络系统弱点及其安全策略的抵御攻击能力,针对系统、漏洞、攻击行为及安全策略进行综合评估,分析和评估这些要素的相互作用及影响,从而形成对计算机网络信息安全防护的综合评估。
在基于大数据聚类算法的计算机网络信息安全防护中,对于网络权值的调节,该算法一般运用后向传播方式,其中算法模型结构具体包括3 层,即输入层、隐含层及输出层如图2所示,其中在隐含层中又可能存在多层结构。
图2 大数据聚类算法拓扑图
在该结构模型的运用中,输入网络中的向量,经过隐含层的处理后输入向量,再经过输出层处理后输出向量,然后获得期望输出向量。在此过程中,一方面应注意输入层同隐含层之间的权值矩阵,可将其表示为,其中列向量V表示的是第个信息相匹配的权向量;另一方面应注意输出层与隐含层之间的权值矩阵,可将其表示为,其中列向量W表示的是第个信息能够实现的匹配性权向量。
以民航空管部门值班记录数据为样本,对计算机网络数据进行仿真与测试。按照一定规则,笔者将安全防护策略的涉密信息安全分为五个等级如表1所示。基于大数据聚类算法,在一定条件下,对计算机网络信息防护策略进行模拟仿真,并运用相关数据对其进行测试。在大数据聚类算法设计与运用中,考虑防护策略体系包含广域网、局域网等多个子系统,且网络测试性能可能受到隐含层信息数量的影响,因此把12 个实际计算机网络设备作为分析对象,对参数进行设定。其中,最小训练误差goal、最大训练步数epochs、show 的取值分别为0.01、1 000、20,剩余参数则采取默认取值。其中,goal 值受到设备的正常率、完全好两个最小误差值的共同影响。
表1 安全及涉密信息安全等级一览
以12 组计算机网络的实际运行数据为测试对象和分析样本,实验测试结果如表2所示。
表2 样本测试结果
续表
在验证文中的网络性能方面,运用函数Trainlm 进行处理和验证,将目标值设定为0.01,通过3步训练,结果为0.001 201 54。这一结果在设计误差范围内,达到降低错误率的预期目的。从图3可以看出各种错误率相对应的实际效果。
图3 计算机网络错误率
在验证上述训练方法获得的网络性能,笔者运用Postreg 函数对各项数据进行非线性回归分析,由此获得效果最优的结果。基于拟合度=0.999,非线性回归分析结果如图4所示。
图4 非线性回归分析所得拟合曲线
在此基础上,运用仿真输出与目标两种向量,进行线性回归分析,并以相关系数作为线性回归分析的依据。在网络性能最优条件下,斜率与截距分别为1、0,其拟合度为1,这表明该方法较适用于计算机网络安全的非线性特征。
基于大数据聚类算法,探求计算机网络信息安全防护方法,并通过模拟仿真对此进行验证。结果表明,所提方法适用于计算机网络安全的非线性特征,能够准确反映计算机网络安全运行的状态,从而为防护计算机网络信息安全提供了有效的思路与保障。诚然,大数据聚类算法的运用,并不能完全解决计算机网络信息安全防护问题,应在此基础上,一方面,强化和完善计算机网络信息安全防御,如建立计算机网络信息安全检测系统、安全反应机制,定期对其安全性进行检查,以降低其安全问题发生的概率;另一方面,在内网与外网之间构建防火墙,提高其防火等级,为计算机网络运行提供有效保障。