一种基于大数据的网络安全主动防御系统研究与设计

2022-10-14 02:01黄为

网络安全技术与应用 2022年9期

◆黄为

（中国电信股份有限公司温州分公司浙江 325000）

1 引言

随着云计算、5G 通信、多媒体等技术的快速发展，人们已经进入到了“互联网+”时代，许多行业积极利用“互联网+”，构建了多种自动化行业应用系统，覆盖了金融证券、电子政务、在线学习、智能旅游和跨境电商等多个领域。互联网在为人们提供便捷化应用的同时也面临着海量的攻击威胁，比如宏病毒、格盘病毒、脚本病毒、CIH 病毒、震网病毒、Duqu 病毒、“火焰”病毒、Havex 病毒、Sandworm 病毒、格盘病毒、勒索病毒等，都为互联网带来了极大的危害。据统计，2020 年爆发的勒索病毒，给谷歌、微软、花旗银行等大型跨国企业带来了极大的危害，损失高达数十亿美元。2021 年5 月，美国石油管道网络遭受到了严重的病毒攻击，长达8850 公里的输油管道无法运营，支付了500 多万美元才恢复正常运营。

卡巴斯基、360 安全卫士、百度和华为等大型互联网科技公司都积极研发和部署网络安全防御系统，提出了深度包过滤、非对称加密技术、防火墙等安全防御技术，一定程度上提高互联网安全防御水平。但是，这些安全防御工作采用被动模式，病毒或木马爆发才启动防御工作，因此落后于网络安全攻击行为发生时间，为了提高安全防御水平，本文提出引入K-means 算法，利用该算法构建一个基于大数据的主动防御系统，实现防患于未然的目标，避免网络产生损失。

2 网络面临的安全威胁及防御技术现状分析

在新时期，网络数据规模呈现出成倍激增的态势，对网络安全造成威胁的因素也逐渐增多，而且变得更加复杂，如果不能对此类因素及时进行管控，那么就会对网络安全产生非常严重的威胁。虽然用户使用网络时会采取一些具有病毒防护作用的安全产品，但这些网络安全产品可以覆盖的范围较小，防护作用并不明显，无法实现对所有漏洞进行完全性修复。对于解决上述问题，网络安全数据可视化技术具有非常重要的作用，可以有效防止各种类型威胁网络安全的因素对用户造成困扰[1]。网络安全面临的安全威胁非常多，安全危害的级别也迅速上升，因此网络安全防御技术也提出了很多，比如深度包过滤、非对称加密、免疫网络等。

（1）深度包过滤

深度包过滤是一个非常重要的防御软件，其可以部署于互联网通信传输的网关接口，能够为用户提供一个开放的、深层次的数据包分析工具。深度包过滤技术可以针对每一个数据包进行快速分析，挖掘、识别和判定数据包中的威胁基因，可以有效地避免传统的包过滤技术无法穿透数据包的缺陷，结合各类型的互联网数据传输协议进行操作，比如TCP 协议、IP 协议等，实现不同层次的数据包分析，利用穿透式技术可以更加准确的判断网络威胁是否存在。另外，深度包过滤采用了固件化的开发模式，利用嵌入式软件提高数据处理速度，更好地适应海量数据分析过程，能够快速分析数据包的发送地址、目的地址，获取网络数据包的协议类型，完成互联网信息过滤，保证深度包过滤的准确度。

（2）非对称加密技术

数据保密技术很多，比如MD5 算法等，但是这些加密技术多属于被动加密，加密后容易被破解。非对称加密技术使用的加密算法和解密算法不一致，分别使用两个密钥进行加密和解密操作，已经成为互联网主动防御的关键技术。本文提出采用的非对称加密技术详细操作如下：首先，使用SHA256 哈希算法生成一个私钥，使用这个私钥针对数据进行加密，然后使用Base58 转换算法生成一个公钥，以便能够解密加密的数据信息，由于SHA256 哈希算法生成的私钥数量很高，高达2256 个，每一个私钥都是一串固定长度的字符串，因此可以很好的保护数据信息，可以更好地防御黑客攻击。

（3）免疫网络

免疫网络是一种互联网通信过程中能够自我识别和完善技术，其不仅仅是一个单独的产品，同时还集成了路由软硬件资源、内网安全协议、安全策略等，可以利用交换机或路由器进行构建，形成一个强大的互联网安全防御机制，实现全网设备联动防御，建立一个深度的、多层次的防御规则，利用授权认证的方法实现网络接入，进一步提高网络通信保障，进一步提高网络病毒接入的可信计算能力，阻止恶意代码攻击互联网，提高网络通信的自我免疫能力。免疫网络应用具有两个优势：一是具有非常严格的网络设备终端接入管控能力，从终端设备自身获取MAC 地址，避免非法终端复制终端设备的ID 信息，实现真实IP 地址、MAC 地址、免疫标记等三防合一，从而可以有效地保证设备的正常接入能力；二是构建一个基于终端设备的双向控制功能，不仅可以有效地防御外部攻击，同时还可以有效抵御内部攻击，避免网络内的终端设备不兼容产生的漏洞受到攻击，因此可以更好地保证互联网提升抵抗能力，提高病毒防御能力。

3 基于大数据的网络安全主动防御系统设计

基于大数据的网络安全主动防御系统采用先进的K-means 算法。K-means 算法经过多年的研究和实践，已经提出了很多先进版本，分别是遗传K-means 算法、模糊K-means 算法和互信息K-means 算法。K-means 算法运行开始初期，传统的划分方法是随机的，因此如果背景知识不多，将会影响K-means 算法准确度。一些学者引入遗传算法，利用遗传算法和启发式规则，初始化划分K 个簇，这样就可以尽可能保持簇划分的合理性，提高K-means 算法的运行准确度。遗传K-means 算法通过为用户提供一个更加合理的初始划分，一定程度上提高了异形数据集的划分有效性，从而可以更好适用于离散数据对象较多的情况。

模糊理论的包括内容非常多，可以划分为模糊数学、模糊决策、模糊逻辑和人工智能等，针对模糊理论中的不确定性进行更好的度量，并且这些数据中存在很紧密的联系。目前，K-means 算法为了提高数据划分为的准确度，引入了先进的模糊数学理论，这样就可以将K-means 算法从原来的硬聚类转变为软聚类，这样就可以大幅度提高数据对象的隶属度，根据隶属度设置的阈值，更好确定K-means 算法的执行结果。目前，模糊K-means 算法已经在医疗诊断系统得到实践和应用[2]。

K-means 的度量方法通常采用欧氏距离，但是这种计算方法非常的简单和单一，不利于算法运行的衡量程度。因此一些学者提出引入互信息方法改进K-means 算法的度量方法。互信息是指任意两个随机变量的互相包含程度，是计算机模式识别的一种非常重要的方法，可以充分利用两个对象之间的包含程度[3]。

本文为了提高网络病毒或木马识别的准确度，基于互信息、模糊数学和遗传算法改进K-means 算法，从而提高K-means 算法的准确度。从网络数据流中采集数据包，将这些数据包输入到改进的K-means 算法中，也既是作为K-means 算法的数据来源，改进的K-means 算法可以利用学习和训练完成的已有病毒基因片对进行比对，识别出数据流中潜在的有风险的数据，将这些数据发送给杀毒软件进行查杀。改进的K-means 算的学习和训练过程如下：

输入：样本集D，簇的数目k，最大迭代次数N；

输出：簇划分（k 个簇，使平方误差最小）；

算法步骤：

（1）基于遗传算法为每个聚类选择一个初始聚类中心；

（2）利用互信息度量方法，计算每一个数据对象和质心的互信息，将样本集按照最小互信息距离原则分配到最邻近聚类；

（3）使用每个聚类的样本均值更新聚类中心；

（4）重复步骤（2）、（3），直到聚类中心不再发生变化；

（5）输出最终的聚类中心和k 个簇划分；

具体的，基于改进的K-means 算法在网络安全主动防御系统中的应用算法流程如图1 所示。

图1 基于改进的K-means 算法在网络安全主动防御系统算法流程

因此，本文在基于大数据的网络安全主动防御系统中引入改进的K-means 算法，该算法能够提高网络病毒或木马识别的准确度，并且具有自动的演化和学习技术，从而改进网络安全主动防御水平。

4 实验及结果分析

（1）构建一个学习训练环境

本文首先采集数以万计的网络病毒、木马等特征基因，将其输入到数百万计的网络数据包中，并且基于这些数据包训练改进的K-means 算法，从而能够让K-means 算法识别网络病毒或木马的特征基因片段。

（2）构建一个模拟攻击环境

本文从中国科学院计算机信息安全研究所获取了病毒或木马基因特征，将这些病毒或木马的基因特征保存在数据库中，这些病毒包括宏病毒、格盘病毒、文件型病毒、Duqu 病毒、硬盘杀手病毒、脚本病毒、CIH 病毒、“火焰”病毒、Script 脚本病毒、Havex 病毒、JPEG病毒、网银木马、盗号木马、DIR2 病毒、勒索病毒、震网病毒、Sandworm 病毒、“方程式”组织病毒库、黑暗能量黑客工具、网络协议漏洞，病毒基因特征包括1000 种，都对其进行分类标记，从而可以查看本文主动防御体系的检测能力。本文将病毒基因特征部署于六台攻击服务器，分别是攻击服务器1-6，这些攻击服务器发送的数据包中根据随机分布的规则携带病毒基因特征，这些数据攻击之后就可以检测出来相关数据包是否含有病毒基因特征。

（3）选择准确度计算标准

本文算法实验采用的评价标准为精确度，该评价方法能够分析准确划分病毒类别的程度，计算过程如公式（1）所示。

其中，t∈T，其可以描述相关的数据对象簇；c∈C，其可以描述相关的类别号或簇标号；A1(c,T)可以描述相关的已经正确分配到c中的病毒的数量；A2(c,T)可以描述相关的算法不正确的分配到c 中的病毒的数量。

（4）统计描述分析结果

为了能够测试本文提出的改进的K-means 算法准确度，本文在实验中同时引入了遗传算法和支持向量机算法，这两种算法一种基于无监督学习，一种基于有监督学习，因此可以更好地分类对比和分析。三种算法的执行结果如表1 所示。

表1 企业网络安全主动防御系统实验结果

实验结果显示，本文提出的改进的K-means 算法识别病毒或基因的准确度最高，平均准确度达到了98.3%，可以有效的提高互联网安全防御水平。同时，为了能够验证本文算法的处理时间，本文针对不同大小的数据发送包进行实验，发送的数据块大小为100M、300M、600M、1000M、2000M 等，随着发送数据的大小不同，数据处理时间也逐渐上升，最高达到了26ms/M，不影响网络用户的正常使用，相关的处理时间如图2 所示。

图2 基于大数据的网络安全主动防御系统数据处理时间实验结果

基于大数据的网络安全主动防御系统不仅可以引入改进的K-means 算法，还可以引入深度学习算法等更多的人工智能算法，这些算法以适用于不同的企业，可以准确的识别数据包中是否存在病毒或木马，并且这对这些攻击威胁进行统计分析，查看这些攻击威胁爆发后带来的损失，如果损失过大就可以启动应急处理措施，比如启动杀毒软件；如果损失非常低，甚至可以忽略不急，就可以正常放行，精准地感知网络安全态势，为数据安全防御提供决策支撑。人工智能还可以探知网络病毒攻击、威胁的常发时间或分布区域，从而针对这些时间段或分布区域进行重点的防御。

5 结束语

随着云计算、大数据和5G 通信技术的快速发展，促使人类社会迈入到“互联网+”时代，实现了“互联网+行业”等发展模式，大大的提高了人们工作、生活和学习的智能化、自动化和共享化。但是，“互联网+”不仅带来了优势和便利，也面临着许多的安全威胁，比如勒索病毒、盗号木马等，严重威胁互联网用户的信息安全和财产安全。传统的防火墙、包过滤系统、访问控制系统等网络安全防御技术，多采用被动型的防御模式，一旦爆发网络安全事故，即使防御成功也会面临着一定的损失，因此为了解决这个问题，本文提出利用改进的K-means 算法构建一个基于大数据的网络安全主动防御系统，该系统能够利用改进的K-means 算法，识别网络数据流中的木马或病毒，采取主动型的防御模式，提高互联网安全防御水平。