范曙宇
(大理农林职业技术学院 云南 大理 671003)
近年来,我国互联网技术持续快速发展,高职院校信息化建设步伐逐渐加快,良好的高职校园网给学生的学习、生活、娱乐带来了许多便利和全新体验。根据《中国互联网络状况统计报告》显示,截至2022年6月,我国网民规模为10.51亿,同时,报告表明我国网络用户的规模仍然保持着稳定增长态势[1]。伴随着5G的日益成熟和网络强国战略的实施,互联网在未来很长一段时间内仍然是计算机领域的发展热点。互联网发展带来的大量数据,为人们日常生活带来便利性的同时,也使得网络用户的安全性遭受到了前所未有的挑战,特别是以集合青少年群体、崇尚时尚先锋的校园网,成为网络安全的重灾区,频繁的攻击数量和不断改进的攻击模式,使得教学部门、学校行政部门,以及学生正常学习、生活均遭遇了极大的影响[2]。如:2021年香港中文大学因运用视频会议软件Zoom引起蠕虫病毒感染,使得一大批校园服务应用瘫痪。与普通企业局域网或社区网络特点相比,校园网主要是由基础设施、安防设备、网络设备和应用软件等共同组合而成,校园网的服务与校内、校外相互连通,每日会产生大量的交流信息数据,在各种新型技术发展的影响下,数量流量中潜藏的漏洞为入侵行为创造了机遇,加之,校园网本身表现出宽带规模大、资源共享度高等特点,一旦出现入侵事件,就非常容易导致全局受到影响,从而造成整个网络运作受损[3]。因此,在校园网安全架构中,构建起全新的数据流量收集和入侵检测系统,对促进网络良性发展和保护校园资源有着重要科学实践价值。
校园网数据流量收集与入侵检测的核心在于数据的捕获,通过IP包提取重点数据,从而实现对入侵行为的准备、快速识别[4]。NetFlow技术下,数据流量的捕获过程主要通过以下步骤来实现:
步骤1 基于NetFlow技术的函数包对校园网覆盖范围内的主机网卡进行确定,每确定一个网卡将其添加到本地管理表中。
步骤2 基于网卡本地管理表对刚添加进入列表的网卡进行查询,若未获得查询结果,表明添加不成功,可重新进行查找和添加。
步骤3 若成功查询到添加网卡,NetFlow技术随后将网卡链表进入步骤4;若打开不成功,则跳转至步骤2继续查找。
步骤4 将网卡中捕捉的网卡数据包成功打开之后,捕获的工具均能够配合网络包对数据包Libpcap中的pcap_dispatch函数实施捕获,成功捕获的数据包根据伪代码执行操作。即在成功完成数据包捕获操作,并获取相关数据包后,将数据包发送到回调函数,并继续后续运行。代码为pcap_dispatch(pcap_t *p,int cnt,pcap_handler callback,u_char *user)。
步骤5 在实施数据包捕获运作期间,将自动测试网卡是否正常运行,确保网卡能够支撑整个数据捕获过程。若测定结果显示网卡处于异常情况,则返回步骤1;对成功获取的数据包进行存储。
本文研究根据本次数据流量收集和检测需求,从保障数据存储需求、满足数据聚合功能、支撑NetFlow技术3项要点出发,最终采用MySQL数据库作为捕获数据的存储数据库[5]。在数据存储上提出2个可供选择的方案:方案一,建立MySQL数据库,提前形成相应的存储数据表,结合不同数据类型实现分类存储处理;方案二,运用能够进行动态自定义的数据库,其不仅能够满足个性化需求,同时也能够及时结合实际情况做出对应调整,但需要基于SQL语言来进行数据存储架构的编写。
因校园网涉及到教学、网络信息、日常沟通交流等海量数据,并且类型繁杂,为此最终确定采用方案二进行数据存储,同时也为数据库的后续拓展奠定了基础。
基于校园网每日庞大的数据量特性,在对数据实施分析处理过程中,还需要配合相关数据调取操作要求完成对各类数据的查询,因此必须提前设定数据表的信息查询索引,创建代码为
此段代码主要是结合本次数据收集处理来构建对应的信息列表。代码中d_Ip为所捕获数据信息中的目的地址;s_Ip为所捕获数据信息中的源地址;d_Port为所捕获数据信息中的目标端口,有这部分数据,就能够快速确定IP包的目标端与源端;s_Port为所捕获数据信息中潜藏的源端口;P_Ip为IP包中所确定的具体协议;st_Start为数据存储到数据表的具体时间;bytes为IP的大小;st_Updated为在数据库中数据最后的具体更新内容。以上设计是基于Navicat软件来实现数据库构建的。
为了能够进一步实现对数据分析能力的提升,进一步设计,具体代码为
此段代码中完善了数据库表选择、IP选取等相关数据,且能够根据需求完成数据信息的生成,为后续分析奠定基础。
实时动态的数据采集主要是指基于网络范围内能够实现对数据的即时获取,具体包括各个网络中监视器的相关信息、接入口的实时动态汇总信息、不同设备网络设备的流量出入信息,以及在发现有入侵行为时给出的警告信息。
基于NetFlow技术构建起的动态实时监视器健康汇总信息,也是系统管理人员所能够观测到的主要信息情况,若发现存在了连接不通的现象,也能够及时对其采取积极有效的处理措施。为了保证校园网覆盖范围内相关设备均能够有一个健康的信息采集结果,本文数据采集能够较为客观地反映出网络设备的对接情况,为管理人员提供及时有效的信息支持。
本文系统主要通过数据流量分析来实现对入侵行为的快速识别,因此异常数据流量的准确分析是系统运作的另一核心,系统不仅需要快速掌握异常网络流量信息,还必须对其做好分类处理,以便校园网管理人员能够根据异常数据信息给出针对性的处理策略。校园网涉及到各种不同类型的数据信息,为了更快地完成数据信息的识别,本文提出了基于k均值聚类算法(k-means clustering algorithm,k-means)下的优化算法思路。
k-means属于一种迭代求解的聚类分析计算方法,表现出原理简单,更加容易实施操作,收敛迅速等特点,是目前计算机数据处理领域非常重要且应用范围较广的算法之一。根据数据及数据指标表现出的相似性特点来做好相应的分簇处理[6]。
k-means具体的原理是基于数据指标相似系数、数据之间的距离,来实现对数据信息相似度的分析,随后按照聚类中心将数据根据相似度的高低来完成分簇处理,即将有着较高相似度的聚类中心数据划分在一个簇中。
根据本文设计的系统特点,基于k-means的距离计算要求,采用欧氏距离来完成对复杂度较高距离的计算,其计算公式为
式中:x主要用于对数据 x={x 1,x2,…xn}进行表示,y主要用于对数据 x={y 1,y2,…yn}进行表示。
在k-means运行中,需要配合误差平方和来实现对函数评估聚类质量的评估,其计算公式为
其中,式(2)结果主要为最小化误差平方,Ck主要用于对聚类中心进行表示,其计算公式为
在完成整个算法的收敛之后,最终即可得到分类结果。
但在实际操作中发现,初始k-means表现出一定的随机性,这可能使得数据的分析处理只能够得到部分最优解,很难满足全局的安全性要求。而在校园网遭受攻击时,其表现出不同的数据流量变化特点,为了能够提升数据分析的全面性,故对k-means进行了优化处理。通过优化处理后的k-means,主要是结合输入参数k来实现对数据之间相似度数据的分组处理,相似度相对较低的数据划分为一组,不同组之间的聚类算法中心均是通过组内所有数据均值来缩短组与组之间的距离。经过优化后的k-means具体运作步骤如下:
步骤1 对所需进行分组处理的簇梳理进行合理划分,在数据中合理选取数量相同的初始聚类中心。
步骤2 借助就近原则,每个不同的初始聚类中心均应当与其最近的数据划分成一个组别。
步骤3 每完成一个样本的分配之后,即可再次对现有聚类中心进行计算。
步骤4 对数据的收敛效果进行判断,判断有无最小数值或是否满足某个最小数值,并对其重新分配聚类,聚类中心在出现变化之后到某个最小范围之后,误差平方和的局部达到最低。若符合标准,即可进入步骤5;若不符合标准,则跳转至步骤3,进行重新处理。
步骤5 输出聚类结果。
本文设计基于KDD CUP99数据集对优化后的k-means进行数据预处理,该数据中包含了大约500万条信息,其中测试子集与训练子集各自有50万条,测试通过子集来实现仿真流量处理。
在KDD CUP99数据集中,配合信息熵法,优化后的k-means获得了7条属性信息,5个簇,将k设定为30、40、50、60、70、80,发现优化后的k-means检测率为89.95%、90.83%、92.34%、98.71%、97.65%、98.13%,而误报率分别为0.31%、0.35%、0.40%、0.42%、0.67%、0.65。无论是检测率,还是误报率均能够达到全局最优解,满足了本文系统设计的目标。
对校园网数据流量收集与入侵检测系统的运行情况进行检查,通过24 h不间断活动,对网络设备数据流量进出情况进行分析,发现系统能够实现正常运转,且能够稳定快速进行数据流量信息的捕获。对数据流量采集和显示结果进行观测,以男生三号宿舍楼流量情况为例,系统能够正常完成数据采集。男生三号宿舍楼网络流量,如图1所示。
图1 男生三号宿舍楼网络流量
为了及时掌握校园网范围内网络流量的变化情况,基于数据捕获与分析功能,即可全面掌握各个网络的具体信息变化,同时还能够根据实际情况设定具体的网络规范,从而快速完成对数据信息流量的处理。一旦出现异常流量信息,系统能够自动给出告警信息提示,并能够明确受到攻击的具体设备,以便管理人员做出快速对应,异常数据流量检测告警结果如图2所示。
图2 异常数据流量检测告警结果
本文结合校园网数据流量暴露风险,提出了通过数据流量收集分析来实现对入侵行为检测的应用系统。具体成果如下:1)基于NetFlow技术构建起了相应的校园网数据流量采集技术架构;2)基于优化后的k-means提出了异常数据信息的分析技术;3)通过数据流量收集与入侵检测系统能够快速实现对异常数据流量的告警,为保障校园网安全提供了客观依据。