基于遗传算法的网络传输异常数据检测方法

2023-07-25 10:09:28杨春琴李国元贾文龙于兴忠

电子设计工程 2023年15期

魏丹，杨春琴，李国元，贾文龙，于兴忠

（1.中国石油化工股份有限公司西北油田分公司，新疆乌鲁木齐 830011；2.南京天技通信技术实业有限公司，江苏南京 210019）

遗传算法不具备直接处理问题空间参数的能力，因此，在求解过程中，需要转化待求解问题为既定遗传空间内的独立个体，而该转换操作常被称为数据信息编码。与其他执行算法不同，遗传算法具备完备性、健全性与非冗余性。完备性是问题空间可以将所有候选解完全包含在内[1]；健全性是每一个候选解能在原问题空间中找到与之相关的编码节点的关键；非冗余性是任何一个编码节点只能与一个候选解保持对应关系。为准确编码问题空间内的信息节点，在执行遗传算法时，建立完整的适应度函数，一方面判断编码个体与候选解之间的数值对应关系，另一方面按需评估求取目标函数[2]。

在互联网环境中，由初始节点指向目标节点的数据反馈行为可称为数据传输，而随着网络运行时间的延长，会出现一些表现行为明显异于标准数据的异常信息参量[3]。网络传输异常数据与标准数据之间存在一定的相对误差，该误差影响网络主机对于传输异常数据的精准检测能力，并且导致数据信息的传输完整性下降。

为避免上述情况的发生，基于改进生成式对抗网络的识别方法在分析异常数据与标准数据之间差异性的同时，分别统计两种不同信息参量的目标传输节点，并通过实时对比的方式，突出两者之间的相对误差水平[4]。但是该方法的实用能力有限，并不能完全满足精准检测网络传输异常数据的实际应用需求。

为解决上述问题，以遗传算法为基础，结合相关性检测阈值等，设计一种新型的网络传输异常数据检测方法。以期提高网络传输的性能，为网络的发展做出贡献。

1 遗传算法的网络传输异常数据处理

网络传输异常数据处理始终以遗传网络为基础，在遗传适应度函数条件的支持下，定义数据编码标签，具体操作流程如下。

1.1 遗传网络布局

遗传网络负责处理传输异常信息参量，并通过过渡节点将数据信息整合成满足网络应用需求的输出形式。为准确检测传输异常数据信息，在布置遗传网络时，选取过渡节点、输出节点[5-6]。完整的遗传网络布局形式如图1 所示。

为避免其他传输节点消耗网络传输异常数据，在部署遗传网络时，将过渡节点直接连接到输出节点。

1.2 遗传适应度函数

遗传适应度函数决定了遗传算法的应用进化方向，主要作用是评估网络环境中数据信息个体的优劣程度。在遗传网络中，适应度函数的选取影响网络主机检测和判别传输异常信息参量的能力[7-8]。

设计遗传适应度函数，计算遗传算法中网络传输各个个体的概率：

式中，fi表示网络传输数据个体i的适应度；N表示网络传输数据种群的规模；计算各个体的累计概率为：

选择操作后网络数据群体中的最差个体，交叉操作其与最优个体的副本，从而加速寻优的速度,保证了设计算法的收敛性。设Q1和Q2为准备交叉的两个网络传输数据个体，在Q1和Q2的第i位进行交叉，则两个体交叉运算后所产生的新个体的第i位分别为：

式中，λ表示[0,1]之间的随机数。

设J1、J2表示两个随机选取的网络传输异常数据定标值，且J1≠J2的不等式条件恒成立。a表示遗传适应系数的初始值，ΔS表示遗传应用网络在单位时间内承载的数据信息传输总量，β表示遗传算法的数据判别系数。联立上述物理量，可将遗传网络的适应度函数定义为：

在遗传网络中，以遗传适应度函数为基础判别条件，定义传输异常数据编码标签。

1.3 数据编码标签

对于网络传输异常数据而言，数据编码标签的定义需要同时具备信息编码特征、数据筛选系数两项物理条件[9-10]。信息编码特征常表示为f，该项物理量的实际取值越大，表示定义标签的延伸能力越强。数据筛选系数表示为χ，该项物理量的最小取值始终大于自然数“1”。在上述物理量的支持下，联立上述公式，定义遗传算法的传输异常数据编码标签为：

式中，δ表示网络传输异常数据的编码常值；dδ表示与δ相关的标签项目指标；d0表示标签项目指标的初始值表示待编码的网络异常数据传输均值。为实现对于网络传输异常数据的精准检测，在提取传输异常数据参量时，需要遵循编码标签定义原则。

2 异常数据检测方法

在遗传算法的支持下，按照异常簇点定义、数据传输密度确定、相关性检测阈值计算的处理流程，完成网络传输异常数据检测方法的设计与应用。

2.1 异常簇点

异常簇点定义了传输异常数据在遗传网络所处的存储位置。遗传网络异常簇点的分布密度水平越小，消耗的时间越长[11-12]。设l1、l2表示两个不相等的网络传输异常数据遗传特征向量，ϕ表示遗传网络的异常数据信息参量差值，表示网络传输异常数据的检测校正系数，g表示网络传输异常数据的实时排列系数。在上述物理量的支持下，联立公式（5），可定义遗传算法的异常簇点的表达式为：

规定在遗传网络中，异常簇点定义的表达式直接影响异常数据信息参量的实时传输密度水平。

2.2 数据传输密度

待执行检测指令与信息参量一一对应，因此，控制数据传输密度指标的数值水平在既定标准区间内[13-14]。设φ表示检测指令的初始执行频率，w表示网络异常数据的传输定义系数，uw表示w条件下的数据信息检测标量，umax表示数据信息检测标量最大值，η表示网络主机对于传输异常数据的感应系数。联立上述物理量，可定义网络异常数据的传输密度表达式为：

在遗传算法的作用下，数据传输密度指标的取值始终处于(0,1] 的物理区间。

2.3 相关性检测阈值

式中，R表示既定检测向量；表示遗传应用网络对于传输异常数据的干预向量；表示遗传应用网络对于传输异常数据的检测向量。在遗传应用网络中，相关性检测阈值将异常数据与标准数据间的相对误差控制在既定数值标准之内，以此保障网络主机检测传输异常数据的精准度。

3 实例分析

在Windows 10 系统中，利用Linux 虚拟机分流处理网络传输数据。首先，输入混合信息参量至网络应用主机；其次，分别分流处理异常传输数据、常规传输数据；然后，分别存储异常传输数据、常规传输数据于不同的数据库主机；最后，屏蔽常规传输信息存储数据库，将异常数据库主机中存储的传输信息参量作为该次实验的研究对象。

表1 记录了该次实验过程中采用主机元件的设备名称。

表1 实验用主机元件

为保证实验结果的公平性，除采用检测方法不同外，实验组（基于遗传算法的网络传输异常数据检测方法）、对照组（改进生成式对抗网络的识别方法）其他参数配置情况始终保持一致。具体实验流程如下：

步骤一：按需连接网络主机、CPU 设备、外存设备、内存设备等多个实验元件；

步骤二：提取存储于数据库主机的网络传输异常数据，作为实验待检信息参量；

步骤三：将遗传算法指令输入实验主机中，并定义实验数据为实验组变量；

步骤四：输入改进生成式对抗网络识别算法至实验主机，并定义实验数据为对照组变量。

异常数据校正误差指标的数值水平，能够反映网络主机检测异常性传输数据的能力。异常数据校正误差与标准数据校正误差之间的物理差值越小，表示网络主机对于异常性传输数据的检测准确性越强。

几个周末过去后，一个中午，阿花在车上甩给我一个红包，一千块。我明白她的意思，却装着不懂，问什么意思。阿花说有付出就有回报，你每次来作指导，这是你的劳动所得。我开厂也是赚钱的，不能让你白帮。我把红包放在车上，我说我只做你的朋友，收了钱，我就成你的员工了。她佯装生了气，说你不收钱，以后就别来帮我了。她的眸子里流露幽怨的光。

图2 反映了实验组、对照组异常数据校正误差指标的数值变化情况。

图2 异常数据校正误差

实验组：对于实验组异常数据信息参量而言，校正误差指标数值呈现出先增大，再减小，最后来回波动的变化情况。在数据传输量等于3.0 MB 时，实验组校正误差指标达到最大值1.87×10-3MB。整个实验过程，实验组异常数据校正误差与标准数据校正误差之间的物理数值差的最大值达到了0.25×10-3MB。

对照组：对于对照组异常数据信息参量而言，校正误差指标数值呈现先上升再下降，然后连续上升，最后呈现小幅下降的变化状态。在数据传输量等于7.0 MB 时，对照组校正误差指标达到其最大值2.42×10-3MB。整个实验过程中，对照组异常数据校正误差与标准数据校正误差之间的物理数值差的最大值为0.80×10-3MB，与实验组极值差相比，上升了0.55×10-3MB。

综合上述实验研究结果，可知该次实验结论如下：

1）标准数据校正误差指标呈现出明显波动的数值变化状态；

2）在基于改进生成式对抗网络的识别方法的作用下，异常数据校正误差指标数值的变化趋势并不能与标准数据校正误差指标数值的变化趋势保持一致，且前者的均值水平明显更高，不符合精准检测网络传输异常数据的实际应用需求；

3）在基于遗传算法的网络传输异常数据检测方法的作用下，异常数据校正误差指标数值的变化趋势大体上与标准数据校正误差指标数值的变化趋势保持一致，且二者均值水平相差较小，提高了网络主机对异常性传输数据的检测精度。

4 结束语

新型网络传输异常数据检测方法，在基于改进生成式对抗网络的识别方法的基础上，联合遗传算法理论，建立完整的适应度函数条件，通过数据编码标签结构，计算数据传输密度指标的具体数值。验证可知，该方法有效控制了异常数据校正误差指标的数值水平，并且对于网络主机而言，有效提高了异常性传输数据的精准检测能力。