云计算环境下的高级持续威胁数据挖掘模型仿真

2014-05-02 02:30张志宏

石家庄学院学报 2014年6期

关键词：计算环境极值扰动

张志宏，兰静

（吕梁学院计算机科学与技术系，山西吕梁 033000）

云计算环境下的高级持续威胁数据挖掘模型仿真

张志宏，兰静

（吕梁学院计算机科学与技术系，山西吕梁 033000）

在云计算环境下，对高级持续威胁数据的准确挖掘可以提高云计算网络的安全防御能力.高级持续威胁数据具有极值扰动非线性特征，传统的线性处理方法难以实现对这类数据的准确挖掘.提出一种基于极值扰动非线性特征提取的云计算环境下的高级持续威胁数据挖掘仿真模型，对系统载荷运行情况进行评估，得到云计算下的动态任务调配，分析高级持续威胁数据的极值扰动非线性特性，计算高级持续威胁数据的稳态概率，得到极值扰动非线性特征，对非线性特征进行脉冲响应不变周期标记.实现了高级持续威胁数据极值扰动非线性特征的挖掘，构建数据挖掘模型.仿真实验表明，算法对持续威胁数据的正确检测概率在95%以上，数据挖掘性能优越，在云计算环境下的高级持续威胁数据的检测挖掘等领域应用价值较高，为网络安全系统构建等奠定基础.

云计算；高级持续威胁数据；数据挖掘；非线性特征；网络安全

0 引言

随着网络信息技术的发展和应用，云计算逐渐发展成现代网络信息运算和处理的主要形式，云计算是近些年兴起的一种计算概念，其基本思想是将网络上闲置的、分布在其他地方的资源利用起来，如计算机硬件资源、软件资源等，实现网络信息资源的集中智能调度和信息处理.在云计算网络环境中，“云”可以被看作是一个虚拟化的存储与计算资源池，在这个计算资源池中，通过一定的数据挖掘算法，实现数据挖掘和智能数据管理调度，同时借助网络平台，为用户提供的数据存储和网络计算服务.在云计算环境中，由于网络Web数据的复杂性和多变性，给网络攻击者带来了攻击漏洞，导致了大量的高级持续威胁数据的入侵，对这类高级持续威胁数据的准确挖掘是保证云计算环境安全的重要因素，相关的算法研究和模型设计成为广大专家研究的重点课题[1].

传统算法中，对云计算环境下的高级持续威胁数据的入侵检测和数据挖掘算法主要采用的是线性信号处理的方法，其中，文献[2]中，采用小波分解的方法，结合数据挖掘中盲解卷积算法，实现对高级持续威胁数据扰动自动分类，但算法没有实现对高级持续威胁数据特征的自适应解卷积，挖掘效果不好，无法有效在云计算环境下实现高级持续威胁数据的自适应重写.文献[3]中提出一种基于语义相似度的高级持续威胁数据的线性自相关特征提取方法，对满足松弛挖掘的Web异常数据进行自适应重写挖掘，但算法采用基于统计分析的方法挖掘高级持续威胁数据的奇异特征，算法受经验约束较强，对攻击威胁数据的特征挖掘效果不佳.文献[4]提出采用粒子滤波的盲解卷积技术，从海量Web数据中恢复出奇异特征信号，实现在云计算环境下的高级持续威胁数据的挖掘，但算法建立的粒子滤波器采用瞬时梯度下降法控制滤波加权系数，无法彻底消除云计算网络环境中的高级持续威胁数据盲解卷积效应，影响特征挖掘精度[5]，并且存在计算量大，收敛性不好的问题.

事实上，在云计算环境中，高级持续威胁数据具有极值扰动非线性特征，传统的线性处理方法难以实现对这类数据的准确挖掘.针对上述问题，笔者提出一种基于极值扰动非线性特征提取的云计算环境下的高级持续威胁数据挖掘仿真模型，实现对挖掘算法的改进，提高对威胁数据的检测和挖掘性能，仿真实验验证了算法的有效性.

1 云计算环境下的高级持续威胁数据信号模型构建与问题描述

1.1 云计算环境下的高级持续威胁数据信号模型

本文研究云计算环境下的高级持续威胁数据挖掘仿真模型，需要首先构建信号模型.云计算环境中，云平台多处理器根据网络信号调度模型对每个任务的实时运算情况，进行数据信息管理和调度[6]，采用进行云计算信息传输的信号为：

对系统载荷运行情况进行相应的评估，进行云计算下的动态任务调配，云平台网络中节点通过频繁收集新的网络拓扑信息，计算调度方案并传送给每个节点，并按下式更新抽样概率分布参数：

其中，ni（1≤i≤L）为加性噪声项，假设输入云计算模型中的线性特征数据为单频信号cos2πf0t.设计云网络，在云计算节点则第m个中继传输节点的接收数据可以表示为：

信号模型的左波束的输出为：

其中

上式中，θ表示持续威胁数据的相位偏移，f0表示特征频率，τm表示传输时延.得到在云计算环境下的高级持续威胁数据的状态空间固有模态函数为：

上式中，线性平稳柯西主频特征，为原始入侵信号，信号的特征时间尺度.由此得到了云计算环境下的高级持续威胁数据信号模型，表达为：

根据上述信号模型构建，计算2q阶矩阵Q*QH的行列式的绝对值，得到进行相位特征挖掘的机器学习的迭代步数为f（θ）=‖Q（θ）QH（θ）‖.对于任意原始信号x（t），进行信号特征的时频状态转移建模，得到高级持续威胁数据信号模型，为实现数据挖掘提供数据基础[7-10].

1.2 高级持续威胁数据的极值扰动非线性特性

根据上述构建的云计算环境下的高级持续威胁数据信号模型，分析信号模型特征可见，对于任意原始信号x（t），高级持续威胁数据信号的频谱特征包含两部分组成，其任意数据项x如果满足sup（x）＞min-Support，其中minSupport为支持度阈值，那么可以对信号模型通过经验模态分解和Hilbert谱分析，分别描述为：

其中，vs表示具体网络潜质入侵行为下各状态保持时间Xs与ωi的偏差，

在云计算环境下的网络系统在遭受高级持续威胁数据攻击下，网络入侵模型在数学演化过程中入侵初始时间λ设定为a（t），由此，把复杂的高级持续威胁数据信号分解成IMF单频信号组成，得到一个2M×2q阶矩阵，此时信号具有极值扰动非线性特征，表示为：

为了实现对高级持续威胁数据的挖掘，在机器学习过程中，信号其传递给候选数据的闭频繁项集Γi与Γj互质，其中1≤i≠j≤L，如果：N≤MΓ1Γ2LΓL，且M＞4τ，在云计算环境下的高级持续威胁数据的波达方向为θ1，θ2，…，θq，此时相位估计数据集S=｛n1｝，数据解向量（n1，ni）∈Si，综上分析可见，把复杂的高级持续威胁数据信号分解成IMF单频信号组成，实现对数据挖掘，高级持续威胁数据产生极值扰动非线性特性，这一特征示意图如图1所示.

图1 高级持续威胁数据产生极值扰动非线性特性

分析图1可见，在对云计算环境下的高级持续威胁数据挖掘中，这种高级持续威胁数据具有极值扰动非线性特征，传统的线性处理方法难以实现对这类数据的准确挖掘.提出一种基于极值扰动非线性特征提取的云计算环境下的高级持续威胁数据挖掘仿真模型，并实现算法改进是很有必要的.

2 数据挖掘模型改进实现

在上述云计算环境下的高级持续威胁数据信号模型构建的基础上，提取极值扰动非线性特征，实现计算环境下的高级持续威胁数据挖掘仿真模型，算法实现的关键技术描述如下.

网络系统在遭受高级持续威胁数据入侵状态下，威胁数据被屏蔽的状态节点个数越多时，得到威胁数据的极值扰动性越强，信号幅度为A，对输入信号幅度调整系数为：

将ωk按照νk和ek的组成原则进行分解，则得到多项式相位信号特征分布为：

在云计算中，高级持续威胁数据的稳态概率可以有下式计算得到：

其中，f表示信号的瞬时频率，x*表示对原始信号取卷积，上式表示了网络潜质高级持续威胁数据的数学演化模型，在能量模型的时频平面上，进行分布特性状态模拟，通过上式构建网络潜质入侵数学演化模型，可以得到云计算系统中遭受高级持续威胁数据的检测系统的状态转移方程：

其中x（t）是信号平方可积函数，ψ（t）是基波函数.根据上述分析可知，云计算环境下的高级持续威胁数据信号是时变非平稳的，因此采用一个多项式来定义多项式相位情况下的瞬时频率，令q为多项式的阶数，满足的条件是：q≥p，通过高级持续威胁数据的数学演化变换可见，高级持续威胁数据信号两个参数a和τ有关，式中a>0被称为尺度因子，以此为基础可以构建高级持续威胁数据挖掘模型，采用粒子扰动方法进行极值扰动非线性特征的提取.使粒子群摆脱局部极值，增加了极值扰动算子，得到增强后的极值扰动算子为：

对高级持续威胁数据的极值扰动相位φ（t）进行均匀采样，τ为时间采样步长（相当于△t），bk是相位值差的权系数（b0=0），设计极值扰动的简化脉冲响应不变算法，得到信号的非平稳态瞬时频率估计值，采用非线性信号特征分析算法，对云计算下的高级持续威胁数据进行非线性特征分析和本征波特参数特征分解，表达为：

上式中，vk=vk-d+1表示在色噪声背景中的非线性信号特征，其中核函数取作多项式核时，得到极值扰动非线性特征，对非线性特征进行脉冲响应不变周期标记，得到数据挖掘的位置更新公式：

式中，t0和tg分别表示个体极值和全局极值进化停滞步数；T0和Tg分别表示个体极值和全局极值需要扰动的停滞步数阈值.通过上述算法改进，有效实现了高级持续威胁数据具有极值扰动非线性特征的挖掘，提高对持续攻击数据的检测性能.

3 仿真实验与性能分析

为了验证本文算法在进行云计算环境下的高级持续威胁数据挖掘的性能，基于Matlab平台，进行仿真实验.计算机仿真实验平台配置为：Intel Core i5处理器，主频2.8 GHz；4 G内存；Windows XP专业版32位SP2操作系统，MATLAB 2013a版本.实验的云平台设计是建立在20台PC机构件基于Hadoop HDFS的云平台计算环境中，构成JDK1.6，a1Gbps交换网，测试数据是来自互联网采用CWT200G数据结合方式，采用随机抽取的方法得到10万余Web数据，对这些数据中的高级持续威胁数据进行挖掘检测，首先进行信号模型构建，得到数据的原始信号波形如图2所示.

以上述信号模型为基础，进行信号检测和数据挖掘实验，得到输入的参考信号为两个LFM信号，把持续威胁数据信号分解为LFM信号和正弦调频信号，其中数据的样本数为10 000，判决门限，恒虚警概率，根据本文设计的基于极值扰动非线性特征提取的云计算环境下的高级持续威胁数据挖掘仿真模型，提取的极值扰动非线性特征如图3所示.图中，纵坐标表示归一化幅度，为提取的威胁数据的幅值.

图2 高级持续威胁数据的信号波形

图3 极值扰动非线性特征提取结果

图4 高级持续威胁数据挖掘性能对比

以提取的极值扰动非线性特征为测试样本，得到高级持续威胁数据的挖掘结果如图4所示，为对比性能采用文献[3]中的线性特征挖掘算法进行对比，分析图3和图4结果可见，采用传统方法，特征分布较散，无法有效挖掘准确的奇异特征，采用10 000次Monte-Carlo试验对持续威胁数据进行检测性能测分析，得到本文方法对持续威胁数据的正确检测概率在95%以上，比传统方法提高15.7%，展示了本文方法对高级持续威胁数据检测的优越性能.

4 结论

在云计算环境中，由于网络Web数据的复杂性和多变性，给网络攻击者带来的攻击漏洞，导致了大量的高级持续威胁数据的入侵，对这类高级持续威胁数据的准确挖掘是保证云计算环境安全的关键基础.针对高级持续威胁数据具有极值扰动非线性特征，笔者提出一种基于极值扰动非线性特征提取的云计算环境下的高级持续威胁数据挖掘仿真模型，通过研究得出，本文算法对持续威胁数据的正确检测概率在95%以上，比传统方法提高15.7%，挖掘性能优越，算法在云计算环境下的高级持续威胁数据的检测挖掘和网络安全系统构建等领域具有较好的应用价值.

[1]刘衍珩，付枫，朱建启，等.基于活跃熵的DoS攻击检测模型[J].吉林大学学报（工学版），2011，41（4）：1 059-1 063.

[2]江先亮，金光，杨建刚，等.面向自治域的DoS攻击流抑制模型[J].通信学报，2013，34（9）:132-141.

[3]王进，阳小龙，隆克平.基于大偏差统计模型的Http-FloodDDoS检测机制及性能分析[J].软件学报，2012，23（5）：1 272-1 280.

[4]张永铮，肖军，云晓春，等.DDoS攻击检测和控制[J].软件学报，2012，23（8）：2 258-2 072.

[5]夏秦，王志文，卢柯.入侵检测系统利用信息熵检测网络攻击的方法[J].西安交通大学学报，2013，47（2）:14-19.

[6]周华，周海军，马建锋.基于博弈论的入侵容忍系统安全性分析模型[J].电子与信息学报，2013，35（8）：1 933-1 939.

[7]BIMAL K M，GHOLAM M A.Differential Epidemic Model of Virus and Worms in Computer Network[J].International Journal of Network Security，2012，14（3）：149-155.

[8]ZHU Q Y，YANG X F，YANG L X，et al.Optimal Control of Computer Virus under a Delayed Model[J].Applied Mathematics and Computation，2012，218（23）：11 613-11 619.

[9]张辉.自体集网络入侵检测中的高效寻优算法仿真[J].计算机仿真，2013，30（8）：297-300.

[10]饶雨泰，杨凡.网络入侵搅动下的网络失稳控制方法研究[J].科技通报，2014，30（1）：185-188.

（责任编辑李健飞）

Mining Model Simulation of Advanced Persistent Threat Data in Cloud Computing Environment

ZHANG Zhi-hong，LAN Jing
（Department of Computer Science&Technology，Luliang College，Luliang，Shanxi 033000，China）

In the cloud computing environment，advanced persistent threat data accurate mining can improve security and defense capability of the cloud computing network.Advanced persistent threat data have nonlinear characteristics of disturbance linear extremum，and the traditional processing method is difficult to achieve accuracy for this class of data mining.An advanced persistent threat data mining simulation model is proposed based on extreme perturbation nonlinear feature extraction in cloud computing environment，and the system load operation is evaluated，so that the dynamic task allocation in cloud computing is obtained.Extreme value analysis of advanced persistent threat data characteristics of non linear disturbance is made，perturbed nonlinear characteristics are extracted，and the steady state probabilities of senior continued threat data are calculated，so that pulse response invariant cycle marker on the nonlinear characteristic is obtained，the advanced persistent threat data extreme value perturbation of the nonlinear characteristics is extracted，and the data mining model is constructed.Simulation results show that the algorithm for the continuing threat data has better correct detection probability of 95%above，and that data mining has superior performance.It has good application value in the cloud computing for advanced persistent threat data detection and mining，providing foundation for the network security system construction

cloud computing；advanced persistent threat data；data mining；nonlinear characteristic；network security

TP392

：A

：1673-1972（2014）06-0041-06

2014-07-26

张志宏（1981-），女，山西吕梁人，讲师，主要从事数据挖掘研究.