耿文莉, 高梦瑜
(哈尔滨商业大学计算机与信息工程学院, 哈尔滨 150028)
随着现代技术的发展,云计算得到越来越广泛的应用,其中基础设施服务(infrastructure as a service,IAAS)是共享底层基础设施,它面临着一个大规模的分布式环境,其核心是提供大数据存储和网络服务[1]。大数据具有海量、多源、异构、动态的特征,而云计算是一种开放式的网络计算方法,需要计算的数据被放置在公共网络系统中,用户将计算任务和数据都委托给云服务商,虽然用户的计算与存储负担减轻,但是也存在着云平台数据传输风险,用户失去对自己的计算任务、数据失去控制等风险,因而信息安全变得尤为重要。云平台大数据系统存储结构复杂、具有开放性、分布式计算和高效精准服务的特征,这些特征是云计算得以实现的最基本保障,但是没有大数据安全,云计算数据就会严重泄露、破坏,其应用将受到极大限制。为了确保大数据安全保密性、完整性和可用性,要对云计算大数据面临的安全风险进行评估,评估方法与手段直接关系到风险防范的有效性。
针对云平台数据安全问题,学者们开展了较为详细的研究,主要有对数据安全评价体系的研究,并从数据存储、数据处理两个方面进行研究,提出了云平台数据的安全管理措施与方法。
针对大数据安全问题的评价体系研究,刘芳竹等[2]在“大数据云计算信息安全问题的分析及评价体系研究”中提出评价体系的建立问题,建立贝叶斯综合评估模型,通过贝叶斯网进行数据评估,建立数据安全综合评价体系。针对存储系统中的数据安全风险评估算法的研究。吴儒富等[3]基于计算机云计算的数据存储技术分析中提出了双谱分析方法来提取特征,实现局域网信息安全风险评估;丁美琳等[4]采用域间关联特征提取的方法对信息安全风险评估的置信区间进行优化,提高了检测概率,然而,该算法存在计算复杂、评价精度低、置信度低的问题;李鹏飞等[5]提出了云计算环境下关联性大数据实时流式可控聚类算法,通过Canopy算法对实时数据粗聚类得到的宏簇,再使用K-means算法完成细聚类。该方法能够实现对云平台大数据的分类管理,但是没有对传入数据风险进行评估。针对超线性收敛的变尺度方法,谢海宁等[6]对ARMA(autoregressive moving average model)评估模型进行了改进,并基于自相关系数和部分自相关系数的谱分析方法,对局部中心进行了真实信息安全风险评估,该方法评估效率高,但是存在应用于窄带信号的限制。针对数据处理安全的研究,王峰[7]在“云计算下移动弹性资源调试的最优方案”中指出,云计算下安全可控的移动弹性资源动态调度算法,把云计算下移动弹性资源的中央处理器(central processing unit,CPU)平均利用率、内存负载、带宽负载以及可靠性看作移动弹性资源调度目标的约束,依据遗传算法,研究移动弹性资源的状态模型,得到云计算下移动弹性资源调度的最优方案。
近年来,对云计算大数据安全风险研究,多针对具体行业的信息安全,或者是用户个人隐私数据的安全问题的研究,针对于云平台数据安全的研究也多是供应商对硬件安全产品的研究,理论研究内容较少。综上所述,对云平台数据侧重于数据存储和数据处理的研究,对数据传输的网络安全评价内容较少,评价方法也较多采用传统评价模型。而云平台大数据安全风险的增长是宽带定时的,它具有高斯宽带信号的特性[8],传统的评估方法很难实现信息安全风险的高斯宽带信号特征分析,信息安全风险评估性能较差,难以保证评估的准确性。因此,针对云平台数据在网络传输中风险不确定因素多的特点,提出了一种基于灰色神经网络模型的评价方法。
灰色神经网络预测法针对含有不确定因素的系统进行预测方法。它通过鉴别系统因素之间发展趋势的相异程度,即进行关联分析,可以追溯风险源,并对原始数据进行处理寻找系统变动的规律,生成具有较强规律性的数据序列,建立相应模型预测事物未来发展趋势。它用等时间距离观测到的反应预测对象特征的一系列数量值构造灰色预测模型,预测未来某一时刻的特征量,对于不确定因素的复杂系统预测效果较好。
通过灰色神经网络对大数据安全风险进行分类,结合高斯密度谱估计方法提取信息特征[9],根据信息安全风险数据频谱的特征提取,进行相关补偿和自适应控制,将灰色神经网络用于自适应学习,提高信息安全风险评估能力,避免云传输过程中的数据安全问题。
首先,模型处理数据的采集。为了研究云数据安全风险评估算法,有必要构建云存储系统的一般信息安全风险评估模型[10]。采用基于自治的元组法将待分析和评估的安全风险信息划分为若干节点,以五个自治节点的元组法为例,分别可以是主机IP(Host IP)、分类数据目的端口(destination port of classified data,DPCD)、云存储系统源端口(source port of cloud storage system,SPCSS)、源IP地址(source IP address,SIPA)、传输协议(transport protocol,TP)[11]。形式化描述为基于自治计算系统(autonomy oriented computation,AOC)。其中AOC为主节点运算体,运算体内有5个元素的计算因子,分别对应着模型所需要的信息源。
在模型中,采用发布HTTP_Web(hyperText transfer protocol_web)服务的标准80端口和传输控制(transmission control protocol,TCP)协议,得到信息安全风险序列。评估模型如图1所示。
图1 网络信息安全风险评估模型Fig.1 Data evaluation model of network information security risk
依据从服务器到客户端的HTTP-Web应用流的低层节点模式具有的特征,可知其中IP数的不确定性系数为[12]
(1)
式(1)中:c为IP最大数;i为结点编号;j为IP数。
通过谱估计算法从待分类信息中得到网络流量子图,并根据基于自治的元组法将待分类信息的安全风险提取到不同的流中,因此信息安全风险评估的概率密度函数可表示为
P=αjG(U|uj,∑j)
(2)
式(2)中:αj为风险系数;U为局域中心网流量数据;uj为第j个局域中心;∑j为局域中心之和;G为风险函数;G(U|uj,∑j)为模型中第j个分量。
若风险信息采样点为M,则信息安全风险评估计算复杂度为ο(Mlog2M),信息安全风险采集节点的个数为N,并对所有信息安全风险评估节点编号,可表示为
(3)
式(3)中:J为IP数,在云存储系统中实现了信息安全风险评估和信息安全风险采集的通用模型,此通用模型为信息安全风险评估提供信号特征输入[13]。
利用灰色神经网络分解待分类的信息[14]。对信息安全风险的高斯宽带特征进行分析可得
(4)
式(4)中:r为不同时间点信息安全风险高斯宽带特征;s为流量预测的偏移程度;b为位置参数;α为网络信息安全风险的非线性特征系数;u为幅值;t为信息安全风险采集时间点;τ0为信息安全风险信息采集延迟;n(t)为干扰噪声。
将独立的零均值高斯白噪声作为信息安全,利用表示信息安全风险的宽带高斯密度函数的均值向量和协方差矩阵来评估干扰因子,利用灰色神经网络分解待分类信息的安全风险[15],得到灰色神经网络模型如图2所示。灰色神经网络模型中,neti为灰色神经网络输入层,net′i为隐藏层,net″为输出层,ui为输入层单元,u′i为隐藏层单元,u″为输出层单元,xi为输入层输出,x′i为隐藏层输出,x″i为输出层的输出,wij为连接输入层与隐藏层的权重,w′i为连接隐藏层与输出层的权重。
图2 灰色神经网络结构模型Fig.2 Structure model of grey neural network model
由于输入层存在相同的神经元,在网络信息安全风险评估中的调节神经元输入为
(5)
式(5)中:k为结点数;rs(k)为信息安全风险评估体系的给定值;ys(k)为系统受控量;s为信息安全子网序号和受控数量序号,s=1,2,…,n。
网络信息安全风险的输入神经元状态为
usi(k)=netsi(k)
(6)
式(6)中:i为信息的特征序列,i=1,2,3。
邻域链路信息安全风险评估的神经元输出为
(7)
结合自适应差分改进方法检测信息安全风险信息的相关性[16],通过计算信息安全风险的抽样区间分布,得到风险评估的自适应性。学习状态向量的集合为
(8)
式(8)中:wsij为s层连接i与j的结点的权重值。
标度元素的状态为
u′s1(k)=net′s1(k)
(9)
积分元素的状态为
u′s2(k)=u′s2(k-1)+net′s2(k)
(10)
式(10)中:u′s2(k)为s层当前结点;u′s2(k-1)为s层前结点;net′s2(k)为当前隐藏神经网络层。
微分元素的状态为
u′s3(k)=net′s3(k)-net′s3(k-1)
(11)
式(11)中:u′s3(k)为隐藏层第k个节点微分元素状态;net′s3(k)为隐藏层第k个节点元素状态;net′s3(k-1)为隐藏层第k-1个节点元素状态。
为估计网络信息安全风险序列的密度谱[17],得到隐层各神经元的输出为
(12)
假设
得到灰色神经网络的输出层为
(13)
式(13)中:net″h(k)为输出层结点;w′sjh为隐藏层与输出层间的权重;x′sj为s层j结点输出。
信息安全风险评估系统的输出神经元状态为
u″h(k)=net″h(k)
(14)
式(14)中:u″h(k)为输出层结点net″h输出层神经元。
信息安全风险评估的输出层神经元编码为
(15)
式(15)中:x″h(k)为输出层的输出结果;u″h(k)为输出层结点。
采用自适应学习方法对灰色神经网络进行训练,提高信息安全风险评估的收敛性。
利用高斯密度谱估计方法提取信息特征[18]X~Sα(σ,β,μ),0<α<2,其中,X为来自总体的样本,Sα为分布函数,σ为高斯密度特征旋转角度,β,μ为二维平面。)得到灰色神经网络系统的多变量目标群为
cx+b~Sα[|c|σ′,sgn(c),cμ′+b]
(16)
式(16)中:c为系数;σ′为方差;b为常数;μ′为期望,sgn为固定符号函数;Sα为样本分布函数。
神经网络学习的目标是使E最小,可表示
(17)
式(17)中:E为网络输出与期望输出间的误差;Ep为单层误差;l为结点数;p为控制变量序数;rp为第p个控制变量序数的预测值;yp为第p个控制变量的序数的真实值。
利用灰色神经网络进行自适应学习,得到信息安全风险评估过程中隐含层到输出层的权值为
(18)
式(18)中:w′sjh为s层j,h结点间权重值;n0为网络结点;n0+1为下一结点;η′sjh为学习速率;x′sj为隐藏层第k个节点输出状态;δ′hp(k)为隐藏层第k个节点残差值,其计算公式为
(19)
式(19)中:vh为输出层的输出权重。
信息安全风险评估的输入层对隐含层的权重为
(20)
(21)
输入层对隐藏层的权重变化为
(22)
式(22)中:v为输出层的输出结果;I″为隐藏层权值;m为结点数。
综上所述,通过灰色神经网络实现了信息安全风险评估,风险评估的实现过程如图3所示。
图3 改进的信息安全风险评估应用流程Fig.3 Improved implementation process of information security risk assessment
为了测试该方法在信息安全风险评估中的应用性能,进行了仿真实验,并基于MATLAB Simulink仿真软件设计实现了算法。首先信息采集服务器中信息采集节点30个,用于信息安全评估的节点200个,接入节点10个集群,每个集群有5个节点,中心频率为15 kHz,时间参数φ=0.5。根据上述仿真和参数设置,对信息安全评估方法进行分析,信息采集结果如图4所示。
图4 信息采集结果Fig.4 Information collection results
信息采集样本的信息安全评估相关补偿和自适应控制是根据信息安全风险信息频谱特征的提取结果进行的。使用灰色神经网络进行自适应学习,进行信息安全评估得到安全评价的收敛曲线如图5所示。可以看出,基于灰色神经网络的信息安全风险评估方法可以在较短的时间内收敛到零。说明灰色神经网络评价方法稳定性较好。
图5 信息安全评价的收敛曲线Fig.5 Convergence curve of information security evaluation
针对采集到的数据,利用灰色神经网络方法与K近邻算法(K-nearest neighbor,KNN)对信息安全进行评估,在样本相同的条件下,灰色神经网络所测得的风险高于KNN方法,因此,灰色神经网络方法在信息安全防护中的可靠性更高,应用性更好,两种方法的被测样本数与测得风险对应结果如图6所示。
图6 KNN与灰色神经网络方法评估结果Fig.6 Assessment result between KNN and grey neural network
两种方法评估结果的准确性对比如图7所示,结果表明,对相同数量的评估对象,灰色神经网络方法评估的准确性高于KNN方法。
图7 安全评估的准确性Fig.7 Accuracy of safety assessment
为了保障云平台大数据信息安全,防止泄漏,并促进云平台技术的应用和推广,有必要研究有效的信息安全风险评估算法,提出了一种基于灰色神经网络的云存储数据信息安全风险评估模型。根据自治元组划分法将待分析评估的信息安全风险数据进行分类,利用灰色神经网络对待分类信息安全风险评估模型进行分解,利用自适应差分改进方法检测信息安全风险数据之间的相关性。利用高斯密度谱估计方法提取信息特征。根据信息安全风险数据谱特征提取,实现相关补偿和自适应控制,利用灰色神经网络进行自适应学习,提高信息安全风险评估能力。本文方法具有较高的准确性、较强的适应能力和较好的信息安全保护能力。在实际应用中具有良好的应用价值,通过本文模型的应用可以进一步完善云平台大数据安全,只有通过安全云架构,每个用户才可以轻松安全地共享云中的大数据资源,实现高效可靠的云计算服务。