姜宁
(延安大学 数学与计算机科学学院,陕西 延安 716000)
大数据具有4V 特性,其变化速度快,模式多,价值高。由于大数据存在4V 的特性,传统的分类方法和处理平台很难实现对海量数据的有效处理。近年来,并行技术、特征选取和分类等技术的不断发展,为大数据的处理开辟了新的思路。DCNN 在特征选择、泛化、近似等方面都有很好的应用,也是当今分类技术的一个重要领域。虽然基于DCNN 的深度学习技术已经在海量数据的分类中取得了巨大突破,但是如何有效减少网络训练时间和空间复杂性仍是一个亟待解决的问题。DCNN 中存在大量的冗余参数,在设计过程中会产生大量的时间和硬件开销。冗余参数优化是一种较为有效地降低冗余参数的方法,由于该方法能够很好地实现数据压缩,以此来保证数据的完整性,同时又能很好地抑制数据的过度拟合,引起人们的广泛关注。为此,文章提出一种基于大数据的深度卷积神经网络冗余参数优化算法。
针对大数据的特征提出一种基于大数据的深度卷积神经网络模型,该模型首先对分类器进行训练,通过判断其与对象数据之间的相似性来确定目标数据的位置。借助分类器对各种对象进行判别,无须经常在线更新,从而极大地降低了网络上反复更新、学习所带来的计算量增多的现象。基于大数据的深度卷积神经网络模型如图1所示。
图1 基于大数据的深度卷积神经网络模型
从图1可以看出,在深度卷积神经网络的非线性变换中,模型仅需两种数据,一种作为目标数据,一种作为查询数据。该模型的主要工作是对两组数据进行相似性的计算,并利用相似度对两组数据进行训练。基于大数据的深度卷积神经网络模型主要由三个层次组成,分别是输入层、隐藏层和输出层:
(1)输入层。输入层的功能是把最小的数据矢量合并为一个矢量(即输入的数值)。
(2)隐藏层。与普通神经网络相似,它的隐藏层输出是由权重矩阵、偏置项以及输入层向隐藏层输入的。
(3)输出层。输出层的卷积神经元数目与词典长度相等,而每一个神经元的数值则表示下一个单词的发生概率。
加权矩阵是一种基于深度卷积神经网络的新方法,它代表了输入层到输出层的直接边界加权矩阵。采用直接连线可以减少一半的迭代数,否则可以把权重矩阵设为0。在训练深度卷积神经网络时,采用正向传播和逆向传播两种方式对加权进行更新。不断重复更新过程,直至整个网络中出现最小的漏洞。通过不断的优化与更新,最终获得相应的矢量数据。
在大数据时代,数据数量以几何倍数增长。除了重要的数据之外,大量的数据都是未经处理的。同时,数据的分散性也使得数据的采集工作变得异常困难。数据冗余是数据库的一个重要特点,为了改善大量冗余数据占用网络存储空间而影响整体网络运行效率的问题,提出了基于大数据的深度卷积神经网络冗余参数优化方法。
在冗余数据数量较大特性的基础上,对数据进行了分类、提取、分析以及对访问过程的判定。根据大数据集的特殊集合对三类集(即术语集、边界集、残差集)进行大数据分割。其中术语集是对概念信息的描述,边界集是对实体运算和基础概念之间关系的描述,而残差集是对实体运算的描述。利用边界权法将剩余的残差集转化为带有边权的无向图,可以实时反映访问边界的访问数量。利用多层次分割法对海量数据进行分割,并将一组单词复制到相应的分割模块中。可以将海量数据划分为不同的数据集合,当权重过大时,可以对其进行分割。在加权过小的情况下,可以将数据划分为多个重复的集合,以此完成大数据的划分。
大数据间具有较高的相似度,数据结构中的基本单位包含大量的数据属性,这些数据属性具有极高的相似度,为数据的冗余差分压缩奠定了基础。在数据性质相近的情况下,相同的数据结构单元具有相同的基本单元,这种极为相似的数据很难通过合并而构成大数据集合。
假设大数据中存在种属性,计算种属性数据集合的冗余参数熵,公式为:
其中,表示种属性中某个数据出现频率最高的标志,表示数据个数。
在不同的数据集中,使用不同的模板构建一组相似的数据,并将其与其他数据进行比对,确保在不同的数据集中,各数据间的相似度达到某种程度。熵越小,数据集之间的相似度越高,由此完成冗余参数压缩。
为了优化冗余参数,利用深度卷积神经网络模型训练参数。在深度卷积神经网络中,有两种训练参数的方法:梯度下降和随机梯度下降。在具有大量数据的情况下,该方法存在训练迭代率较低,导致存储空间不足等问题。随机梯度下降方法能够迅速地进行训练,但由于资料的缺乏,容易造成过度拟合。为此,文章提出了一种批量随机梯度下降算法。
批量随机梯度下降算法是一种将两种算法相结合的新方法,它能有效地提高模型的学习效率,减小每次迭代方差的影响。在批量随机梯度下降算法中,学习速率和动量是两个参数,通过调整学习速率可以有效地避免过度拟合,通过设定动量可避免在最低处发生畸变。
为了在冗余参数优化后提高参数的可用效率,提出一种基于批量的随机梯度下降方法,用以训练该模型,使该模型的损失函数达到最大值。模型训练的目的就是要发现其与预期的差异,在输出结果与期望值不符的情况下,可以反求各层的输入与输出之差,并将其分配到各单位。为了减小分析的误差,采用批量随机梯度下降算法对各层次的参数进行精细调整。
根据平均排队长度,判断拥挤程度与拥挤概率之间的关系。阻塞程度可用以下公式来表示:
其中,l表示在时间内数据队列的缓冲长度,表示时间内数据包到达速率的平均值,表示物理缓存长度。
首先,按照(2)的定义,在队列排队状态下,所有到达的报文都将被抛弃,在此情况下,丢弃概率为1,而在队列排队状态为空的情况下,丢弃概率则为0。在不存在拥挤的情况下,若将最小值和最大值映射到平均排队长度,则会导致数据包丢失。在平均队列超过75%的情况下,网络中存在着拥挤现象。为了解决拥挤现象,使用队列缓冲区进行解决。对最小值和最大值进行了优化。
其次,网络中的数据包容量受到限制。平均分组的处理时间与节点的分组处理速率和业务分组的平均分组速率相等。
最后,在排队快速饱和时,业务节点的数据包处理速度趋于与节点的上行率相近,也就是说,在出现拥塞时,可以将节点的平均报文处理速度看作是节点的出现率。通过对每个回合的平均排队长度进行调节,降低了数据丢失概率的计算次数。
通过确定平均队列长度,能够完成冗余参数优化。
为了验证基于大数据的深度卷积神经网络冗余参数优化算法研究的合理性,进行实验验证分析。
实验硬件包括一个工作攻击节点、七个任务攻击节点,所有节点的CPU 均为AMD,内存为16 GB,通过1 Gbps 以太网连接攻击节点。在Opnet 仿真环境中模拟网络路由节点两端的宽带链路,人为制造网络拥塞现象。使用YB-CA266型号存储服务器存储相关数据,利用System x3650M3 型号备份服务器备份相关数据,通过Windows 7 处理机处理相关数据。
选取7 个数据集,总大小为10 GB,这7 个数据集分别为#1、#2、#3、#4、#5、#6、#7,这7 个数据集的大小分别是2 GB、1 GB、0.5 GB、1.5 GB、1 GB、2 GB、2 GB。
对比分析冗余参数优化、非优化两种情况下网络存储空间的大小,结果如表1所示。
表1 两种情况下参数所占网络存储空间大小
由表1可知,当数据集为#1 时,优化后的冗余参数比非优化的冗余参数所占网络存储空间小2 GB;当数据集为#2时,优化后的冗余参数比非优化的冗余参数所占网络存储空间小6 GB;当数据集为#3 时,优化后的冗余参数比非优化的冗余参数所占网络存储空间小4 GB;当数据集为#4 时,优化后的冗余参数比非优化的冗余参数所占网络存储空间小6 GB;当数据集为#5 时,优化后的冗余参数比非优化的冗余参数所占网络存储空间小14 GB;当数据集为#7 时,优化后的冗余参数比非优化的冗余参数所占网络存储空间小10 GB。由此可知,优化后的冗余参数所占网络存储空间较小。
为了进一步验证基于大数据的深度卷积神经网络冗余参数优化算法研究的有效性,对比分析冗余参数优化、非优化两种情况下参数的可用效率,对比结果如图2所示。
由图2可知,对于优化的冗余参数,参数可用效率最高可达92%,最低为80%;对于非优化的冗余参数,参数可用效率最高可达50%,最低为32%。由此可知,优化后的冗余参数具有较高的参数可用效率。
图2 两种情况下参数可用效率
为了弥补传统方法存在的不足,提出了基于大数据的深度卷积神经网络冗余参数优化算法。通过所构建的深度卷积神经网络模型进行参数训练,并对冗余参数进行优化。由实验结果可知,冗余参数优化后所占网络存储空间较小,参数可用效率较高。在后续的研究进程中,为了进一步优化网络存储空间,需要对冗余参数进行消减,使网络参数能够适应不同的环境需求,在保证网络拥塞控制效果的同时,降低算法计算的复杂程度。