秦利娟,冯乃勤
(1. 郑州工业应用技术学院信息工程学院,河南 郑州451150;2. 河南师范大学,河南 新乡453007)
伴随互联网发展,人们可以通过数据提取技术来获取更多有价值的信息。数据提取是指从数据集中抽取数据对其进行分析,找出数据集中潜在的信息,以及完成抽取数据的其它过程。当前数据大多以文本形式存在,怎样对文本数据进行有效地利用与管理,从中获取有价值的数据信息,是现阶段研究的热点话题之一。
近几年,越来越多的科研人员投入到数据分析工作中。文献[1]分别通过相空间重构方法和非线性统计序列分析方法对数据的特征进行重构与重组,采用特征提取技术对特征向量高维稀疏数据的平均信息进行抽取,利用深度学习方法对数据寻优,实现高维稀疏数据的提取。该算法对数据的识别性较好,但在数据的分级推荐方面需要做进一步研究。文献[2]对多维度的粗糙数据进行降维处理,为了消除数据的未知性,对数据的动态进行调整,采用将数据转入精确几何空间集的方法。该算法数据提取的精度很高,但数据提取的延时较长。文献[3]为了解决数据结构的局限性,在保留原有数据训练参数的情况下,对向量空间进行扩展,并根据新数据调整参数,完成对新数据的学习,该算法具有较好的实用性,但存在明显的局限性。
由于数据本身具有稀疏和高维度等特点,采用传统的机器学习方法对数据进行提取,会造成高维稀疏数据中存在噪声,因此传统方法不能很好的解决数据提取问题[4]。本文针对稀疏数据,引入深度学习反向传播的方法对数据特征进行提取。该方法中通过深度学习算法对稀疏数据进行处理,并且通过Softmax实现对数据的分类,最后结合反向传播方法对数据结果进行微调。
为了实现对稀疏数据的提取,结合稀疏数据分布式结构,将稀疏数据体系分别建立在Web和分散式社会网络的基础上[5]。稀疏数据的模型图用二元有向图A=(B,C)表示,B表示数据模型图顶点集合,C表示稀疏数据在有限区间内所有边界的集合。稀疏数据的Sink节点和传输节点的相轨迹间距分别用欧式距离表示,在初始链路模型下可以得出稀疏数据的拓扑模型。如图1所示。
图1 稀疏数据拓扑模型
在稀疏数据的存储网络中,模型有向图向量加权系数用E={u,e1,e2,…,ek}表示,假设在稀疏数据覆盖区域内有M个网络节点的传输层数据分别为x(k-1),x(k-2),…,x(k-M),那么数据谐波分布节点的初始位置估计值用公式可表示为:
(1)
采用优先级划分方法,稀疏数据传输节点的模型可表示为
(2)
其中,α(t)表示虚拟节点的维数;ds_s表示稀疏数据Source与Sink间的距离。采用相空间重构结合非线性统计序列分析方法[6-7]对稀疏数据进行重构,重构的结构模型可表示为
(3)
其中,K表示稀疏数据特征空间维数;δ表示延时;n表示虚拟节点个数。通过对相空间的重构,有利于提高稀疏数据特征提取性能。
假设稀疏数据流的统计分布序列用{xorg_1,xorg_2,…,xorg_M}表示,x(m)表示为回归分析的特征向量,对n维重构相空间中的稀疏数据进行云映射处理,得出稀疏数据的分布重组结构式为
X(m)={x(m),x(m+δ),…,x(m+(n-1)δ)}
(4)
进一步建立数据的状态转移模型,稀疏数据特征的评价概念集合用公式可表示为
(5)
结合云稀疏散乱点处理方法,可以求出稀疏数据的第i个散乱点集为Ji=(ji1,ji2,…,jiK),采用数据的时隙分配模式,对稀疏数据的属性混合值进行迭代处理,公式可表示为
(6)
其中,xi(n)表示xi的范数。
当处理数量较多且相对复杂的声音及文本等数据信息时,早期的神经网络所具有的特征局限性就显得尤为明显。考虑到深层结构的模型具有自适应非线性等特征,非常适合对大规模数据的提取与建立,于是针对稀疏数据的提取问题,提出一种深度学习、Softmax和反向传播算法相结合的方法。该方法中,深度学习完成稀疏数据中每两个相邻神经网络层的配对工作,通过输入层训练两层间的权值参数,并构建出输出层。Softmax分类器完成稀疏数据的分类工作,反向传播算法完成稀疏数据的调整和收敛工作。
图2 Softmax分类器模型
在深度学习和Softmax算法中使用了无标签与部分数据有标签相结合的训练模型,分别通过无标签和有标签数据完成对深度学习和Softmax回归模型的训练。在模型中,输入的样本数据层为cin,深度学习对稀疏数据的降维结果输出lout,通过训练Softmax模型可以得出初始的权值,有利于提高稀疏数据的收敛速度。若仅仅考虑Softmax模型的训练,若为k分类问题,且函数的输出也是k维向量,函数参数为ϑpar,那么Softmax模型的输出形式可表示为
(7)
其中,ϑpar包含Softmax模型的权值ϑpar_q_ij和输出偏置ϑpar_p_j。Softmax模型通过训练可以提高稀疏数据分类的准确率,在训练中采用最小化代价函数对模型的参数进行修正,代价函数表示为
(8)
采用深度学习算法提取稀疏数据的特征量,从起始时间t0开始对特征量进行统计,求出稀疏数据中时隙分配的信任值,公式表示为
(9)
其中:ϖ∈(0,1]。综上所述,通过深度学习算法可实现对稀疏数据的初步识别与提取。
反向传播可以将学习网络中的残差传输到输入层中,根据误差减小最快的方向对加权系数进行调整,直到获取最佳的加权系数。调整的过程就是使系统模型的代价函数取值最小,调整过程中系统模型的代价函数类似于Softmax模型代价函数,用公式可表示为
(10)
理想的多类稀疏数据标签对应信息为1,其余稀疏数据对应信息为0,其标签形式可表示为z={0,…,0,1,0,…,0}T,为了对输出的向量q与标准稀疏数据向量标签z之间的距离进行度量,需定义置信度距离,公式表示为
(11)
其中,max(·)和max*(·)分别表示返回最大元素值与第二个最大值元素值;test(·)表示返回稀疏数据测试样本对应编号的元素值。样本权重更新公式表示为
(12)
其中,Qt(i)表示第i个稀疏数据样本在第t次迭代时的权重值;Wt表示归一化因子;ξt表示第t个弱分类器对应的权重值;为了避免难以分类的稀疏数据样本权重值增长较快,参数cons(·)取值范围限制在[-1,1]之间。
从整个稀疏数据的训练集中选择一些数据作为弱分类器的训练集,为了方便抽取样本个数,先验概率质量函数用稀疏数据的当前样本权重值表示,这样不仅可以降低训练过程的复杂性,还可以保证各个弱分类器之间的相互独立性。
为了验证深度学习反向传播算法对稀疏数据特征提取的有效性,本文选取文本集和新闻组语料库这两个数据集进行实验,在测试集的文档中选择词频最多的前1000个单词,因此一篇文档中具有1000维的向量中会包含了每个单词出现的次数频率。然后计算每个单词在文章中出现的权重,并将该结果作为模型的输入。通过从数据集中选取不同个数的文档,验证本文算法对不同规模数据训练的效果,并分别在小规模数据集、大规模数据集以及新闻组数据集上进行实验,利用误差率与均方差反映所提算法的精确度。
在小规模数据集实验中,文本为300篇,训练集文本为220篇,测试集文本为80篇,类别数量为5,从训练集中选择具有类别标签的20篇文本。在文本训练过程中,每个单元迭代50次,并采用不同的模型进行测试实验,测试结果的准确率如表1所示。
表1 测试结果准确率
从实验结果可以看出,采用梯度下降算法的模型进行微调后,准确率达到62.21%,比KNN模型准确率提高了6.87%;采用本文算法进行微调后准确率可达到91.59%,比KNN模型的准确率提高了36.25%。同时在微调过程中,对分类误差进行比较,图3为不同算法的误差率曲线。
图3 误差率曲线
根据误差率曲线,在迭代增加的过程中,梯度下降法误差率表现出持续震荡的现象,在前60次迭代过程中,误差率没有明显的下降趋势;而采用本文提出的算法在前9次的迭代过程中,误差率明显发生下降的趋势,从第10次开始误差率维持在一个稳定的状态,且误差率较低为9.85%左右。
实验中选择3000篇文本,训练集文本选择2200篇(从中选择200篇具有类别标签的文本),测试文本选择800篇,在对数据训练与测试过程中,迭代次数为50次。准确率测试结果如表2所示。
表2 准确率测试结果
从实验结果可以看出,采用本文算法相对于梯度下降算法能够更好的优化系统模型参数,大大提高数据分类提取的准确率。与小规模数据集的试验相比,采用三种算法模型的准确率均有提高,说明数据量越大,数据分类的准确率越高。与小规模数据集试验类似也进行了分类误差率的对比,实验结果如图4所示。
图4 误差率曲线
从图中可以看出,采用梯度下降算法模型从第一次迭代开始误差率一直没有发生变化,说明该算法对大规模数据集起不到微调的作用;而采用本文算法在前25次迭代过程中,误差率具有明显下降的趋势,并随着迭代次数的增加误差率基本维持在最低的状态,但误差率并不是最小值。
在新闻组语料库数据集实验中,类别数量为20,选择不同规模的测试数据,并针对不同模型算法的分类情况与本文算法进行对比,准确率测试结果如表3所示。
表3 准确率测试结果
从实验结果可以看出,随着新闻组数据集数量的增加,采用KNN算法对数据分类的准确率相对较低,其次是采用梯度下降算法,采用本文算法的数据分类准确率最高;在微调过程中,梯度下降算法的模型对数据分类的结果影响力较小,通过新闻组数据集的试验表明,在微调过程中采用本文提出的模型,对不同规模的数据集都可以较好地完成数据分类。
对于稀疏数据的分类提取问题,本文提出一种深度学习、Softmax和反向传播算法相结合的混合模型。其中深度学习完成稀疏数据中每两个相邻神经网络层的配对工作,Softmax分类器完成稀疏数据的分类工作,反向传播算法完成稀疏数据的调整和收敛工作。在数据微调过程中将深度学习和Softmax作为一个整体,并结合数据分类的准确率和误差率,采用反向传播方法完成对系统模型权值的优化。为了验证本文算法的有效性,选取文本集和新闻组语料库这两个数据集,分别进行小规模数据集、大规模数据集和新闻组数据集实验。实验结果表明,采用本文算法对数据特征进行分类提取准确率较高,并且误差率较低,在数据的提取上具有令人满意的效果。