王艳然 杨鹏飞
摘要:为了降低由于数据特征差异引起的数据辨识分类结果精确度较低的问题,提出基于深度学习的多源数据自动分类算法设计。首先提取了不同数据域数据的特征,在最小化数据特征损失的基础上,采用深度学习的方法,对多源数据的特征进行分析,将分析结果作为数据分类的依据,实现数据的高精度分类。通过试验对其进行测试,结果表明,所提方法在不影响分类效率的前提下,分类精度可达到95%以上,具有良好的实际应用价值。
关键词:深度学习;数据特征;多源数据;自动分类
中图分类号:TP399 文献标识码:A
文章编号:1009-3044(2022)05-0020-02
随着大数据在各行各业的广泛渗透,其种类和形式也越来越多样化,因此,对于多源数据的分类成为现阶段计算机领域的研究热点[1]。通常情况下,多源数据具有内容要素种类差异性较大、数据来源广泛的特点[2]。因此,对其进行分类时,主要是要对数据之间的内在关系进行准确识别。以此作为数据分类的基础[3]。但是,由于多源数据包含的数据内容及结构更加多样化,其特征差异也较大,因此,在对其进行分类时,难度也明显高于一般的数据。对于此,已有学作出者做出了相关研究。其中,文献[4]提出一种基于ReLU稀疏性特征的数据分类方法,实现了数据分类的准确度,但分类的精度较低,分类的粒度较大;文献[5]提出一种基于数据信息融合的分类方法,有效提高了分类的效果,但其在进行分类的前期需要大量的融合计算,便捷程度有待提升。在不断探索与研究过程中,人们逐渐发现了深度学习算法在数据分类中的独特优势,深度学习是以数据的特点为基础,对数据进行分类[6],因此,可以减少分类过程中的大量冗余计算,提高分类结果的可靠性[7]。
基于此,本文提出基于深度学习的多源数据自动分类算法设计。并通过试验对其有效性进行验证。通过该研究,以期为数据分类方面的研究提供有价值的参考,提高数据的利用效率。
1基于深度学习的多源数据分类
1.1多源数据特征提取
为了实现对数据的精准分类,需要对数据的特征进行准确提取,通过对提取结果进行深度学习,实现对待分类数据的自动分类。本文建立了一种无监督的特征提取方式,在样本数据之间构建非线性函数关系,使其摆脱多源数据本身存在标签对样本的限定。
首先,假设Xi和Yi分别表示来自不同数据域的数据信息,其中Xi表示位置数据,Yi表示内容数据,通过建立对二者之间存在的内在关联进行挖掘,构建数据特征的跨区域转换。由于Xi和Yi是同一数据表信息的不同数据源表征,因此,其对应关系也不局限于单一的数据域内,以数据元为单位的基本单元中也存在表征层面的相关性。因此,本文在对多源数据进行特征识别时,以数据元为基础,对其内在关联进行分析。得到Xi和Yi之间的跨区域转换过程为:
[Ha,b(Xi)≈Yi] (1)
其中,[a]表示數据携带信息的权重,[b]表示数据的偏置参数。[Yi]作为数据域内数据特征的样本,其中包含反向运算过程,其也是实现对多源数据间隐藏关联优化的唯一标准。根据式(1)转化后的数据,对其进行特征提取,其可表示为:
[ω=λHa,b(Xi)n] (2)
其中, [ω]表示最终得出数据特征参量,[λ]表示多源数据间的关联强度,[n]表示数据的来源总数。
将得到的特征结果作为深度学习的内容,实现对多源数据内在关系的深入分析,为数据分类提供依据。
1.2基于深度学习的数据特征分析
在上述基础上,得到不同数据域数据的特征,为了使数据分类结果具有更高的可靠性,本文采用深度学习的方式对特征进行分析,根据分析结果,对待分类数据进行自动分类处理。
首先,对多源数据间的关联最小损失进行计算。在关联损失中,共包含两部分,分别为数据特征损失以及数据结构损失,因此设计损失目标函数为:
[P=Pmin=i=1nωin+i=1n(Xi+Yi)n] (3)
其中,Pmin表示最小损失,当P=Pmin时,表明数据特征的损失最小。通过对损失进行约束,避免由于数据关联引起数据特征的丢失,提高深度学习结果的可靠性,确保数据分类的完整性。
以此为基础,对多源数据特征进行深度学习,其可表示为:
[Tω=i=1nωinXi-Yi] (4)
[Ts=i=1n(Xi+Yi)nSIMMXi-Yi] (5)
其中,[Tω]表示深度学习得到的多源数据间的内容特征, [Ts]表示多源数据间的结构特征,[SIMM(*)]表示不同数据域数据的结构相似性。二者也是对多源数据进行自动分类时,判断区所在类别的依据。
1.3多源数据自动分类
根据深度学习的结果,分别从数据内容特征及结构特征两个方面实现对多源数据的自动分类。通过寻找到与其特征差异最小的数据类别,判断其对应的分类结果,也就是计算待分类数据在上文的学习结果中的最优映射。
假设待分类数据c∈Rn,其中Rn表示其所在数据域范围,则首先要根据其携带的数据信息的权重以及偏置变量对其特征进行计算,其可表示为
[ωc=f(ac+b)] (6)
[Sc=RnnSIMMc] (7)
其中,f表示激活函数。[ωc]和[Sc]分别表示其内容特征和结构特征。通过式(6)和式(7)得到待分类数据的特征,将其与深度学习结果进行映射寻优,其可表示为:
[sim(ωc,Tω)=(ωc+Tω)ωc⋅Tωsim(Sc,Ts)=(Sc+Ts)Sc⋅Ts] (8)
当sim(ωc,Tω)为最大值,且sim(Sc,Ts)也为最大值时,则认为该数据的分类结果与Tω所在的类别一致,以此实现对其的自动分类。
2试验测试
为了测试本文设计算法的实际应用效果,进行了试验测试。同时,为了确保测试结果具有更高的可靠性,分别采用文献[4]和文献[5]提出的分类方法同样多试验数据进行分类处理。通过对比三种方法的分类结果,对本文设计算法的有效性进行分析。
2.1测试环境
试验采用的数据为Houston遥感数据,包含了一组某区域的全覆盖机载高光谱图像,以及对应的激光雷达数据。其中,具体的参数如表1所示。
在数据集中,共标定10类常见地表建筑物,对应编号为1~10,其中每种地表建筑物的训练样本与测试样本的数目比为1:6。在此基础上,分别采用三种方法对其进行分类。
2.2测试结果
在上述试验环境下,分别采用三种分类方法对试验数据进行分类处理,并对比了三种分类方法的分类结果,其结果如表2所示。
从表2中可以看出,三种分类方法的分类精度都可达到90%以上,其中文献[4]方法的分类精度基本稳定在92%~94%之间,文献[5]方法的分类精度基本稳定在93%~95%之间,而本文分类方法的分类精度始终在95%以上,且最高值可达97%,明显优于另外两种方法,表明其具有良好的分类效果。这主要是因为本文对数据进行分类前,首先对其特征进行分析,并在损失最小约束的条件下,对其进行深度学习,提高了学习结果的完整性,以此實现对多源数据的分类处理,提高了分类结果的可靠性。
在此基础上,为了验证本文设计方法的分类效率,对比了三种方法完成数据分类的耗时情况,其结果如图1所示。
从图1中可以看出,在三种分类方法中,文献[5]分类方法的耗时相对较长,这与其前期的融合计算过程直接相关,本文方法与文献[4]方法的耗时基本一致,并未出现增加分类时间的情况,这表明本文方法在提高分类精度的同时,并未对分类效率造成负面影响,具有实际应用价值,可实现在不影响分类效率的条件下,提高分类效果的目的。
3 结束语
在互联网时代背景下,数据呈现出爆发式增长的趋势,数据的多样性也显著增加,在此背景下,对数据进行准确分类成
了提高数据利用效率的关键环节。本文提出基于深度学习的多源数据自动分类算法设计,在不增加计算耗时的基础上,实现了对多源数据的高精度分类,为数据分类研究提供了有价值的参考。在后的研究中,可以在现有研究内容的基础上,加强在数据分类过程中的效率研究,降低数据分类的耗时,以满足更大规模数据的分类需求。
参考文献:
[1] 张晓丹.改进的图神经网络文本分类模型应用研究——以NSTL科技期刊文献分类为例[J].情报杂志,2021,40(1):184-188.
[2] 王晓红,谌鹏,刘芳,等.基于集成学习的强鲁棒性三维点云数据分类研究[J].包装工程,2021,42(3):252-258.
[3] 任磊,刘国庆,王丽华,等.一种新型高效的移动端深度学习图像分类系统[J].物联网技术,2021,11(5):58-63.
[4] 赵馨宇,黄福珍,周晨旭.基于ReLU稀疏性的MAXOUT卷积神经网络的数据分类算法[J].上海电力大学学报,2020,36(3):280-284.
[5] 王宏涛,雷相达,赵宗泽.融合光谱信息的机载LiDAR点云三维深度学习分类方法[J].激光与光电子学进展,2020,57(12):348-355.
[6] 陈俊夫,皮德常,张强.一种基于迁移学习的遥测数据异常检测方法[J].宇航学报,2021,42(4):522-530.
[7] 师芸,马东晖,吕杰,等.基于流形光谱降维和深度学习的高光谱影像分类[J].农业工程学报,2020,36(6):151-160,323.
[8] 李晓峰,王妍玮,李东.基于层次化深度学习的医疗数据库离群数据检测算法[J].计算机系统应用,2020,29(3):180-186.
[通联编辑:唐一东]
收稿日期:2021-10-15
作者简介:王艳然(1991—),女,河南郑州人,助教,硕士,研究方向为智能信息处理;杨鹏飞(1992—),男,河南新乡人,助教,硕士,研究方向为虚拟现实、人工智能。