摘要:随着人工智能技术的发展,信息化测绘正逐渐迈向智能化。为了对信息化测绘数据进行清洗,研究采用了堆叠降噪自编码器,并引入了粒子群算法来对该自编码器中的超参数进行寻优,以降低超参数对堆叠降噪自编码器性能的影响。结果显示,寻优后堆叠降噪自编码器的相对误差百分比、均方根误差、平均绝对误差和平均百分比误差分别为1.06%、0.525%、0.315%和0.570%。该自编码器能够对测绘数据进行更好的清洗,误差更小,提高数据质量。
关键词:自编码器堆叠降噪测绘数据清洗
中图分类号:TM377
EfficientInformationizationSurveyingandMappingProcessingBasedonAutoencoderLIUYing
SouthChinaNormalUniversity
SurveyingandMappingInstituteLandsandResourceDepartmentofGuangdongProvince,Guangzhou,GuangdongProvince,510663China
Abstract:Withthedevelopmentofartificialintelligencetechnology,information-basedsurveyingandmappingisgraduallymovingtowardsintelligence.Inordertocleaninformationsurveyingandmappingdata,astackeddenoisingautoencoderwasadoptedinthestudy,andparticleswarmoptimizationalgorithmwas3Ad3W7Y4CnnzxqNPHCBZiZLwOPu7ZqE1KaXzxuaCXGU=introducedtooptimizethehyperparametersintheautoencodertoreducetheimpactofhyperparametersontheperformanceofthestackeddenoisingautoencoder.Theresultsshowedthattherelativeerrorpercentage,rootmeansquareerror,averageabsoluteerror,andaveragepercentageerrorofthestackeddenoisingautoencoderafteroptimizationwere1.06%,0.525%,0.315%,and0.570%,respectively.Thisautoencodercanperformbettercleaningonsurveyingdata,reduceerrors,andimprovedataquality.
KeyWords:Autoencoder;Stacking;Noisereduction;Surveyingandmapping;Dataclean
随着城市的发展和自然灾害的频繁发生,测绘工作的重要性也在逐渐凸显。在计算机和物联网等技术的发展下,测绘工作也逐渐进入了信息化。尤其是人工智能技术的发展,给信息化测绘带来了极大的变革[1-2]。人工智能技术不仅可以提升测绘信息化的准确率和速度,而且能够对信息化测绘数据进行处理。在信息化测绘数据清洗方面,常用的人工智能方法有聚类算法、关联分析、多层神经网络和自编码器等[3]。然而,这些方法都存在一定的不足,如堆叠降噪自编码器(StackedDenoisingAutoEncoder,SDAE)对算法中的超参数过于依赖、聚类算法对计算量和内存的要求过高等[4]。因此,为了降低超参数对SDAE算法的影响,研究引入了粒子群算法(ParticleSwarmOptimization,PSO)来对SDAE算法中的超参数进行寻优,之后再通过SDAE算法来进行数据清洗。
1堆叠降噪自编码器改进设计
为了对信息化测绘下的数据进行清洗,研究采用了SDAE算法,并通过PSO来对其进行改进。自编码器是一种无监督学习算法,其核心组成是编码器和解码器[5]。为了提高自编码器的性能,避免出现过拟合的情况,降噪自编码器便被设计出来。然而,降噪自编码器难以对大规模的数据集进行处理,因此SDAE便被设计出来。SDAE的建立和训练过程如图1所示。
从图1可以看出,构建的第一步是添加噪声数据,第二步是把只有部分损坏的数据当作输入。第三步是对输入数据进行编码,第四步是获取第一层降噪自编码器的特征。第五步是进行解码,第六步是重构隐藏特征。第七步是获取重构结果,第八步是确定损失函数。第九步是获取第一层降噪自编码器的权重和偏置系数,第十步把上一层获取到的隐藏层特征当作下一层降噪自编码器的输入,并继续返回执行第三步,直到全部的降噪自编码器都训练完毕。研究设计的SDAE模型主要由三层降噪自编码器组成。
在测绘数据采集和传输过程中,因为设备故障原因而导致数据出现孤立点或缺失值的现象是较为常见的。为了通过SDAE来对孤立点和缺失值进行处理,研究首先构建了损坏数据,其次获取了测绘数据的特征,之后再对数据损坏前的值进行预估,最后获取重构值。
SDAE模型中包含多个超参数,但是不恰当的超参数取值会对SDAE模型的性能造成影响。针对这个问题,研究采用了PSO算法来对SDAE模型的超参数进行寻优。PSO算法作为一种全局优化算法,在生产调度和路径规划等领域都有着较为广泛的应用。因此研究将采用PSO算法来进行超参数优化。基于PSO算法改进后SDAE模型的构建步骤如图2所示。
从图2可以看出,改进后SDAE模型构建的第一步是选取训练集和测试集,并对其进行归一化处理。第二步是对SDAE模型和PSO算法中的参数进行初始化。第三步是基于粒子来对SDAE进行逐层训练,第四步是对适应度函数值进行求解和对比,第五步是更新个体最优和全局最优。第六步是更新粒子的位置和速度,第七步是判断是否达到最大迭代次数,若判断为是,则输出最佳的SDAE超参数,否则便回到第四步。第八步是在SDAE中输入测试数据,并获取最终的重构结果。
2测绘数据清洗方法的结果分析
为了对改进后SDAE模型的性能进行验证,研究选取了某省地理数据库近5年的测绘数据,并将其命名为Set original数据集,且该数据集大小为3000。研究选取了Setoriginal数据集中前2100条数据当作训练集,剩下的900条数据当作测试集,并在测试集的数据上随机添加噪声。PSO算法的种群规模被设置为10,最大迭代次数被设置为100。性能验证采用的操作系统为Windows11,处理器为IntelCorei7-12700K,最大内存为128G。PSO算法的适应度曲线和SDAE超参数寻优结果如图3所示。
通过图3(a)可以看出,PSO算法自适应度的取值范围是在0.084~0.052之间,且该算法在迭代了将近23次后便趋于平缓。可以看出,PSO算法能够较快地收敛到最小值,具有良好的性能。由图3(b)可知,在通过PSO算法对SDAE模型进行超参数寻优之后,第一个到第三个隐藏层的节点数量分别为44个、68个和33个,而噪声覆盖率为32.7%。基于寻优后的超参数,研究对测试集的数据进行了清洗。为了更好地验证改进后SDAE算法的性能,研究也选取了其他算法来进行对比。对比算法有反向传播(BackPropagation,BP)神经网络、结合PSO和支持向量机(SupportVectorMachine,SVM)的PSO-SVM算法和改进前的SDAE算法。对比指标有相对误差百分比、均方根误差、平均绝对误差和平均百分比误差,对比结果如图4所示。
由图4(a)可知,BP神经网络、PSO-SVM算法和改进前后SDAE算法的相对误差百分比分别为13.28%、8.10%、2.55%和1.06%。平均百分比误差的最大值为1.45%,出现在BP神经网络上,最小值为0.570%,出现在改进后的SDAE算法上。通过图4(b)可以看出,均方根误差的最大值和最小值分别出现在BP神经网络和改进后SDAE算法上,分别为2.543%和0.525%。BP神经网络、PSO-SVM算法和改进前后SDAE算法的平均绝对误差分别为0.729%、0.624%、0.364%和0.315%。可以看出,研究所设计的基于PSO改进的SDAE算法性能更好,测绘数据清洗效果更佳,处理后的数据更接近真实数据,误差更小。
3结论
为了对信息化测绘数据进行清洗,研究采用了SDAE算法,并引入PSO算法来对其进行改进。结果显示,PSO算法迭代了将近23次后便趋于平缓,收敛速度较快。寻优后,SDAE算法第一个到第三个隐藏层的节点数量分别为44个、68个和33个,而噪声覆盖率为32.7%。寻优后SDAE算法的相对误差百分比、均方根误差、平均绝对误差和平均百分比误差分别为1.06%、0.525%、0.315%和0.570%。改进后的SDAE算法能够对信息化测绘数据进行更好的清洗,误差更小。
参考文献
[1] 杨宏山,邓国庆.自然资源管理中测绘地理信息工作的若干思考[J].测绘科学,2020,45(12):181-190.
[2] 梁慧琳,张青萍.园林文化遗产三维数字化测绘与信息管理研究进展[J].南京林业大学学报:自然科学版,2020,44(5):9-16.
[3] 朱建军,宋迎春,胡俊,等.测绘大数据时代数据处理理论面临的挑战与发展[J].武汉大学学报:信息科学版,2021,46(7):1025-1031.
[4] 王怀远,陈启凡.基于代价敏感堆叠变分自动编码器的暂态稳定评估方法[J].中国电机工程学报,2020,40(7):2213-2220,2400.
[5] 谢胜利,陈泓达,高军礼,等.基于分布对齐变分自编码器的深度多视图聚类[J].计算机学报,2023,46(5):945-959.