摘要:针对PolSARpro软件自带高分三号数据转换模块无法自适应分布式差异化硬件环境问题,提出了一种按照该软件的数据格式要求进行分布式自适应负载均衡并行转换算法,将高分三号多极化数据快速精确定标及格式转换,对不同硬件配置环境自适应,能够抗数据偏斜,并且通过KingMapV10.5平台实现了算法并在实际数据中进行测试,试验结果表明性能提升了约12.7倍,验证了算法的可行性、高效性和正确性。
关键词:高分三号合成孔径雷达自适应负载均衡分布式并行计算
中图分类号:P237
AdaptiveDistributedLoadBalancingParallelConversionAlgorithmofGF-3Data
YAOShulin*
XiamenKingtopInformationTechnologyCo.,Ltd.,XiamenCity,FujianProvince,361008China
Abstract:InresponsetotheissuesofPolSARprosoftware'sbuilt-inGF-3dataconversionmodulebeingunabletoadapttodistributeddifferentiatedhardwareenvironments,this paperproposesadistributedloadbalancingparallelconversionalgorithmaccordingtothedataformatrequirementsofitssoftware,whichcanquicklyandaccuratelycalibrateandconvertGF-3multi-polarizationdata,adaptstodifferenthardwareconfigurationenvironments,andcanresistdataskew.andthealgorithmisimplementedontheKingMapV10.5platformandtestedonactualdata.theexperimentalresultsshowthattheperformancehasbeenimprovedbyabout12.7times,whichverifiesthefeasibility,efficiencyandcorrectnessofthealgorithm.
KeyWords:GF-3;SAR;Adaptive;Loadbalancing;DistributedParallelComputing
高分三号03星于2022年4月成功发射,与高分三号01星、高分三号02星组网运行,三星携手在太空中织就一张“天眼网”,形成“1+1+1>3”的应用效能,标志着我国民用高分辨率SAR卫星数据由示范应用阶段正式跨入业务化应用阶段[1-2]。目前PolSARpro软件虽已集成了高分三号数据的导入处理[3],但数据转换效率相对较低。陈云[4⁃6]给出了基于MPI和OpenMP高效的分布式并行转换算法。陈云[7]采用MapReduce在单机环境下有更好的性能表现,但并未在分布式环境下实现。现有算法都未考虑差异化环境下多模数据偏斜问题。因此,本文提出了高分三号分布式自适应负载均衡并行转换方法,通过实际数据,验证算法的自适应和抗数据偏斜能力,并通过性能对比分析,表明本文方法可以更高效地解决上述问题。
1算法原理
本文主要针对高分三号数据L1A产品进行数据转换处理。根据PolSARpro软件的数据格式要求,以及根据陈云[5]研究中的优化推导出中间参数。
其中,为该景图像量化前的最大值,可通过元数据文件字段获取。为该景图像的雷达散射的定标系数,可通过L1A图像元数据文件CalibrationConst字段获取。则有:
式(2)、式(3)中:和分别为1A级产品实部和虚部,和分别为实部和虚部后向散射系数。
由于对任意一景高分三号数据,都可分配给其中的一个MPI实例,分配复杂度有,属于NP难问题。为了快速解决上述问题,提出一种自适应高效分配方案。先针对不同的极化工作模式选取常见的标准景数据,其在各个MPI上的处理时间作为参考依据,来简化分配复杂度。然后根据不同的硬件环境进行分类,通过不同的极化工作模式标准景数据在分类后的MPI上的处理时间作为参考依据,再降低分配复杂度。最后考虑到多景数据和单景标准数据的处理时间存在相关性,假设其为线性关系,进一步简化分配。因此分配规则简化如下。
(1)首轮分配规则。
①基于排序后的处理实例列表,获取先验标准景处理时间最少的同级别处理实例,将排序后的高分三号数据列表中的高分三号数据依次顺序分配给先验标准景处理时间最少的处理实例,每个实例分配1景。
②分别获取所有已分配的处理实例的累计先验花费时间;获取排序后的高分三号数据列表中的待处理高分三号数据,获取该景高分三号数据分别在已分配的处理实例上的先验处理时间,以及获取该景高分三号数据在排序后的处理实例列表中的待分配处理实例上的先验处理时间;分别计算所有已分配的处理实例新的累计花费时间,取最少的花费时间,并记为;如果,则把待处理高分三号数据分配给累计花费时间最小的已分配处理实例;否则分配给待分配处理实例;其中,表示已分配的处理实例数。
③重复上述过程,直至把所有高分三号数据分配完成,或者完成处理实例列表中所有处理实例首轮分配。
(2)次轮分配规则。
如果进入次轮分配,按处理实例的先验标准景处理时间及累计时间进行次轮分配,具体叙述如下。
①分别获取所有已分配的处理实例的累计先验花费时间;获取排序后的高分三号数据列表中的待处理高分三号数据,获取该景高分三号数据分别在已分配的处理实例上的先验处理时间;分别计算所有已分配的处理实例新的累计花费时间,取最少的花费时间,并记为,把待处理高分三号数据分配给该处理实例,并更新该处理实例上的累计花费时间;其中,表示已分配的处理实例数。
②重复上述过程,直至把所有高分三号数据分配完成。
2算法设计
本文算法采用上述自适应负载均衡分配策略,主要算法流程如下。
(1)分布式环境配置信息主要包括:获取每个MPI实例的先验标准景处理时间,可以先从配置文件中读取,如果没有,则采用标准景进行实际测试后获取初始先验标准景处理时间(2)获取所有高分三号待处理数据列表。(3)按各个MPI处理实例的先验标准景处理时间升WZ3+Vviv3z5Nn5gQJIgI7w==序排序。(4)按每景数据大小进行降序排序。(5)按上述自适应负载均衡分配方法。(6)把上述分配好的待处理任务派发给每个MPI实例。(7)每个MPI实例采用MapReduce框架调用并行转换函数按景处理,先采用公式(1)计算中间参数。(8)在并行转换函数中采用OpenMP按极化方式进行并行处理。(9)具体转换函数中采用公式(2)和公式(3)进行转换。(10)更新记录每个MPI实例已完成处理高分三号数据总的景数、累计数据量大小以及总的处理时间。(11)为了更准确地体现先验标准景处理时间,采用完成的高分三号数据处理记录清空更新初始的先验标准景处理时间信息。
3算法实例
通过地理信息系统开发平台KingMap V10.5进行验证,平台是通过C/C++语言实现。平台运行环境如下。
计算机配置:操作系统为MicrosoftWindows11专业版;内存为LPDDR4x16.0GB,3733MHz;CPU为11thGenIntel(R)Core(TM)i5-11300H@3.10GHz,四核,8线程;内置固态硬盘为512GB,M.2接口;外置移动硬盘为4TB,5400rpm,USB接口;显卡为Intel(R)Iris(R)XeGraphics集成显卡,128M。
为了方便对比测试,在上述电脑上配置两台不同配置的虚拟机,操作系统为Win10专业版,具体如下。
虚拟机1:内存为8.0GB;CPU为4核;外置固态硬盘大小为160GB;虚拟机2:内存为4.0GB;CPU为2核;外置移动机械硬盘大小为160GB。
算法程序以4景高分三号全极化条带I数据和2景精细条带II数据(数据清单如表1所示)进行转换,先通过标准数据测试,虚拟机1每处理1GB平均花费时间为10.389s,虚拟机2每处理1GB花费时间约为258.011s,2台虚拟机的性能相差约24.8倍。不同算法和不同运行策略下的性能结果如表2所示。经验证本文算法转换后的全极化条带I数据结果与PolSARpro软件生成的结果一致,精细条带II类似,表明算法真实可靠。
运行效率分析:采用不同配置的双机环境下,基于负载均衡的方法在处理6景在极端条件下共花费约1758.532s,虽然每台虚拟机都是分配3景,但因配置不同,计算花费的时间不同,差距较大。而本文采用基于MS-MPI、MapReduce和OpenMP混合编程的自适应负载均衡方法也同样处理6景共耗时只需约138.832s,即通过数据和计算能力自适应负载均衡策略,第一台性能好的虚拟机分配5景测试数据,另一台性能差的虚拟机仅分配1景测试数据,实现每台虚拟机处理基本负载均衡。因此,双机分布式环境下,引入自适应负载均衡节约了1619.7s,性能提升了约12.7倍,效果显著。本文旨在充分利旧,根据数据的偏斜以及机器性能自适应分配合适的MPI计算实例,实现了更快的计算结果。
4结语
本文通过简化计算公式提出了一种基于MPI、MapReduce和OpenMP高分三号数据分布式自适应负载均衡并行转换算法。该算法已在地理信息系统开发平台KingMapV10.5上编程实现并进行实际数据测试,验证了算法的可靠性、准确性、高效性、易扩展性、硬件配置自适应和抗数据偏斜能力。当然,本文也存在不足之处,因硬件利旧,发生故障的可能性更大,有待考虑异常处理等问题,将在另文讨论。
参考文献
[1] 张未,刘锦洋,张兰兰,等.03星发射高分三号系列卫星织就太空“天眼网”[N].科技日报,2022-04-08(1).
[2] 国家国防科技工业局重大专项工程中心,国家航天局对地观测与数据中心.2018中国高分卫星应用国家报告(共性产品卷)[M].北京:国防科工局重大专项工程中心,2018.
[3] POTTIERE.PolSARprov6.0(BiomassEdition)Software[EB/OL].(2021-05-01)[2024-04-26].https://ietr-lab.univ-rennes1.fr/polsarpro-bio/.
[4] 陈云,鞠佳衡,林伟木,等.一种高分三号复数散射矩阵数据快速转换算法[J].测绘与空间地理信息,2022,45(3):50-52.
[5] 陈云.基于OpenMP的高分三号数据并行转换算法[J].测绘与空间地理信息,2022,45(6):85-86,91.
[6] 陈云.基于MPI和OpenMP混合编程的高分三号数据分布式并行转换算法[J].测绘与空间地理信息,2024,47(2):43-45,49.
[7] 陈云.基于MapReduce的VCT3.0多图层面间接线并行构建算法[J].测绘地理信息,2022,47(3):157-160.