冯源,夏凯,冯海林
(浙江农林大学数学与计算机科学学院,国家林草局林业感知技术与智能装备重点实验室,浙江省林业智能监测与信息技术研究重点实验室,杭州 311300)
城市森林作为城市环境的主要组成部分,在城市生态系统中发挥着重要作用,包括改善空气质量、缓解城市热岛效应、保护生物多样性和提高居民生活质量[1]。而城市森林的评估与管理需要收集树木的各种属性,包括树种、高度、冠幅和坐标等,因此,单木检测是森林资源调查中一项重要的基础工作[2]。然而,城市地区的单木检测工作存在诸多难点。与树木分布密集的天然林相比,城市树木通常与建筑物相邻,树种繁多且分布不均[3]。传统的树木数据采集方法为人工实地调查,其耗时耗力且过于依赖主观经验,仅适用于小范围作业[4]。如需进行大范围的数据采集,则需要遥感平台的支持。遥感平台种类多样,其中无人机具有低成本、高性能与灵活性等特点,近年来已被广泛应用于单木检测[5]。Kwong等[6]对机载激光雷达(light detection and ranging,LiDAR)数据、数字航空图像与无人机图像3种遥感数据源的单木检测潜力进行评估,实验结果表明,基于无人机图像的检测效果仅次于机载LiDAR数据。
基于遥感数据的传统单木检测算法包括区域生长、局部最大值与分水岭分割等算法[7]。Tanhuanpää等[8]基于冠层高度模型(canopy height model,CHM)采用分水岭分割算法检测到城市树木清单中88.8%的行道树。局部最大值与分水岭等算法的主要限制是无法识别树种,因此在多树种环境下,它们难以同时分割单个树冠和判别树种类型[7,9]。Azizi等[10]采用局部最大值算法检测城市地区不同森林结构的树木,实验结果表明,局部最大值算法在均质林中检测效果显著,因为相同树种的树木在高度、树冠大小和形态上相似。而在树种组成复杂的异质林中,局部最大值算法的检测效果并不理想。与传统算法相比,具有多树种识别能力的深度学习算法成为更好的选择[7]。
作为机器学习的延伸,深度学习方法近年来发展迅速,其克服传统方法的局限性,在计算机视觉领域展现出卓越能力,被逐渐应用于单木检测[11]。Zamboni等[12]对比评估21种基于深度学习的单木检测方法。Das等[13]利用Faster R-CNN算法检测7种城市树木,平均精度达85.6%。然而,在树木密集地区和高密度森林中,单木检测效果并不理想[14]。Tanhuanpää等[15]通过测试9种单木检测算法证明城市公园中异质的冠层结构和树木不同的生长模式会影响单木检测的准确性。
由于不同树种之间树冠形状和颜色的相似、树冠重叠、建筑物的遮挡以及阴影导致的树冠轮廓异常等因素的影响,仅使用单一遥感数据检测城市树木效果有限。高程模型可以提供树木的高度数据,其与遥感图像的融合有助于提高单木检测精度[14]。Feng等[16]基于多光谱图像与数字表面模型(digital surface model,DSM)利用直方图相似性度量算法通过对比树种的光谱与高度相关特征以识别4种城市树木,整体准确率提高0.61%~5.81%。Pleoianu等[17]基于RGB与DSM以及其派生数据通过不同的数据组合,利用集成模型检测不同地区的城市树木,结果表明,集成模型的检测效果优于单一模型,检测精度提高3%~18%。以上研究均证明融合高程数据在单木检测任务上的有效性。
尽管高程数据已被证实有助于提高单木检测精度,但不同融合方法对于单木检测精度的提升效果差异尚不明确。本研究以城市樟树检测为例,使用两类数据融合方法:像素级融合(IHS变换融合、Brovey变换融合和多通道组合)与特征级融合(双分支特征融合和SE-双分支特征融合),通过对比不同融合方法对检测效果的影响,旨在确定最佳的融合方法,利用两者数据的互补性,以期完善城市地区的单木检测研究。
研究区位于浙江省杭州市临安区(118°51′~119°52′E,29°56′~30°23′N),处浙江省西北部,属中亚热带季风气候,雨量充沛,四季分明,年均气温16 ℃,年均降水量1 613.9 mm。本研究选取临安区内浙江农林大学东湖校区部分绿地以及周边街道(包括武肃街、农林大路、西墅街和马溪路等)作为数据采集区域。其中,街道区域树种单一、树高相近且分布均匀,树种以樟树(Cinnamomumcamphora)与银杏(Ginkgobiloba)为主;绿地区域树种繁多,树冠交错,冠层结构复杂,树种以樟树、桂花(Osmanthusfragrans)、油松(Pinustabuliformis)、红梅(Prunusmume)与苦槠(Castanopsissclerophylla)居多。研究区概况如图1所示。
图1 研究区概况Fig. 1 Overview of study area
樟树是常绿阔叶乔木,其树冠开阔,枝叶繁密,气味清香,作为庭荫树和行道树广泛分布于研究区内。此外,在航拍图像中,樟树的树冠与桂花、苦槠等其他树种的树冠视觉特征相似,人眼难以轻易识别,为基于深度学习的单木检测带来挑战。因此,针对城市樟树的检测研究具有一定的泛化性。故本研究选取樟树作为研究对象,并采用大疆创新科技有限公司的精灵Phantom 4 RTK无人机成像系统进行数据采集作业。无人机成像系统的参数详见表1。采集作业于2021年3月3日—15日,在天气晴朗或多云且风力较小时进行,总计37批次,共采集11 377张无人机航拍图像。由于建筑物高度的限制,东湖校区周边街道执行的飞行任务航高设定为70 m,校内执行的飞行任务航高设定为50 m。另外,航向重叠率与旁向重叠率均设定为90%。
表1 无人机成像系统参数Table 1 Parameters of UAV imaging system
本研究采用Agisoft Metashape Professional v1.5.1 软件对采集到的无人机图像进行处理,整个工作流程高度自动化,包括图像配准、点云生成以及数字正射影像图(digital orthophoto map,DOM)和数字表面模型制作。其次,以4 096×4 096像素大小裁剪DOM与DSM,得到92张RGB图像和DSM高程数据。然后,使用开源标注工具LabelImg对樟树树冠进行人工标注,并通过实地调查确保标注的准确性。最后,将数据集按照约8∶2的比例划分为训练集和测试集。训练集图像共计70张,其中涵盖973个樟树树冠;测试集图像共计22张,其中涵盖278个樟树树冠。不同城市场景的样例图与其树冠标注如图2所示。
图2 不同城市场景样例图与树冠标注Fig. 2 Exemplary images from different urban scenes and corresponding tree crown labels
Faster R-CNN是优秀的两阶段目标检测网络,由特征提取网络(backbone)、区域建议网络(region proposal network,RPN)与Fast R-CNN目标检测网络3个模块组成。首先,特征提取网络提取输入图像的特征图(feature maps)。其次,RPN对特征图的每个区域进行卷积操作,预测生成多个区域建议。再者,Fast R-CNN目标检测网络使用感兴趣区域池化(region of interest pooling,RoI Pooling)提取区域建议的特征向量。最后,将特征向量分别输入至回归器(regressor,Reg)和分类器(classifier,Class)中,以预测区域建议的位置和类别[18]。Faster R-CNN的网络结构如图3所示。
图3 Faster R-CNN目标检测网络Fig. 3 Faster R-CNN object detection network
本研究基于数据融合阶段的不同,将融合方法分为像素级融合与特征级融合两类,以城市樟树为例,对比研究以下5种融合方法,以评估它们对提高城市樟树检测精度的有效性差异。
2.2.1 像素级融合
像素级融合方法通过将不同源图像中的数据融合以生成包含更丰富信息的融合图像。目前常见的像素级融合包括IHS变换融合、Brovey变换融合与多通道组合。这些方法在基于传统机器学习的单木检测研究中已被证实有效,但尚未有针对不同融合方法在基于深度学习的单木检测精度提升效果方面的对比研究。因此,本研究将这些方法引入基于深度学习的城市樟树检测中,以对比评估3种像素级融合方法的有效性差异。
1)IHS变换融合:IHS变换融合[19]首先将RGB图像转换为IHS色彩空间,分解为亮度(intensity,I),色调(hue,H)和饱和度(saturation,S)3个分量。其次,将亮度分量与DSM高程数据进行替换。最后,逆变换回RGB图像。IHS变换融合图像如图4c所示。
图4 无人机图像和融合图像Fig. 4 UAV imagery and fused imagery
2)Brovey变换融合:Brovey变换融合[19],又称色彩归一化变换融合,是简单的比率融合方法,与IHS变换融合相比,无须进行色彩空间变换。其算法通过将RGB图像的每个颜色波段与DSM高程数据相乘,再将每个乘积除以RGB图像的颜色波段总和来实现融合。Brovey变换融合图像如图4d所示。
3)多通道组合:不同于前两者基于通道替换与加权的方法,多通道组合直接将RGB与DSM组合为四通道数据,充分保留数据信息,避免不必要的信息损失,已被广泛应用于树木检测领域。
2.2.2 特征级融合
深度神经网络可将具有不同维度的特征映射到同一维度空间。因此,通过多个网络分支提取特征再融合特征可以消除不同类型特征之间的维度差异,从而显著提升特征融合的效果。考虑到RGB提供三通道的颜色信息,而DSM提供单通道的高度信息,本研究将双分支特征融合应用于单木检测任务中,以评估其在该领域的应用潜力。
1)双分支特征融合:双分支特征融合在Faster R-CNN算法的基础上,使用两个相同的特征提取网络分支分别提取RGB与DSM的特征。其次,合并连接两个分支的特征。最后,将融合特征输入模型进行目标检测。双分支特征融合的网络结构如图5所示。
图5 双分支特征融合目标检测网络Fig. 5 Dual-branch feature fusion object detection network
2)SE-双分支特征融合:注意力机制已被证明在特征提取方面发挥着积极作用[20]。其中,压缩与激励网络(squeeze-and-excitation,SE)[21]作为通道注意力模块,可以改善通道之间的依赖关系,从而提升模型性能。SE模块结构如图6所示。首先,通过压缩(squeeze)操作将特征图压缩为1×1×C向量。其次,通过激励(excitation)操作学习生成通道权重向量。最后,通过缩放(scale)操作将通道权重向量乘以原始特征图,对不同通道的特征进行加权。
注:H、W、C分别为输入特征图的高度、宽度和通道维数。下同。
SE-双分支特征融合在双分支特征融合的基础上,在特征提取网络ResNet-50[22]的残差块末尾引入SE模块,通过自适应地调整通道特征的权重以获得更有针对性的特征表示,进而实现更有效的特征融合。SE-ResNet模块结构如图7所示。
注:r为控制模块大小的超参数。
本研究算法基于MMDetection2.25.2目标检测开源工具箱实现,在配备NVIDIA GeForce GTX 3090(24 GB)GPU和Ubuntu20.04操作系统的计算机环境下进行模型训练与测试。在训练参数方面,基础学习率设置为0.01。前1 000次迭代采用预热策略自适应更新学习率,预热率为0.000 1。随后,在100,130和150轮时采用学习率衰减将学习率调整为现有学习率的10%,整个训练阶段共160轮。优化器选用随机梯度下降法,动量设置为0.9,权重衰减率为0.000 1。特征提取网络使用预训练权重以提升模型的训练速度、准确度和泛化能力。
本研究采用精确率(precision,P)、召回率(recall,R)和平均精度(average precision,AP)3个评价指标评估模型性能。其中,精确率表示被正确检测为樟树树冠的样本数量占所有检测为樟树树冠的样本数量的比例;召回率表示被正确检测为樟树树冠的样本数量占所有实际为樟树树冠的样本数量的比例;平均精度通过计算precision-recall曲线下的面积综合考虑精确率与召回率。相关计算公式如下:
(1)
(2)
(3)
式中:TP为被正确检测为樟树树冠的样本数量;FP为被错误检测为樟树树冠的样本数量;FN为实际为樟树树冠的样本被错误检测为其他类别或未被检测到的樟树树冠样本数量;p(r)为0~1区间内的precision-recall曲线。
不同融合方法在测试集上的评估结果如图8与表2所示。综合可知,仅凭借高度信息无法有效区分具有相似高度和轮廓的树种或地物。如图8b所示,1株银杏树和1盏圆环形路灯被错检为樟树以及1株樟树被漏检。此外,部分樟树由于春季换叶导致枝叶稀疏,颜色信息缺失同样影响检测结果。如图8c所示,两株树顶枝叶稀疏的樟树被漏检。
表2 不同融合方法实验结果对比Table 2 Comparison of experimental results of different fusion methods
图8 树冠检测结果样例图Fig. 8 Exemplary images of the tree crown detection results
在融合方法方面,IHS变换融合的提升效果欠佳,平均精度仅提高1.8个百分点,达83.8%。可能是由于亮度分量与高程数据的替换导致信息损失与颜色失真问题。如图8d所示,一盏颜色失真的圆环形路灯被错检为樟树。Brovey变换融合提升效果稍好,平均精度提高3.2个百分点。与IHS变换融合相比,它基于波段进行加权平均处理,损失信息相对较少,但同样存在颜色失真问题。如图8e所示,一株部分树冠被遮挡的樟树被漏检。多通道组合平均精度达85.4%,与前两种融合方法相比,它充分保留数据信息,避免信息损失。如图8f所示,树冠重叠的樟树均被正确检测。双分支特征融合提升效果显著,平均精度提高5.8个百分点,达87.8%。它通过分别提取RGB与DSM的特征,有效减少不同类型特征间的相互干扰。如图8g所示,所有樟树均被正确检测。SE-双分支特征融合表现最佳,平均精度显著提高9.3个百分点,达91.3%。它在前者的基础上通过引入SE模块进而提取更有针对性的特征。如图8h所示,所有樟树均被正确检出。
不同融合方法在街道与绿地两类城市场景的评估结果如图9与表3所示。综合可知,在街道场景中,融合方法的提升效果有限,IHS变换融合与多通道组合的平均精度仅分别提高1.3和1.4个百分点。原因可能是街道中的樟树种植过于密集,树冠之间相互遮挡且树高相近,导致树木之间的高度差异不明显。而SE-双分支特征融合利用SE模块提取更有针对性的特征,平均精度提高6.4个百分点。在绿地场景中,多通道组合、双分支特征融合与SE-双分支特征融合的提升效果显著,检测精度分别提高11.2,11.9和15.4个百分点。绿地中不同树种之间的树高差异较大,林冠层多层次,引入高程数据可以有效区分不同高度的树木,从而提高单木检测精度。而IHS和Brovey变换融合提升效果并不显著,可能是由于颜色失真导致绿地中不同树种和草地之间颜色相似。
表3 不同城市场景下不同融合方法的实验结果对比Table 3 Comparison of experimental results of different fusion methods in different urban scenes
图9 不同融合方法在不同城市场景下的平均精度增益Fig. 9 Average precision gains of different fusion methods in different urban scenes
冠层结构是造成单木检测错检和漏检的主要原因。较大冠幅的樟树树冠会遮挡小冠幅的樟树或其他树种,同时会与邻近树木的树冠重叠,导致樟树被漏检或错检。如图10b和d所示,一株小冠幅的樟树由于大树的遮挡而被漏检以及两株樟树由于树冠重叠而被错检为单株樟树。此外,部分大冠幅的樟树可能存在多个树顶,从而被错检为多株樟树。如图10f所示,一株较大冠幅的樟树被错检为两株小冠幅的樟树。另外,与樟树树冠特征相似的树种也可能被错检为樟树。如图10h所示,一株苦槠被错检为樟树。
图10 漏检与错检样例图Fig. 10 Exemplary images of the missed and incorrect detections
本研究以城市樟树作为研究对象,使用两类数据融合方法:像素级融合(IHS变换融合、Brovey变换融合与多通道组合)和特征级融合(双分支特征融合与SE-双分支特征融合),融合RGB图像与DSM高程数据,并采用Faster R-CNN模型进行单木检测实验,旨在确定最佳的融合方法,利用两者数据的互补性,以完善城市地区的单木检测研究。实验结果表明,SE-双分支特征融合的提升效果最显著,检测精度提高9.3个百分点,达91.3%。并且,在街道与绿地两类城市森林场景下,SE-双分支特征融合也表现最佳,平均精度分别达89.2%与93.9%。而IHS变换融合在这两类场景下的提升效果欠佳。研究结果表明,在多树种的绿地场景下,引入高程数据可有效提高单木检测精度,但在单一树种的街道场景下,高程数据提升效果有限。在后续研究中将考虑采集更多城市场景与树种数据以提高研究的普适性。