孙震笙,柳鹏,余涛,杨健,米晓飞
(1.中国科学院遥感与数字地球研究所 遥感卫星应用国家工程实验室,北京 100101;2.中国科学院大学 电子电气与通信工程学院,北京 100049)
电能是人类社会生产生活不可或缺的重要能源之一。电能的远距离输送能力是一个国家现代化水平和工业发展程度的重要指标。高压输电塔是电力输送的重要基础设施,承载着国家的电力生命线。因此,快速、全天候、大范围的高压输电塔等电力基础设施监测能力对于国家的能源安全战略至关重要。例如,2008年5月12日汶川大地震中,国家电网系统内有258座110 kV及以上变电站、204条110 kV以上线路等设施存在不同程度的损毁[1]。如果地震发生后能够第一时间内获取到震区内的电力设施损毁信息,这将会给抢险救灾和灾区人民的能源保障提供重要的信息。输电塔的形状一般可分为:酒杯型、鼓型、羊角型、上字型、干字型等。输电塔的类型可以反映出输电廊道的输送能力与功能指标。例如,酒杯型输电塔上架2个避雷针,三相导线排在同一水平面上,通常用于110 kV及以上的等级的线路中,适用于重冰区和多雷区。因此,对于输电塔大尺度的快速监测识别也能够反映出目标区域内的电力输送与保障能力体系建设水平,进而反映经济与工业水平。遥感技术在不接触目标的情况下,对目标进行远距离感知,能够快速获取目标发展和变化的相关信息,既能够获取大尺度上的城市宏观全貌和土地利用类型的综合数据,又有城市桥梁、道路、房屋等精细目标数据,且航空航天遥感又具有传统地面勘察无法比拟的高时效性,使得我们可以全面、高效和近乎实时地了解目标的发展变化。
与光学传感器相比,合成孔径雷达具有全天时、全天候、穿透能力强等众多优势,能够为遥感监测提供稳定的数据源。SAR数据的众多优势使其在目标搜索、目标分类、变化监测等方面发挥了巨大作用。利用遥感技术对关注目标的研究过程通常遵循发现、识别、确认、理解、评价与利用的规律[2]。MIT林肯实验室将SAR目标的研究分为了3个阶段:发现、识别、分类。多年来,研究人员利用SAR数据对电力设施的遥感监测取得了很多成果,为电力基础设施规划、建设和维护提供了高效的时空信息。其中,刘晓伟、张雪峰等[3]根据压缩感知方法对SAR输电塔背景杂波重建,采用恒虚警率算法对SAR影像中输电铁塔进行目标检测,实现了输电线走廊区域输电塔的检测。王国胜等[4]基于SAR数据和GIS技术对输电线路进行了广域监测,提高了对于输电线路铁塔、输电走廊地形、违章建筑和广域火灾等的分析、预警和评估能力。刘艳、刘经南等[5]利用基于特征点分布的匹配准则,对SAR影像进行特征点匹配,实现了对高分辨率SAR影像中覆冰输电塔形变的监测。传统的SAR输电塔目标识别和分类研究方法遵循相似的规律,即采用恒虚警率方法进行目标发现,然后采用一系列人工设计的特征提取器进行特征提取,最后利用分类器进行目标分类。这类人工设计特征的方法具有很大的局限性,在目标存在形态上的变化时精度会产生很大的波动。由于成像机理的复杂性以及相干斑噪声等的影响,相同规格的输电塔在SAR影像中也会存在巨大的差异,此外复杂的背景场也会给解译带来一定的困难(图1)。
近年来,深度卷积神经网络以其强大的特征自学习能力在目标检测、图像分类等领域取得了突破性进展[6-7]。与传统的目标识别和分类方法相比,深度卷积神经网络方法的优势主要体现在大数据处理能力、特征自学习能力、高模型泛化能力等方面。这些优势使得深度卷积神经网络方法在SAR影像智能解译方面成果瞩目[8-14]。然而,在SAR目标识别和分类方面,大多数研究所采用的数据为背景场单一的陆面静态目标[8-9]和海面舰船目标[10-11]。它们的背景场往往是均一的裸土地和水面。但是,对于复杂背景场下的陆地目标关注较少。卷积神经网络的训练需要大量的标注数据,而这一监督过程的成本开销相对较高。加之SAR影像的解译本身就存在一定的难度,人工标注一定规模的数据集将会耗费大量的人力物力。因此,本研究首先采用一定量SAR输电塔样本来训练检测网络,然后利用检测网络实现SAR影像自动标注扩充样本集,最后利用分类网络实现对于复杂陆地背景下的SAR输电塔目标的分类。
(图1中A,B,C分别为鼓型,角型,杯型输电塔图。其后为对应类型输电塔的GF-3影像瓦片。瓦片下方角度信息代表各影像对应的雷达波束中心视角。)图1 3种类型的输电塔及其在GF-3影像中的表现
图2 输电塔快速检测分类技术框架
利用卷积神经网络方法对输电塔的快速检测和分类技术框架如图2所示,其主要包含3个模块:①数据预处理模块:主要包括了SAR原始图像预处理、SAR影像瓦片切分和输电塔样本集制作等;②输电塔检测模块:利用标注样本集训练输电塔检测网络,而后利用此检测网络对未标注样本集进行自动检测标注,构建输电塔样本集;③输电塔分类模块:将输电塔样本集划分为训练集和测试集,对于训练集中的输电塔进行人工类别划分,利用包含先验知识的训练集对分类网络进行训练,然后在测试集中进行分类精度评定。
卷积神经网络的训练和测试需要建立在一定规模的样本集上。SAR影像的一系列预处理操作对于制作高质量的输电塔样本集是至关重要的。数据预处理模块包含了3个重要步骤:SAR影像滤波和重采样等基本处理、SAR影像瓦片构建、输电塔样本制作。
1)SAR影像基本处理。GF-3二级影像产品是经过了几何纠正、地图投影生产的地理编码影像产品。在影像预处理操作中首先对SAR影像进行精制Lee滤波以减少噪声,滤波窗口大小选择3×3(图3)。随后将像元重采样到1 m,量化值采用GF-3数据原始的16 bit。
图3 GF-3影像滤波
2)SAR影像瓦片构建。卷积神经网络目标检测算法对于输入的数据大小通常有明确的限定,不符合规格的数据将会被强制的重采样。因此,我们需要对影像进行切分以构建规范化的数据集,避免后续重采样可能带来的目标畸变。本研究中,目标区域的SAR影像首先被切分为512像素×512像素大小的瓦片以构建统一规格的影像数据库[15]。
3)输电塔样本制作。样本集构建是深度学习方法中的重要一环。高质量的样本集对于模型精度至关重要。研究中利用统一规格的SAR瓦片数据集以人工解译的方式构建出一套输电塔样本集。每张样本集影像都有一个对应的标签文件,记录了影像基本信息以及其中感兴趣目标的图像位置bounding-box[16]和类别属性。本研究中的关注对象为输电塔,因此感兴趣的输电塔目标在样本集中被人工标注记录,其他地物则统一设置为背景场。
1)SSD检测算法的核心思想。输电塔的检测采用基于卷积神经网络构建的SSD(single shot multibox detector)算法[15]。SSD算法是近年来深度学习目标检测领域里程碑式的方法之一。在VOC等数据集的测试中,SSD算法与Faster R-CNN和YOLO等目标检测算法相比取得了更高的速度和精度。
SSD算法的核心思想是同时采用不同卷积层的特征图以及固定的默认边界框做检测。如图4所示,在检测过程中算法将直接在不同尺度的特征图上评估不同横纵比例的默认边界框。在训练时,算法会首先把多比例默认边界框与真值框相匹配。例如,对于红色框标记的电塔,它的真值框与2个横纵比例接近的默认边界框相匹配。在不同层级的特征图上,默认边界框的尺度计算方法如下:
(1)
图4 SSD原理图
2)算法结构。SSD算法的主体网络结构在VGG-16网络基础上进行了修改(图5)。其中,全连接层FC6和FC7替换为了卷积层Conv6和Conv7,紧接着又增加了4个卷积层。模型对其中的Conv4_3、Conv7、Conv8_2、Conv9_2、Conv10_2、Conv11_2卷积层输出的特征图分别采用了2个3×3大小的卷积核进行卷积,一个用于计算目标类别的置信度,另一个用于做回归定位。
算法的整体损失函数是类别损失函数与位置损失函数的加权和:
(2)
式中:L是整体损失值;Lconf是类别损失值;Lloc是位置回归损失值;x是默认框与真值框匹配指示因子;c是类别置信度;l是预测框参数;g是真值框参数;N是匹配的默认框数目;α是权重系数。
图5 SSD算法结构
3)自动标注扩充本集。深度学习算法需要一定规模的标注数据集来完成训练过程。目前,大规模的数据集标注往往需要耗费较多的人力物力。由于SAR复杂的成像机理和相干斑噪声,其本身的解译就存在一定困难。因此,仅靠人力完成大规模的SAR数据集标注的开销是巨大的。本研究利用SSD检测算法和人工判读相结合的方式对大量的数据瓦片进行自动解译和标注来制作输电塔样本集。自动标注输电塔样本需要使用预训练好的检测网络对未标注的SAR瓦片数据进行输电塔检测,随后仅需要少量的人工判读方式来完成目标类别的认定。通过增加算法中的置信度阈值来提高检测网络获取输电塔的准确率,这种方法可以帮助我们从海量SAR瓦片中快速检索高置信度的“疑似”输电塔目标(图6)。经过第一步检索之后,我们可以更加有的放矢地对SAR瓦片进行快速高效的解译工作。对于被检测网络自动标注的输电塔目标,人工判读只需确定其“是”与“不是”,这大大缩小了海量SAR数据的解译范围。未标注瓦片中被确定的新输电塔目标可以加入到原始输电塔样本集中,这大大提高了输电塔目标样本库的构建速度。
图6 自动输电塔检测
输电塔分类模块采用一个6层的卷积神经网络结构,模型主要由输入层、卷积层、池化层、全连接层和输出层组成(图7)。其中,前4层采用卷积层,在每个卷积层后是一个对应的池化层,第5和第6层采用全连接层,其后是一个SoftMax分类器。
图7 输电塔分类网络
1)卷积层。卷积层是重要的特征提取层,在每个卷积层中通过设置一定数目固定大小的卷积核来对图像进行卷积操作,实现特征图的提取。卷积层的优势在于局部感受野和权值共享[17]。相比于传统的全连接式的神经网络,卷积神经网络更好地考虑了图像的空间结构特征。局部感受野思想使得下一层的神经元只与上一层感受野内神经元相关,对于图像来说,我们主要关注的即是像素及其周围邻近像素的关系。因此,这种思想很好地考虑了空间特征,也大大减少了权重数目。每个卷积核中的权重都是通过自学习得到,在同层卷积操作过程中,其权值共享,即通过一个卷积核我们可以提取图像中不同位置的相同特征。换言之,对于图像中不同位置的相同目标,每个共享的卷积核提取出的特征是基本相同的。在每个卷积层中,我们引入一定数量的卷积核,它们将提取出原图像的不同特征(图8)。
图8 SAR输电塔与Conv1层32个feature map
2)最大值池化。输电塔分类网络中的卷积层之间设置有最大值池化层,它用来提取特征图中局部范围的最大值。例如,在Conv1和Conv2 2个卷积层之间设置有一个2×2范围,步长为2的最大值池化层,则Conv2的输入数据是Conv1输出特征图的最大池化结果。本研究中,最大值池化层获取了卷积特征图中每4个邻近像素的最大值,因此第一个池化层的输出特征图的大小是Conv1特征图的一半。这样做可以对特征向量进行降维,并且模型参数也会大大减少,使得模型的平移、旋转、缩放的不变性进一步增强。
3)全连接层。输电塔分类网络的第五和第六层是2个全连接层。全连接层中的所有神经元都与上一层的神经元相连接,它可以把二维特征图映射成为一维特征向量。全连接层的主要作用是特征综合,它将前面卷积层和池化层提取到的特征做加权,使其得到更为抽象的表达。此外,特征由二维向一维的转换也有利于后续的回归分类。
4)SoftMax分类器。SoftMax模型是logistic模型的推广。它很好地将传统二分类回归模型推广为多分类模型,适合于解决卷积神经网络的多分类问题。在分类网络中,SoftMax层最后将输出一个j维向量,分别代表j个类别的概率。其函数模型如下:
(3)
(4)
式中:模型参数向量θ将会在训练过程中不断更新,使得损失函数值减小。
实验中采用的SAR数据为高分三号卫星数据。高分三号卫星是“国家高分辨率对地观测系统重大专项”中唯一的民用微波遥感成像卫星,也是我国首颗C频段多极化高分辨率合成孔径雷达卫星[18]。高分三号有包括聚束模式、精细条带模式、全极化条带模式等12种工作模式,图像分辨率1~500 m,幅宽10~650 km。高分三号卫星等效后向散射系数指标为:分辨率1~10 m,成像边缘优于-19 dB;分辨率10~500 m,成像边缘优于-21 dB。本研究关注的主要是城市范围及周边的输电走廊区域,因此选取了40余景全国范围内多个城市及其周边区域高分三号聚束模式影像数据,图像分辨率为1 m。
为了构建一定规模的输电塔样本集,首先对GF-3影像数据进行粗解译,选取部分典型的输电廊道区域作为人工标注目标区,这些区域包含了大量不同类型的输电塔。聚束模式下的GF-3 SAR影像幅宽在10 km左右,空间分辨率1 m左右,单景影像即包含了庞大的数据量。按照检测算法对于数据集规格的要求,对SAR影像进行切分,并将目标区与非目标区切分得到的瓦片数据分开存储。这里我们引入数据增广策略[6]。数据增广能够有效增强深度卷积神经网络的学习效果,提高模型泛化能力。对于小样本集而言,合理的数据增广还能够有效减少过拟合。数据增广的方法有很多,如等步长平移[8]、镜像、旋转、缩放、加噪[11]、生成对抗学习[19-21]等。考虑到星载合成孔径雷达的成像机理,其成像几何属于斜距投影类型,因此对于输电塔较多的区域我们采用平移、镜像的数据增广方法,通过改变目标背景场范围,扩充含有输电塔的瓦片数量。利用人工解译方法从中标注了4 079个含有输电塔目标的影像瓦片。同时产生了4 079个与其相匹配的标签文件,记录了每个瓦片中所有输电塔的位置信息。根据输电塔检测数据集对检测网络模型超参数进行调整。为了使模型尽快收敛,减少过拟合,初始学习率设定为0.001,批量大小设置为32,模型优化方法采用随机梯度下降法(SGD)[22]。
对于模型超参数集合中初始学习率的设置决定了卷积神经网络权值更新速度。针对研究中输电塔检测网络的训练,当初始学习率设定为0.01时,模型训练速度快,但是模型并没有达到很好的收敛,陷入了局部最优;当初始学习率设定为0.000 1时,虽精度有所提高,但是模型训练速度缓慢。最终,将模型初始学习率调整为0.001,使得速度和精度都达到平衡。检测模型超参数设置如表1所示。
表1 输电塔检测模型超参数设置
输电塔检测模型算法运行在Core i7-4790K CPU(4.00 GHz),32 G内存,NVIDIA Tesla K20c显卡的硬件环境下。在合适的参数调整后,检测模型达到了很好地收敛。输电塔检测模型的精度随迭代次数和时间变化如图9所示。从精度变化图中可以看到,模型在迭代10 000次之后基本达到了收敛,时间消耗为6.8 h。从表2中可以看到,在迭代到10 000次时,学习率发生了第一次下降,输电塔检测模型精度已经达到了90%以上。在调参过程中我们可以参考模型精度变化曲线,在模型达到稳定收敛情况下,可以采取提前结束的策略来减少过拟合现象。
利用训练好的输电塔检测网络对未被解译的非目标区SAR瓦片数据进行检测,共得到1 275个带有检测标注的图像,经人工确认并舍弃掉模糊和畸形的疑似目标,共得到1 077个含有输电塔的影像瓦片。如图10所示,人工确认后将输电塔目标从512像素×512像素规格的检测片中切分出来用于构建输电塔分类样本集,黄色框中的建筑物虚警目标被舍弃。
图9 输电塔检测算法准确率变化图
迭代次数时间学习率精度8 00021 5141e-030.905 4029 00024 2101e-030.904 11210 000∗26 8921e-040.906 70211 00029 5881e-040.907 15012 00032 2701e-040.907 221
图10 输电塔样本集构建
对于输电塔分类样本集我们仍采用等步长平移、镜像的数据增广方法,通过改变目标背景场范围,扩充含有输电塔的瓦片数量。经过目标确认、虚警剔除、分类样本瓦片制作、数据增广等步骤,我们构建了一套国产高分辨率合成孔径雷达输电塔分类样本集“RAD-GFEP”。原始样本集中包含的输电塔形状有“鼓型”“羊角型”“酒杯型”“干字型”“上字型”等。但是,有些类型的样本数量较少。不同类别数目差距过于悬殊容易导致目标分类模型过拟合,影响分类精度。因此,在分类样本集中将少数类别目标剔除。RAD-GFEP分类数据集规模为2 800个输电塔瓦片,数据来源为我国首颗C波段多极化高分辨率合成孔径雷达卫星“高分三号”,成像模式为滑动聚束,图像瓦片分辨率为1 m,极化方式为HH或VV,入射角度20°~50°。
从形状上划分,输电塔一般可分为:酒杯型、鼓型、羊角型、上字型、干字型等。不同地区输电塔的设置往往要考虑能源需求、气候(如冰雪)、线路走向、间距、地形等因素。因此,输电塔的类型往往可以反映出输电廊道的输送能力与功能指标。RAD-GFEP输电塔分类数据集类别数目以及训练集、测试集瓦片数目如表3所示。
表3 RAD-GFEP数据集
其中训练集和测试集瓦片数目的比例为6∶4。利用输电塔分类模块中的6层卷积神经网络模型在RAD-GFEP数据集上进行训练。模型输入的初始瓦片大小为512像素×512像素,根据数据规格和规模的大小,分类网络具体参数设置如表4所示。每个卷积层后都增加一个最大值池化层,它们能够减少模型参数数量,并且避免过拟合现象。在分类算法中对原始数据集采用镜像、平移、缩放等增广策略以提高多样性,增强模型泛化能力。此外,在训练过程中及时关注损失函数值与精度值变化,在模型达到较好收敛条件下采用提早结束的训练策略。这些训练策略的综合使用能够加快参数调整过程,防止模型过拟合现象的发生。模型优化算法采用自适应优化方法(Adam),这种方法可以使模型收敛的更快,损失值更小[23]。
图11中显示出在整个数据集上达到30轮完整的训练后,模型达到了收敛。利用训练好的分类网络对RAD-GFEP测试集进行分类精度检验,表5展示了输电塔分类网络在测试集上的分类混淆矩阵。模型分类的总体精度达到了98.21%,混淆矩阵的Kappa系数值为0.972 9。
表4 输电塔分类网络参数设置
图11 输电塔分类网络精度和损失
类别杯型鼓型角型合计杯型36604370鼓型74396452角型12297300合计3744413071 122
实验中采用了3种人工设计特征算法对输电塔数据集进行分类对比实验。它们分别是:密集尺度不变特征变换[24](D-SIFT)、视觉词袋模型[25](BoVW)、空间塔式直方图词包[26](PHoW)。算法对比测试精度结果如表6所示。基于卷积神经网络的输电塔分类算法精度远远超过了传统的视觉算法。卷积神经网络方法以强大的特征自学习和高泛化能力能够很好地实现对于SAR影像的解译工作。在复杂的陆地背景场下,SAR影像输电塔等微小人工目标的发现、识别、确认精度得到进一步提高。
表6 不同算法分类精度比较
针对复杂背景场下SAR输电塔目标的快速识别、分类问题,本研究提出了一个基于卷积神经网络的算法框架。利用少量人工标注样本集实现对于大尺度范围内输电塔目标的快速提取,以构建一定规模的输电塔样本集RAD-GFEP,然后利用分类网络实现对于输电塔类别的区分。与传统的视觉算法相比,实验所采用的识别分类框架方法取得了更高的精度。在SAR智能解译领域,卷积神经网络以特征自学习和高模型泛化优势展现出了巨大的潜力。研究团队利用本文提出的输电塔快速识别分类框架在城市输电廊道快速提取、输电廊道高度估算等应用中取得了很好的成果。复杂背景场下输电塔等微小目标在SAR影像中的快速、高精度检测研究也表明了高分三号数据具有很好的目标区分性能,也进一步证明了我国首颗C频段多极化合成孔径雷达卫星进行广域输电设施监测的可行性。