面向光伏电站识别的深度实例分割方法

2022-07-13 07:52:22周树芳张小咏陈正超卢凯旋
福州大学学报(自然科学版) 2022年4期
关键词:置信度分支实例

周树芳,张小咏,陈正超,卢凯旋

(1. 北京信息科技大学高动态导航技术北京市重点实验室,北京 100101; 2. 中国科学院空天信息创新研究院,北京 100094)

0 引言

太阳能等清洁能源,对于发展绿色经济十分必要. 我国地域广阔,大部分地区太阳辐射照度较大,可以直接利用的太阳能资源非常丰富. 因此,准确获得光伏电站的位置、空间分布和面积信息,对优化能源结构、合理开采不可再生能源具有重要意义. 遥感通过非接触、远距离、大范围的测量,为客观公正地获取光伏电站的产能情况提供新的途径.

作为一种实现人工智能的强大技术,深度学习已经在手写数字识别、维数约简、语音识别、机器翻译、情感识别等领域取得应用和发展[1]. 特别是在图像检测方面,深度学习可有效解决目标图像场景复杂、种类繁多(包括光照、遮挡、目标形态等)诸多干扰因素,应用较为广泛. 对于复杂多变的遥感影像,深度学习技术相比传统的基于物理模型特征提取技术在精度和速度上都有较大优势. 将基于深度学习的实例分割算法应用于新疆地区的大面积光伏电站提取,可以显著提升国家能源部门对光伏电站位置、空间分布以及产能研判能力.

随着深度学习在自然图像上的广泛应用,近几年遥感学者将用于RGB三波段真彩色自然图像的实例分割算法引入遥感图像领域,并在原网络的基础上做了不同的改进. Lu等[2]设计一个基于卷积神经网络(CNN)的实例分割模型,可有效提取细粒度实例,同时采用基于特征的方法获得更准确的局部特征匹配,对建筑物实现更准确的定位效果, 但该网络对于目标深度特征的提取依赖于手工特征,导致网络对于目标的深度特征提取不够,影响模型对于目标边界的精细化提取. Feng等[3]提出一种称为SLCMASK-Net的新网络,通过引入局部连续的上下文模块(SLC)逐步学习多尺度信息,避免不同实例之间的混淆,有效分离了不同的船舶. Su等[4]提出一种基于级联Mask R-CNN 的遥感影像实例分割新方法,该方法利用高分辨率特征金字塔网络,对高分辨率多级特征图进行充分利用,并维护高分辨率特征图,以提升遥感图像的实例分割效果. 张昆仑等[5]提出一个两分支结构的实例分割网络,目标分支采用级联结构,通过逐步增加阈值筛选目标框; 语义分割分支通过计算目标实例特征图和分割特征图的点积,提升了网络对于尾矿库的识别能力. 上述学者已经在实例分割网络上做了很多工作,由于遥感图像具有拍摄范围大,背景信息复杂、光照阴影差异大等特点,其提出的网络对于大范围内遥感影像边界信息的理解不足,导致检测精度有待进一步优化.

基于遥感图像复杂特征衍生出来的光伏电站特征更加复杂,具体表现为如下两个方面. 1) 光伏电站的边界不规则,目标轮廓并非方正的矩形构造,其建设要根据当地的地形因地制宜,最终在遥感影像上呈现的特征是杂乱无章的. 2) 根据当地的实际需求光伏电站的建设规模不一,导致目标的尺度范围大,故在样本的制作和网络的构造过程中需要对光伏电站的尺度信息进行综合考虑,对光伏电站的特征进行拟合以提升网络对于目标轮廓的精细化提取. 在对光伏电站进行提取时,传统的实例分割网络Mask RCNN分别学习目标矩形框的位置和类别信息,目标Mask像素位置信息. 其中,网络学习得到的目标特征分类置信度由目标矩形框的质量决定,对于遥感图像上光伏电站这类外形呈面状,尺度大小不一,空间几何特征(比如,方形、长条形、不规则多边形)存在较大不同的,目标特征的质量非常关键,多数情况下目标框的质量并不能代表目标Mask像素的质量,从而影像光伏电站的精细化提取.

基于以上考虑,在传统实例分割网络基础上设计了一种融合逐像素置信度的两分支(目标检测分支与分割分支)深度实例分割网络. 该深度实例分割网络通过4个损失结构(边界框回归损失、边界框置信度损失、Mask像素交叉熵损失、Mask置信度损失)和2个分支结构完成,在纵向上保证了网络每一层的语义信息,在横向上保证了目标检测分支和分割分支的信息共享,使得网络每个阶段都能得到更高质量的预测结果,最终实现了新疆地区的光伏电站精细提取.

1 研究区域和数据

1.1 研究区域

选取新疆作为光伏电站的提取区域. 新疆是中国陆地面积最大的省级行政区且光照充足,是大型光伏电站建设选址的理想区域. 但该地区产业结构层次低,经济的增长过度依赖传统能源,长期高投入、高产出、高污染的粗放型增长已经严重阻碍了新疆生态文明建设与经济的可持续发展. 近年来,新疆地区已经建设了众多光伏电站,为实现传统能源战略向新能源战略的转变提供了条件.

1.2 数据预处理

1.2.1数据源及预处理

采用国产高分一号(简称GF-1)卫星数据为数据源,数据源采集条件是2台2 m全色/8 m多光谱相机且天气晴朗. 使用像素工厂软件对2016—2020年的GF-1卫星影像进行预处理. 首先,对全色影像和多光谱影像做自适应分段线性拉伸,改善原始影像的清晰度和对比度. 然后,通过空中三角测量优化有理多项式函数模型(rational polynomial coefficients model, RPC模型)[6]参数,提高高分影像的定位精度. 利用优化后的有理多项式函数模型参数进行正射校正,在有地面控制点或者参考影像条件下,经正射校正的影像绝对精度可优于4个像素. 最后,使用全色融合方法融合全色影像和多光谱影像,生成分辨率为2 m的RGB遥感影像. 经过预处理后的GF-1遥感影像尺寸太大,无法直接输入网络进行训练. 所以在制作样本之前,需要对遥感影像进行切割处理,切片像素大小为2 560 px × 2 560 px.

1.2.2样本和测试数据

采用爬虫和人工解译方法,共获取全国467个光伏电站的点位,其中新疆63个,部分样本如图1所示. 通过LabelMe标注非新疆地区的404个样本,将其作为训练数据.

图1 形状多变的光伏电站Fig.1 Photovoltaic power plants with variable shapes

样本制作应考虑如下3种因素的影响:

1) 尺度划分. 光伏电站是对太阳能直接利用,其占地面积大,最大的占地面积可达到3.8 km2. 要保证光伏电站的特征(电站轮廓、纹理,变电室、检修通道等)提取无损失,选取空间分辨率为2 m的GF-1号卫星影像作为样本的数据源,综合考虑影像分辨率、尺度大小、设备处理能力,将GF1号卫星影像裁剪成像素大小为2 560 px × 2 560 px的切片,裁剪中心点定为光伏电站的坐标.

2) 区域选择. 光伏电站整体表现为面状(看似简单实则没有区分度),且部分检修通道存在的干扰物,局部特征学习不利于光伏电站的提取,样本制作将连续成片的光伏板、检修通道看作单一目标物,将它们作为整体特征进行学习,样本标记采用沿着目标边界对光伏电站进行标记,同时消除多余背景对光伏电站特征造成的影响.

3) 时相影响. 目前正处于传统能源向清洁能源转型时期,光伏电站建造受时间影响较大,不同时期的光伏电站特征存在差异,为准确全面提取光伏电站的特征,采用近5年的多时相遥感影像用于制备样本.

基于以上原则,共制作1 747张光伏电站训练集样本,300张验证集样本,成像时间2016—2020年; 测试数据146 153张,成像时间为2020年6月.

2 研究方法

采用深度实例分割网络对光伏电站进行提取,具体过程如图2所示. 具体采用如下6个步骤:

1) 对GF-1影像进行预处理后将影像制做成样本,得到训练集和验证集.

2) 采用ResNet-50提取光伏电站的基础特征和用FPN丰富多尺度信息.

3) 在分割分支通过逐像素置信度模块计算预测Mask和真值之间的IoU.

4) 计算分割分支的IoU和目标分支分类置信度的乘积,实现分割分支和目标分支之间的信息共享.

图2 新疆地区光伏电站提取流程Fig.2 Extraction process of photovoltaic power plants in Xinjiang

5) 在网络头部添加目标框位置、目标框置信度、逐像素位置、逐像素置信度4个损失结构,构建面向光伏电站的目标提取网络(如图3所示).

6) 对设计的网络进行训练得到优化的检测模型,再将优化检测模型对新疆地区进行光伏电站检测,得到新疆地区光伏电站的空间分布信息.

2.1 逐像素置信度模块

传统Mask RCNN网络,首先经过残差网络(residual network, ResNet)[7]提取光伏电站一些浅层的特征; 接着使用特征金字塔网络(feature pyramid networks, FPN)[8]进一步丰富这些浅层特征; 然后采用区域推荐网络(region proposal network,RPN)[9]络提取候选区域; 最后经过ROIAlign[10]优化候选区域,并执行候选框分类、边界框回归和Mask掩膜生成. 其中,Mask的类别信息由目标检测分支的目标框提供. 但是,目标框置信度只能区分提议框的语义类别,并不能反映Mask的类别信息,所以使用目标框置信度来评价Mask的分类会使分割结果出现偏差,对于光伏电站这类背景繁杂、边界模糊的对象而言分割误差会更大. 基于上述考虑,通过计算逐像素的类别损失来评价Mask区域的类别置信度,使Mask区域的类别置信度不仅由目标检测分支目标框框提供,从而提升掩膜质量的完整性,优化网络对光伏电站边界信息的提取.

图3 深度实例分割网络结构图Fig.3 Structure diagram of the deep instance segmentation network

为了使网络学习到Mask区域的类别置信度,首先要保证分割分支和目标检测分支保持信息共享. 针对传统Mask RCNN不同任务分支之间没有信息交流,没有实现检测分支和分割分支之间的参数共享学习. 先通过逐像素置信度模块实现预测Mask和真值Mask之间的IoU计算. 逐像素置信度模块的输入为Mask RCNN的掩膜输出和ROIAlign特征层,主要采用卷积核为2,步长为2的最大池化使Mask掩膜的空间大小和RoI特征层一致,以便后面通道融合; 在回归时,只回归目标一类(即光伏电站). 逐像素置信度模块由4个卷积层和3个全连接层组成. 卷积层保持和Mask RCNN相同,卷积核的大小设置为3、个数设置为256. 对于全连接层,按照RCNN头部结构将全连接层的输出设为1 024,最终输出网络的类别数.

图4 逐像素置信度模块Fig.4 Pixel-by-pixel confidence module

对于逐像素模块的输入,采用4组对比试验,通过实验结果选择最优结构的网络对新疆地区的光伏电站进行提取. 4组对比实验如下:

1) 第1组将单个类别的Mask和RoI特征层相加,记为Mask + RoI,结构图如图4所示;

2) 第2组将单个类别的Mask和RoI特征层相乘,记为Mask × RoI;

3) 第3组将所有的C种类别的Mask和RoI特征层相加,记为CMask + RoI;

4) 第4组采用原始的Mask RCNN算法.

通过逐像素置信度模块(Mask+RoI)先进行预测Mask和真值之间的IoU的计算; 然后将分割分支的IoU和目标检测分支分类置信度相乘,完成分割分支和目标检测分支之间的信息共享; 最后,通过预测的Mask每个像素点的损失函数反向传播,优化预测的Mask像素分类精度,提升预测Mask的质量. 整个网络的损失为:

L=Lbox+Lcls+Lseg+Lconf

(1)

式中:Lbox表示分类损失;Lcls目标边界框损失;Lseg表示像素交叉熵损失;Lconf表示Mask置信度损失.

2.2 网络训练

对GF-1影像进行预处理后得到用于训练的光伏电站样本,接着将样本输入到网络. 首先网络对输入数据进行增强,丰富样本的多样性,防止较少的数据造成网络过拟合. 数据增强后卷积网络对样本进行训练,卷积核在特征图上进行滑动来提取图像特征信息; 然后网络对特征图上每个像素产生一定宽高比的候选框,并将候选框与真值框进行IoU计算,若IoU大于0.5网络将该候选框判断为正样本,否者判为负样本. 以此过程进行网络迭代优化,得到最佳参数配置的模型.

实例分割网络基础参数batch_size表示每一批次GPU处理的图片样本数,它与输入图像大小和GPU处理能力有关,设置合理将提高内存利用效率,设为2; 学习率(learning rate)代表网络每次更新参数的速度,学习率越小,网络训练时间越长,设为0.02; 权重衰减系数(weight_decay)设为0.000 1; 动量因子(momentum)为0.9; 总的迭代批次total_epochs设为30,其中学习率采用线性增加的学习率策略. 实验硬件环境为4个12 GB显存的NVIDIA Titan XP GPU、CUDA2.0及 Intel Xeon E5 CPU,采用的软件框架为Pytorch.

2.3 精度评价方法

模型优劣的评价需要选择评价标准,采用精度(Precision)、召回率(Recall)和F1分数(F1Score)这3个常用的深度学习目标检测领域评价指标对光伏电站结果进行分析评价. 指标定义如下:

(2)

(3)

(4)

式中:TP表示目标为光伏电站检测结果也为光伏电站(正检); FP表示目标非光伏电站检测结果为光伏电站(误检); FN表示目标为光伏电站检测结果为背景(漏检). 通常情况下,精度和召回率表现为负相关,而F1分数是将两者结合起来对网络进行综合评价.

3 实验结果与分析

3.1 模型性能

使用相同的数据集(训练集1 747张、测试集300张)对改进的Mask RCNN(Mask + RoI、Mask × RoI、CMask + RoI、Mask RCNN)和原始Mask RCNN进行训练,最终得到4种针对光伏电站检测的实例分割模型,然后对比分析不同检测模型对于光伏电站的识别能力.

3.1.1平均精度均值(mAP)

图5 网络训练的平均精度均值曲线Fig.5 mAP curve for network training

平均精度均值能从整体上反映出一个模型的优劣程度,它是实例分割中模型评价的重要评价指标. 为降低无关变量的影响,在训练不同模型时除改进部分, 其余参数的设置均保持相同,如图5所示. 从图5可见,在相同数据集的情况下,不同网络的mAP存在一定的差异,且采用改进的Mask + RoI结构的网络表现最佳,经过30次迭代训练之后mAP达到85.8%,比Mask × RoI、CMask + RoI和原始Mask RCNN分别高出3.8%、2.9%、6.4%. 在光伏电站的数据集上,原始Mask RCNN的mAP最低,其最佳的mAP为79.6%.

3.1.2验证集精度、召回率和F1分数

将4种网络经过30次迭代训练后得到4种模型,然后用4种模型对验证集中的光伏电站进行检测,每一种模型测试采用10组阈值(0.50~0.95), 得到10种不同的检测结果. 最后, 得到每一种模型下10组阈值的精度、召回率、F1分数,并绘制它们的变化趋势,如图6所示.

由图6可知,置信度阈值和精度呈现正相关,与召回率呈现为负相关. 在这四种网络中带有Mask + RoI结构的网络呈现出最佳性能,最高精度达到92.6%,在0.50以上置信度阈值的情况下召回率保持在96.4%以上,而在阈值为0.95时F1分数达到94.45%. 对比分析可知,带有CMask + RoI、Mask × RoI结构的网络性能依次降低,其最大精度依次为,90.1%、89.4%; 召回率两者在95.0%以上; 其最大的F1分数依次为92.5%、92.1%; 原始Mask RCNN性能表现最差,最高精度为77.4%,召回率在94.2%以上,F1分数最高为85.0%.

图6 不同阈值下的精度曲线、召回率曲线和F1分数曲线Fig.6 Trend of precision, recall and F1 Score curves at different confidence threshold

通过以上实验和分析,添加Mask + RoI、Mask × RoI、CMask + RoI模块相比于原始Mask RCNN网络精度、召回率、F1分数都有一定程度的提升. 其中添加Mask + RoI模块的网络在这3种评价指标中均表现出了最好的性能. 深度实例分割网络通过添加逐像素置信度模块,同时考虑预测掩膜与真实掩膜之间的IoU, 以及目标检测分支分类置信度,取代了原始Mask RCNN中仅仅只使用分类分数来评估最终掩膜质量的处理方法,结果表明,这种改进提升了光伏电站的检测精度.

3.2 新疆地区光伏电站提取结果与分析

通过上述实验,最终选择加入逐像素置信度模块(Mask + RoI)的网络,使用1.2.2节中制作完成的训练集和测试集经过30次迭代得到最终用于光伏电站检测的模型; 采用1.2.2节中的测试数据使用4个GPU在17 h完成.

在对新疆地区光伏电站实际检测中,采用综合性能最好的模型对光伏电站进行提取,考虑到召回率的优先级更高,先采用0.2的置信度将模型用于新疆地区光伏电站的检测,后逐步提高置信度得检测结果如表1所示. 在置信度为0.8时得到光伏电站295个,通过人工解译发现误判49个,漏检29个,经计算在置信度为0.8时光伏电站的检测精度为83.4%. 新疆地区光伏电站检测结果如图7所示.

表1 不同阈值下模型的检测结果

图7 新疆地区光伏电站检测结果Fig.7 Detection results of photovoltaic power plants in Xinjiang Region

对新疆不同地区光伏电站检测结果的面积、数量、分布、大小光伏的贡献进行统计分析,结果如图8所示. 由图8可见,新疆地区光伏电站总面积为198.38 km2, 其中,吐鲁番地区、哈密地区等东部地区比克孜勒苏柯尔克孜自治州、喀什地区等西部地区光伏产业密集,光伏电站面积达77.09 km2; 阿勒泰地区、塔城地区等北部地区光伏产业分布较少,光伏电站面积为5.15 km2; 其余地区分布相对均匀. 从光伏个数上看,新疆各地区光伏电站数量越多,该地区光伏电站面积一般也越大,表明各个地区单个光伏电站建设规模大体上一致. 从大小光伏的贡献上看,光伏电站建设面积在0.80 km2以下的较多,数量为211个,总面积为92.65 km2; 光伏电站建设面积在0.80 km2以上的较少,数量为64个,面积为105.73 km2,表明总体上新疆大面积光伏建设和小面积光伏建设对新疆光伏发电的贡献基本相当.

图8 新疆地区光伏电站检测结果统计Fig.8 Statistical map of detection results of photovoltaic power plants in Xinjiang Region

4 结语

通过分析基于遥感影像的光伏电站特征,改进传统Mask RCNN的特征分类信息的衡量标准,提出添加逐像素置信度模块的深度实例分割网络. 该网络通过改变衡量Mask掩膜的标准,即将预测掩膜与真值掩膜二者之间的IoU和目标检测分支分类置信度结合起来度量光伏电站掩膜的质量. 最后网络头部由目标框位置、目标框置信度、逐像素位置、逐像素置信度4个损失结构构成,通过反向传播优化预测Mask像素的分类精度,提升网络对于光伏电站精细边界的识别. 实验结果表明,此改进有利于网络对于光伏电站的提取,使得该网络对于光伏电站检测精度达到83.4%. 同时,实验也证明了将深度学习方法应用于遥感大数据中能够实现对复杂目标的准确获取. 相比于传统的统计方法,该方法对于大面积区域中目标的高效获得具有重要意义. 当然,该方法也可以应用于基于遥感影像的其他目标的获取,获取结果可为相关行业提供数据支撑.

由于光伏电站特征比较复杂,我国中部和东部的山区光伏电站的样本不便制作,导致用于模型训练的数据较少,这在一种程度上限制了模型的精度. 但光伏电站特征丰富,山区中光伏电站局部地区特征具备一致性,今后主要对山区光伏电站局部特征进行研究,进一步优化网络结构,从而提升光伏电站整体特征的识别,实现更大范围的光伏电站提取.

猜你喜欢
置信度分支实例
硼铝复合材料硼含量置信度临界安全分析研究
巧分支与枝
学生天地(2019年28期)2019-08-25 08:50:54
正负关联规则两级置信度阈值设置方法
计算机应用(2018年5期)2018-07-25 07:41:26
一类拟齐次多项式中心的极限环分支
置信度条件下轴承寿命的可靠度分析
轴承(2015年2期)2015-07-25 03:51:04
完形填空Ⅱ
完形填空Ⅰ
生成分支q-矩阵的零流出性
硕果累累
多假设用于同一结论时综合置信度计算的新方法✴
电讯技术(2011年11期)2011-04-02 14:00:37