基于SVM模型的星载GNSS-R内陆水体识别方法研究

2024-01-18 12:09赵艳敏南洪涛
无线电工程 2024年1期
关键词:查准率掩膜均衡化

赵艳敏,南洪涛,董 超*,孙 波,

(1.山东农业大学 信息科学与工程学院,山东 泰安 271018;2.中国空间技术研究院 载人航天总体部,北京 100094)

0 引言

内陆水资源在人类的生活和生产活动中扮演着重要角色,对内陆水体进行动态监测有利于研究水资源循环和预警洪涝灾害。卫星遥感是水体监测的一种方法,主要分为光学遥感[1-2]和微波遥感[3-4]两种。然而,光学遥感易受云层和地表植被遮蔽,而微波遥感则具有波长较长(相对于可见光和红外)、空间分辨率低和载荷昂贵等缺点[5]。因此,寻找一种既能以较低成本长时间精准识别水体,同时又能避免云层等遮盖影响的方法具有十分重要的实践价值。

全球导航卫星系统反射(GNSS-R)技术是利用导航卫星的反射信号进行遥感探测的一种新型微波遥感技术。与传统微波遥感手段相比,GNSS-R技术拥有大量免费的L波段信号源,具有不需要单独发射机,接收机体积、质量和成本都较低,搭载平台灵活等优点[6-7]。学者们[8-10]利用TechDemoSat-1数据表明了星载GNSS-R观测数据进行水体监测的可行性,但因TechDemoSat-1卫星本身是一颗技术验证卫星,其有限的数据量限制了对利用星载GNSS-R技术进行水体监测的进一步研究。在此基础上,文献[11]利用CYGNSS信噪比(Signal to Noise Ratio, SNR)的方法对湿地动态进行了监测。文献[12-15]利用CYGNSS地表反射率数据进行了水体分布探测,识别内陆水体的位置及其变化。文献[13,16-17]利用延迟多普勒图(DDM)的功率比数据进行了水体探测,水体识别准确率达到93.16%,展现了进行动态内陆水体测绘的潜力。

由此可见,目前国内外对星载GNSS-R水体探测进行了大量研究,但是水体识别的准确率仍然存在可以进步的空间。随着人工智能技术的不断发展,机器学习方法在提高观测精度方面有很大的潜力。支持向量机(Support Vector Machine, SVM)在非线性分类问题上表现优秀,因此本文提出一种基于SVM的星载GNSS-R内陆水体识别方法,以刚果河流域为例,验证了方法的有效性并分析了其精度。

1 研究数据与方法

1.1 研究区简介

刚果河长4 374 km,年平均流量为每秒4.1万m3,流域面积约370万km2,流量和流域面积都居于非洲前列[18]。刚果河流域有世界第二大热带雨林,地表植被茂密。本文研究范围为3°0′N~ 1°0′S,17°0′E~21°0′E。该流域河流主干水流量大,有密集的支流、副支流,有利于做水体研究。

1.2 研究数据

CYGNSS是美国宇航局(NASA)为监测热带气旋演变过程而发射并运行的LEO GNSS-R星座。该星座由8颗微型卫星组成,可以覆盖地球南北纬38°之间的区域。本文使用的是3.0版CYGNSS L1级别2020年整年的数据产品(https:∥podaac.jpl.nasa.gov/dataset/CYGNSS_L1_V3.1)。其标准DDM产品由17个延迟点和11个多普勒点组成,延迟维度分辨率为0.25 GPS C/A码码片,多普勒维度分辨率为500 Hz,每个DDM通过0.5 ms相干积分和1 000次非相干累加得到。陆地、平静内陆水体相对光滑,反射信号主要为相干散射部分,其分辨率理论最高可达0.6 km×3 km。

MOD44W第6版数据产品提供了250 m空间分辨率的全球地表水体数据(https:∥lpdaac.usgs.gov/products/mod44wv006/),其中包含了水体掩膜和质量保证2个图层。水体掩膜数据中0代表陆地,1代表水体;质量保证图层中包含10个等级指标。本文采用2015年整年的掩膜数据。

1.3 研究方法

1.3.1 数据处理

1.3.1.1 星载GNSS-R特征观测量分析

GNSS-R的SNR是水体和陆地最敏感的特征之一。由于地表粗糙,GNSS-R接收到的反射信号功率由相干散射分量和非相干散射分量构成。其中,相干散射分量的功率表达式为[19]:

(1)

式中:Г为表面的反射率,Pt为GNSS卫星发射功率,Gt为GNSS卫星发射天线增益,Gr为GNSS-R信号接收天线增益,λ为GNSS信号的载波波长,Rt、Rr分别为发射机到地面和地面到接收机的距离。求解Г,得到:

Γ=20lg 4π-10lgPtGt-10lgGr+

20lg(Rt+Rr)-20lgλ+10lgPcoh。

(2)

相干散射分量的功率还受到其他变量的影响,如天线增益等。通过计算SNR来减轻这些因素。SNR计算如下:

(3)

式中:Navg为每个频段的平均原始噪声计数。SNR和Г之间关系的函数如下所示:

SNR∝10lgΓ。

(4)

根据GNSS卫星发射功率、GNSS卫星发射天线增益、GNSS-R信号接收天线增益等主要参数对SNR进行校正,得到SNRC的公式如下所示:

SNRC=20lg 4π-10lgPtGt-10lgGr+

20lg(Rt+Rr)-20lgλ+SNR。

(5)

CYGNSS卫星数据处理基本过程主要包括特征值的选择、数据预处理等。特征值的选择是根据GNSS-R模型来从基础观测变量中提取可能影响内陆水的参数,本文使用由CYGNSS卫星获取的SNRC进行内陆水提取。

1.3.1.2 数据质量控制

CYGNSS数据中存在天线增益的影响,需要对 SNR进行修正,得到合适的SNR值进行数据处理。故本文将SNR大于1.5 dB和接收机天线增益大于0 dB的观测数据进行删除。

1.3.2 内陆水体识别

为探索CYGNSS卫星数据在水体识别领域的能力,本文提出一种基于SVM模型并结合SMOTE算法的数据处理方法。该方法分为数据预处理、SMOTE算法数据处理、SVM模型3个步骤,最终得到修正数据SNRC的SVM模型结果及准确率,具体数据处理总流程如图1所示。

图1 数据处理总流程Fig.1 General flowchart of data processing

1.3.2.1 CYGNSS和MODIS水体掩膜数据处理和空间匹配

本文使用SNRC数据,将数据按照0.02°×0.02°的空间分辨率划分网格,利用区域均值算法重新计算各个格网单元的数据,并将结果作为研究对象,形成地表SNR图像。

因为中分辨率成像光谱仪(MODIS)数据投影系统不同,先进行预处理。预处理过程包括:数据合并、转换为TIFF数据、掩膜处理。TIFF数据中包含经纬度信息,将TIFF数据的经纬度与SNR数据的经纬度一一对应,同样将格网单元中的数据进行区域均值算法处理,将大于0的元素标记为水体,得到MODIS水体掩膜网格数据。

1.3.2.2 SMOTE算法

在机器学习领域,处理数据时会出现某一类的样本数量远远低于另一类的情况——类不均衡问题。解决类不均衡问题的方法有随机增大少数类的样本数量、随机减少多数类的样本数量以及修改代价函数等。本文采用SMOTE算法来解决数据不均衡问题。

SMOTE算法是一种随机增大少数类数量的方法。SMOTE算法过程[20]如下:① 对于少数类中每一个样本x,以欧氏距离为标准计算它到少数类样本集中所有样本的距离,得到其k近邻。② 根据样本不平衡比例设置一个采样比例以确定采样倍率N,对于每一个少数类样本x,从其k近邻中随机选择若干个样本,假设选择的近邻为xn。③ 对于每一个随机选出的近邻xn,分别与原样本构建新的样本。

1.3.2.3 SVM模型

机器学习模型在地表探测[21-22]、云检测[23]等方面有诸多应用。机器学习模型可以不断提高检测精度,所以本文选用机器学习SVM进行数据处理。

SVM是一种结合了统计学习理论的VC维理论以及结构风险最小化原则的模式识别方法,在有限的训练样本中寻求学习能力与模型复杂度融合后的最佳折中结果,从而得到最小误差分类器[24]。也是一类按监督学习方式对数据进行二分类的广义线性分类器。

给定数据集{(x1,y1),(x2,y2),…,(xm,ym)},m为样本数量,ym∈{0,1}。SVM定义的模型为:

(6)

式中:ω=(ω1,ω2,…,ωd)为法向量,b为位移项,ξi为松弛因子,C为常数。

根据1.3节的讨论,选择x=(SNRC)作为SVM的输入变量。将使用MODIS水体掩膜作为SVM的输出变量y。

输入变量x与y的关系是非线性关系。引入核函数解决SVM模型非线性问题[25]。有3种核函数可以训练SVM模型[26],核函数公式如表1所示,线性核函数是径向基核函数的一种形式。多项式核函数需要确定的参数多,从而导致函数复杂化,造成程序计算困难。综合考虑本文选择径向基核函数,无论是小样本还是大样本,高维还是低维等情况,径向基核函数均适用。

表1 SVM核函数

1.3.2.4 SVM模型构建

SVM模型的训练一般步骤包括:准备数据集、统一数据格式、选用径向基核函数、采用交叉验证获取参数C与g、采用参数C与g对整个训练集进行训练获取SVM模型、利用获取的模型进行测试与预测[27]。

本文研究模型所使用的特征较少、参数空间小,网格搜索算法数据处理简单且易于实现。本文采用网格搜索算法获取径向基核函数需要的参数C与g。网格搜索算法的原理是将待搜索的内容在一定的空间范围内划分成网格,网格中的每个点代表一种参数组合方案,遍历网格内所有点,可找出性能最优的参数组合。

经过数据处理,将SNRC的随机训练集样本输入到SVM算法中以建立二分类模型,然后利用二分类模型完成对内陆水提取准确率估计,综合分析内陆水的准确率和混淆矩阵。

1.3.3 数据验证

评估SVM模型最简单、最直接的标准就是分类准确率(Accuracy),但单纯用准确率来评估SVM模型的性能不够严谨,还需要借助由混淆矩阵形成的查全率、查准率来更为细致地评估性能。

根据真实类别和预测类别的不同组合,将样本划分为如下4类:真正类(TP)、假正类(FP)、真负类(TN)、假负类(FN),如表2所示。本文以MODIS水体为真实值正类,MODIS陆地为真实值负类,SNRC水体为预测值正类,SNRC陆地为预测值负类。MODIS影像产品是光学遥感数据,其观测会被云层或植被阻挡,造成一定的数据错误。

表2 SVM混淆矩阵

准确率的具体数学表达为:

Accuracy=(TN+TP)/(TN+TP+FN+FP)。

(7)

查全率(Recall)又称召回率,表示分类准确的正类样本数占全部正类样本总数的比例。具体数学表达为:

Recall=TP/(TP+FN)。

(8)

查全率是指检索出来的相关数据占总数据中全部相关数据的比例,反映的是检索的全面性。

查准率(Precision)表示被预测正确的正类样本数占分类器判定为正类样本总数的比例。具体数学表达为:

Precision=TP/(TP+FP)。

(9)

查准率反映的是检索的准确性,即真正相关页面数占全部检索出的相关页面数的比例。

2 结果分析

2.1 SNRC特征值分析结果

对2020年7月的CYGNSS的网格化SNRC数据进行直方图统计,如图2所示。可以明显看出,陆地与水体在159~160附近有明显的分界线,表明SNRC可以进行水体提取。

图2 陆地与水体SNRC强度直方图Fig.2 Intensity histogram of SNRC of land and water body

2.2 CYGNSS和MODIS 水体掩膜数据匹配结果

CYGNSS和MODIS 水体掩膜数据匹配过程中产生了4幅图像,图3(a)是通过MODIS数据获得的研究区域水体掩膜图;图(b)是图3(a)网格化获得的数据;图3(c)是图3(b)经过1.3.2.1节判断原则得到的二值化MODIS数据;图(d)是CYGNSS SNRC网格化数据。对比刚果河SNRC数据和刚果河MODIS水体掩膜数据,如图3所示。MODIS水体掩膜数据捕捉到的河流有更为清晰,而SNRC数据结果则相对比较粗糙,分辨率不高,但能够识别出更多的河流支流。大部分的河流主干都可以互相对应,MODIS数据可以作为辅助数据来验证SVM模型的准确度。

(a)研究区域GeoTIFF数据

(d)刚果河MODIS 水体掩膜图像

2.3 SVM模型参数寻优结果

获得的C、g组合的交叉验证过程如下:把总的训练集分成3个子集,每次选出一个作为测试集,其余的作为训练集进行训练,然后用测试集测试得到的训练模型,得出一个正确率。当3个子集都做过测试集后,即执行过3次这样的训练与测试后,取3次正确率的平均值作为最终正确率。通过交叉验证来评估该训练模型的预测正确率,以取得最高正确率的参数组合作为最终结果。结果C为11.313 7,g为16,准确率为94.40%,如图4所示。

图4 SVM参数选择等高线图Fig.4 Contour map of SVM parameter selection

2.4 水体识别结果分析

经过训练集和测试集训练出的SVM模型对刚果河SNRC数据进行测试,刚果河二值化SNRC数据表明河流主干及其部分河流支流识别正确,如图5所示。浅蓝色部分是MODIS数据中未存在河流,如图6所示,其部分原因是刚果河处于热带雨林区,茂密的植被对实验数据造成了遮挡和误判,但是通过SVM模型正确识别出细小支流,提高了水体提取的准确度。

图5 SVM预测二值结果Fig.5 Binary result diagram of SVM prediction

2.5 未均衡化数据结果

刚果河未均衡化SNRC的SVM模型结果,如图7、图8所示,训练集混淆矩阵的结果:水体正类查准率为21.78%;陆地负类查准率为97.88%。测试集混淆矩阵的结果:水体正类查准率为5.39%;陆地负类查准率为97.76%。水体与陆地的准确率相差非常大,未均衡化数据模型训练集查全率为72.59%;测试集查全率为56.83%,说明检索数据非常不全面。

图7 刚果河未均衡化训练集混淆矩阵Fig.7 Confusion matrix of Congo River unbalanced training set

图8 刚果河未均衡化测试集混淆矩阵Fig.8 Confusion matrix of Congo River unbalanced test set

2.6 均衡化数据结果

刚果河均衡化SNRC的SVM模型结果,如图9和图10所示。训练集混淆矩阵的结果:水体正类查准率为96.42%;陆地负类查准率为96.99%。测试集混淆矩阵的结果:水体正类查准率为96.32%;陆地负类查准率为99.80%。均衡化训练集查全率为99.56%;测试集查全率为100.00%,检索数据的全面性都高达99%以上。对比2种数据发现,准确率与水体查全率都得到很高的提升,表明:① 数据的不均衡会导致模型的准确率降低;② SMOTE算法可以有效地提高水体查准率。

图9 刚果河均衡化训练集混淆矩阵Fig.9 Confusion matrix of Congo River equalization training set

图10 刚果河均衡化测试集混淆矩阵Fig.10 Confusion matrix of Congo River equalization test set

刚果河2种数据SVM模型的准确率对比如表3所示,表明了SMOTE算法数据均衡化后进一步提高了内陆水提取的准确率。

表3 刚果河均衡化 SVM模型的准确率

现有的水体提取准确率如表4所示。水体提取准确率最高为95.4%,最低为92%,与表格中水体提取准确率相比,使用SVM模型提取数据的准确率有了进一步的提高。

表4 水体提取准确率

3 结束语

本文通过使用SVM模型结合SMOTE算法提出了一种有效的内陆水体提取方法。利用CYGNSS校正后的SNRC数据,经过SMOTE算法处理,数据得到了均衡化。通过将数据输入SVM模型进行训练与测试,最后获得准确率为96.49%、水体查准率为96.32%的结果。因此,本文研究成果表明: ① CYNGNSSSNRC数据可以用于内陆水体的提取;② SVM模型可以进一步提高内陆水体提取准确率;③ SMOTE算法可以用于处理数据不均衡问题,提高了内陆水体识别的准确率,为未来的研究提供了可行的方法。

猜你喜欢
查准率掩膜均衡化
利用掩膜和单应矩阵提高LK光流追踪效果
一种结合图像分割掩膜边缘优化的B-PointRend网络方法
基于数据挖掘技术的网络信息过滤系统设计
大数据环境下的文本信息挖掘方法
光纤激光掩膜微细电解复合加工装置研发
基于深度特征分析的双线性图像相似度匹配算法
多层阴影掩膜结构及其制造和使用方法
制度变迁是资源均衡化的关键
直方图均衡化技术在矢量等值填充图中的算法及实现
EDIUS 5.1音量均衡化