常江 丁雷
摘 要: 通过神经网络和机器学习的方法建立遥感影像的光谱信息与土壤湿度之间的模型,采用遥感手段大范围预测地表土壤湿度。以“天宫二号”2016年9月24日宽波段成像仪采集的可见光近红外谱段影像作为模型输入,选取与“天宫二号”影像相同采集时间和经纬度的SMAP/Sentinel?1 L2土壤湿度产品作为输出,分别通过贝叶斯神经网络算法和随机森林算法建立光谱信息和土壤湿度数据之间的关系。结果表明:采用贝叶斯线性回归反演时,当隐含层节点个数为24时训练效果最好,R2为0.755,均方根误差RMSE为0.161;采用随机森林机器学习算法反演时,当决策树个数为60时效果最好,R2为0.809,均方根误差RMSE为0.120。对“天宫二号”影像进行土壤湿度反演时,随机森林模型比贝叶斯神经网络模型的精度更高,拟合效果更好,可以实现较为准确的大范围土壤水分含量预测。
关键词: 土壤湿度反演; 贝叶斯神经网络; 随机森林; “天宫二号”; 建立预测模型; 精度评价
中图分类号: TN219?34 文献标识码: A 文章编号: 1004?373X(2020)06?0082?04
Method of soil moisture retrieval in Tiangong?2
CHANG Jiang1,2,3, DING Lei1
(1. CAS Key Laboratory of Infrared Detection and Imaging Technology, CAS Shanghai Institute of Technical Physics, Shanghai 200083, China;
2. University of Chinese Academy of Sciences, Beijing 100049, China; 3. Shanghai University of Science and Technology, Shanghai 200031, China)
Abstract: The model between the spectral information of remote sensing image and the soil moisture is established by means of the neural network and machine learning method to predict the surface soil moisture on a large scale by remote sensing. The visible light and near?infrared spectrum image acquired by the Wide?band imager on September 24, 2016 is used as the model input, SMAP/Sentinel?1 L2 soil moisture product with the same time and latitude and longitude as the Tiangong?2 image is selected as the model output, and the relationship between spectral information and soil moisture data is established by means of the Bayesian neural network algorithm and random forest algorithm, respectively. The results show that when using Bayesian linear regression inversion, the training effect is best with the number of hidden layer nodes is 24, R?square is 0.755, and root mean square error is 0.161. In the soil moisture inversion of tiangong?2 image, the random forest model has higher accuracy and better fitting effect than the Bayesian neural network model, which can achieve more accurate prediction of soil moisture content in a large range.
Keywords: soil moisture retrieval; Bayesian neural network; random forest; Tiangong?2; build prediction model; precision evaluation
0 引 言
“天宫二号”空间实验室是继“天宫一号”完成任务后,发射的第二个太空实验室,从2016年9月起,运行状态良好,工作稳定,获取了大量的遥感数据,覆盖范围为南北纬42°以内的区域。而它搭载的宽波段成像仪可以获取高时间、空间分辨率的多光谱影像,光谱范围为可见光近红外谱段、短波红外谱段以及热红外谱段,实现了大视场全推扫的集成功能。研究“天宫二号”对地观测的多光谱数据可以对我国的农、林业的发展,气候、水土的预测以及自然灾害的防治起到至关重要的作用。
土壤湿度指数是辅助农林业观测的重要参数,代表土壤中水分的含量。目前对于土壤湿度的观测方法是传统的探测方法,通过采用质量或者探针测量法来测定土壤中水分含量[1]。这种方法的局部精度非常高,但是代价就是需要消耗大量的人力物力,而且不适用于大规模的土壤湿度预测。针对传统探测方法的局限性,遥感观测方法应运而生。遥感技术可以大规模获取地面信息从而预测大范围的土壤湿度信息,更好地推动我国水土和农林业的发展。但是对于如此庞大的数据样本来说,一般的线性回归算法无法很好拟合出高精度的反演模型[2?3]。神经网络和机器学习的方法可以很好地建立大数据样本和输出之间的关系,其中的贝叶斯算法和随机森林算法在保持高预测精度的同时还可以有效地解决模型过拟合的问题[4]。
本文选用的影像数据是“天宫二号”宽波段成像仪可见光近红外谱段的二级产品,土壤湿度数据采用的是NASA的SMAP/Sentinel?1 L2土壤湿度产品,对影像进行大气校正和云掩膜处理后,分别采用神经网络中贝叶斯线性回归的算法和机器学习中随机森林的算法对土壤湿度参数进行反演并比较两种算法的精度,最后生成土壤湿度专题图。
1 数据选取及预处理
1.1 “天宫二号”宽波段成像仪影像
“天宫二号”的宽波段成像仪具有宽视场、宽波段以及“图谱合一”的特点。在国内外首次实现了可见近红外谱段、短波红外谱段和热红外多谱段的组合集成功能,并可以进行大视场全推扫的成像。宽波段成像仪在可见近红外具有通道可编程功能,在可见光近红外、短波红外和热红外谱段具有多光谱探测的推扫式成像特性。主要用于中等(偏高)地面分辨率、监测较大尺度的地面物体,适用于陆地、大气探测和湖泊、海洋检测等气候观测。
本文中的遥感影像从载人航天空间应用数据推广服务平台获取,申请了“天宫二号”的宽波段成像仪可见光近红外波段的二级产品。因遥感影像需要与对应土壤湿度产品进行匹配,而本文中選取的土壤湿度数据并非全球覆盖,所以选择的研究区域为美国科罗拉多州奎斯塔城市(33°4′48"N, 105°34′98"W),影像空间分辨率100 m,视场角42°,刈幅300 km, 采用大幅宽虚拟相机高精度传感器校正模型进行宽波段数据无控制点几何校正处理,定位精度在8个像元内,通道中心波长指标如表1所示。
1.2 SMAP土壤湿度数据
土壤湿度产品是从Nasa Earthdata Search获取的SMAP/Sentinel?1 L2 土壤湿度产品,分辨率3 km,数据格式为HDF5 [5]。选用2016年9月24日的数据,从中提取经度、纬度、土壤湿度三个参数与所选“天宫二号”影像进行经纬度匹配。为了方便程序的读写,提取后的土壤湿度用Excel格式存储,每个单元格记录经度、纬度以及对应的土壤湿度。
1.3 大气校正和云掩膜处理
从空间数据中心获取的影像已经做过几何校正和辐射定标,因此仅需进行大气校正即可。
选用ENVI快速大气QUAC校正工具,该工具可以自动从图像上收集不同物质的波谱信息,获取经验值来完成较高精度的多光谱影像大气校正。大气校正前后的光谱信息如图1所示。
为了除去遥感影像中云层的影响,还需要对“天宫二号”影像中的厚云进行掩膜处理,识别影像中的厚云将其提取出来并剔除掉,使其不参与样本训练的计算。因“天宫二号”影像年份较新,ENVI等图像处理软件无法自动做去云处理,本文选用的云掩膜算法是2018年Han Zhai等人在ISPRS上发表的基于光谱指数的多光谱影像云掩膜算法,提取后的云如图2所示。
云掩膜原理:
式中:T1,T2为约束可见光和近红外波段云反射设定的阈值;CI1用来衡量可见光波段和红外波段反射特性的相似性;CI2用来表示云的亮度特性;CSI用来表示云阴影在较长波长下的反射特性[6]。
对“天宫二号”影像进行云掩膜后,得到无云影像,然后可以进行影像值提取,采用ArcGIS软件提取特征值,将云掩膜后的“天宫二号”数据与对应区域的SMAP土壤湿度数据进行匹配,设定为地理坐标系WGS84。最终套合的结果如图3所示。
2 研究算法
2.1 贝叶斯神经算法
本文采用的第一个反演算法是贝叶斯线性回归神经网络算法。输入层设置为经过预处理后的“天宫二号”影像,输出层设置为对应的SMAP土壤湿度数据,隐含层层数初步设置为1。贝叶斯算法相较于其他神经网络算法的一个最大的优点是,针对数据量不是特别大的样本,模型也会有比较好的训练效果,不会出现过拟合的情况[7]。
贝叶斯算法的核心是,每当一个训练样本进来以后,是以概率密度的形式进行学习和训练,并不是仅仅以样本数据的形式进行学习。在训练模型的时候把未知参数看作随机变量,然后用样本的概率分布计算未知的随机变量[8]。
贝叶斯公式:
式中:[θ]表示随机变量;[x]表示样本;[πθx]表示后验分布。
2.2 随机森林算法
近年来随着人工智能技术的普及,机器学习的方法在我国各个领域均取得了比较好的突破。经过验证,在众多机器学习方法中,随机森林的方法具有很好的效果和精度,并且可以有效地防止过拟合的问题。因此,本文选用随机森林算法对“天宫二号”的影像进行土壤湿度反演。随机森林的主要原理是采用一组分类器而不是一个分类器对样本进行学习和训练,而这个分类器往往以决策树为基础。对原始样本集进行随机样本的抽取,得到样本的采样集,然后对这些样本的采样集分别建立决策树模型,最后投票选出一个最优的结果来决定最终的分类模型。
分类决策模型公式为:
式中:[hi]表示第[i]个决策树分类模型;[Y]表示输出变量;[I(·)]表示示性函数[9]。
2.3 预测模型建立
在训练的过程中,按照85∶15设定训练集和测试集样本的比例,每个“天宫二号”数据包含14个可见光近红外波段,对应SMAP土壤湿度数据集包含样本点个数大约2 279个。基于Matlab 2018a神经网络工具箱和GUI页面对贝叶斯神经网络模型进行设计。设置学习速率为0.01,最大迭代次数为500。 调节隐含层节点数,记录每次调节后贝叶斯神经网络模型精度;调节决策树的个数,记录每次调节后随机森林模型的精度[10?11]。
3 结果与分析
3.1 精度评价
各个神经网络隐含层节点数下的模型精度和均方根误差,以及各个决策树个数下的模型精度和均方根误差如表2所示。
使用神经网络和机器学习方法在每次学习之后得出的结果会有小范围的波动,所以在每个节点下都训练了至少5次以防止模型精度的偶然性。结果表明:在进行“天宫二号”数据土壤湿度反演时,由于样本数据量比较大,在神经网络节点数选取23~26时效果比较好,模型精度稳定在0.70以上,其中当节点数取24时模型精度可达到0.755,均方根误差达到了0.161,节点数过少和过多会出现测试集和验证集收敛过慢的情况并且影响最后的回归效果。但是通过建模的结果判断,在节点数较大的情况下模型虽然更为复杂,但是并未出现过拟合的情况,也就验证了贝叶斯模型可以很好地防止过拟合的情况出现。使用贝叶斯神经网络算法得到的预测值和真实值比较结果如图4所示。
随机森林算法中重要的参数是决策树的个数,选取20,40,60,80进行训练比较结果发现,模型精度稳定在0.76以上,当决策树个数取值为60时,模型精度达到了0.809,均方根误差也达到了0.120。使用随机森林算法得到的预测值和真实值比较结果如图5所示。
通过比较,对于本文中的反演方案,当输入为“天宫二号”宽波段成像仪影像而输出为SMAP土壤湿度数据时,随机森林机器学习模型比贝叶斯神经网络模型的精度更高,拟合效果更好。
虽然本文中模型的精度相较于其他传统探测方法获取的土壤湿度的精度还有些提升的空间,但是这种方法的优势就在于不需要大量的人力物力,只需要提供足够多的样本即可达到农、林业土壤湿度高效预测的要求。而如何进一步提升模型精度的同时降低预测值的离散程度,则是未来的研究重点。
3.2 土壤湿度专题图
在实验中获取了每个像元预测的土壤湿度数值,在绘制土壤湿度专题图时,使用ArcGIS软件加载云掩膜处理后的“天宫二号”影像作为底图数据,然后加载预测的土壤湿度Excel信息,最后添加图例信息。预测的土壤湿度专题图如图6所示。白色区域为云掩膜处理后去除的部分,除白色区域外,可以通过专题图的颜色了解该区域内的土壤湿度情况并对土地干旱、洪涝灾害迅速做出判断,对于我国水土灾害预测防治以及庄稼灌溉等农业生产活动可以起到很好的帮助。
4 结 论
“天宫二号”成像光谱仪可以提供高空间分辨率的多光谱影像,但是因其年份较新,许多图像处理软件还未能自动识别和处理该影像,对“天宫二号”数据的研究和使用目前也处于一个比较初步的阶段。
本文中对“天宫二号”影像进行了大气校正、云掩膜等预处理步骤,分别选用贝叶斯神经网络和随机森林的方法,基于SMAP土壤湿度数据对“天宫二号”数据中的土壤湿度参数进行反演和提取,均取得了不错的结果。采用贝叶斯线性回归反演算法时,模型精度稳定在0.70以上,其中当隐含层节点个数为24时,训练效果最好,R2为0.755,均方根误差RMSE为0.161;采用随机森林算法进行反演时,模型精度稳定在0.76以上,当决策树个数为60时,效果最好,R2为0.809,均方根误差RMSE为 0.120。比较发现,在对“天宫二号”数据进行土壤湿度反演时,随机森林的方法模型精度更高,训练效果更好。最后,将随机森林算法反演的土壤湿度结果输出,制成专题图。
研究表明,针对大尺度范围内的土壤湿度预测,比起传统的土壤质量和探针测量法,選用基于机器学习的反演方法可以大大减少人力财力的投入,并且在较短时间内获得较高精度的预测模型,加快推动了我国农、林业大范围地理信息预测的发展。
参考文献
[1] SENEVIRATNE S I, CORTI T, DAVIN E L, et al. Investigating soil moisture?climate interactions in a changing climate: a review [J]. Earth science reviews, 2010, 99(3): 125?161.
[2] CUI X, PARKER D J, MORSE A P. The drying out of soil moisture following rainfall in a numerical weather prediction model and implications for malaria prediction in west Africa [J]. Weather & forecasting, 2010, 24(6): 1549.
[3] 刘虹利,王红瑞,吴泉源,等.基于MODIS数据的济南市农田区土壤含水量模型[J].中国农村水利水电,2012(8):12?15.
[4] AREL I, ROSE D C, KARNOWSKI T P. Deep machine learning: a new frontier in artificial intelligence research frontier [J]. Computational intelligence magazine IEEE, 2010, 5(4): 13?18.
[5] ENTEKHABI D, NJOKU E G, O"NEILL P E, et al. The soil moisture active passive (SMAP) mission [J]. Proceedings of the IEEE, 2010, 98(5): 704?716.
[6] ZHAI H, ZHANG H Y, ZHANG L P, et al. Cloud/shadow detection based on spectral indices for multi/hyperspectral optical remote sensing imagery [J]. ISPRS journal of photogrammetry and remote sensing, 2018, 144: 235?253.
[7] VILLEMEREUIL P D, WELLS J A, EDWARDS R D, et al. Bayesian models for comparative analysis integrating phylogenetic uncertainty [J]. BMC evolutionary biology, 2012, 12(1): 102.
[8] HUANG Y, LING B. A Bayesian network and analytic hierarchy process based personalized recommendations for tourist attractions over the Internet [J]. Expert systems with applications, 2009, 36(1): 933?943.
[9] BIAU G. Analysis of a random forests model [J]. Journal of machine learning research, 2010, 13(2): 1063?1095.
[10] 吴春雷,秦其明,李梅,等.基于光谱特征空间的农田植被区土壤湿度遥感监测[J].农业工程学报,2014,30(16):106?112.
[11] 张娜,张栋良,李立新,等.基于高光谱的区域土壤质地预测模型建立与评价:以河套灌区解放闸灌域为例[J].干旱区资源与环境,2014(5):67?72.