刘道芳, 王景山, 李胜阳
(1.黄河水利委员会信息中心,郑州 450004; 2.宁夏回族自治区水利厅,银川 750001)
黄河流域节水的重点是农业,农田灌溉引水量占流域用水的比重较大. 据《黄河水资源公报》,2019年黄河流域农田灌溉取水量304.06 亿m3[1],占地表水取水量的68.8%. 宁蒙两区农田灌溉取用黄河水122.93 亿m3,占流域农田灌溉取用地表水总量的40.4%. 水稻作为一种高耗水的作物,其种植面积直接影响到灌区的耗水总量. 快速调查灌区水稻种植面积,对于支撑黄河流域深度节水控水、控制农业耗水具有重要意义.
遥感技术具有客观性、宏观性和及时性特点,在农作物种植面积调查中发挥的作用越来越大. 与实地调查数据结合后,遥感技术农作物面积调查的精度越来越高,逐步成为农作物面积快速获取的主要方式[2-6].目前提高农作物监测的精度方法主要为多时相监测方法[7-11]和敏感波段监测方法[12-13]. 多时相监测方法是通过作物生长关键期的多期影像获取多时相信息提高分类精度,敏感波段监测方法是通过传感器增加对作物敏感的波段信息来提升地类的区分度. 传统遥感卫星的可见光数据一般分为蓝(450~520 nm)、绿(520~590 nm)、红(630~690 nm)和近红外(770~890 nm)等波段. 研究发现,在波段范围为690~730 nm的红边区域,植被的反射率会发生明显变化,且受周围环境的影响较小,可以提升作物遥感监测的精度,是作物遥感监测的理论基础[14-16].
快速准确地监测水稻种植面积信息,对于农业生产、节水控水等具有重要意义[17]. 水稻面积的提取分为多时相的可见光遥感监测方案、多极化合成孔径雷达的监测方案以及结合使用可见光与雷达的监测方案[18],综合采用了MODIS[19-20]、HJ-1A/B[21]、TM[22-24]、Sentinel-2[25]、GF1[26-29]、SPOT-5[30]、RadarSat-2[31]等遥感数据类型,使用了随机森林[32]、CART决策树、人工神经网络法等分类方法[33]. 而采用高分六号红边波段及其衍生的红边植被指数对灌区水稻进行提取的研究尚不多见.
高分六号(GF6)卫星是我国自主设计的一颗有利于作物监测的可见光遥感卫星. 2018年6月2日成功发射,理论上两天可对同一地区重复观测一次,卫星可提供窄幅(PMS)和宽幅(WFV)2 种遥感数据. 近年来,为了研究红边波段在植被信息提取中的作用,国内外学者运用多种具有红边波段的遥感数据,采用多种分类方法,在作物分类[34-35]、林地分类[36-38]等方面开展了广泛的应用研究,从不同角度证明了红边波段在提升多种植被分类精度中有明显的作用.
为了研究高分六号遥感数据红边波段在提升灌区水稻种植面积分类提取精度中的作用,采集了2020年5月31日、2020年8月13日及2020年10月5日多时相WFV宽幅影像,提取了水体指数、植被指数和红边植被指数等产品,设计了6种波段组合方案,选择银川灵武市为研究区,采用随机森林(RF)分类方法,对水稻、其他作物(玉米大豆和蔬菜等)、水域、裸地等典型地物进行分类,分析不同红边波段、红边植被指数组合方案对提升水稻的分类精度的作用,对比不同波段组合方案之间样本可分离度的变化,为基于高分六号宽幅(WFV)数据红边波段的水稻面积分类提取提供参考.
灵武是宁夏银川市下辖县级市,位于银川东部、黄河东岸,地理坐标东经105.59°~106.37°,北纬37.60°~38.01°. 东与盐池县相邻,南接同心县、吴忠市,西滨黄河与永宁县相望,北与内蒙古鄂托克前旗接壤. 南北长98 km,东西宽54 km,总面积4639 km2.
水稻是灵武的主要粮食作物之一,研究区水稻物候特点如下:长期以来,灵武种植水稻多采用以插秧栽培为主,水田撒播为辅的方式. 一般要经过泡田、播种、出苗、三叶、移栽、返青、分蘖、拔节、始穗、齐穗、完熟、收割等生长过程. 每年5月上旬至6月上旬,一般为水稻的泡田、播种、插秧期;7月至9月初,为水稻的生长期;9月中下旬至10月初,水稻的成熟期,水稻开始泛黄,稻田的植被指数开始下降,并逐步收割完毕.
根据灵武水稻的物候特点,选取水稻泡田期2020 年5 月31 日、生长旺盛期2020 年8 月13 日及收割期2020年10月5日多时相GF6宽幅(WFV)影像为数据源. GF6 WFV宽幅影像具有8个波段,蓝、绿、红、近红外及新增的红边1、红边2、紫、黄波段,且幅宽更大,卫星波段信息见表1. 对采集到的GF6 WFV影像,经过辐射定标、大气校正、正射校正等预处理过程. 预处理后的数据,在一定程度上消除大气影响,具有较高的几何精度,多期影像可以较好地叠合在一起.
表1 GF6 WFV波段信息Tab.1 Band information of GF6 WFV image
首先,根据中国资源卫星中心提供的定标系数,将数据的波段DN值转换为辐射亮度值,其公式为
式中:Lf为根据定标系数转换后的辐射亮度,W/(m2·nm·sr);Gain为定标系数(也称增益),W/(m2·nm·sr);DN为波段灰度值.
然后,采用大气模型进行大气校正,消除大气影响.
最后,去除大气影响后,选择研究区高精度正射影像作为参考数据,在DEM数据的支持下,对采集到的高分六号数据进行正射校正,误差要求在1个像元以内.
为了确定随机森林分类结果的精度,根据灵武市水稻种植的物候特征,采集水稻插秧期、拔节期、灌浆期及收割期的高分辨率0.8 m GF2、2 m GF1及GF6数据,结合灵武市当地遥感影像数据进行正射校正,误差在1个像元内,用于逐地块人工验证GF6 WFV水稻随机森林分类提取结果的分类精度.
由于灵武市分布有大量沙地,地面调查数据需要均匀分布在作物种植区. 选取地面调查点的步骤如下:首先,根据影像特征选择样本区,并对不同区域的地物信息进行预判. 然后手持高精度GPS,在不同区域的地块位置采集样本点,建立主要地物解译标志. 主要样本应涵盖不同种植条件、不同地类、分布均匀. 样本分为解译标志点和分类验证点.
1)解译标志点. 研究区解译标志点共选取161处,包括水稻81个、其他作物(玉米大豆菜地等)46个、裸地及建筑用地18个、水域16个,在水稻分类时,根据解译标志点选择训练样本.
2)分类验证点. 研究区分类验证点共选取215处,其中水稻98个、其他作物(玉米大豆菜地等)58个、水域39个、荒草地1个、裸地及建筑用地20个,并根据0.8 m GF2、2 m GF1及GF6数据解译为矢量面状图斑,用于不同方案的分类精度评价.
为了评价高分六号红边波段、红边植被指数在灌区水稻信息提取中的作用,本研究根据水稻的物候特征,采用水稻泡田期水体指数(NDWI)、灌浆期与收割期植被指数(NDVI)、水稻生长关键期红边植被指数(包括NDVI710和NDVI750)及波段光谱数据B1~B8进行地物分类提取和精度验证.
根据式(2)计算NDWI:
对2020年5月31日数据,计算得到水稻泡田期水体指数NDWI0531.
根据式(3)计算NDVI:
对2020年8月31日数据及2020年10月5日数据,计算得到灌浆期影像植被指数NDVI0831和收割期植被指数NDVI1005.
根据式(4)、式(5)计算NDVI710、NDVI750:
对2020年8月31日数据,计算得到红边植被指数NDVI7100831、NDVI7500831.
根据红边波段的参与情况,建立6种波段组合方案,分别为无红边波段参与方案、单一红边波段参与方案、单一红边波段及相应红边植被指数参与方案、全部红边波段及红边植被指数参与方案. 采用随机森林分类算法,自动提取水稻等地物信息. 与地面验证点及高分辨率遥感数据对比后,计算不同方案的水稻分类精度和水稻与其他作物的可分离度(采用Jeffries-Matusita距离计算). 分析不同红边波段、红边植被指数参与情况下,水稻分类精度的变化情况及水稻与其他作物的可分离度提升效果. 对比不同波段组合方案下,水稻的错分漏分以及“椒盐”数量变化,评价不同红边波段及其红边植被指数对灌区水稻信息分类精度的影响.
随机森林(Random Forest,RF)是一种通过集成学习的方法对样本进行训练并预测的一种分类器,是高度灵活的一种机器学习算法[39],其基本单元是决策树. 随机森林先用bootstrap等方法从样本库中随机抽取样本,生成多个训练集;之后,对训练集进行集成学习,初步构造决策树;随后,在所有特征中随机抽取主要特征,通过运算找到最优解,运用随机分裂技术构建单一决策树;最后综合多棵决策树的分类条件运算得出最终分类结果[40].
随机森林分类方法是在CART决策树的基础上发展而来,对于复杂地区复杂地物的遥感数据进行分类尤为有效. 作为遥感分类领域一种新型的机器学习算法,能将许多棵决策树集成起来,得到精度较高的分类结果. 在随机森林算法的计算过程中,采用基尼指数判断每个节点的不纯度,根据每个节点的不纯度确定最优属性,将具有相同属性的样本划分在同一类型上. 随着决策树的层次不断增多,每个节点的地类的纯度越来越高,最终完成高精度的分类结果.
使用随机森林分类方法提取灌区水稻的过程为:首先,根据采集的地面解译标志点数据,在研究区遥感影像中选取不同地物类型(水稻、其他作物、水体、裸地及建设用地)的样本数据集;其次,根据选取的样本数据集,随机抽取训练集、随机抽取特征生成决策树;最后,采用随机森林分类法对研究区遥感数据集进行自动分类.
由于样本直接影响分类结果的精度,因此,在选择样本时要综合考虑同一地类在影像上的特征差异、区域差异、长势差异,在研究区范围均匀选择样本区. 使样本数据集全面反映地类特征,提高分类精度.
对分类结果的精度验证,主要是根据高分辨率影像与地面验证点结合依据高分辨率遥感数据解译的矢量面状图斑,与分类结果进行对比,对不同方案的分类结果进行精度评价,评价指标包括验证精度、制图精度、用户精度、总体精度、Kappa系数等.
同时,为了计算真实分类精度,采用高分辨率遥感数据逐方案逐地块对水稻的分类结果进行判断,若分类准确,则累计地块面积,最后用全部准确地块面积除以随机森林算法提取的水稻面积,计算每种方案的验证精度.
以水稻、其他作物、水域、裸地及建筑用地的所有地面调查数据为基础,以6种方案的波段组合设定光谱特征空间,选取各类地物的样本作为样本空间. 在6种光谱特征空间中计算各样本数据集之间的最小J-M距离(可分离度). 数值越大说明样本数据集之间分离度越大,对于地物分类越有利.
J-M距离是一种用来判断类别间光谱的可分性的指标,其本身是建立在条件概率理论的基础之上. J-M距离是判断样本间的可分离度的重要参数,公式如下:
式中:P(X/ωi)为条件概率密度,即第i个像元归属为ωi个类别的概率.Jij取值范围0~2,该值越大,说明样本数据集在光谱空间的可分离度越高,分类结果越好. 当值在1.9~2.0之间时,说明样本数据集在光谱空间的可分离度达到最优,数值越大,地物分类精度最高;当值在1.9以下时,数值越小,样本空间的光谱可分度越差,地物分类精度越低. 样本数据集的J-M 距离越小,则样本中各地类的可分性越差,作物分类精度越低.样本数据集在光谱空间的可分离度数值大小对分类结果精度影响较大.
根据是否参与,设计了6种不同波段组合方案(表2),使用同一组样本数据集,采用随机森林分类方法,提取了水稻、其他作物、水域、裸地及建筑用地等信息. 随机森林分类方法的参数设定为:决策树数量设为100,特征数量获取方式设为平方根. 方案6水稻分类结果及方案1~6分类结果局部如图1所示.
表2 不同红边波段、红边植被指数参与条件下的分类方案Tab.2 Classification schemes with different red-edge wavebands and red edge vegetation index conditions
图1 方案6水稻分类结果及方案1~6局部分类结果Fig.1 Rice classification results of scheme 6 and local classification results of different schemes
对每个方案的分类结果,与研究区实地分类验证点和高分辨率遥感数据进行比较,进行精度评价,如表3所示.
从表3 可以看出,在全部红边波段及红边植被指数全部参与的方案6相比没有红边波段及红边植被指数参与的方案1,水稻分类的总体精度由89.80%提高到93.38%,Kappa系数由0.852提高到0.903 7,经高分影像比对验证,水稻的面积分类精度(验证精度)从88.19%提高到93.01%.
表3 不同方案下水稻分类精度Tab.3 Rice planting area classification accuracy under different schemes
从分类结果来看,引入红边波段后,方案2与方案3的水稻的分类精度有所提高,但不太明显. 方案4与方案5、方案2、方案3 相比,分类精度有明显提高. 这表明B5 波段红边波段在水稻识别中的重要性要高于B6红边波段,特别是B5波段红边植被指数作用大于B6波段红边植被指数,对水稻分类精度提升明显. 方案6分类结果表明,引入全部红边波段和红边植被指数后,水稻的分类精度也明显有所提升. 通过分类结果可以看出,红边波段及红边植被指数对提高水稻分类精度有重要作用.
从图1可以看出,在红边波段和红边植被指数全部参与的情况下,方案6分类结果图斑的完整性、连续性、平滑性比方案1更好,同时小图斑、碎图斑更少.
为了分析不同红边波段及红边植被指数参与条件下水稻和其他作物可分离度的变化情况,计算了6种方案中水稻和其他作物的J-M距离(可分离度). 方案1~6可分离度如表4所示. 可以看出,在全部红边波段及红边植被指数全部参与的方案6,与没有红边波段及红边植被指数参与的方案1进行比较,水稻与其他作物的可分离度从1.824 9增加到1.970 3,增加了0.145 4,表明红边波段信息可以使影像更精准地区分水稻和其他作物. 方案3和方案2相比,水稻-其他作物的可分度从1.834 2增加到1.878 5,表明B5红边波段比B6红边波段对区分水稻-其他作物作用更大. 这与不同方案下水稻分类精度(见表3)的结果一致. 方案4、方案5分别与方案2、方案3相比,水稻-其他作物的可分离性也有一定提升,表明单一红边植被指数的参与也能更好地区分水稻与其他作物. 方案6 与方案4、方案5 相比,水稻与其他作物间可分离度也有提高,表明所有红边波段、红边植被指数的都能提升水稻与其他作物的可分离度.
表4 各种方案中水稻与其他作物可分离度Tab.4 The separation degree of rice from other crops under different schemes
本文研究了GF6 WFV影像红边波段及其衍生的红边植被指数产品对水稻分类精度的提升作用. 结论如下:
GF6 WFV 影像红边波段都能提高水稻的分类精度. 在充分利用水稻插秧期水体指数、收割期植被指数、生长旺盛期的植被指数及光谱波段的基础上,增加全部红边波段、红边植被指数后,水稻总体分类精度达93.38%. 单独增加红边波段B5或B6,水稻分类总体精度提高明显,且B5红边波段比B6更有利于提高水稻分类精度. 在红边波段及相应红边植被指数都参与的情况下,B5红边波段、B5红边植被指数对提升水稻分类精度的作用要优于B6红边波段、B6红边植被指数.
红边波段、红边植被指数的参与能有效提高水稻与其他作物间的可分离度. 全部红边波段、红边植被指数参与和无红边波段、红边植被指数参与相比,水稻与其他作物的可分离度增加0.145 4. 在无红边植被指数参与的情况下,分别增加红边波段B5或B6,水稻与其他作物的可分离度分别增加0.053 6和0.009 4,说明B5红边波段对区分水稻与其他作物的作用更大. 同时增加B5红边波段、B5红边植被指数或同时增加B6红边波段、B6红边植被指数,水稻与其他作物的可分离度分别增加0.124 3和0.104 3,说明B5红边植被指数对区分水稻与其他作物的作用更强. 由此可见,在红边波段及红边植被指数参与情况下,水稻与其他作物的可分离度有明显提高,提高了水稻的分类精度. 分类结果表明,红边波段、红边植被指数的参与也可以提高图斑的完整性、连续性、平滑性,减少小图斑、碎图斑的数量,提供更为科学合理的水稻分类数据.