基于决策树的大尺度复杂地区夏收作物遥感提取与分析

2022-11-16 01:43李亚妮曹建君杨树文刘尚钦
江苏农业学报 2022年5期
关键词:决策树甘肃省油菜

李亚妮,曹建君,杨树文,李 霞,刘尚钦

(1.兰州交通大学测绘与地理信息学院,甘肃兰州730070;2.地理国情监测技术应用国家地方联合工程研究中心,甘肃兰州730070;3.甘肃省地理国情监测工程实验室,甘肃兰州730070;4.甘肃省自然资源技能鉴定指导中心,甘肃兰州730070;5.甘肃省基础地理信息中心,甘肃兰州730070)

随着城镇化的快速发展和中国人口数量的不断增加,粮食安全已经成为人们最关注的问题。目前,中国的粮食安全存在区域结构矛盾突出、生产收益低、质量安全隐患多等问题[1]。及时准确获取作物的种植面积信息是掌握区域作物生产状况、调整作物种植结构以及优化农业资源配置的基础,对宏观经济、粮食安全、农业决策、环境保护等方面具有重要意义[2]。

获取作物种植面积信息主要有2种方式:一是通过问卷调查,并按行政单元逐层上报,该方式不仅耗时耗力、存在人为干扰,而且无法获取精确的空间分布信息[3],不宜广泛推广使用。二是利用遥感影像监测农作物种植面积,该方式具有空间宏观性高、数据易获取、光谱信息丰富、时间密度较高和成本相对较低等特点,已被广泛应用[4]。

由于中分辨率成像光谱仪(Moderate-resolution imaging spectroradiometer,MODIS)具有重访周期短的特点,可对作物生长过程进行高频次动态变化监测。目前研究中利用MODIS数据通过多时相或者时间序列分析方法提取时序特征可实现大尺度作物分类。如贾博中等[5]基于MODIS数据构建了2019年4-9月的时间序列数据,对内蒙古沿黄平原6种主要农作物(小麦、葵花、玉米、苜蓿、西葫芦和番茄)的空间分布信息进行识别,最后作物总体分类精度达到78.29%,Kappa系数为0.747。王凯等[6]基于MODIS数据对2008-2013年湖北省油菜种植分布信息进行提取。杨欢等[7]利用MODIS数据构建了2009-2010年时序曲线对江汉平原冬小麦和油菜的种植信息进行识别,最终冬小麦和油菜作物总体分类精度分别为87.1%和93.7%。但由于MODIS数据空间分辨率较低且存在混合像元,难以满足复杂地形的动态监测要求。随着高空间分辨率卫星的迅速发展,中国高分系列卫星数据可反映地物精细的空间结构。近年来,一些学者利用高分系列卫星数据通过面向对象等方法可实现小区域作物精细制图。如王梓铭[8]利用GF-2数据构建了基于面向对象的农作物分类模型,对长春市双阳区玉米和水稻进行分类识别。单治彬等[9]使用GF-1数据构建了面向对象的支持向量机SVM分类方法对宁夏回族自治区特色农作物硒砂瓜、枸杞、大枣空间分布进行识别,最终总体分类精度达到94.94%,Kappa系数为0.917 4。张飞飞等[10]利用GF-2数据使用规则集的面向对象的方法对安徽省六安市苏埠镇大麻地块进行提取,平均分类精度可达91.09%。但是由于中国高分系列卫星数据光谱波段有限,易导致光谱信息相似的易混淆作物错分[11]。而Sentinel-2数据由欧洲航天局(European Space Agency,ESA)提供,具有重访周期短、空间分辨率高、波段数量多、完全开源等优势,可以大幅度推进复杂地形易混淆作物的常规全球监测进程。如何昭欣等[12]利用Sentinel-2数据对江苏省冬小麦和冬油菜的空间分布信息进行提取,在小麦拔节期,油菜正处于开花期,此时两者的光谱信息相差很大,是区分小麦和油菜的最佳时间阶段。陶莉等[13]以长江中下游丘陵地带为研究区,利用Sentinel-2数据识别复杂农作物的种植结构。

近年来学者对农作物分类的研究区域主要集中于小区域或者地势平坦的平原,多是鉴于小区域节省财力物力、平原地块形态规整、作物种植类型单一,是作物分类的理想场所。而与小区域、平原地区不同,大尺度复杂地形区域的作物分类研究较少,因为大尺度地形复杂区域的研究存在许多困难。以中国甘肃省为例,主要的挑战在于:甘肃省地域辽阔,地形复杂,多为山地和高原;地块零散分布,大多细小破碎。小麦和油菜是甘肃省的主要夏收作物,由于其光谱信息相似,分类时易混淆,且一年多熟,存在间作套种现象,导致小麦和油菜种植面积和空间分布信息获取艰难。因此,开展大区域复杂地形夏收作物分类提取研究对农业可持续发展具有重要意义。很多研究结果表明,由于作物分布复杂、数据量大,简单应用长时间序列光谱特征很难提取大面积作物类型[14],因此在特定时间将目标作物的光谱指标和独特物候信号结合起来,是大尺度、高分辨率作物制图所必需的先决条件[15]。面向对象方法可完成小区域作物分类优化,但由于其对大尺度区域地形的识别计算量大,速度慢,并且对地块细节识别不好,导致该方法不适合大尺度复杂区域作物分类。而决策树方法规则简单易懂,计算速度快,能够处理不同尺度的数据[16]。

本研究以大尺度、地貌复杂的甘肃省为研究区,利用时序Sentinel-2数据分别计算NDVI和黄度值,采用决策树方法对研究区的易混淆主要夏收作物小麦和油菜的面积进行提取,并绘制2021年甘肃省小麦和油菜的空间分布图,结合样本点的验证结果来对比分析甘肃省不同区域作物提取精度,以探讨Sentinel-2数据采用决策树方法应用于大尺度复杂区域作物分类研究的可行性,为大尺度复杂区域作物空间分布信息提取提供技术支撑和理论依据。

1 材料与方法

1.1 研究区概况

甘肃省位于中国西北部(32°11′N~42°57′N,92°13′E~108°46′E),地处青藏高原、内蒙古高原与黄土高原的交界处,总面积4.559×105km2。境内地形呈狭长状,地貌复杂多样,山地、高原、平原、戈壁和沙漠等纵横交错,山地、高原占总面积的70.00%以上,西北部沙漠和戈壁约占总面积的14.99%,海拔自西南向东北递减(图 1)。由于其独特的地理位置和地形,大部分地区气候相对干燥,早晚温差大,日照充足。而降水受季风影响显著,主要集中在6-8月,降雨量大致自东南-西北递减。

该图基于自然资源部标准地图服务网站审图号为GS(2019)3333号的标准地图制作,底图无修改。

甘肃省主要作物有小麦、玉米、油菜、马铃薯和棉花等[17]。其中,主要夏收作物小麦和油菜的物候期相似且存在混杂种植现象(表1),在遥感识别中容易造成混淆。此外,冬小麦主要种植区域为平凉、庆阳、天水、陇南等地,春小麦主要种植区域为河西地区、中部沿黄灌溉区、甘南等地[18];冬油菜主要种植在陇东南等地,春油菜主要种植在祁连山、甘南高原、河西走廊等地[19]。

表1 甘肃省小麦和油菜物候期

1.2 数据源与预处理

1.2.1 Sentinel-2影像及预处理 以ESA数据共享网站(https://scihub.copernicus.eu/)提供的Sentinel-2影像作为主要数据源。Sentinel-2卫星携带着一台多光谱成像仪(Multiple spectral instrument,MSI),由2A和2B 2颗卫星组成,其空间分辨率高达10 m,双星互补,重访周期达到5 d。Sentinel-2数据有13个光谱波段,涵盖可见光、近红外和短波红外波谱范围,可以有效地监测植被信息。为确保研究区影像质量,所选影像云量均小于10%。为了充分覆盖整个研究区域和小麦、油菜的关键物候期,获取成像时间为2021年5月6日至2021年7月28日,共209景影像。由于甘肃省幅员辽阔,地域跨度大,不同区域的农作物物候期差异较大,为减少物候差异对数据及提取精度的影响,在实际提取中采用分市(州)方式进行影像处理与作物提取。所选影像利用Sen2cor插件进行大气校正,使用SNAP软件重采样为10 m分辨率,并保存为ENVI格式,完成影像波段合成、镶嵌和裁剪步骤后,最终得到研究区范围的待分类影像。

1.2.2 辅助数据 使用的辅助数据包括甘肃省行政边界矢量数据、甘肃省耕地矢量数据和数字高程模型DEM数据。行政边界矢量数据和耕地矢量数据均由甘肃省自然资源厅提供。耕地矢量数据主要用于剔除分类结果中的非耕地区域,以确保作物提取结果准确。DEM数据在地理空间数据云(https://www.gscloud.cn/)获取,空间分辨率为90 m,主要用于作物分布地形分析。

1.2.3 样本数据 样本数据由野外实地调查点和Google Earth高分辨率影像采集点的数据组成。2021年5月24日至2021年6月12日在甘肃省各市(州)分别选择一个县进行野外实地调查,利用手持GPS采集样本点坐标。由于研究区面积过大,均匀采集实地测量点数据难以实现,因此在2021年5月至7月的高清Google Earth影像上遵循空间分布均匀原则选择样本点作为补充。共获取5 670个样本点,其中小麦2 860个,油菜1 348个,其他地物1 462个。按照7∶3的比例将样本划分为训练样本(3 969个)和验证样本(1 701个)。

1.3 研究方法

基于像素分类思想,提取甘肃省小麦和油菜的光谱特征,选取决策树模型进行分类,以探讨Sentinel-2数据的光谱特征应用于复杂地形作物分类研究的可行性。具体方法流程:(1)对整个甘肃省采用分市(州)的方式获取作物的最佳时相遥感影像并进行预处理。(2)提取小麦和油菜的光谱特征(NDVI指数和黄度值)。(3)利用光谱特征使用决策树方法提取小麦和油菜分布信息,得到2021年甘肃省小麦和油菜分布图,并对其空间分布进行分析。(4)利用样本点验证甘肃省各市(州)提取精度,分析影响各市(州)提取精度的因素。技术流程图如图2所示。

图2 甘肃省小麦和油菜遥感提取流程图

1.3.1 计算光谱特征 选取2021年5月至2021年7月的Sentinel-2影像,通过组合波段4(红)、组合波段3(绿)、组合波段2(蓝)从真彩色影像中提取小麦和油菜信息。小麦处于抽穗期,影像上呈绿色;油菜处于开花期,影像上呈黄色;小麦和油菜均收割,影像上呈裸地状态。因此,利用开花期油菜影像的黄度值比小麦的大这一关键特征[20]对小麦和油菜进行提取。黄度值Y的计算公式如公式(1)所示:

Y=DNG-DNB

(1)

式中,DNG为绿光波段的光谱值,DNB为蓝光波段的光谱值。

NDVI可用于作物监测,其数值的变化大小和作物生长过程相对应[ 21]。NDVI的计算公式如式(2)所示:

(2)

式中,ρNIR为近红外波段的反射率值,ρR为红光波段的反射率值。

1.3.2 分类方法 决策树分类是一种图像分类方法,即对一组训练数据特征进行归纳推理,建立树形结构,对图像各类信息进行比较,得到新的分支当作新的节点更新规则,继续分类直到最终得到满意的分类结果[22]。

针对每个市(州),标记训练样本,计算特定物候期的光谱值,比较小麦和油菜的光谱特征差异。以5月NDVI值为第1波段,以7月NDVI为第2波段,以黄度值为第3波段,获取波段特征图,寻找小麦和油菜的最佳波段与阈值。5月的小麦和油菜处于生长期,对应地块NDVI值较高;7月的小麦和油菜已收割,对应地块NDVI值大幅降低;5月油菜的黄度值比小麦的黄度值高(图3)。不同的市(州),小麦和油菜的物候期不同,构建的决策树也有所不同。不同的市(州)通过不断调整光谱指标的阈值达到最优的分类效果,从而获得适合整个甘肃省夏收作物分类的阈值范围。

图3 甘肃省夏收作物分类的决策树模型

1.3.3 精度验证方法 利用验证样本数据,构建混淆矩阵,通过计算生产者精度(PA)、用户精度(UA)、总体精度(OA)和Kappa系数(Kappa)进行精度验证[23]。

(3)

(4)

(5)

(6)

上述式(3~6)中,Xii表示第i行i列的值,Xi+表示第i行的总和,X+i表示第i列的总和,M、n分别表示验证样本总数和分类类别总数。

2 结果与分析

2.1 不同分类方法的分类精度对比

由于甘肃省幅员辽阔、影像数据多,因此选择小麦和油菜分布较多且地形属于黄土高原沟壑的庆阳市作为参考区,分别采用基于支持向量机的监督分类、基于尺度分割的阈值分类和基于时序影像特征的决策树分类3种方法获取小麦和油菜种植分布信息(图4)。其中,基于支持向量机的监督分类使用径向基函数(RBF)作为核函数,核函数参数为0.01,惩罚因子为100。基于尺度分割的阈值分类中,分割尺度为80,合并尺度为10,纹理核大小为3,分类规则为5月NDVI>0.42,7月NDVI<0.3,黄度值>620,将小麦和油菜的面积信息提取出来。从图4中可以看出基于尺度分割的阈值分类法图(4b)和基于时序影像特征的决策树分类法图(4c)的分类结果较为接近,但基于支持向量机的监督分类法图(4a)存在将其他作物错分为油菜的现象。对比不同方法分类精度(表2)可知,基于时序影像特征的决策树分类法总体精度为82.6%,Kappa系数为0.81,运行时间为3 min,与基于尺度分割的阈值分类法相比精度差异微小,但节省运行时间65 min,与基于支持向量机的监督分类法相比精度提高了9.1个百分点,节省运行时间136 min。因此,选用基于时序影像特征的决策树分类法对整个甘肃省的小麦和油菜进行分类。

图4 庆阳市小麦和油菜不同方法提取结果对比

表2 庆阳市不同分类结果精度的对比

2.2 甘肃省小麦和油菜种植区域分布提取结果

甘肃省小麦和油菜种植区域主要位于东南部地区,河西地区种植面积较少,均零散分布,总体上呈现由北向南递增的趋势(图5)。甘肃省各市(州)小麦和油菜提取面积如表3所示。2021年甘肃省遥感提取的小麦和油菜种植面积共2.461 65×105hm2,其中小麦种植总面积为2.084 99×105hm2,油菜种植总面积为3.766 6×104hm2,小麦的种植面积约为油菜种植面积的5.5倍。

表3 甘肃省各市(州)遥感提取的小麦和油菜面积

该图基于自然资源部标准地图服务网站审图号为GS(2019)3333号的标准地图制作,底图无修改。

河西地区的酒泉市和嘉峪关市小麦总面积为6.676×103hm2,占全省小麦种植总面积的3.2%;中部的张掖市、武威市、兰州市、白银市、临夏回族自治州等小麦种植面积分别占全省小麦种植总面积的7.6%、10.2%、1.6%、8.1%、4.0%,其中张掖市的民乐县和山丹县、武威市的凉州区和古浪县、白银市的会宁县,以及临夏回族自治州的临夏县和康乐县等是小麦种植区较为集中的县区。东南部地区的天水市小麦种植面积为3.917 7×104hm2,占全省小麦种植总面积的18.8%,主要分布于天水市的清水县、秦安县以及甘谷县。庆阳市小麦种植面积为3.573 8×104hm2,占全省小麦种植总面积的17.1%,其中庆城县、环县、宁县、镇原县是庆阳市小麦面积较多的县区。平凉市和陇南市小麦种植面积分别为3.056 5×104hm2、1.569 2×104hm2,占全省小麦种植总面积的14.7%、7.5%。油菜主要分布于甘肃省的东南部地区,包括天水市、陇南市、平凉市、庆阳市等,油菜种植面积共为2.074 2×104hm2,占全省油菜种植总面积的55.1%,而甘肃省中部、河西地区油菜的种植面积较少。

2.3 基于时序影像特征的决策树分类法精度验证

为了检验研究区小麦和油菜的分类精度,利用验证样本,构建混淆矩阵,分别计算甘肃省14个市(州)小麦和油菜面积信息提取总体精度和Kappa系数(表4)。甘肃省小麦和油菜提取平均总体精度为87.4%,结果表明甘肃省小麦和油菜的提取效果好,与野外实地调查点、谷歌地图影像样本点高度一致。

表4 甘肃省各市(州)小麦和油菜的分类精度

总的来看,甘肃省中部地区白银市、兰州市、临夏回族自治州小麦和油菜提取平均总体精度为92.4%,分类精度较好。河西地区酒泉市、张掖市、嘉峪关市、武威市、金昌市小麦和油菜平均总体精度为87.7%,低于中部地区4.7%,分类精度有微小误差,主要由于这里种植的药材(甘草)、豌豆和正值抽穗期的玉米光谱信息与油菜相似,因此解译结果有误差。东南部地区天水市、平凉市、庆阳市、陇南市、定西市以及甘南藏族自治州等小麦和油菜提取平均总体精度为82.0%,低于中部地区(10.4%),也存在一些分类精度误差,主要由于这里地势复杂,山地居多,造成耕地破碎度较高,形状不规则,而所用的Sentinel-2影像分辨率相对较低,存在大量混合像元,因此给作物分类带来了困难。

3 结论

本研究使用时序Sentinel-2数据,计算NDVI指数和黄度值,利用决策树方法进行甘肃省小麦和油菜面积提取,其分类的平均总体精度为87.4%,其中,甘肃省中部地区平均总体精度为92.4%,河西地区平均总体精度为87.7%,东南部地区平均总体精度为82.0%。结果表明,基于Sentinel-2卫星影像采用决策树方法进行大尺度复杂区域、高分辨率作物制图是可行的,可为当地农业部门开展农情调查、长势评估等工作提供依据。

虽然本研究精确提取了甘肃省小麦和油菜的空间分布信息,但是仍存在一些影响提取精度的因素。(1)云量:对于云与云影覆盖的地区无法提取,因此部分作物区域存在空缺。在未来研究中,为了不受天气影响,可以结合Sentinel-1数据进行作物制图。(2)混合像元:由于甘肃省东南部耕地以梯田与坡耕地为主,地块多呈狭长带状分布,面积较小,而Sentinel-2图像空间分辨率为10 m,因此存在混合像元使分类结果产生误差。在未来的研究中,可以基于更高空间分辨率的影像,采用深度学习的方法,来提高大尺度复杂区域作物的提取精度和速度。(3)不同地区影响:由于气候差异,不同地区的小麦和油菜物候期不同。虽然本研究分市(州)进行作物提取,但是作物物候期还是存在微小差异。此外,探讨不同区域地理环境对提取精度的影响,也是未来大尺度复杂地区作物制图研究的趋势。

猜你喜欢
决策树甘肃省油菜
致敬甘肃省腹腔镜开展30年
甘肃省机械工程学会
甘肃省发布第1号总林长令
油菜田间管理抓『四防』
油菜可以像水稻一样实现机插
甘肃省天水市泰安县桥南初级中学
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
油菜烩豆腐
种油菜