徐翔燕 侯瑞环 牛 荣
(塔里木大学信息工程学院,新疆阿拉尔843300)
新疆南疆地区是我国红枣主产区之一,由于独特的地理气候,生产的枣均是在树上自然风干的吊干枣,具有皮薄、肉厚、质地较密、色泽鲜亮、含糖量高、口感松软、纯正香甜的优良特点。及时准确的获取地区红枣种植信息,对红枣产量的评估和后期的运输都有着重要的意义。
当前研究农作物种植信息主要依靠多光谱遥感影像数据进行作物分类提取,现有的遥感影像大致有三种类型,即高、中高和中低分辨率影像。高分辨率影像主要有美国的QuickBird和IKONOS。通过这些遥感影像数据对农作物的种植以及生长情况检测相关的研究成果非常丰富,宋荣杰等[1]基于Quick-Bird遥感数据,综合光谱特征和纹理特征对苹果园自动提取方法进行研究。陈旭等[2]借助QuickBird遥感数据研究了广东省黑石顶自然保护区,并得到了更均一的内部同质和更明确边界的分类结果。刘保生[3]基于IKONOS影像的城市植被信息提取方法进行分析,为用户提供了更清晰的视觉感受,为提取城市植被信息开辟了新的道路.高中分辨率的影像主要有 LandsatETM+、LandsatOLI等。刘云鹏等[4]基于Landsat遥感影像研究了杨树信息提取方法,运用最大似然法、随机森林法和光谱角填图法进行分类,结合小班数据,对各方法的分类结果进行精度评价。结果表明,光谱角填图分类法在杨树信息提取时精度更高,对杨树的区分精度达到42.67%.刘焕军等[5]基于时间序列Landsat_5_TM、Landsat_7_ETM 遥感影像数据,结合野外实测产量数据,进行棉花产量遥感预测模型研究,结果表明:基于Landsat影像纯像元的植被指数时间序列准确地揭示了棉花整个生长期的长势情况,不同长势的棉花植被指数随时间变化在花铃期差异比较显著。中低分辨率的遥感影像主要有AVHRR和MODIS。利用MODIS数据[6-10]在大区域范围进行农作物分类精度较高。QuickBird和IKONOS虽然分辨率高,但是时间分辨率低;MODIS等时间分辨率高,但是空间分辨率不足[11]。近些年,GF-1感影像数据用于检测农作物生长的研究较多。GF-1卫星是国产高分辨率地测系统的第一颗卫星,于2013年4月26日经长征2号火箭送入太空,其搭载着2台2分辨率全色、8m分辨率多光谱相机,4台16m多光谱宽幅高达800km的相机,能够为国土资源部门、农业部门、环境保护部门提供较高精度较大范围的空间观测服务,同时也为地理测绘、气象观测以及水利农林业资源监测提供可靠数据。黄健熙等[12]基于GF-1 WFV数据研究了黑龙江地区玉米和大豆种植面积的提取方法,得到了玉米的91.49%、93.48%的用户精度和制图精度以及大豆的91.14%、82.76%用户精度和制图精度。而GF-1遥感影像数据既能够满足对枣树分类研究的时间分辨率,同时空间分辨率也满足要求,并且鲜有文献通过GF-1影像数据对红枣种植区域提取的研究,所以本文基于GF-1 WFV影像数据对新疆南疆地区—以阿拉尔市为例的红枣种植面积的提取与分析。
阿拉尔市隶属于新疆维吾尔自治区阿克苏地区,地处天山南麓,塔克拉玛干沙漠北缘,阿克苏河、叶尔羌河、和田河三河交汇之处的塔里木河上游,地理位置位于东经80°30′至81°58′,北纬40°22′至40°57′之间,属于暖温带极端大陆性干旱荒漠气候,极端最高气温35℃,极端最低气温-28℃。年均日照2 556.3~2 991.8小时,日照率为5 869%。雨量稀少,冬季少雪,地表蒸发强烈,年均降水量为40.1~82.5毫米,年均蒸发量1 876.6~2 558.9毫米。该地区是南疆红枣主要种植地区之一。
本文的研究采用空间分辨率为16 m的GF-1 WFV遥感影像数据,2016年研究地区的实测数据见图1。
图1红枣实测点
研究地区红枣物候数据见表1,研究主要针对红枣种植信息提取,但是考虑到研究区域有大量棉花种植,故将研究区域植被部分分为三类,即红枣、棉花以及其他植被。同时,根据目视解译,将空地视为一类,居民区、道路等视为建筑物。根据以上所分类别,依照实测数据与解析数据选取研究样本点,构建训练样本集。在精度验证时,将非红枣和棉花的其它植被统一为其他,所以验证样本由红枣、棉花与其他地物类型进行选择。
表1研究区域红枣物候数据
根据影像数据计算所需要的特征变量,建立包含多个特征的数据集合,利用决策树分类的方法对地类进行识别,并得到相应分类结果。
具体为:首先对所研究区域的遥感影像数据做辐射定标、大气校正、几何校正预处理;其次计算所需特征变量,结合实测数据和目视解译结果,建立分类模型;最后进行分类识别,并对分类结果进行精度检验。
本文的研究主要使用GF-1 WFV遥感数据,辅助数据为GPS测量的地物经纬度数据。在此选取了2景阿拉尔市秋季的GF-1 WFV影像作为研究数据,采集时间分别为2017年9月10与2017年9月16日,此数据来源于中国资源卫星中心。
为了能够有效提高多元数据的使用品质,减少影像波段之间信息的交互影响,提高分类的精度,对得到的数据做如下预处理。
(1)辐射定标。对GF-1 WFV记录的原始DN值转换为大气外层表面反射率。主要是利用定标斜率、卫星载荷观测值的乘积加上定标距离计算得到,具体计算公式为:
上式中大气外层表面反射率L的单位一般为W/(cm2×mm×sr)。
(2)大气校正。为了消除大气散射、吸收以及反射所引起的误差。将大气外层表面反射率转换为地标实际反射率。
(3)正射校正。借助参数RPC(rational polynomial coefficients)以及 DEM(Digital Elevation Model)消除地形的影响或者卫星相机方位引起的变形,从而得到平面正射影像。
为了能够将植被与地面很好的分开,还能够将地物中植被与非植被分开,所以选择归一化植被指数(NDVI)比较合理,计算公式如下:
式中bRED与bNIR分别为红波段和近红外波段的反射率。
同时将用于纹理波段融合的土、沙地检测识别研究的主成分分析(Principal component analysis)方法引入枣树种植面积提取中,通过对影像数据做主成分分析,根据多元统计分析中的选取主成分原则,考虑到前3个主成分的累积贡献率超过85%,并达到了99.7%,在此选择前3个成分即可。分析原始波段与所选主成分特征值、所选特征值对应特征向量的相关矩阵进行特征分解,在实现数据降维的同时保证了研究数据信息的最少流失。
因此,本文的研究选择NDVI、3个主成分、原始波长作为特征变量集合,并对其进行分析,选择更加合理的分类特征对研究区域地物进行分类。
首先考虑到不同地物对各类不同波段的吸收与反射有差异,这也导致不同波段所含地物信息有差异,故而在此对遥感影像的原始波段做基本统计分析,并得到其期望值与标准差,结果见表2。
表2 影像波段基本信息统计表
其次计算所选特征变量的相关矩阵。如果各个特征变量之间相关性较大,表明这些特征之间交互信息较多,不易区分;如果各个波段之间相关性较大,则表明各个波段之间的重复信息量较大,将导致总信息量的使用降低。结果见表3。
表3 各特征值与波段间的相关矩阵
由表2的结果可知,四个波段中包含信息量最多的为Band4,其统计信息明显高于其它三个波段,Band4可以作为植被分类的特征阈值参与分类过程。同时由表3的分析结果,在这些所选的特征变量中,Band4与PC2、PC3以及NDVI之间的相关性较小,因此可以用这四个特征变量进行分类,既能够确保信息量的最大使用,同时也降低了信息的重复。
决策树是以树形结构建立的模型,有回归树和分类树。该模型本身包含一系列的逻辑决策,带有表明根据某一特征属性作出决策的决策节点。决策树由根节点出发,从这些节点发出的分支可做选择,由叶节点终止。这种模型最能够预测目标类的特征。加之决策树分类具有灵活性、直观、运算效率高等特点,所以在遥感分类问题中表现出巨大优势[13,14]。在对枣树特征变量选好的基础上,在此用决策树分类方法建立红枣种植面积的提取模型,逐步掩膜掉其它类别的地物对红枣的干扰,实现红枣种植面积的提取。
具体是将研究数据分成两类,分类后形成的两个子类间数据相较分类前有更好的一致性,对分类产生的子集按此要求,依次分类,直到满足分类要求停止,并对分类所产生的决策树进行修剪与评估,最终得到最合理的那棵树。
本文通过实测数据和对遥感影像目视解译数据来选取训练集,根据样本集所选特征变量,建立数据集。并利用ENVI软件生成决策树。
将遥感影像数据的原始波段Band4、归一化植被指数NDVI、主成分分析得到的第二主成分PC2与第三主成分PC3进行合成,运用所选的训练样本对特征变量Band4、NDVI、PC2、PC3进行分类,并按照不同地物类型进行统计不同特征变量的平均信息,形成不同地物的曲线图,结果如图2所示。
图2 不同地物的特征变量曲线图
图2的(a)与(d)结果可知,各地物的NDVI值与PC3值均不相同,在图(a)中空地与建筑物的NDVI明显较小,图(d)中空地与建筑物的值与其他地物有明显的差别,可以通过特征值NDVI和PC3将非植被进行掩摸,棉花、红枣以及其它植被的特种变量值在这两幅图中差异不大。
图2(b)的结果表明,在原始波段Band4上,其它植被的值明显高于棉花和红枣,但是考虑到各地类像素之间有波动,所以图2中(c)各地物的PC2的值可以将其它植被与棉花和红枣分开,并且在图(c)中明显的发现,棉花和红枣的PC2差异非常大,故可以同时将红枣和棉花分开,从而最终将红枣提取出来。
根据上述的研究,可以得到特征变量的数据集,借助所选的训练数据和分析得到的特征变量值来构建决策树,提取红枣的种植区域,得到最终分类结果。分类决策树见图3。
图3分类决策树
综合图2与图3的分析结果,在决策树的根节点处选择第三主成分值作为分类条件,由于建筑物的第三主成分值比其它地物的都要小,所以首先掩摸的为建筑物;其次根据NDVI将空地与其它地物分离;然后由于其它植被的原始波段Band4明显高于红枣和棉花,所以借助Band4可以将其它植被掩摸;最后,由于棉花和红枣的第二主成分值差异明显,所以根据PC2进一步将棉花掩摸,最终得到红枣,实现了红枣的提取。
采用上述方法,将阿拉尔地区所选研究区域(经度范围 40.504 2~40.644 0,纬度范围是 80.981 9~81.313 4)进行分类,分类结果见图4,其中红色区域为红枣,黑色区域为建筑物,白色区域为空地和水体,蓝色区域为棉花,绿色区域是其它植被。
图4研究区域分类结果
根据2017年阿拉尔地区农作物目视解译结果可知,使用决策树分类的结果与目视解译结果大致相同。同时借助实测数据,对分类结果作进度分析,得到分析结果见表4。其中红枣分类的制图精度与用户精度分别为91.23%、89.41%,总体精度为94.47%,kappa系数为0.93。
表4决策树分类精度分析结果
通过上述的研究,因GF-1 WFV遥感影像数据时空分辨率相对较高,获取成本低,并且能够满足较大区域农作物种植的相关检测与研究。所以在此利用GF-1 WFV遥感影像数据,研究了各类地物的NDVI、PC值以及原始波段等特征变量的差异,借助决策树分类方法来实现红枣面积提取。研究结果表明决策树分类方法有着很好的效果,在对研究区域地物的分类总体精度达到94.47%,kappa系数为0.93。
新疆南疆地区气候、地形等条件决定了经济作物种植类别相对较少,种植面积较大等特点,本文通过对原始波段数据、归一化植被指数以及做主成分变换所得主成分提取红枣种植信息的提取方法作为其它地物种植信息提取的参考,同时可以作为其它地区红枣研究的参考方法之一。
本文研究存在不足之处,决策树方法作为比较经典的非监督分类方法虽然得到广泛的应用,但是随着分类方法的不断发展,决策树分类模型相对成本较高,追寻一种更加快速且成本较低的模型意义重大;如何消除其它地物类干扰,更加准确的提取地物信息也需要进一步讨论与研究。