成 功,罗 丹,张洪瑞,邓小青,张宝一
(1. 中南大学地球科学与信息物理学院,湖南 长沙 410083;
2. 中南大学 有色金属成矿预测与地质环境监测教育部重点实验室,湖南 长沙 410083;3. 湖南工商大学数学与统计学院,湖南 长沙 410205)
对定量遥感反演结果进行检验是遥感反演研究的一个重点,之前研究多通过计算采样点实测值与预测值二者数值上的差异,或通过直观观测对比反演结果与实测数据的空间一致性来评价其精度,存在一定的主观性,需对定量反演结果空间精度进行分析。本文以长株潭地区土壤表层As元素为例,建立Landsat5遥感数据与元素含量之间的神经网络模型,预测研究区As元素的含量和分布,并引入混淆矩阵方法分析产品总体精度,通过多个指标分析空间精度[1-11]。
本文研究区为长株潭地区(长沙-株洲-湘潭),位于湖南省湘江流域(112°45′~113°15′E,27°40′~28°22′N),属于亚热带季风气候,四季分明,雨热同期。长株潭地区为湖南经济发展的核心增长区,湘江沿岸由于农业生产和工业发展,尤其是机械、化学、有色金属等的发展,地区内大量重金属累积于地表[12-13],土壤重金属污染成为重要的研究课题。
1.2.1 实测元素含量
2005 年12 月于长株潭地区采集550 条样本数据,采样方法为规则格网采样,分布如图1 所示。样本采集基于地面20 cm 左右深度,风化干燥过筛后进行实验室化学成分分析。采用电感耦合等离子质谱仪(ICP-MS)获取元素含量,采样点As 元素含量统计数据及环境标准如表1 所示。依据1995 年国家土壤环境质量标准,III 类适用于林地土壤和污染物容量较大的高背景值土壤和矿产附近等地的农田,土壤质量基本对环境不造成危害。研究区内有26 个采样点As含量超过III类,说明土壤存在一定的As污染。
图1 研究区及采样点
表1 样本数据统计及环境标准
1.2.2 影像预处理
选取2005 年11 月的Landsat5 影像,分辨率为30 m×30 m,下载地址为(https://landsatlook.usgs.gov/viewer.html)。所选影像上空无云对影像进行辐射定标、大气校正、几何校正等预处理。
辐射定标消除传感器在运行中自身光学器件性能逐渐退化,从而导致的辐射失真和畸变。大气校正将影像的辐射亮度值转换为地表反射率,主要目的是消除或减少大气分子和气溶胶对电磁波的散射、吸收而致使地物自身反射率的影响[14]。几何校正消除影像上由于地物几何位置、形状等的变形引起的误差。影像辐射定标、大气校正操作均在ENVI 5.3软件平台下完成;几何校正通过ArcGIS 10.5 实现,校正坐标参考1∶50 000地质图,变换方式为一阶多项式(仿射)。
1.2.3 相关性分析
对原始波段反射率(R)分别做对数变换(LogR)和倒数变换(1/R),使用SPSS软件对反射率与As元素含量相关性进行分析,相关系数绝对值越大,说明反射率与含量的相关性越强。选取相关性较高的波段处理方法做进一步建模分析,分析结果如表2 所示。再选取倒数变换后的反射率与重金属含量做定量分析。
表2 波段反射率与As含量相关性分析
BP 神经网络[15-16]具有结构简单、可塑性强的特点,能够有效拟合非线性关系[17]。本次反演模型在MATLAB R2016a中实现。网络模型结构为单个隐含层的神经网络,多光谱6 个波段反射率倒数为输入,As 元素含量为输出,随机选取500 条数据作为建模数据,剩余50条数据为验证集。隐层节点数为8 个;训练误差为0.01,学习速率0.01;训练函数为正切S 型传递函数tansig 和对数S 型传递函数logsig,学习训练函数为最速下降BP算法traingd。模型结构如图2所示。
图2 神经网络结构
2.2.1 模型精度检验
除建模数据外剩余50条实测数据作为验证集,通过对比实测与反演后As元素含量进行精度验证,验证指标为决定系数R2和均方根误差RMSE,其计算公式如下:
式中,y为实测As 元素含量;ŷ为模型反演后的预测值;yˉ为50个采样点As元素含量的平均值。R2越大说明模型的拟合程度越高,模型精度越高;RMSE用来衡量预测值与实测值的偏差,RMSE 越小,说明模型的误差越小,则模型越好。
2.2.2 混淆矩阵
混淆矩阵又称为误差矩阵,常用于精度评价,以N×N的矩阵来表示。本文选用二值化的矩阵,将采样点按照其As元素含量分为极值点和非极值点,通过比较反演前后极值点与非极值点的一致性进行精度评价[18-19],评价指标包括总体分类精度、用户精度、产品精度等。矩阵结构及相关指数计算见表3。
表3 混淆矩阵结构及计算公式
混淆矩阵分类的正确性可以通过计算以下数值来评估:正确识别为极值点的数量(tp)、正确识别为非极值点的数量(tn)、未正确识别为极值点的数量(fp)、未被识别为非极值点的数量(fn)。总体分类精度OA 用于评价所有采样点反演前后分类的正确性,取值范围[0,1],越接近1说明反演正确率越高。
2.2.3 空间精度评价
为评价反演结果与实测数据的高值区域在空间上的一致性,本文通过空间精度评价的多个指数,从As元素含量高值区的数量、位置以及面积这三方面[20-21]进行精度评价。
基于数量的一致性分析包括正确率、错误率和缺失率,通过计算反演结果与实际高值区的对应状况来评估,计算公式如下:
式中,NC、NE、ND分别是正确、错误、以及未提取出的目标的数量;PC、PE、PE取值范围为[0,1],通常以0.5为给定阈值,PC值越高,说明预测与实测的高值区数量具有较高的一致性,精度较高;反之说明数量差异较大,反演精度也就较低。
基于位置的精度评价对比反演前后,提取的高值区质心之间的距离及距离的均方根误差:
式中,Ci、Ri代表实测数据的极值区和反演结果的极值区;xCi、xRi为实测数据和反演结果As 元素富集区域质心的x坐标;yCi、yRi为实测数据和反演结果极值区域质心的y坐标,对应质心的距离与位置精度成反比;DistCi,Ri越小,说明反演结果与实测数据高值区的质心越近,反之越远;RMSEDist评价位置误差,其值越小,精度越高。
基于面积的精度评价以OF 重叠指数为评价指数,描述反演与实测高值区域之间重叠程度,公式如下:
式中,C∩R为实测As元素高值区与反演结果高值区的交集;OF 的取值范围为[0,1];OF 值越接近1,说明高值区重叠面积越大、相似性越高;反之说明高值区重叠面积越低,通常以0.5为阈值。
按2.1 节所述构建BP 神经网络模型并进行训练,将影像波段反射率的倒数变换作为输入,As含量为输出,得到研究区反演结果。实测数据与反演数据分别进行可视化,As元素含量的空间分布如图3所示。
图3 采样数据
实测结果显示长沙市、株洲市和湘潭市及周围地区均存在As元素的富集,长沙市含量最高,其次是株洲市和湘潭市,且As元素含量高值区有沿湘江分布的特点。反演数据显示,三市均存在As 元素的高值区域,同样高值区有沿湘江分布的特点,具有一致性。地区工业企业由于用水、交通等原因多沿湘江分布,人类活动尤其是地区工农业生产是As元素富集的主要原因[13],也是湘江沿岸土壤重金属污染较为严重的主要原因。
50条数据为验证集,用于模型检验,预测值和实测值对比结果如图4。检验结果的散点图显示,As 元素预测值与实测值呈现出一定的正相关关系,大多验证样本集中在1∶1线附近,说明反演结果较为准确,R2为0.72,模型拟合程度较好;RMSE 为5.41,误差较低。BP 神经网络模型能够很好地反演重金属元素As的含量。
图4 模型预测值与实测值对比
为了获取研究区极值点的分类精度,建立混淆矩阵,统计结果如表4 所示。其中极值点产品精度达0.66,用户精度为0.64;非极值点产品精度为0.87,用户精度为0.88,总体精度为0.77。相关指数均大于0.5,整体分类精度较高。
表4 混淆矩阵统计结果
混淆矩阵对比整个研究区采样点反演结果与实测数据类别的一致性,缺少对高值区异常特征的分析,难以评价高值区空间分布上的一致性。提取反演前后As 元素高值区及其质心,其空间分布状况如图5 所示,对反演结果进行空间精度评价。
实测数据显示共有10个极值区域,反演结果显示有8 极值区域。从图5 可以看出,共识别出8 组As 元素高值区存在对应关系,仅有两处高值区未被反演出,正确率可达0.8,错误率和缺失率均较低,说明反演结果高值区域能够正确对应实际采样的极值区,反演结果精度较高。基于距离的精度评价指标显示,对应高值区质心间距离最大值为4.17 km,最小值为0.52 km,平均值为2.27 km,标准差为1.07 km,均方根误差为2.51 km。基于整个研究区范围,反演的高值点位置与实测高值点位置相差不大,距离误差较小,反演结果较好。重叠指数为0.58,说明反演高值区与实测高值区有大部分面积重合,一致性较高。由图5 及表5,反演前后研究区As 元素高值区分布具有较高一致性,空间精度评价结果较好。
图5 As元素高值区分布状况
表5 实测与反演高值区在空间上的一致性评价
本文提出使用混淆矩阵和空间精度评价方法分析定量遥感反演结果的精度,对重金属元素在空间分布上的差异进行评价,有效地说明元素极值区的空间一致性。混淆矩阵总体分类精度较高,通过分析模型预测的高值区域与实测数据的位置精度和形状精度,两者在数量、距离和面积上具有一致性,这是前期土壤重金属含量反演研究中未涉及的。
对于定量遥感的精度评价,尤其是对反演前后高值区域空间分布一致性的评价,通过直观观测进行评价具有主观性和一定误差,很少通过一定的评价指标对结果空间精度进行评价。Whiteside[22]等在研究中提到基于单一的评价指标进行评价,很难概括其他方面的信息。Stephan[23]等同样认为需要多个指标才能更准确地对研究结果进行评价。因此,考虑到检验方法存在的局限性,需要从多个方面综合分析,使评价方式互为补充,同时证明反演结果与实际情况的一致性。多光谱遥感反演的方法能够有效地估计大范围地区地表As元素的含量。
由于研究区地表覆被复杂,采样点数量较少,间隔较大,导致模型预测结果存在偏差,基于距离的精度检验误差较大。此外,由于各地区地表状况具有特殊性,所建立的反演模型是否适用于其他地区有待进一步研究。
本文以长株潭为研究区,结合多光谱遥感数据建立BP 神经网络模型,反演了地区As 元素含量并进行检验,通过混淆矩阵和多个指标对反演精度进行评价,主要结论如下:
1)BP 神经网络模型能较好地反演As 元素含量,采用单点检测值检验方法进行精度验证,决定系数可达0.72,大于0.5这一阈值,且误差较低。
2)可视化结果显示,三市均存在As 元素富集,长沙市地表土壤As元素含量值最高,其次是株洲市和湘潭市。研究区内As元素含量高值区域沿湘江分布,湘江流域是湖南省工业化、城镇化和农业的集中区域,且长株潭是全省经济中心,湘江沿岸更聚集了大量大中型工业企业,农业活动密集,工业污水排放和滥用农药是地区土壤As元素污染的重要原因。
3)混淆矩阵显示总体分类精度较高,通过空间精度评价,反演前后As元素高值区在数量、距离、面积上均有较高的一致性,正确率都在0.5以上,反演结果的空间精度较高。该方法能较好地评价反演结果。
本文使用的混淆矩阵和相关空间精度评价指标能够用于对反演结果的精度评价,对地区土壤污染的监测提供一定参考。此外,随着遥感数据精度的不断提高,定量遥感反演的空间精度也会越来越高。