基于多特征参数的OMI遥感产品气溶胶分类研究
——以广东省为例

2021-08-30 08:20:58郑仰成黎丽莉王云鹏

华南师范大学学报(自然科学版) 2021年4期

郑仰成，黎丽莉，王云鹏

(1. 中国科学院广州地球化学研究所有机地球化学国家重点实验室，广州 510640；2. 中国科学院深地科学卓越创新中心，广州 510640； 3. 中国科学院大学，北京 100049；4. 仲恺农业工程学院资源与环境学院，广州 510225)

大气中的气溶胶粒子通过散射、吸收太阳辐射和形成云凝结核等方式来影响全球气候变化[1]. 不同类型气溶胶之间的光学属性、成分以及粒径分布有所差异，因此，不同类型的气溶胶也会给气候带来不同程度的影响[2]. 沙尘型气溶胶的粒径分布较大，有较强的散射能力，会降低地表的能见度[3]. 生物质燃烧型含碳气溶胶的粒径分布较小，但由于吸收性成分含量较高，此类气溶胶表现出较强的辐射吸收能力；大量的生物质燃烧型含碳气溶胶会影响云的微物理性质，甚至影响生物地球化学循环[4]. 因此，对不同的气溶胶类型进行有效的区分，有助于进行气溶胶源解析、改善气溶胶光学模型、减少卫星观测气溶胶的不确定性[5].

传统的监测和分析气溶胶类型的方法主要基于地面的监测站点，这种监测分析方法受限于监测站点的数量以及空间分布，因此，地面站点的监测数据无法反映真实的气溶胶空间分布情况[6]. 遥感技术具有监测范围大、覆盖时间长的特点，在气溶胶的监测分析中起到了不可或缺的作用，利用卫星遥感数据可以进行广覆盖、长时间序列的气溶胶监测[7-9]. 利用遥感数据进行气溶胶分类，其原理是提取描述气溶胶的消光、吸收、散射、折射和粒径分布等各种气溶胶特征参数. 不同种类的气溶胶的各项特征参数互有差别，因此，可以通过特征参数区分不同的气溶胶类型[4,10-11].

目前已有许多大气遥感卫星发布了气溶胶相关的产品，为气溶胶的监测和分析发挥了重要的作用. OMIAuraAER是美国国家航空航天局(National Aeronautics and Space Administration,NASA)公布的一组近紫外型气溶胶产品，该产品由搭载在Aura卫星上的OMI(Ozone Monitoring Instrument)传感器观测数据反演得到，包含多项气溶胶特征参数以及气溶胶类型产品[12]. 对EOS-Aqua卫星上的一氧化碳指数(Carbon Monoxide Index,COI)和OMI上的近紫外型气溶胶指数(Ultraviolet Aerosol Index,UVAI)进行阈值分析，可得到OMI的3种气溶胶类型产品：沙尘型气溶胶(Desert Dust,DST)、生物质燃烧型含碳气溶胶(Carbonaceous Aerosols Associated with Biomass Burning,CRB)和硫酸盐型城镇-工业气溶胶(Sulfate-based Urban-industrial Aerosols,SLF). 这3类气溶胶类型产品已得到广泛运用，对气溶胶空间特征研究、源解析及气溶胶光学模型的改善起到了重要的作用[13-15]. 但是，COI数据和UVAI数据来自2颗不同的卫星，时间分辨率与空间分辨率均存在差异，无法满足数据融合的需求，部分像元点无法反演得到气溶胶类型的数据. 因此，本研究以广东省为研究区，在不使用COI辅助数据条件下进行气溶胶类型的反演，从而提高气溶胶类型产品的空间覆盖度，拟为广东省的气溶胶源解析和排放源控制提供科学参考.

1 研究数据与方法

1.1 研究数据

以广东省(20°13′ N～25°31′ N，109°39′ E～117°19′ E)为研究区域，采用OMI的气溶胶产品进行研究. NASA的近紫外型气溶胶产品由不同年份获取的地表反射率及其反演得到的气溶胶产品构成，其中OMIAuraAER为2004年8月至今的气溶胶产品. 该产品的时间分辨率为98.8 min、空间分辨率为13 km×24 km，2个用于获取地表反射率的波段分别为354、388 nm，并由这2个波段反演得到一个500 nm波段的产品. 该卫星为极地轨道卫星，观测范围可以覆盖全球所有区域，本研究仅选用覆盖研究区域内的像元点进行研究.

在OMIAuraAER产品中，有多个用于反映气溶胶不同物理属性的气溶胶特征参数，其中可被用于气溶胶分类的气溶胶特征参数包括:

(1)气溶胶吸收光学厚度(Aerosol Absorption Optical Depth,AAOD)：描述气溶胶对太阳辐射的消光作用中吸收的部分，取值范围为0～1.

(2)气溶胶光学厚度(Aerosol Optical Depth,AOD)：描述气溶胶对太阳辐射的总消光能力，取值范围为0～6.

(3)单向散射反照率(Single Scattering Albedo, SSA)：描述气溶胶的吸收和散射的相对大小，SSA值越大，则说明该气溶胶的散射能力强于吸收能力，取值范围为0～1.

(4)复折射指数(Refraction Index,RI)：由实部和虚部组成，其中实部描述气溶胶的散射能力，虚部描述气溶胶的吸收能力. OMIAuraAER产品仅提供了RI的虚部，取值范围为0～1.

(5)近紫外型气溶胶指数(Ultraviolet Aerosol Index,UVAI)：反映吸气溶胶吸收能力的强弱. 吸收性气溶胶的UVAI呈现正值，且吸收性越强UVAI值越高，而非吸收性气溶胶的UVAI呈现负值. 取值范围为-2～3.

(6)α指数(Angstrom Exponent)：通过2个波段(388 nm和500 nm)的AOD产品计算得到，反映气溶胶粒径分布的大小. 气溶胶粒径分布越大，则α值越小，反之则越大. 取值范围为0.5～2.0.

(7)经纬度：每个像元点的经度和纬度坐标，数值范围为广东省的经纬度范围.

本文使用上述所有气溶胶特征参数作为训练数据，包括AAOD(λ为354、388、500 nm)、AOD(λ为354、388、500 nm)、SSA(λ为354、388、500 nm)、RI(λ为354、388 nm)、UVAI、经纬度以及α指数共计15个特征参数；以OMIAuraAER自带的气溶胶类型产品作为标签数据，利用随机森林算法对广东省气溶胶类型进行监督分类. ZHENG等[16]曾使用K-means聚类算法，结合AOD、UVAI和α指数3种气溶胶特征参数对2010年广东省气溶胶类型进行非监督分类. 为形成长时间序列研究，本研究的时间段选取2014年，探讨不同的分类方法及特征参数选取对气溶胶分类的影响. 选取数据集中所有产品质量合格，各特征参数没有异常值的像元点共计53 882个，其中：SLF型气溶胶占比最高(84.3%)，共有45 404个像元点；其次是DST型气溶胶占比(12.3%)，有6 629个像元点；CRB型气溶胶占比最低(3.4%)，有1 849个像元点.

1.2 研究方法

在使用OMI气溶胶产品的特征参数进行气溶胶分类的过程中存在2个问题：(1)如何在多种特征参数中挑选出最适合分类的特征参数及其组合，使得分类结果的精确度和计算性能满足研究需求. (2)已有研究使用的分类模型大多是基于阈值分类法，即在特征参数上确定一个阈值，以区别不同的气溶胶类型. 然而，这个阈值大多由历史经验数据给出，而且不同地区的气溶胶的物理特征有所差异，在一个地区所确定的阈值并不能广泛地运用到其他区域进行分类.

本文利用随机森林算法进行气溶胶分类，探讨适用于气溶胶分类的特征参数及其组合. 随机森林算法[17]是一种分类速度快、分类准确率高的监督分类算法，已用于解决土地覆盖类型分类、植被覆盖度估算、农作物识别和用水总量影响因素解析等问题，并取得了良好的效果[18-24]. 在分类过程中，利用随机森林算法可以得到不同特征参数的重要性，可根据重要性的高低对气溶胶的各项特征参数进行排序，从而挑选其中重要性最高的特征参数. 此外，随机森林并不会显式地给出一个具体的分类阈值，而是根据不同的训练数据得到不同的模型，泛化性能要高于传统的阈值分类法.

随机森林由多棵决策树构成，每棵决策树会随机选取样本数据及气溶胶特征参数，得到一个预测的气溶胶类别，然后由多棵决策树进行众数投票，选取得票最多的预测类别作为随机森林的预测结果(图1A). 在决策树中，用Gini指数来衡量数据集的不确定性，Gini指数值越大，则表示数据集的不确定性越大. 决策树的分类过程即是通过不断分割训练样本，从而降低样本数据集Gini指数的过程. 对于整个样本数据集D，其Gini指数为：

(1)

其中，k=1,2,3，代表有3种气溶胶类型(DST、CRB和SLF)；Ck是指每个类的样本数.

根据特征参数A，将数据集D分割成2个子数据集(D1和D2)，则在特征参数A的条件下，数据集D的Gini指数为：

(2)

即数据集D在特征参数A条件下的Gini指数可以用2个子数据集的Gini指数来表示. 通过寻找最优的阈值，使数据集的Gini指数在分割成子数据集后降至最低，在子数据集中尽量只包含属于同一个类的样本点. 利用数据集D和子数据集D1、D2在特征参数A条件下的Gini指数之差来衡量特征参数A的重要性.

在每棵决策树中，每个节点代表一个样本数据集. 计算每个节点的Gini指数，如果Gini指数高于阈值，则代表该节点的不确定性过高，需要继续分裂以降低不确定性；如果Gini指数低于阈值，则代表该节点是一个稳定的分类结果，可以停止分裂，形成一个叶子结点. 如果所有叶子结点不再分裂，即决策树不再成长，则输出该决策树，再继续随机选取不同的样本点和气溶胶特征参数构建新的决策树，直到决策树的数量达到要求(图1B).

图1 气溶胶分类流程图

在随机森林算法中，使用特征参数重要性来衡量每个特征参数在分类过程中作出的贡献大小. 在决策树中，当1个节点分裂为2个子节点后，数据集被分为2个确定度更高的子集，衡量不确定性的Gini指数也相应减小. 如果一个特征参数能够降低的不确定性越多，则其分类效果越好，重要性也越高. 将每个特征参数的重要性进行归一化，使其重要性之和为1.

在随机森林的参数设置中，决策树的数量为100棵. 由于标签数据仅有3种类别(DST、 CRB、SLF)，而用于分类的特征数量有15个，为了防止每棵树的分裂深度过大，将最大叶子结点数量设置为6个，即每棵决策树出现6个叶子结点后将停止分裂，以节省分类时间. 在研究过程中，依次选取不同数量的样本点进行训练，观察随机森林算法的分类精度与样本点数量的关系，并使用所有的样本点进行精度的验证.

2 结果与讨论

基于2014年广东省气溶胶类型的分类结果，本文讨论了随机森林算法的分类精度，提取分类过程中重要的气溶胶特征参数，并对气溶胶类型的空间分布特征进行了分析.

2.1 分类精度

分类精度是衡量算法优劣的重要指标. 计算分类正确的训练样本数量在总体训练样本数量中的百分比，作为总体的分类精度. 同时，分别计算DST、CRB、SLF型气溶胶分类正确的训练样本数量在各自类别的训练样本数量中的百分比，作为各个类别的分类精度.

由分类精度结果(图2)可知：(1)总体的分类精度可达97%以上，且随着投入训练的像元数量增加而不断提高. (2)初始训练样本数量较少时，CRB型气溶胶的分类精度较低(仅为35%左右)，但由于CRB样本在总体样本中所占比例较低，因此，总体的分类精度和其他2类气溶胶类型(DST,SLF)的分类精度均可达到60%～70%. (3)随着训练样本数量的增加，总体的分类精度与各个分类别的分类精度迅速增大. 训练样本数量达到50个时，DST、SLF型气溶胶和总体的分类精度均可达到97%以上，而CRB型气溶胶的分类精度有点波动，但也逐渐趋于稳定. 由此可知，使用随机森林算法进行气溶胶分类，可以满足在不使用COI辅助数据的条件下，单独用OMI自身的气溶胶特征参数完成气溶胶的高精度分类；同时，在实际应用中，受到卫星过境时间以及云层覆盖度的影响，单景遥感影像中可用于训练的高质量像元数量并不多，而随机森林算法的高效性使其可以在训练像元数量稀疏的特殊情况下建立分类模型.

图2 气溶胶分类精度与训练样本数量关系

2.2 特征参数选取

由特征参数重要性结果(表1)可知：(1)在所有特征参数中，α指数对气溶胶分类影响最大，其重要性达到0.245，说明气溶胶的粒径分布是用于判断气溶胶类型的重要指标. (2)UVAI指数的重要性达到0.218，在各项气溶胶特征参数中排名第二，符合预期结果. 究其原因为：在反演OMI气溶胶产品的阈值分类法中，使用了UVAI、AOD、SSA以及COI指数，其中UVAI占主导因素. (3)在其余特征参数中，重要性由高到低依次为RI、SSA、AAOD、AOD，不同波段的AAOD、AOD、SSA和RI的重要性差别不大. 因此，在使用气溶胶分类算法中，使用哪个波段的产品对于分类精度没有太大影响. (4)经纬度对气溶胶分类的重要性接近0，意味着经纬度在分类过程中无法降低数据集的不确定性，是无效的分类特征参数.

表1 各项气溶胶特征参数的重要性Table 1 The importance of each aerosol feature parameter

由分类价值最高的6个特征参数(α指数、UVAI、RI354、RI388、SSA500和AAOD500)在3种气溶胶类型中的均值、标准差以及最大、最小值(表2)可知：(1)在反映气溶胶粒径分布的α指数上，SLF型气溶胶的均值最大，说明其粒径分布最小；而DST型气溶胶的均值较小，说明其粒径分布最大. (2)在反映气溶胶吸收能力的UVAI指数上，DST、CRB型气溶胶的均值较大，说明这2种气溶胶的吸收能力强；SLF型气溶胶的均值最小，说明SLF型气溶胶的吸收能力较弱. (3)CRB型气溶胶的α指数均值与SLF型气溶胶的相近、UVAI均值与DST型气溶胶的相近，单独考虑一种特征参数无法较好地识别CRB型气溶胶. 此时可结合α指数和UVAI指数进行判别：CRB型气溶胶在这2种指数上均具有较高的均值，可以凭此区分CRB型气溶胶与另外2种气溶胶类型.

表2 3类气溶胶特征参数的均值、标准差、最大值及最小值

2.3 广东省气溶胶类型特征讨论

在使用随机森林法进行气溶胶分类后，可以统计广东省总体及各个城市中各类型气溶胶的占比. 由图3和表3可知：(1)在广东省中，SLF型气溶胶占比最高，达到84.5%；其次是DST型气溶胶占比，达到12.5%；CRB型气溶胶占比最低(3.0%). (2)SLF型气溶胶在广东省内占比最高. SLF型气溶胶主要来自工业生产和机动车排放，因此，可反映广东省的工业化程度较高，机动车数量较多. (3)DST型气溶胶在珠三角地区的占比最高，其次是在粤西地区，在粤东地区的占比最低. DST型气溶胶主要来自道路扬尘与土木工程建设，反映出珠三角和粤西地区的交通设施较为发达，在建城市基础设施较多. (4)CRB型气溶胶在珠三角及粤东汕头、潮州等城市占比较高. 珠三角地区的CRB型气溶胶主要来自大量的汽车尾气排放，而粤东汕头和潮州地区的CRB型气溶胶则可能来自秸秆的燃烧.

图3 广东省的气溶胶类型占比的空间分布 (随机森林分类结果)

表3 广东省各城市3种气溶胶类型占比

由随机森林分类结果与OMI气溶胶类型产品标签数据的空间分布(图3、图4)可知：(1)两者的空间分布呈现高度的相似性. (2)各类型气溶胶占比排名相同，从高至低依次均为SLF、DST、CRB型气溶胶. (3)结合表3可知各种气溶胶类型的占比有所差异，CRB型气溶胶占比升高，DST、SLF型气溶胶占比降低.

图4 广东省的气溶胶类型占比的空间分布 (OMI产品标签数据)

本文所得2014年的分类结果与2010年的分类结果[16]相符，各气溶胶类型占比没有太大变化，说明广东省内气溶胶类型在2010—2014年间没有较大的变化. 与2010年使用的非监督分类K-means聚类法相比，使用OMI气溶胶类型产品作为标签数据进行随机森林监督分类提高了分类结果的可靠性. 本文提取了6项最重要的气溶胶特征参数，与2010年使用的3项特征参数相比，α指数和UVAI仍是重要的分类指标，但是AOD的重要性下降.

3 结论与展望

本研究基于OMI卫星遥感产品提取的特征参数，使用随机森林法对广东省2014年气溶胶进行分类并做验证. 根据随机森林法的分类结果，讨论了分类的精度、各项气溶胶特征参数的选取以及分类结果的空间分布，主要结论如下：

(1)使用随机森林法进行气溶胶分类，分类精度可稳定在97%以上，仅需少量样本点即可达到高精度的分类. 样本数量达到50个时，总体的分类精度可达97.6%，其中DST、CRB、SLF型气溶胶的分类精度分别为95.6%、 88.1%、98.6%. 说明在不使用COI指数的条件下，通过随机森林算法可以用OMI自身的气溶胶特征参数产品完成较高精度的气溶胶分类.

(2)本研究使用了15个特征参数进行分类，根据特征参数重要性高低，最重要的6个分类特征参数依次为α指数、UVAI、RI388、RI354、SSA500、AAOD500，说明气溶胶的粒径分布特征和光学吸收特征在分类中起到了最关键的作用.

(3)2014年广东省内各城市各类型气溶胶的占比结果显示：SLF型气溶液为广东省最主要的气溶胶类型；DST型气溶胶在珠三角地区的占比最高，其次是在粤西地区，在粤东地区的占比最低；CRB型气溶胶在珠三角地区和潮州、汕头、湛江等城市的占比较高，在其他地区的较低.

本文提出了一种基于OMI气溶胶特征参数和随机森林算法的气溶胶分类法，为传统气溶胶分类方法存在的精度低和特征参数冗余的问题提供了一种解决方法. 在今后的研究中，将以本文的研究结果为基础，进一步反演2018年广东省的气溶胶类型，讨论更长时间序列气溶胶类型的变化特征.

基于多特征参数的OMI遥感产品气溶胶分类研究——以广东省为例