文 | 郝伊一 唐伟 周勇 王喆
1.中国气象局气象干部培训学院 2.中国气象局发展研究中心
卫星在气象预报、生态监测、水利资源及开发等方面的应用非常广泛。卫星资料有图像资料(卫星云图)和探测资料(定量数字资料)两大类。以卫星云图为例,它是由气象卫星(或个别陆地卫星)自上而下观测到的云层覆盖和地表面特征的图像,利用卫星云图可以弥补常规探测资料的不足,为天气分析和天气预报提供依据,对提高预报准确率起了重要作用。对于卫星资料的处理,传统以阈值法、聚类法为主,21世纪以来由于人工智能的迅速发展,基于机器学习的方法陆续被提出。
机器学习是指通过计算机学习数据中的内在规律性信息,获得新的经验和知识,以提高计算机的智能性,使计算机能够像人那样去决策[1]。作为人工智能的技术基础,与传统的统计方法相比,机器学习不仅拥有通过算法对计算机数据进行快速处理的能力,还拥有统计模型所具有的对问题进行预测、分类的能力[2],并且准确率较传统方法有明显提高。在当前的“大数据”时代,机器学习在海量的卫星资料中有着巨大的应用潜力。本文简要梳理了国内外机器学习算法在卫星资料的云识别、降水估计等相关领域的主要应用情况。
利用气象卫星云图进行云的检测和分类是基于“在卫星观测视角内,地表和云有不同的特征”这一假设的基础上进行的,云检测和云分类是气象卫星云图最基本也是最重要的研究内容之一。
云检测是利用云和晴空像元在不同光谱段上辐射特性的不同,采用多通道辐射信息,将卫星观测像元分为有云像元和晴空像元。已有研究利用神经网络、支持向量机、迁移学习、卷积神经网络等方法,成功地对卫星图像进行云检测。师春香等人采用多阈值和人工神经网络相结合的方法,对日本静止气象卫星GMS红外云图进行自动分割,输出分割出的每一个云区,同时还包括云区的边界链码、起始点、周长、面积,并保留了原始图像数据,结果显示云检测正确率达到90%以上[3]。宋小宁等人利用一种基于空间结构分析和神经网络的云自动检测算法,对美国极轨气象卫星Terra和Aqua上搭载的中分辨率成像光谱仪(MODIS)图像进行了云检测研究,研究表明利用MODIS图像可成功地检测云点像元[4]。胡根生等人提出一种云量自动评估和加权支持向量机相结合的云检测算法对美国陆地卫星(Landsat)图像进行云检测。结果表明,该方法既具有云量自动评估算法的云检测优势,还对云量自动评估算法难以识别的半透明云有较好的检测效果。[5]胡凯等人利用迁移学习中的多源加权(Tradaboost)算法(内部采用极限学习机作为分类器)对我国环境与灾害监测预报小卫星星座(HJ-1A/B)的卫星图像进行云的检测,利用多人(多源)标注的大量厚云的样本构成多源辅助样本集,利用少量标注的薄云样本构成目标样本集。结果表明迁移学习可以充分利用容易获得的大样本厚云辅助样本知识,对同类型有关联的小样本薄云分类器进行识别提高。[6]夏旻等人利用卷积神经网络方法,针对HJ-1A/B卫星图像进行云的检测,并利用空间相关法计算总云量,结果表明,通过对卷积网络结构及参数的优化,卷积神经网络可以很好地提取云图的特征,云分类时厚云和薄云之间的过渡区域清晰,云的识别率以及云量计算的准确率都比传统阈值法、动态阈值法以及极限学习机模型的结果要好。[7]
云分类是利用可见光和红外通道观测数据对云进行分类,从宏观角度一般可将云分为:积雨云、厚卷云、薄卷云、雨层云、中云、低云和层云(雾);根据云顶特性,可以从云的相态将云分为冰云、水云和混合相态云。已有研究利用神经网络、遗传算法、支持向量机方法,成功地对卫星图像进行云分类。白慧卿识别了日本静止气象卫星GMS云图中的四类云系,并与传统的统计识别方法进行了对比,结果表明神经网络方法更适合于云系的特征识别。[8]洪梅等人提出一种结合了遗传算法全局寻优、模糊C均值聚类算法局部寻优、模糊减法聚类算法客观估算聚类数三种方法的综合方法(FSC-GA-FCM),对GMS-5卫星云图进行云分类判别。试验结果表明,综合方法的云分类效果明显优于单一的模糊C均值聚类算法和遗传算法,可运用于实况云图的云分类客观、自动判别。[9]黄兵等人建立了自组织神经网络(SOFM)和概率神经网络(PNN)的综合云分类器优化方法,对GMS-5卫星云图多光谱云类样本进行云分类,试验结果表明,该方法可有效提高云类判别效果,分类结果的总正确率达到92.4%,Kappa系数为90.82,明显优于单一的统计分类器判别效果。[10]张振华等人采用两层嵌套的BP人工神经网络模型,基于我国静止气象卫星风云二号C星(FY-2C)可见光和红外、水汽亮温资料进行云分类研究,结果表明,嵌套模型的分类结果比传统模型的分类结果更合理,特别是在中低云和薄卷云的云量和位置分辨能力上有了较大提高。[11]Lee Y等人应用多参数支持向量机方法全局优化分类(MSVM)来模拟MODIS数据进行云的分类,取得很好的分类效果。[12]严卫等人构建了联合美国云-气溶胶激光雷达和红外探路者卫星(CALIPSO)和云探测卫星(CloudSat)资料的云相态识别模型,并和温度阈值法进行比较,结果表明支持向量机云相态识别技术具有较高的识别精度,能够更为准确地反演云相态的垂直分布信息。[13]
气象卫星的降水估计(降水分类)是指根据天气学云的知识,利用云图识别原理来估计一些天气系统的降水分布(或是识别出产生降水的主要云类),具有重要的应用价值。[14]已有研究人员利用人工神经网络、支持向量机、随机森林等方法,成功地利用卫星资料进行降水估计。
利用日本GMS卫星红外图像和地面资料估计降雨率,Kou-Lin Hsu等人提出一种基于自适应人工神经网络的降水估计算法,结果显著提高了对不同地理区域、不同时间降水特征的估计性能。[15]熊秋芬等人采用人工神经网络方法对GMS卫星多通道资料进行地面降水估计,结果表明,该方法提供的客观定量的降水量估算平均相关系数为0.57,较使用单通道红外云图资料和简单阈值和函数方法更佳。[16]夏双等人基于三层前向型反向传播神经网络的卫星降水估算模型,利用我国FY-2C数据对藏北高原进行了降水估计研究。结果表明,人工神经网络能较好地刻画该地域卫星降水特征的非线性规律,三层前向型反向传播神经网络卫星降水估算模型的估算结果与雨量计实测值间的相关性可以达到0.57。[17]刘建朝等人利用支持向量机方法,基于FY-2C/D资料和我国气象部门预报业务系统Micaps 1小时雨量资料,建立预测降水与非降水的分类模型。结果表明,降水类的预测准确率在40%~60%,非降水类的预测准确率在90%以上。[18]Bellerby T等人结合美国静止气象卫星GOES卫星图像和热带降雨测量任务卫星(TRMM)降水雷达数据,生成巴西某地区0.12°的空间分辨率、半小时的降水估计,将相应的降水雷达观测值与四波段GOES图像数据进行匹配,形成人工神经网络训练数据集,将多个GOES像素的统计信息与每次降水观测进行匹配,将云纹理和变化速率的信息纳入到估计过程中。结果表明降水雷达和GOES数据的组合可以用来生成大尺度长时间序列的高时空分辨率降水估计。[19]Grimes D I F等人将欧洲静止气象卫星Meteosat的热红外图像中获得的冷云期(CCD)图像与数值天气模式分析数据一起作为人工神经网络输入,得到非洲地区的降水估计,结果比标准CCD方法有一定改进,特别是对较大降雨量的改进很明显。[20]
除了云识别和降水估计以外,卫星资料在气象资料反演、灾害性天气识别、生态监测等方面也有很多成功应用,在防灾减灾救灾和生态文明建设中可以发挥重要作用。
气象卫星资料反演是指将卫星探测的原始数据经一定的变换、订正与计算, 反求出表征卫星探测对象某种特性状态的演算过程。在地面观测数据不足时,气象卫星资料反演得到的均匀的、高时空分辨率的气象要素资料具有很高的价值。胡文东等人利用BP人工神经网络和最优拟合回归方法,基于日本GMS-5卫星红外资料,建立了反演大气相对湿度场的数学模型。[21]鲍艳松等人利用人工神经网络方法,研究了我国静止气象卫星风云四号的高光谱红外载荷大气温度廓线反演方法。[22]涂满红等人研究了基于中国北斗导航卫星反射信号的支持向量机海面风速反演方法。[23]
灾害性天气识别是对人民生命财产有严重威胁、对工农业和交通运输会造成重大损失的天气进行归类和定性。[24]利用我国极轨气象卫星风云一号D星(FY-1D)遥感数据,刘年庆等人提出了一种基于支持向量机的大雾判别方法。[25]Lakshmanan V等人基于美国GOES卫星和多普勒天气雷达(WSR-88D)获得的反射率数据和云顶红外温度资料,研究了一种用于识别不同尺度风暴的天气图像的分层K均值聚类方法。[26]周康辉等人利用模糊逻辑算法,结合风云气象卫星的红外亮温和地面气象观测、雷达等多源数据,实现了雷暴大风与非雷暴大风的有效识别和实时监测。[27]
卫星生态监测是利用卫星监测天气、农作物生长状况、森林病虫害、空气和地表水的污染情况等,其最大的优点是覆盖面宽,可以获得人工难以到达的高山、丛林资料。杨俊涛等人利用决策树分类方法,基于美国静止气象卫星GOES数据生成了雪盖产品,同时融合被动微波辐射计(AMSR-E)雪水当量产品进行雪盖联合监测。[28]梁益同等人利用神经网络方法实现了基于美国极轨气象卫星NOAA的森林火点自动识别。[29]楼琇林等人利用美国NOAA卫星可见光和热红外波段遥感数据,研究了基于人工神经网络的赤潮监测方法。[30]Roberts D A等人基于光谱混合分析和决策树分类方法,利用1975年至1999年期间在三个相邻地区获得的33个Landsat场景,描述了巴西隆多尼亚中部超过80000km土地覆盖的时空变化。[31]彭静等人对美国Landsat影像资料进行决策树分类,得到土地利用/覆盖分类图像,来研究背景城市热岛的时空变化;[32]李建楠等人采用监督分类支持向量机方法,利用美国Landsat卫星遥感影像进行了呼和浩特地区地表覆盖类型的识别。[33]何文莉等人基于我国环境与灾害监测预报卫星HJ-1A/B数据对湿地地表类型进行识别,提取了鄱阳湖自然湿地的湖泊湿地类型变化数据。[34]
目前,我国有8颗风云气象卫星在轨业务运行,为全球93个国家和地区提供服务,是世界气象组织全球业务应用气象卫星序列的重要成员。风云卫星数据逐日递增,仅2018年的数据服务总量就达到近5PB,如何认识、理解和用好卫星数据是当前的一个重大课题。未来应加强机器学习的应用,提高风云卫星资料中云识别、降水估计、灾害性天气识别等信息提取和判别的准确性,同时在生态监测中发挥重要作用,为国家防灾减灾、经济建设、生态文明建设等提供科技支撑。