基于决策树模型的贵州降雹识别研究

2022-01-13 14:25彭宇翔文继芬唐辟如
中低纬山地气象 2021年6期
关键词:降雹云顶冰雹

彭宇翔,文继芬,李 皓,刘 涛,唐辟如,郭 茜

(1.贵州省人工影响天气办公室,贵州 贵阳 550081;2.贵州省气象灾害防御技术中心,贵州 贵阳 550081;3.贵州省气象信息中心,贵州 贵阳 550002)

0 引 言

FY-2G卫星观测资料是目前我国人工影响天气业务主要使用的卫星资料,中国气象局人工影响天气中心基于FY-2G卫星提供的云顶高度、云顶温度、过冷层厚度、光学厚度、有效粒子半径、液水路径、黑体亮温等7项反演产品在我国人工影响天气监测预警业务中发挥了重要作用。

近年来,很多学者利用卫星红外云图、可见光、中波红外等资料针对对流云的识别开展了研究[1-5],倪煜淮等[3]利用FY-2D逐小时亮温资料对2019年一次冰雹天气过程进行了分析研究;针对卫星反演产品也有相关研究,安晓存等[5]分析了云顶亮温、云顶亮温梯度特征与冰雹的关系;孙玉稳等[7]分析了1987年5次降雹个例的云系的云顶温度与地面雹雨分布特征;刘小艳等[8]利用CPAS系统统计分析了冰雹个例中FY-2G卫星反演产品的特征参数及其时间变化。但是,现阶段还没有学者利用FY-2G卫星反演产品进行降雹识别研究。FY-2G卫星提供的反演产品虽已用于贵州人工影响天气监测预警业务,但针对冰雹云的监测还主要是依靠地面雷达,卫星反演产品主要是对全省云系发展进行较大范围的宏观监测,且主要是依靠个人经验进行主观定性判断,针对反演产品对降雹是否具有实质性的指示作用还没有进行过深入研究。因此,本研究主要基于FY-2G卫星反演产品,建立决策树降雹识别模型,验证卫星反演产品对冰雹的识别作业。

本文以FY-2G卫星的反演产品为输入参数建立决策树模型,利用检验集数据检验模型识别效果,检验卫星反演产品对降雹识别研究的有效性。

1 数据与方法

1.1 FY-2G卫星数据

FY-2G是风云二号(03批)卫星中的第二颗卫星,于2014年12月31日成功发射,自2015年7月1日开始定位于105°E赤道上空,并提供观测服务,是目前我国人工影响天气业务主要使用的卫星资料,中国气象局人工影响天气中心基于FY-2G卫星提供的云顶高度、云顶温度、过冷层厚度、光学厚度、有效粒子半径、液水路径、黑体亮温等7项反演产品在我国人工影响天气监测预警业务中发挥了重要作用。

本文收集了2020年3—5月11个冰雹日136组FY-2G卫星反演产品数据,其中包括了68个降雹点数据和68个未降雹点数据,每个降雹点选取降雹时段之前或者之后15 min内的反演产品作为该时段的反演数据,选取该11个冰雹日中未降雹点的反演数据作为对比。将该数据集分为模型训练集和模型检验集。从中随机选取116组数据作为模型训练集用于训练模型(其中包括58组降雹点和58组未降雹点数据),剩余20组数据作为模型检验集(其中包括10组降雹点和10组未降雹点数据)。

1.2 决策树模型

决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,每个分叉路径代表某个可能的属性值,每个叶结点对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出。数据挖掘中决策树是一种经常要用到的技术,可以用于分析数据,同样也可以用来作预测。

图1 决策树模型示意图Fig.1 Schematic diagram of decision tree model

从数据产生决策树的机器学习技术叫做决策树学习。每个决策树都表述了一种树型结构,由它的分支来对该类型的对象依靠属性进行分类。每个决策树可以依靠对源数据库的分割进行数据测试。决策树如果依靠数学的计算方法可以取得更加理想的效果。

2 结果与讨论

2.1 决策树模型建立

在2020年3—5月11个冰雹日136组FY-2G卫星反演产品数据中随机选取116组数据作为模型训练集用于训练模型(其中包括58组降雹点和58组未降雹点数据),利用MATLAB软件完成决策树模型建立。

2.2 模型识别效果检验

2020年3—5月11个冰雹日136组FY-2G卫星反演产品数据中建模随机选取116组数据后剩余的20组数据作为模型检验集(其中包括10组降雹点和10组未降雹点数据)对模型识别效果进行检验,结果显示:所建决策树模型对训练集中10个降雹点准确识别了7个,3个降雹点被识别为未降雹点;对10个未降雹点准确识别了9个,1个未降雹点被识别为了降雹点。

可见,所建决策树模型对降雹与未降雹点总的识别准确率为80%,其中对10个未降雹点识别准确率为90%,对10个降雹点识别准确率为70%。这表明该模型对所建立数据集中的未降雹点识别准确率高于降雹点的识别准确率;将降雹点识别为未降雹会导致实际业务中的漏报,而将未降雹点识别为降雹点会导致空报,因此,所建立的模型空报率为10%,漏报率为30%,空报率低于漏报率。

3 结论

本文以FY-2G卫星的反演产品为输入参数建立决策树模型,对2020年贵州冰雹云进行识别研究,所使用的7项反演产品包括:云顶高度、云顶温度、过冷层厚度、光学厚度、有效粒子半径、液水路径、黑体亮温。将收集的2020年3—5月11个冰雹日136组FY-2G卫星反演产品数据,其中包括了68个降雹点数据和68个未降雹点数据分为模型训练集和模型检验集。从中随机选取116组数据作为模型训练集用于训练模型,完成决策树模型建立,利用剩余20组数据作为模型检验集,验证模型识别效果。结果表明,所建模型冰雹识别准确率为80%,其中对10个降雹点识别准确率为70%,对10个未降雹点识别准确率为90%,这表明该模型对所建立数据集中的未降雹点识别准确率高于降雹点的识别准确率。将降雹点识别为未降雹会导致实际业务中的漏报,而将未降雹点识别为降雹点会导致空报,所建立的模型空报率(10%)低于漏报率(30%),这表明该模型如果投入人工影响天气冰雹识别业务,则该模型的空报率较低,但存在一定程度的漏报。

猜你喜欢
降雹云顶冰雹
王丽敏作品
鄂尔多斯市1961年—2018年冰雹时空分布特征
黑龙江省冰雹的时空分布特征
青海省东部农业区近60 a降雹特征及其致灾危险性
冰雹是冰的,却为何出现在夏天
FY-3D MERSI-II云顶产品算法及精度检验
威宁冰雹落点时空分布特征
冰雹的优点
夏日冰雹
快跑啊,下冰雹了