深度学习方法在玉溪市烤烟种植区冰雹预测中的初步应用

2023-11-01 01:46纳丽佳
云南地理环境研究 2023年3期
关键词:降雹概念模型人工神经网络

朱 睿,纳丽佳

(玉溪市气象局,云南 玉溪 653100)

0 引言

随着人工影响天气工作在服务农业生产、支持防灾减灾、助力生态文明建设和保障重大活动等方面发挥的作用越来越突显,对人工影响天气作业能力提出了更高要求,冰雹预测准确性是提升作业能力的关键要素。当前,冰雹预测手段已经从基于经验和类比预报的阶段发展到数值天气预报模式阶段,数值天气预报模式已成为冰雹等短时临近预报的重要手段。但是,数值天气预报模式是通过求解一系列数学物理方程模拟大气过程,数值模拟的过程中存在很多不确定性因素,比如不确定的初始条件、物理过程参数化等。由于大气的混沌特性,不确定的初始场以及物理过程的参数化会导致模式结果出现很大的不确定性。近年来,机器学习,尤其是深度学习,展示了处理大数据的强大能力,该方法能从海量数据中提取有效信息和处理非线性问题,深度学习技术的突破,为解决数值天气预报模式的不确定性问题提供了一个新思路,已被应用于气象领域极端事件的检测和预测以及对流天气短时临近预报。在预报业务中,针对小尺度、精细化预报需求,预报员需要综合对天气形势、实况信息及多种数值预报产品的融合分析,结合自身的预报经验和局地特征,通过会商给出预报结论。会商过程中花费了预报员大量的时间和精力整合分析多源信息[1]。深度学习方法在融合、处理信息方面的优势一定程度上可以代替预报员在会商中整合、分析信息的过程,通过数据挖掘、学习,将预报员的经验内化在算法中,实现智能、高效的预报,并已取得了积极的成果。本文通过分析玉溪市2006—2021年这期间6至9月降雹过程,建立玉溪冰雹个例库,利用深度学习方法,学习降雹雷达回波特征,建立冰雹预测模型,分析模型应用效果。

1 方法和数据

1.1 深度学习方法

近10年里,深度学习在图像处理、语音识别等领域取得了巨大成功,发展了诸多功能强大的神经网络模型,其中循环神经网络是一类专门为处理序列数据设计的神经网络,在时间序列预报中发挥重要作用。气象过程的演变和预报是时间序列过程,因此,循环神经网络更适合处理气象领域的时间序列的预测问题,最具代表性的基于信息筛选记忆的长短期记忆神经网络,即LSTM神经网络。

时间序列预测法是一种定量分析法,它是在时间序列变量分析的基础上,运用一定的数学方法建立预测模型,使时间趋势向外延伸,从而预测未来发展变化趋势确定变量预测值。时间序列预测法也叫历史延伸法或外推法,它的主要特点是假定事物的过去趋势会延伸到未来。

时间序列是指同一变量按事件发生的先后顺序排列起来的一组观察值或记录值。构成时间系列的要素有两个:其一是时间,其二是与时间相对应的变量水平。实际数据的时间序列能够展示研究对象在一定时期内的发展变化趋势与规律,因而可以从时间序列中找出变量变化的特征、趋势以及发展规律,从而对变量的未来变化进行有效地预测。

时间序列预测分析就是利用过去一段时间内某事件时间的特征来预测未来一段时间内该事件的特征。这是一类相对比较复杂的预测建模问题,和回归分析模型的预测不同,时间序列模型(LSTM)是依赖于事件发生的先后顺序的,同样大小的值改变顺序后输入模型产生的结果是不同的。

冰雹预测最核心的就是判断因变量属于哪个类别,也就是提供的数据具有降雹特征还是非降雹特征,广义上属于分类预测任务。但是,冰雹云的发展,跟时间序列又有密切关系,具备构成时间系列的两要素,即时间和与时间相对应的变量水平,狭义上又属于时间序列预测。

1.2 数据来源

在建立玉溪冰雹个例库过程中,挑选样本时,排除华宁盘溪镇、华溪镇,新平漠沙镇,峨山化念镇,元江曼来镇、甘庄街道、澧江街道、红河街道等热区,以及排除湖面及哀牢山沿线等山区(无人区)。玉溪边界主要是根据玉溪市烤烟种植区分布对应挑选,确保样本实况统计准确。

雷达数据选取范围为2006—2021年这期间6至9月玉溪市具有完整雷达回波数据和降雹灾情收集数据的共431个降雹过程数据;同时,选取了700个非降雹过程数据,对431个降雹过程和700个非降雹过程进行分析。其中2006—2018年的385个降雹过程数据用于建模,2019—2021年的46个降雹过程数据用于预测检验。

特征因子的选取主要是依据国内外在雷达研究方面成果:Winston等研究表明,垂直积分液态水含量对冰雹的存在有较好的指示作用[2];Amburn等认为VIL密度超过4(g·m-3)时,风暴几乎肯定会产生直径超过2 cm 的大冰雹[3];Roy分析了强对流天气和回波顶之间的关系,认为在冰雹、龙卷风和雷暴大风等强天气中,冰雹的回波顶最高[4];俞小鼎等分析了多普勒天气雷达与强对流天气预警之间的关系,指出产生大冰雹的强对流风暴最显著特征是在反射率因子垂直剖面图上高悬的反射率因子高值区、-20℃等温线高度之上的超过45 dBz的反射率因子核、风暴顶辐散和s波段雷达回波的三体散射现象[5];段勇等通过判断风暴顶顶高、风暴最大有效反射率等因子,加权分析冰雹出现的可能性[6]。冰雹天气预测模型建立过程中,因子选取不仅包含了上述特征,同时,还扩充了30 dBz顶高/底高、35 dBz顶高/底高、40 dBz顶高/底高、45 dBz顶高/底高、50 dBz顶高/底高、55 dBz顶高/底高、60 dBz顶高/底高、65 dBz顶高/底高等,选取的特征因子共72个(表1)。

表1 多普勒雷达回波特征因子名称

1.3 数据标准化

LSTM神经网络要求数据输入有特定格式,输入到LSTM模型的数据必须是3D数据,形如(samples,time_steps,features)的3D张量,构造LSTM人工神经网络输入数据,就是数据标准化的过程。输入数据的形状是由神经网络第一个隐藏层上的“input_shape”参数指定,输入的三个维度指样品(一个序列是一个样本,批次由一个或多个样本组成)、时间步(一个时间步代表样本中的一个观察点)和特征(一个特征是在一个时间步长的观察得到的)[7]。输入层在拟合模型时以及在做出预测时,对数据的要求必须是3D数组,即使数组的特定维度仅包含单个值,NumPy数组中的reshape()函数可用于将1D或2D数据重塑为3D,并且会将一个元组作为新定义的形状的参数。本文batch_input_shape=(16 280,10,72)。

1.4 模型构建

冰雹天气预测模型人工神经网络包含了输入层、隐藏层、输出层,通过激活函数控制输出,层与层之间通过权值连接[8]。网络结构采用LSTM+Dense层+激活层,构建它需要确定LSTM模块的激活函数、接收LSTM输出的完全连接人工神经网络的激活函数,选择优化器,确定误差的计算方式、权重参数的迭代更新方式和训练模型迭代次数epoch、每次梯度更新的样本数batch_size等[9]。方案中,训练代价函数为[10]:

(1)

式中:m为样本总数;K为输出结点的数量,y为真实的参考值;λ为正则化参数设定为1;L为神经网络的层数;θ为神经网络层数之间的参数矩阵。优化器选择Adam,Adam方法效果良好,与其他自适应学习率算法相比,其收敛速度更快,学习效果更为有效,而且可以纠正其他优化技术中存在的问题,如学习率消失、收敛过慢或是高方差的参数更新导致损失函数波动较大等问题[11]。编译网络选择binary_crossentrop交叉熵损失函数,优势在于引入了平衡参数,可以进行正负样本的平衡。评价函数选择acc,即准确率,评价函数和损失函数相似,只不过评价函数的结果不会用于训练过程中。

2 结果验证

2.1 统计对比

在验证基于人工神经网络建立的冰雹天气预测模型时,选取了2019—2021年46个降雹过程和50个非降雹过程雷达回波数据进行检验评估,针对是否降雹进行预测,将实例分成阳性和阴性两种,实际降雹被认为是阳性,没有降雹认为是阴性,所以在预测时,有以下4种情况[12]:

(1)真阳性:预测为降雹,实际降雹。

(2)假阳性:预测降雹,实际无降雹(空报)。

(3)真阴性:预测无降雹,实际无降雹。

(4)假阴性:预测无降雹,实际降雹(漏报)。

经检验:降雹预测准确率82.6%;另外,在50个无降雹个例中,有18个预测为降雹,但实际未降雹,出现空报,空报率36%。空报个例中57%个例已实施人工防雹作业(表2)。

表2 2019—2021年46个降雹过程和50个非降雹过程人工神经网络模型预测检验情况表

上述46个降雹过程和50个非降雹过程雷达回波数据同时纳入基于数值预报的概念模型法预测检验。通过对玉溪市2016—2018年385个降雹过程数据统计得出:回波强度≥55 dBz占81.9%、0℃层回波强度≥50 dBz占87.5%、-10 ℃层回波强度≥45 dBz占74.5%、回波顶高≥10 km占92.2%、55 dBz回波顶高≥4 km占77.8%、50 dBz回波顶高≥6 km占78.5%、45 dBz回波顶高≥7 km占76%、垂直液态含水量≥15 kg/m2占78.8%。因此,基于数值预报的概念模型法取回波强度55 dBz、0℃层回波强度50 dBz、-10℃层回波强度45 dBz、回波顶高10 km、55 dBz回波顶高4 km、50 dBz回波顶高6 km、45 dBz回波顶高7 km、垂直液态含水量15 kg/m2为阈值。当达到阈值时,降雹准确率61%、空报率43.8%、漏报率39%。

检验结果表明:人工神经网络预测模型对冰雹预测准确率达82.6%,而基于数值预报的概念模型法仅为61%,人工神经网络较传统的基于数值预报的概念模型法提高了21.6个百分点;与此同时,人工神经网络的空报率降低了7.8个百分点。

2.2 个例分析

为直观地说明人工神经网络与基于数值预报的概念模型法的区别,选用2021年8月2日过程案例采用2种方法进行回算,并对结果进行对比分析。

实况:2021年8月2日23时38分至44分,江川区江城镇白家营村遭遇大风夹杂冰雹成灾(禁射区),期间伴有雷电及短时强降水。冰雹持续时间7 min左右,最大冰雹最大直径约4 mm。烤烟受灾44.5 hm2,其它农作物受灾25.1 hm2。

预测识别:21∶35~23∶50,分散的强对流云团不断在澄江市、华宁县、江川县、红塔区、通海县移动增强,在江川有降雹发生。选取当日23∶38刻雷达回波资料运用于模型,人工神经网络模型预测结果为降雹,降雹概率75%,并且预测为正在降雹(图1);而基于数值预报的概念模型预测为不降雹。

图1 2021年8月2日23时38分江川强回波人工神经网络预测结果图

根据回波强度、回波顶高、垂直液态水含量及回波剖面等数据(封三图版Ⅱ图2)分析表明,位于江川区域的强回波数据接近但未达到阈值,并且仅回波顶高比阈值少0.5 km,此回波顶高9.5 km(历史降雹个例回波顶高≥10 km占92.2%),基于数值预报的概念模型因而失败,从而造成漏报。由此可知,人工神经网络可以解决基于数值预报的概念模型单一阈值设置造成的漏报问题。随着个例的逐步累积,人工神经网络模型识别的效果还会有进一步的提高,而基于数值预报的概念模型法则停在原有水平,并且同样的错误会反复出现。

3 结论与讨论

3.1 结论

(1)通过构造LSTM(人工神经网络)数据集,利用深度学习方法,学习冰雹云发展变化的雷达回波特征,分析这些特征在时间序列上的关系,对玉溪市建立了一个冰雹天气预测模型,模型在冰雹云识别方面展现出了较强的能力,经验证:人工神经网络预测模型对冰雹预测准确率达82.6%,而基于数值预报的概念模型法仅为61%,人工神经网络较传统的基于数值预报的概念模型法提高了21.6个百分点;与此同时,人工神经网络的空报率降低了7.8个百分点。在气象领域证明了使用深度学习方法,根据输入特征向量进行自我适应的人工智能作为冰雹天气预测手段的可行性。

(2)降雹雷达回波在回波图像上有明显的特征,比如三体散射钉状回波,弓形回波等,而CNN卷积神经网络,善于挖掘数据局部特征,提取全局训练特征和分类,处理的数据是图像。构建更复杂的CNN-LSTM网络模型结构,由CNN人工神经网络提取数据在空间结构上的特征,把这些特征作为时间序列的输入,使用LSTM人工神经网络进行进一步的提取,把最终提取出的特征放在全连接网络中,最后进行冰雹预测,应该是更加优秀的冰雹天气预测模型。

3.2 讨论

(1)本文在模型建立过程中,应用了大数据的数据集构造方式,适应了当前大数据的发展趋势。但是,基础数据没有经过相关性分析取舍和归一化等数据处理,模型训练过程中可能存在数据干扰、计算精度不够等情况,模型性能还有待进一步提升。

(2)降雹时刻在冰雹个例分析过程中由分析人员根据冰雹灾情上报资料和课题组总结的降雹时刻确定方法标定,存在主观影响因素,导致模型在学习过程中,有可能未学习到真实的降雹时刻冰雹云内在规律,所以模型在时刻预测产生偏差。

(3)本模型建立过程仅针对雷达回波特征进行深度学习,没有利用探空资料。如果将探空资料扩充给网络训练,训练人工智能识别冰雹云天气雷达回波特征和物理量场内在规律,预计可以进一步提高冰雹天气预测的准确率。

未来进一步提取正负样本特征向量进行机器学习,寻找最优正样本区别于负样本的内在特征规律;完善模型结构,构建CNN-LSTM网络模型,学习降雹回波图像特征;扩充探空资料给网络训练,训练人工智能识别冰雹云天气物理量场和雷达回波特征规律;逐年完善冰雹个例库,增加模型训练数据。以上措施将有效提高冰雹预测模型准确率,大幅提升人工影响天气作业能力。

猜你喜欢
降雹概念模型人工神经网络
黑龙江省冰雹的时空分布特征
青海省东部农业区近60 a降雹特征及其致灾危险性
利用人工神经网络快速计算木星系磁坐标
威宁冰雹落点时空分布特征
人工神经网络实现简单字母的识别
基于“认知提升”的体系作战指挥概念模型及装备发展需求
基于PSR概念模型的稀土资源安全评价
数字矿山信息集成概念模型
基于声发射和人工神经网络的混凝土损伤程度识别
黑龙江省冰雹的气候及空间分布特征