高佳琦,李东宇,朱晓晨*,王灿月
(1.南京水利科学研究院,南京 210017;2.水利部南京水利水文自动化研究所,南京 210012;3.南京信息工程大学应用气象学院,南京 210044)
梅雨是东亚地区独特的天气气候现象,在中国主要于每年6、7月发生在江淮流域[1],常年平均降水量可达200 mm以上,占该区域夏季降水总量的40%以上[2]。在气候变化背景下,极端降水事件发生期显著延长,与国民经济发展和人民生活关系更为密切[3]。学术界对梅雨的早期研究着眼于锋和气团[4],后期开始重视梅雨与环流背景的联系尤其是副热带高压的作用,陆续有学者提出长江中下游梅雨与副热带高压脊线、副热带高压单体分布和西南气流等有关。陈隆勋等[5]数值模拟指出,青藏高原热源是形成梅雨的主要因子。王裁云[6]分析认为南海高压强度可用于梅雨量预报。费建芳等[7]研究表明,江淮梅雨受夏季印度热带季风环流、东亚热带环流及副热带环流系统相互作用。徐海明等[8]研究发现,北半球冬季大型环流显著影响入梅早晚。李曾中等[9]研究认为,越赤道气流异常是造成梅雨期暴雨的主要原因。侯建华等[10]研究认为ENSO(El Nino Southern Oscillation)事件会使皖西地区当年春夏季降水增加超过50%。
21世纪以来,学术界普遍采用先进信息技术与降水相关研究结合的方法。王坤等[11]利用综合采样人工合成数据算法(SMOTE)和逻辑回归模型算法建立短时强降水潜势预报模型。刘全金等[12]将基于遗传算法的BP(back propagation)网络应用于安徽安庆市区的梅雨量预测。朱天一等[13]利用支持向量机(support vector machines,SVM)结合多种算法进行梅雨量预测研究。霍凤岚等[14]将隐马尔可夫链应用于安徽降水特征研究。宋星原等[15]将小波分析-支持向量机组合模型应用于流域降水量预测研究。
自组织映射(self-organizing map, SOM)是基于无监督神经网络的客观分型方法,它能在保持高维数据拓扑结构的同时将其映射到低维空间,实现降维的作用[16],不仅可以对气象数据进行聚类,还可以反映不同聚类的气象数据典型特点,结合理论实际得出气象数据与实际天气特征的内在联系。Elizabeth等[17]将其应用于极地地区大气环流分型。Skific等[18]基于SOM算法讨论北极大气水汽输送与地面环流的关系。闵晶晶等[19]利用SOM将京津冀地区强对流天气形势分为四类,并具体分析了各个分型下强对流天气发生的基本特征。吴胜男等[20]分析得出长江中下游夏季25种地面天气型及其系统演变特征。周璞等[21]用SOM降尺度方法进行了江淮流域逐日降水的模拟与预估,但该算法在西太副高与梅雨相关的研究尚属空白。
鉴于此,利用1951—2016年西太平洋副热带高压(Western Pacific subtropical high,WPSH,简称西太副高)西伸脊点和脊线位置数据,采用SOM算法进行聚类分析,并利用中国雨季历年信息表梅雨监测数据、国家青藏高原科学数据中心中国1 km分辨率逐月降水量数据集[22-25]结合分析不同副高分型下的梅雨降水特征,研究梅雨期西太副高的变化特征及其对梅雨降水的影响,分析不同类型副高与梅雨降水特征的对应关系,有助于开展梅雨形势预测研究。
SOM网络,是最早由赫尔辛基理工大学教授Teuvo Kohonen提出的一种由全连接神经元组成的无监督网络[26-29]。生物学研究指出,人脑细胞具有自组织性,在接收相似信息时,大脑皮层对应的区域会连续兴奋,而不同区域则对应着不同类型的信息。SOM网络应用了自组织性的生物学基础,常被用于无监督的聚类计算。
经典的SOM网络拓扑结构[29]如图1所示,由输入层和竞争层组成,竞争层即是输出层。输入层的节点为n维向量X=(X1,X2,…,Xn),对应n个输入神经元,竞争层是由a×b=m个神经元构成的二维平面,其中a、b分别为竞争层二维平面神经元的行列数。输入与输出神经元之间通过权值向量相连,近邻的输出神经元之间也通过权值向量相连。
图1 SOM网络结构
SOM网络的训练步骤[30]如下。
步骤1输入向量。输入n维向量X=(x1,x2,…,xn)以及输入神经元i与m个输出神经元之间的权值向量Wi(k)=[ωi1(k),ωi2(k),…,ωim(k)],其中k为训练次数,初始值为0。
步骤2初始化。权值使用生成随机值的方式进行初始化,随机值取值范围为[0,1],并对输入向量和权值向量进行归一化,可分别表示为
(1)
(2)
向量a的欧几里得范数可表示为
(3)
选取与输出神经元j邻域值为d的邻域神经元,如图2所示。以Sj(k)表示k时刻神经元j的邻域神经元集合,随着训练次数的增加,邻域值d会逐渐降低,集合Sj(k)也会逐渐减小。
白色圆圈为邻域神经元
除初始化输入和权值向量之外,还需要初始化学习率η(k),并设定最大训练次数km,初始学习率取值范围为0<η(0)<1。
步骤3内积竞争。在竞争层,计算各神经元权值向量和输入向量的内积,内积最大的输出神经元为获胜神经元。对于已经归一化的数据,求内积最大等价于求欧氏距离最小,即两向量之差D的欧几里得范数最小,其表达式为
(4)
标记欧氏距离最小的神经元为获胜神经元,即输出神经元,记为j*,并给出其邻域神经元集合。
步骤4更新参数。更新输出神经元j*及其邻域神经元的权值,可表示为
ωij(k+1)=ωij(k)+η(k)[xi(k)-ωij(k)]
(5)
式(5)中:ωij为权值向量;学习率η(k)为随着训练次数k增加而逐渐下降到0的函数,可表示为
(6)
更新邻域神经元集合Sj(k),并对训练后的权值重新归一化
步骤5判断退出条件。判断训练次数k是否达到预设的最大值,若没有则跳转到步骤3,否则结束训练。
研究区域基于《梅雨监测指标》(GB/T 33671—2017)规定的梅雨监测区,由南到北分为江南区(Ⅰ)、长江中下游区(Ⅱ)和江淮区(Ⅲ)。区域内共277个各级气象观测站,如图3所示。其中江南区65站,长江中下游区157站,江淮区55站。提取其代表气象站所在市级行政区合成作为研究的梅雨区,区域横跨7个省份,包含58个市(地级市、直辖市和省直辖市)。
图3 梅雨区及气象站位置示意图
梅雨监测信息采用国家气候中心(东亚季风活动中心)编写的《东亚季风年鉴》的中国雨季历年信息表[31],将江淮梅雨3个监测区1951—2016年梅雨期、雨量、梅雨强度及空梅情况汇总,如图4所示。降水数据采用国家青藏高原科学数据中心提供的中国1 km分辨率逐月降水量数据集(1901—2020年),按梅雨区提取1951—2016年6月、7月降水量数据,每幅栅格图像共计746 980个降水格点,如图5所示。
白色方框为空梅
图5 1951—2016年6月、7月平均降水量分布
国家气候中心气候系统诊断预测室提供的74项环流指数中,与西北太平洋副热带高压有关的监测指标有面积指数(GM)、强度指数(GQ)、脊线指数、北界指数和西伸脊点指数,分别定义[32]如下。
(1)面积指数(GM)。描述西太副高范围大小的指标,以500 hPa天气图上,10°N以北的110°E~180°E范围内588位势什米等值线包围区域相对面积表示。
(2)强度指数(GQ)。描述西太副高强弱程度的指标,以500 hPa天气图上,10°N以北的110°E~180°E范围内位势高度大于588位势什米等高度面为底的副热带高压体的相对体积表示。
(3)脊线指数。描述西太副高南北位置的指标,以500 hPa天气图上,10°N以北的110°E~150°E范围内位势高度大于588位势什米等值线的西太副高内纬向风切边线的纬度平均值表示。
(4)北界指数。描述西太副高北部边缘位置的指标,以500 hPa天气图上,10°N以北的110°E~150°E范围内西太副高脊线以北位势高度为588位势什米等值线的纬度平均值表示。
(5)西伸脊点。描述西太副高最西点位置的指标,以500 hPa天气图上,10°N以北的90°E~180°E范围内以西太副高西侧位势高度为588位势什米的最西点经度值表示。
由2.3节中西太副高监测指数的定义可知,面积指数、强度指数、脊线位置、西伸脊点以及北界位置存在着部分趋同和相关特征。如北界指数表征西太副高最北边缘纬度位置,脊线指数以西太副高北部纬向风切边线位置的纬度平均定义。一般而言副高北部边缘位置越偏北,北部纬向切变线理应同样偏北,即北界指数和脊线指数可能存在某种相关性。由于预报因子的重复输入会造成聚类结果误差增大,因而需要提取代表因子以避免预报因子之间的相关性影响聚类结果。
参考赵俊虎等[33]的研究方法,对66年(1951—2016年)6月、7月平均的西太副高相关指数进行相关分析,计算结果如表1所示。结果表明:西伸脊点与强度指数和面积指数的相关性达到了-0.7以上,且均通过了显著性检验,而脊线与北界位置相关系数为0.738,且通过了0.01的显著性检验。因此,采用6月、7月西北太平洋副热带高压西伸脊点和脊线位置作为西太副高的代表指标进行SOM聚类,进而研究不同副高分型下的梅雨降水特点。
表1 1951—2016年6月、7月平均西太副高指数相关系数
将西伸脊点作为经度参数,脊线位置作为纬度参数,对1951—2016年6月、7月西太副高西伸脊点、脊线指数作时间序列如图6所示,可以看出,年际变化上,4组数据均表现出较大波动性,可见西太副高历年位置变动波动较大,且会对梅雨降水产生重要影响。
月际变化上,如图6所示,西伸脊点6月、7月平均值分别为118°E和120.8°E,方差分析得F值为1.375,查表得P=0.243,故在0.05显著性水平下,二者总体均值并非显著地不同,即西太副高6—7月的东移趋势不显著。脊线指数6月、7月平均值分别为20.5°N和25.4°N,方差分析得F值为165.334,查表得P<0.01,故在0.01显著性水平下,二者总体均值是显著不同的,即西太副高6—7月具有明显的北跳特征。西太副高在同一年间6—7月的位置变化,尤其是纬向变化会对梅雨降水产生重要影响。
图6 1951—2016年6月、7月西伸脊点、脊线指数年际变化
SOM算法要求提前确定分型数目,分型数目过多会造成各个分型所含的样本过少,各分型之间失去区分度;分型数目过少则会加大同一分型内部的差异,降低分型的代表性。结合前人对副高分型研究和多次数值实验后,选取分型数目为3×3。以6月、7月副高西伸脊点与脊线位置为输入参量,对1951—2016年梅雨期副高SOM建立分型模型,计算结果如表2所示,其中输出的SOM分型1-9型只表示类别,与具体的副高指数大小无关。
表2 1951—2016年6月、7月西太副高SOM分型
采用轮廓系数法[34]分析聚类分型结果,轮廓系数越接近于1,说明簇内样本相似性好,且不同簇样本差异性好,聚类结果就越好。将1951—2016年6月、7月西太副高西伸脊点、脊线指数归一化后针对分型结果计算轮廓系数,如图7所示。
图7 不同SOM分型下轮廓系数图
每个分型均包含轮廓系数大于0.5的样本,过半数样本轮廓系数大于0.4的分型有1型、3型、4型、5型、6型、8型。说明利用SOM算法对66年间(1951—2016年)梅雨区西太副高分型具有合理性,可以进行进一步研究。取各分型中轮廓系数最高样本作为该分型典型年,如表3所示。
表3 西太副高不同分型典型年
将西伸脊点作为经度参数,脊线位置作为纬度参数,将9种分型典型年6月、7月西伸脊点和脊线位置分别投影到横纵坐标绘图如图8所示。
数字为SOM分型
如图8所示,SOM分型结果在空间上具有一定的规律性:1型西太副高偏东南且7月份北跳幅度较小,有明显的东移;2型北跳幅度大,东西位置居中;3型偏中西部,北跳幅度小;4型居中,移动幅度小;5型偏中西部,北跳幅度小;6型偏西且远离其他年份,北跳幅度大;7型6月份偏西北,7月有明显西进;8型位于东北部,北跳东移幅度大;9型偏西,北跳幅度大。9种西太副高分型呈现不同位置和变化特点。
按梅雨区提取1951—2016年6月、7月降水格点数据,并分别计算6月、7月降水距平百分率,取各分型典型年6月、7月降水距平百分率图代表本分型。
由图9可知,9种副高分型下均对应呈现出不同的降水特点。结合不同分型的西太副高位置及变动分析,说明6月、7月西太副高的SOM分型对梅雨期降水研究和预测具有一定的指示作用,纬向上,当西太副高偏东时,梅雨区降水强度偏低(如1型7月、7型6月、8型7月),西太副高偏西时降水强度偏高(如3型)。可能的机理是:西太副高偏西偏强年份,副高外环流水汽输送强,同时经向环流偏强冷空气活跃,形成梅雨区普遍多雨;副高偏东偏弱年份,水汽输送弱,冷空气缺少,导致梅雨区普遍少雨。经向上,在西太副高主体位于中国陆地的前提下,西太副高偏北(脊线指数超过25°N)时,梅雨区大部被副热带高压控制,整体降水偏少或在靠近北部、西部边缘时降水增多(如6型7月、7型7月、9型);西太副高偏南时,副高控制区位于梅雨区南部边缘及以南地区,此时降水整体偏多,或整体降水多带有南部边缘偏少,或降水呈现南多北少特点(如2型7月、3型7月)。可能的机理是受副高外围风场水汽输送影响,整体降水偏多,而当副高控制南部边缘地区时就会造成对应位置高温少雨,当副高位于更南位置时,梅雨区北部受副高外围风场输送作用弱,受其他因素影响会造成北部降水偏少。
图9 不同分型下6月、7月降水量
分析利用西太副高五项监测指标,构建梅雨期西太副高SOM分型模型,得到9种西太副高SOM分型,并利用中国1 km分辨率逐月降水量数据集和中国雨季历年信息表体现的降水特征进行不同西太副高分型下梅雨降水的特征分析。得出如下结论。
(1)66年间(1951—2016年)西太副高位置跳动频繁,造成梅雨降水特点变化多:西太副高偏东时,梅雨区降水强度偏低,反之则强度偏高,副高控制梅雨区大部时,整体降水偏少,副高控制梅雨区南侧时,水汽输送导致梅雨偏强。
(2)相较于前人对西太副高与梅雨特征的研究,使用SOM 方法对西太副高进行聚类,既能对研究数据进行有效降维分析,又有得到比传统分类方法更客观的分型结果。在梅雨预测研究等方面仍有较大提升空间,如使用西伸脊点和脊线指数完全表征西太副高特征的精度有限,未来可以结合海温、ENSO指数多种梅雨影响因子建立SOM梅雨特征预报模型,用于梅雨形势预测等研究。