基于K均值聚类的中国夏季降水日 变化空间分布模式

2021-08-25 11:10朱黎明张智欣魏庆伟
气象科技 2021年4期
关键词:峰值降水聚类

朱黎明 张智欣 魏庆伟

(1 扬州大学水利科学与工程学院,扬州 225009; 2 南京师范大学虚拟地理环境教育部重点实验室,南京 210046; 3 河南省农业气象保障与应用技术重点开放实验室,郑州 450003; 4 河南省鹤壁市气象局,鹤壁 458030)

引言

降水日变化在刻画区域气候特征上扮演着重要的角色[1-2]。对降水日变化的深入研究可以帮助探测极端天气和气候并了解区域的降水形成机制,有助于验证气象预报模型的模拟效果、实现对模型精度的改进[3-4]。

受太阳辐射的驱动,以及在区域地形的多样性和不同方向上的水汽输送运动的共同影响下,降水日变化表现出了明显的区域差异[5-8]。已有研究中通常采用“自上而下”的方法来研究降水日变化的区域性差异[9-13]。所谓的“自上而下”的方法,是指通过预先定义一个研究区,然后再研究这个区域内的降水日变化。地理区划,或是规则的矩形区域通常会被用来充当预定义的研究区。在采用地理区划作为研究区的研究中,Jin等[9]选择四川盆地作为研究区,研究了四川盆地中盛行的夜雨,刘雪梅等研究了祁连山地区的夏季降水日变化特征[10],Wilson等[11]研究了南阿巴拉契亚山脉地区地形雨的日变化特征。在采用规则矩形作为研究区的研究中,Yu等[12]研究了中国范围5个矩形区域内的降水日变化,Singh等[13]在印度中部地区选择了两个矩形研究区,研究了这两个矩形区域中的降水日变化。

在上述的这些研究中,预先定义研究区的过程通常会依赖于研究者的经验值知识,存在一定程度上的主观性[14]。最近几年,随着观测条件的改善,积累了大量的站点和卫星的降水观测数据,一些学者结合这两种数据的优势,制作了空间上连续的站点-卫星融合降水格网数据[15-16],为采用数据挖掘的方法来划分降水日变化的空间分布提供了数据基础,或称之为“自下而上”的方法。所谓“自下而上”的方法,是指通过“数据挖掘”的方法,将隐藏于数据之中的规则提取出来。在气象研究领域,K均值聚类算法是一种较为常用的无监督学习方法,被广泛地应用于气象大数据的挖掘之中[17-19]。总得来说,K均值类算法是按照每个观测值距中心值在欧式空间距离最近的规则,将n个观测值划分为K个聚类。其中,聚类数K值需要预先确定。

本研究选取中国陆地区域夏季(6月、7月和8月)降水日变化作为研究对象,采用降水频率、降水量和降水强度来刻画降水日变化,利用K均值聚类算法挖掘隐藏在大量数据中的降水日变化空间分布模式。首先,基本空间单元(降水数据的格网)会根据降水日变化的特征被分成不同的类别,同一类别中的空间单元具有相似的降水日变化。然后,同一类别的空间单元集合的边界构成一种降水日变化的分布边界。最后,得到研究区降水日变化的空间分布模式,并将本文的研究结果与已有研究进行对比分析。本文提取的降水日变化空间分布模式是相对客观且易于理解的,有助于进一步深入研究不同地区降水日变化差异的机理。

1 数据与研究方法

1.1 数据

降水数据采用的是覆盖中国区域的0.1°×0.1°的格网数据,该数据集提供了2008至今的全国逐时降水(http://data.cma.cn/data/detail/dataCode/SEVP_CLI_CHN_MERGE_CMP _PRE _HOUR_ GRID_0.10.html)。该数据的制作融合了全国30000个自动降水监测站点的数据和CMORPH卫星降水数据[20],Shen等[21]检验了该数据集真实再现逐时降水频率和降水总量的能力,认为数据集可以有效捕捉逐时的降水特征。此外,Zhu等[22]采用该套数据成功提取了中国地区降水频率日变化的空间分布模式。

1.2 研究方法

在本研究中,降水频率、降水量和降水强度分别被用来刻画降水日变化,已有的研究通常采用该指标来刻画降水日变化[8,10,12]。其中,降水频率是指发生降水的次数(单位:次),降水量是指降水的总量(单位:mm),逐时降水强度是指降水量/降水频率(单位:mm/h)。下面以降水频率的日变化为例,详细介绍本研究采用的具体方法。首先,选用一个24维的数组来存储一天中的降水频率,每一维度对应代表一个小时。统计每一个格网上2008—2017年夏季的年平均逐时降水频率,即10年间降水量大于0.1 mm的年均次数,并存储到一个24维的数组中,代表一个格网上的降水频率日变化。为了去除天气形势的影响,如降水在南北空间上的差异,需要对降水频率进行标准化处理[23-25],公式如下所示:

(1)

式中,Da(h)指的是在h时标准化后的降水频率值,Ra(h)是指h时未标准化的降水频率,Ra(i)指的是在h时的降水频数。

同时,为使不同地区的降水日变化具有可比性,需要将降水数据采用的是世界时转换为当地地方时。计算公式如下所示:

LST=UTC+Lon/15

(2)

式中,LST表示每个格网所处的当地太阳时,UTC表示格网所处的世界时,Lon表示每个格网中心的经度。

采用K均值聚类算法对每个格网上的24 h降水日变化进行聚类,从而将所有的格网按照降水日变化特征划分为不同的类型。K均值聚类算法基本思想是根据每个观测点到K(聚类数)个聚类中心的距离,将n个观测点划分到最小距离的类中[26]。因此,选择一个合适的聚类数对K均值聚类算法聚类来说至关重要。为此,本研究通过选择一系列的聚类数对中国区域的降水日变化进行聚类,聚类数的范围选择从2~30。然后,对每一个聚类数下的聚类结果,计算所有观测点到各自所属分类的聚类中心的距离(属性域上),并计算平均值d。接着,将不同聚类数下的平均距离d连接成一条曲线(图1),随着聚类数的增加,曲线趋于平缓,即平均距离随聚类数增加而减小的幅度也减小。例如,当聚类数是19时,平均距离比聚类数为18时仅小0.007,如此小的一个距离表明聚类数已经接近甚至大于“真实”的分类数[26]。在本研究中,19被用来作为降水日变化数据进行聚类,以下的分析也是在聚类数为19的基础上进行。

图1 不同聚类数下所有聚类中的点到各自聚类 中心距离的平均值

本研究确定聚类数的方法仍然是一种基于半经验的方式,是因为不同聚类数之间的平均距离可以反映聚类之间的差异,当相邻聚类数下的平均距离差距较小时,表明增加的分类对总体分类的影响不大,所以可以基于此确定聚类数。但确定聚类数的具体值,仍需结合经验知识来选择,如本文中选择聚类数19进行聚类,是根据相邻聚类数下的平均距离之差小于0.01的阈值来设定。

足够大的聚类数可以将聚类对象的“真实分类”划分出来,但太大的聚类数会导致产生一些相似特征的分类,需要对这些分类进行进一步合并。考虑峰值的时间是研究降水日变化中一个重要的指标[27],所以本研究根据各个聚类中降水日变化峰值的时间,将具有相似日变化峰值的聚类进行进一步合并。降水日变化峰值的时间被分为6种类型,当日变化的峰值在落在同一峰值期间时,则该降水被认为是具有同一种类型的日变化。这6种降水峰值时间分别为:凌晨(03:00—07:00,包括03:00—04:00、04:00—05:00、05:00—06:00、06:00—07:00(地方时)4 h的时间,下同),上午(07:00—10:00),正午(11:00—14:00),下午(15:00—18:00),傍晚(19:00—22:00),午夜(23:00—02:00)。对具有多个峰值的降水日变化聚类,有且仅当所有峰值的时间都落在一致的时期内,才将聚类进行合并。至此, 得到中国区域不同降水频率日变化的空间分布模式。降水强度和降水量日变化的空间分布模式,可通过同样的方法获取。最终,按照本文提出的降水日变化类型划分方法,降水频率日变化类型共有8类,降水量日变化类型共有8类,而降水强度日变化类型共有7类。

2 结果分析

图2为中国夏季降水频率日变化的空间分布图。如图所示,共有8种降水日变化的类型,分别是区域Ⅰ~Ⅷ。区域Ⅰ中盛行下午降水,峰值是在当地时间的15:00,面积约占全国陆地总面积的60%,即中国陆地大部分区域在夏季主要盛行下午的降水。区域Ⅱ、Ⅲ和区域 Ⅳ中是夜间降雨类型占主导,参见图6的中国地形图,可发现这些区域主要分布在一些大的山区。此外,在空间分布上,区域Ⅱ、Ⅲ和区域 Ⅳ表现出从西向东的空间分布模式,区域中降水日变化的峰值出现时间也是从西向东逐渐延迟,区域Ⅱ降水日变化的峰值出现的时间是在19:00(当地时),区域Ⅲ的峰值时间出现在24:00(当地时),区域 Ⅳ则是在05:00(当地时)。一些研究对中国西南部地区以及东部地区流行夜雨现象做出了解释,认为中国西南部和太行-燕山地区盛行夜雨是由于青藏高原地形引起的MPS环流效应导致的,而东部平原地区夏季流行的夜雨则是青藏高原引起的MPS环流和梅雨带叠加导致的[7, 9, 12, 14]。

图2 中国夏季降水频率日变化的空间分布及8种类型分区降水频率日变化 (右图的曲线代表左图中不同分区的降水频率日变化类型,使用相同的颜色来代表同一分区,图中红色虚线表示峰值所在时间,下同)

其他的一些区域,如区域V,峰值出现在中午12:00,零散分布于中国的西南到西北地区;区域Ⅵ和Ⅶ具有两个降水日变化峰值,都是分布在中国的西北地区。不同的是,区域Ⅵ的两个峰值出现的时间是在早上08:00和晚上19:00当地时,而区域Ⅶ的峰值出现的时间是在正午12:00和午夜24:00当地时。此外,区域Ⅷ中的降水日变化没有明显的峰值,主要分布在下午雨和夜雨中间的地区,在地理空间上位于中国的华北地区。

为了进一步探索降水频率、降水强度和降水量日变化之间的关系,本文以降水频率日变化的空间分布为依据,分析了三者之间的关系(图3)。在图3中,降水频率日变化与降水量日变化无论在振幅还是相位上,都表现出了较高的相似性,而与降水强度日变化的相似性相对较低,且降水强度日变化的振幅相对较小。本研究对所有区域内降水频率、降水强度和降水量之间的关系做了相关分析,得到了类似的结果,这里不再展示。

图3 Ⅰ、Ⅲ、Ⅴ、Ⅶ 4个分区的降水频率、降水强度和降水量的日变化

通过对降水强度和降水量日变化的聚类分析,发现降水量日变化的空间分布模式(图4)与降水频率日变化的空间分布模式(图2)具有较高的相似性,而降水强度与降水频率日变化的空间分布模式差异较大(图5)。

从图5中看出,中国陆地区域上降水强度日变化的峰值主要出现在夜间,具有夜间降水强度日变化峰值的区域约占总面积的68%,且分布较为破碎。需要指出的是,68%的区域出现夜间降水强度日变化峰值是指统计意义上的占比,这些区域夜雨强度增强的物理意义并不完全一致。已有研究表明,夜雨形成的原因主要有山地平原热力环流效应(也称山谷风,MPS)[5,7]、海陆风[8]以及夜间大气辐射冷却增强导致的水汽液化强度增加造成的降水强度增加[23-24]等因素,本文将在“讨论”部分对一些地区夜雨形成的原因作初步探讨。

图5 中国夏季降水强度日变化的空间分布及8种类型分区降水强度日变化

此外,结合图2的降水频率日变化分布图和图4 降水量日变化分布图,在降水频率日变化中的区域Ⅶ类型降水,在降水强度分布图中没有出现,而在降水量分布图中出现,该现象表明该地区的降水量日变化是由降水频率主导。

3 讨论

降水日变化的形成机理复杂,如Chen等[8, 28]指出,珠江流域北侧的盛行夜间降水主要受低空聚合海陆风影响,同时受下垫面异质性和气候环流因素的影响。学者们[7, 9, 29-31]的研究还指出,中国西南地区和燕山—太行山脉附近盛行的夜间降水主要是由热力差异驱动的高山-平原热力环流效应(Mountain-Plains Solenoid circulation, MPS)影响,或称为山谷风。

本文的研究目标是研究中国夏季的降水日变化空间分布模式,降水日变化机理的研究是一个很大的主题,超出了本文研究的范围,这里不做详细叙述。但本研究通过聚类得到了较为客观的降水日变化空间分布模式(图2、图4和图5),该研究结果可作为进一步解释、验证降水日变化的形成机理。下面以中国西南、西北地区,以及燕山-太行山脉地区盛行的夜间降水为例(图6),尝试分析这些地区盛行夜雨的形成原因。

图7为图6中5个夜雨区的地形剖面,4种背景色分别代表盛行的下午雨、傍晚雨、午夜雨和凌晨雨的区域。图7a~c显示这3个地区是从高山到平原的地形,高程剖面图7d~e显示这两个地区为谷底地形。从图7中可看出,降水日变化的相位峰值出现时间沿着地形坡面呈现出延迟的现象。例如在大的山脉附近(图7a~c),盛行的下午雨主要出现在山坡的顶部区域,傍晚雨则主要出现在山坡中部到下部的位置,盛行凌晨降水的区域主要是分布在紧邻山脉的平原地区,午夜降水区则是分布于傍晚降水区和凌晨降水区的中间。在山谷地区(图7d~e),下午降水区也是分布在山顶部,夜间的降水区主要分布在山谷的底部。

图7 图6中5个夜雨区的地形剖面 (4种背景色分别代表盛行的下午雨、傍晚雨、午夜雨和凌晨雨的 区域。图a~c显示这3个地区是从高山到平原的地形, 图d、e显示这2个地区为谷底地形)

这些地区的夜雨空间分布模式与MPS环流引起的雨带移动现象较为一致。MPS形成的机理已被广泛研究,其影响地区气流运动的形式可用图8进行解释。如图8所示,在白天山区地区,山顶是在太阳升起之后最先被加热的地区,升温较快。由于地表的辐射效应,所以在同样的高度处,在山顶上方的气温要高于山谷上方的气温。由于区域内热力差的存在,从而导致山底的气流向山顶移动,引起山顶的白天降水。在晚上,则出现相反的情景,由于陆面的降温速度要更快,所以在同等高度的地方,山顶上空的空气温度要低于山谷上方的空气温度,此时的热力循环方向与白天相反,形成了从山顶吹向山谷的风,使得山底的暖空气抬升,从而引发了山谷地方的降水。

图8 高山-平原热力环流效应示意: (a)白天气流运动的方向,(b)晚上气流运动的方向

4 结论

本文采用K均值聚类算法探索了中国陆地地区夏季降水日变化的空间分布特征,得到了夏季降水频率、降水强度和降水量的空间分布图。通过分析研究,得出如下结论:

(1)按本文研究提出的降水日变化类型划分,降水频率日变化可划分成8类,降水量日变化可划分成8类,降水强度日变化可划分成7类。

(2)分析降水频率、降水量和降水强度的日变化特征,发现中国大部分区域的降水量日变化是由降水频率日变化主导。

(3)从降水频率日变化分布图中可发现,一些盛行夜雨的区域在空间分布上表现出从西向东的分布模式,且这些区域中降水频率日变化峰值表现出了从西向东逐渐延迟的现象。结合地形分析,上述地区的夜雨空间分布模式与MPS环流引起的雨带移动现象较为一致,认为MPS环流效应是导致该地区盛行夜雨的主要因素。

总的来说,本文采用了“自下而上”的数据挖掘方法,得到一个相对客观且易于理解的降水日变化空间分布模式,避免以往研究降水日变化中根据先验知识来定义研究区。所得到的研究结果不仅进一步印证了前人研究的结论(如在中国西南地区的盛行夜雨),也得到了一些新的发现(如夜雨的空间分布模式与地形之间的关系)。本文研究结果可为研究降水日变化形成机理提供工具,也可为探索其他地区的降水日变化分布情况提供参考。

猜你喜欢
峰值降水聚类
“四单”联动打造适龄儿童队前教育峰值体验
结合模拟退火和多分配策略的密度峰值聚类算法
320排CT低剂量容积体部灌注成像强化峰值时间对孤立性周围肺病变诊断价值
四川盆地极端降水演变特征及拟合
Cloud seeding
面向WSN的聚类头选举与维护协议的研究综述
改进K均值聚类算法
基于Spark平台的K-means聚类算法改进及并行化实现
基于加权模糊聚类的不平衡数据分类方法
“SEEPS”降水预报检验评分方法在我国降水预报中的应用试验