加权马尔可夫链阶数对湖北省年降雨量预测精度的影响研究

2022-06-13 07:47周安琪1松2丹34

水资源开发与管理 2022年5期

周安琪1 高松2 喻丹34

(1.湖北千里目检测技术有限公司，湖北宜昌 443002；2.宜昌市环境保护监测站，湖北宜昌 443002；3.三峡大学水利与环境学院，湖北宜昌 443002；4.水资源安全保障湖北省协同创新中心，湖北武汉 4300742)

降雨作为一个区域主要的水资源补给，是目前水文和气象研究中非常重要的一个关注项。降雨量的预测能够为农业、气象和水利等多个部门的决策制定提供重要的数据支持和科学依据[1-3]。由于降雨量的多少受到多种气象因素的综合影响，表现出较强的随机性[3]，因此很难利用准确的数值计算方法得到某一时段内的降雨量的值。长期以来，国内外众多学者针对降雨量的预测方法开展了大量的研究，主要形成了两大类方法：一类是概率统计的方法，如一元线性回归预测、马尔可夫链模型、时间序列预测等；另一类是时间序列方法，如自回归预测，非线性门限自回归、滑动平均自回归模型等[4-7]。其中，马尔可夫链模型因其原理简单、计算方法简便，且对数据的随机波动规律具有一定的适应性，被广泛应用于降雨量的预测研究中[3-4,8-9]。

马尔可夫过程是研究随机过程中事物状态以及状态之间转移规律的理论，基本原理是结合事物当前的状态和状态转移概率来预测事物将来的变化趋势。马尔可夫过程最基本的特征是“无后效性”(也称之为“马氏性”)，即认为事物将来的状态只取决于事物当前的状态，而与过去的状态无关。马尔可夫链是状态和时间都离散的一种特殊的马尔可夫过程，水文要素如降雨、径流的状态序列属于典型的马尔可夫链，同样也具有“无后效性”的特征。加权马尔可夫链是在传统马尔可夫链的基础上发展而来的，其基本思想是，对于一列相依的随机变量，各阶自相关系数刻画了各种滞时的指标值的相关关系的强弱，因此可考虑先分别依其前面若干年的指标值所对应的状态对该时段的状态进行预测，然后按前面各时段与该时段相依关系的强弱对绝对转移概率加权求和。即通过各阶马尔可夫链转移概率与相依随机变量的相关分析，达到充分、合理地利用信息进行预测的目的[9-10]。

目前，关于加权马尔可夫链预测降雨量的研究大多集中在方法的应用上，然而在利用加权马尔可夫链时，阶数的选择会影响各种滞时指标值的权重，从而影响最终的预测结果，现有的研究缺少对不同阶数马尔可夫链预测结果的对比分析。因此，本文以湖北省为研究区，根据中国国家气象局(China Meteorological Administration，CMA)[11]提供的气象站点逐日降雨数据，利用不同阶数的加权马尔可夫链预测年降雨状态，再结合模糊集理论预测对应状态下的年降雨量的值，通过对比研究分析加权马尔可夫的阶数对年降雨量预测精度的影响。

1 年降雨量预测方法

1.1 加权马尔可夫链

加权马尔可夫链预测年降雨量状态的一般步骤如下：

a.采用均值-均方差分级法对年降雨序列进行分级，计算年降雨序列的样本均值s，据此建立分级标准，将历年降雨量划分为特旱、干旱、平水、偏丰和丰水共5个状态。

b.对上一步得到的状态序列进行统计计算，得到不同滞时(阶数)马尔可夫链的转移概率矩阵，这些矩阵决定了降雨量状态转移过程的概率法则。

c.进行“马氏性”检验。

d.计算年降雨序列的各阶自相关系数rk，计算公式为

(1)

e.对各阶自相关系数进行规范化处理，作为各滞时(阶数)的马尔可夫链的权重wk，即

(2)

式中：m为最大的阶数。

(3)

则矩阵Pi中最大概率值所隶属的状态即为预测期的预测降雨量状态。

1.2 模糊集理论

马尔可夫链采用最大概率隶属原则来确定预测对象的状态，主要存在两个方面的不足：ⓐ只考虑最大概率，忽略了其他概率的影响；ⓑ预测结果只能给出预测对象所属的区间，而无法确定具体的预测值[9]。因此，吴林川等[3]、张伟[4]、王艳[10]等学者通过引入模糊集理论中的级别特征值来解决以上两个问题。模糊集理论用于年降雨量预测的基本步骤如下：

a.首先根据预测年份降雨量的5个状态概率Pi矩阵，计算各状态的模糊数di：

(4)

式中：η为最大概率作用指数，值越大越能突出最大概率的主导性，一般取值为2或4。

b.计算级别特征值H：

(5)

c.降雨量的预测x值为

(6)

式中：i为预测Pi最大概率对应的状态；Ti和Bi分别为该状态的上、下限。

2 实例研究

2.1 研究区概况

本文以湖北省为研究区，见图 1。湖北省位于我国内陆腹地长江中游地区，总面积18.59万km2。湖北省处于我国地势第二级阶梯向第三级阶梯过渡地带，地势西高东低，地貌类型多样，山地、丘陵岗地和平原兼备，分别占总面积的56%、24%和20%。湖北省地处亚热带，位于典型的季风区内，全省除高山地区外，大部分为亚热带季风性湿润气候，年平均气温为15～17℃。年平均降雨量在800～1600mm之间，降雨空间分布呈由南向北递减的趋势，降雨量表现出明显的年内季节性变化，一般夏季雨量较多，约为300～700mm，冬季雨量较少，约为30～190mm。本研究的日降雨数据来自中国气象数据网，研究区共包含27个气象站点，由此得到1971—2018年各站的年降雨序列。

图1 研究区湖北省概况

2.2 单站点年降雨量预测结果

表1 气象站点57251实测年降雨量

表2 气象站点57251年降雨状态划分标准

再统计该站点1～5阶的状态转移概率矩阵，分别表示为P(1)、P(2)、P(3)、P(4)和P(5)：

(7)

该气象站点年降雨量序列的1～5滞时的自相关系数为rk=[0.12,-0.08,0.04,-0.15,-0.07]，根据式(2)计算得到1～5滞时的马尔可夫链权重，见表3。

表3 气象站点57251年降雨序列1～5滞时的马尔可夫权重

根据式(3)可得不同阶数的加权马尔可夫链预测的2018年降雨量状态概率矩阵，见表4。由表4可以看出，对于气象站点57251，不同阶数马尔可夫链预测的2018年降雨量均是在状态3(平水)的概率最大，说明对于该气象站点而言，阶数对加权马尔可夫链预测的年降雨状态影响不大。

表4 气象站点57251不同阶数加权马尔可夫链预测2018年降雨量的状态概率结果

结合表4中的结果和式(4)～式(6)，可得预测的2018年降雨量的具体值，见表5。虽然不同阶数马尔可夫链预测的年降雨量状态相同，但经模糊集理论预测出的年降雨量的值是不同的，这说明除了最大概率占主导地位之外，其他状态概率对年降雨量值预测的影响也不容忽视。根据表5中的误差统计结果可以看出，随着加权马尔可夫链阶数的增加，预测的年降雨量的相对误差也逐渐增大。

表5 气象站点57251基于模糊集理论预测的2018年降水量值

2.3 加权马尔可夫阶数对站点年降雨量预测精度的影响

对研究区内27个气象站点均采用上述的多阶数加权马尔可夫链结合模糊集理论方法进行降雨量预测。首先统计马尔可夫链预测的2018年降雨量状态结果，同时与2018年实测年降雨量状态进行对比，见图2。由图2(a)可以看出，当采用一阶加权马尔可夫链(即传统马尔可夫链)进行预测时，部分气象站点预测的年降雨量状态不唯一，给最终降雨量的数值预测带来了一定的难度。由图2(b)可以看出，二至五阶的加权马尔可夫链预测的各站点年降雨量状态结果相同且具有唯一性，能够有效避免一阶预测中出现的预测状态不唯一的问题。若降雨量的预测状态和实测状态完全吻合，则计为1；若降雨量预测的多个状态之一与实测状态吻合，则计为1/预测状态个数；若降雨量预测的状态全都不与实测状态吻合，则计为0。统计27个气象站点年降雨量状态预测的准确程度，计算可得一阶加权马尔可夫链预测的准确率为38.70%，二至五阶预测的准确率为48.15%。由此可得，多阶马尔可夫链预测年降雨量状态的准确性要明显高于一阶，这也充分说明了多阶马尔可夫链能够有效利用年降雨序列的自相关性，从而提高预测精度。

图2 不同阶数的加权马尔可夫链预测2018年降雨量状态结果

由于一阶预测的降雨量状态不唯一，无法根据模糊集理论确定具体的降雨量值。因此，只统计研究区27个气象站点多阶数情况下模糊集理论预测的年降雨量数值的相对误差，箱线图结果见图3。由图3可以看出，二阶、三阶和四阶预测的相对误差比较接近，约在-30%～40%之间；当阶数为五阶时，年降水量预测的相对误差最小，除个别极大极小值之外，其余气象站点预测的相对误差在-10%～25%之间，根据箱线图的上下四分位数可以看出有超过一半的气象站点降雨量相对误差在0～20%之间。因此，从研究区所有气象站点综合来看，五阶加权马尔可夫链能够保证更多的气象站点预测的降雨量结果精度较高。这说明随着马尔可夫阶数的增加，降雨序列各种滞时状态间的相关关系(即rk和wk)以及前面若干年份降雨量状态对目标年份降雨量状态的影响被充分、合理地利用，有助于提高降雨量的预测精度。然而，根据单站点57251的预测结果(见表5)来看，随着马尔可夫阶数的增加，该站点的预测精度却逐渐降低，这说明马尔可夫的阶数并不是影响降雨量预测精度的唯一因素。

图3 不同阶数下研究区气象站点预测年降雨量相对误差箱线图

2.4 加权马尔可夫阶数对空间降雨量预测精度的影响

采用克里金(Kriging)方法将不同阶数预测情况下27个气象站点的年降雨量插值到研究区空间上，并与2018年站点实测降雨量的克里金插值结果进行比较，根据式(8)计算空间年降雨量相对误差，相对误差空间分布见图4。由图4可以看出，整体上年降雨量高估的区域比低估的区域普遍要大，且高估的程度也比低估的程度要大。不同阶数预测的年降雨量相对误差呈现出明显的空间分布趋势，年降雨量的预测值在研究区东部和东北部比实测值要高，而在南部和西南部比实测值要低。在年降雨量的空间表达上，二至四阶预测的空间年降雨量都出现了较大区域的过高和过低估计，五阶预测的年降雨量空间分布与实测情况之间的误差最小。

(8)

式中：Psim为预测的降雨量，mm；Pobs为实测的降雨量，mm；e为相对误差，%。

图4 不同阶数预测年降雨量空间差值的相对误差

为了研究年降雨量空间预测相对误差的影响因素，从气象和地形两个方面考虑，分别选择了多年平均降雨量和高程作为影响因子。由于预测的年降雨量相对误差有正有负，故分为负相对误差和正相对误差两种情况，绘制各阶数预测的年降雨量空间相对误差与多年平均降雨量、DEM的散点关系图，见图5，同时统计空间相关系数，见表6。由图5、表6可以看出，除二阶预测的正相对误差与多年平均降雨量之间的相关性没有通过显著性检验之外，不论是各阶数预测的负相对误差还是正相对误差，都与研究区多年平均降雨量呈现负相关，相关系数范围在-0.83～-0.21。多年平均降雨量的大或小表征着区域所处位置降水的丰或枯。由此可以推断，区域自身降水的丰或枯对多阶加权马尔可夫链预测结果偏离实测值的影响是不一致的，表现为多年平均降雨量越大，负相对误差的数值越小、越偏离0，说明过低估计的程度越大、预测精度越差，而此时正相对误差的数值越小、越接近0，说明过高估计的程度越小、预测精度越好。综合来看，研究区过高估计区域以及程度都比过低估计的要大，从空间整体的预测精度来说，在多年平均降雨量较大(即降水充沛)的区域进行空间降雨量的预测能够获得更高的预测精度。各阶数的预测结果中，五阶预测的年降雨量空间相对误差与多年平均量的相关关系最强，多年平均降雨量与负相对误差的相关系数为-0.80，与正相对误差的相关系数为-0.83。结合图4中得出的五阶预测的空间年降雨量精度最高这一结论，多年平均降雨量相关系数高又进一步说明了多年平均降雨量对加权马尔可夫链预测精度的显著影响。相比之下，高程与预测的降雨量正、负相对误差之间的相关关系较弱，说明高程对加权马尔可夫链预测精度的影响较弱。

图5 不同阶数预测的年降雨量相对误差与实测降雨量、高程空间散点关系

表6 不同阶数预测的年降雨量相对误差与实测降雨、高程的空间相关系数

3 结语

本文采用加权马尔可夫链结合模糊集理论的方法对湖北省27个气象站的年降雨量进行预测，研究了不同阶数的选择对年降雨量预测精度的影响。研究结果表明：一阶马尔可夫链预测的年降雨量状态易出现不唯一的情况，从而无法预测出具体的降雨数值，而多阶加权马尔可夫链预测的年降雨量状态则比较稳定且一致，年降雨量状态预测的准确性也更高；二至四阶预测的年降雨量数值的相对误差范围比较接近，当阶数增加到五阶时，能够保证更多的气象站点的预测结果落在更小的误差范围内，因此降雨量值的预测精度最高。此外，从年降雨量相对误差的空间分布来看，不同阶数情况下空间趋势较为一致，均表现为研究区东部和东北部高于实测值、南部和西南部低于实测值。在年降雨量的空间表达上，五阶的预测结果与实测的年降雨量空间分布之间的误差最小。相关分析显示，多年平均降雨量是影响年降雨量空间预测精度的主要因素，雨量充沛的区域其降雨预测的精度更高。本文的研究结果验证了多阶加权马尔可夫链结合模糊集理论方法在研究区年降雨量状态以及数值预测的适用性，为研究区年降雨量预测提供了科学的方法。然而对于部分气象站点预测误差较大的情况，在未来的研究中可以通过改进降雨数据序列分级、增加降雨数据样本和改进模型等方法，获得更加精确的预测结果。