罗金炎, 徐 飞, 李 燕, 吴嘉颖, 沈 煜
(1.闽江学院 数学与数据科学学院, 福州 350108;2.闽江学院 新华都商学院, 福州 350108)
福建省地处沿海,其海岸线长度位居全国第二位,陆地海岸线长达3 751.5 km,其受台风侵扰较为频繁,从1945—2018年在福建省登陆的台风多达130多起,造成直接经济损失513.1亿元。经济发展的同时,台风带来的直接经济损失也越来越高,台风等气象灾害已经成为制约福建省社会经济发展的主要因素。因此,在面临巨大的自然灾害时,如何基于预报信息和观测数据对其可能造成的经济损失分布进行研究是十分必要的.
极值理论创立之初常用来分析具有极端概率罕见的情况[1],如海啸、地震、台风等。后来在1990年左右,极值理论被证实能有效拟合出金融资产报酬率分布的厚尾特征,在货币和信用危机对金融市场的冲击下,极值理论被广泛应用于金融市场[2]的极端价格波动,因而极值理论的主要研究对象也变成了金融收益的尾部特征[3].我国对极值理论的研究起步较晚,现有的参考文献相对较少。2006年李晓渝等[3]使用极值理论方法研究了期货保证金设定的实证研究;2013年陆静、张佳等[1]使用极值理论和多元Copula函数的商业银行操作风险计量研究。
本文使用复合模型(POT模型与对数正态分布)对福建省1992—2018年台风灾害的经济损失额进行拟合研究,分析福建省历年台风巨灾损失的厚尾特征。因受极值数据的影响,福建省历年台风灾害损失不符合传统正态分布,所以使用广义帕累托分布(GPD)与对数正态分布的复合分布来对样本数据进行拟合,充分体现在极值数据影响下的优势。为今后的气象灾害损失额度的分析、金融产品开发等提供科学依据,具有重要的实际意义。
极值理论[4]是次序统计学的重要分支之一,主要用于研究具有极端变异性的数据并进行建模,能有效的处理与概率分布均值偏离极大的数据。极值理论经多年的继承和发展,现今超阈值模型(POT)和区间极大值模型(BMM)已较为成熟。POT模型与BMM模型都是根据样本数据对分布的尾部进行拟合,与惯用的整体建模不同,主要差异在于样本数据的选取方式。POT模型是设定一个阈值,选取超出阈值的样本数据进行建模,该模型可用广义帕累托分布(GPD)[4]拟合,但广义帕累托分布(GPD)阈值的选取方法有多种,因此在选取阈值时使用的方法具有一定的主观性,从而易导致阈值设定不合理。综上所述,POT模型能弥补BMM模型的缺陷且所需的样本数据量较少,在生产应用中更为有效。
超阈值模型(Peaks Over Threshold,POT)[4]基于广义帕累托分布拟合超限分布。换言之也是对阈值(Threshold)超出额的所有观测样本数据来建模,从而渐近刻画分布的尾部特征。
POT模型能最大限度的使用极值数据且其分布一般具有厚尾性[5]。缺失的数据与总体分布对POT模型影响比较小,但是POT模型在拟合福建省台风灾害损失分布时,选取的阈值具有较大的主观性,而对数正态分布对福建省台风灾害损失分布的拟合有辅助作用,能弥补POT模型存在的一些缺陷。因此本文使用复合模型(对数正态分布模型与POT模型)来研究福建省台风巨灾的损失分布,能让拟合更加准确和有效。
以福建省1992—2018年台风造成的直接经济损失作为直接观测值。对数据进行整理优化, 剔除了一些残缺的数据,总共留下有效数据47组。因为数据时间的间隔比较大,为消除一些不必要的影响因素如物价水平,本文将以福建省1992年的真实发展指数GPI(1992=100)为指定基指数,对福建省历年每次台风造成的损失数据进行优化调整,优化调整所需要的数据来自福建省统计局网站。
本文采用的优化调整公式[6]为
(1)
其中S=GPI(1992=100),调整后的数据为Yi(i=1,2,3,…),历年台风灾害损失数据为Xi(i=1,2,3,…)。调整完成后用SPSS软件对福建省1922—2018年台风造成的直接经济损失数据进行基本的统计描述,详细情况见数据表1。
表1 福建省1992—2018年台风灾经济损失额基本统计描述(亿元)
经过基本统计描述,由表1可以看出,福建省台风灾害经济损失额的偏度和峰度分别为3.19、14.48,而正态分布的值偏度为0,峰度为3,由此可知福建省1992—2018年台风灾害经济损失额明显偏离了正态分布。
其中峰度公式为
(2)
当Kurt=3时为正态分布,当Kurt>3时表现为厚尾,当Kurt<3时表现为薄尾。
使用SPSS软件的正态P-P图和频率直方图对福建省台风灾害损失额进行厚尾检验,画出福建省台风灾害损失额的P-P图和频率直方图,如图1和图2所示。
图1 1992—2018年福建省台风灾害损失额正态P-P图
图2 1992—2018年福建省台风灾害损失额频率直方图
由图2频率直方图可知,福建省1992—2018年台风灾害损失额有明显的“厚尾、尖峰、右偏”等特征。为提高检验的可信度和证明福建省台风灾害损失额的厚尾特征,综合图1观察可得,P-P图偏离正态直线向下凸,福建省台风灾害损失额观测的累积概率与期望的累积概率近似分布对角线在上,由此可知福建省台风灾害损失额符合厚尾特征。由于受极值数据的影响,单一的使用正态分布来拟合福建省台风灾害损失额已不适合,所以将使用广义帕累托分布(GPD)与对数正态分布复合模型来对样本数据进行拟合。
对样本数据进行帕累托分布检验,将使用检验工具帕累托检验纸,其检验原理是在其变换下让符合帕累托分布的函数表现出一条为直线的图形。若样本数据xi(i=1,2,3,…)来自帕累托分布,样本数据经过标准化后得到yi=(xi-μ)/σ,则有点(xi,yj)组成一条近似直线。
使用电子表格Excel对福建省台风灾害损失额进行帕累托分布检验,观察图3可以看出福建省台风灾害损失额近似一条直线,满足帕累托分布的前提假设,福建省台风灾害损失额满足帕累托分布。
图3 帕累托分布检验
对数正态分布检验只能使用SPSS软件中的P-P图或者Q-Q图,本文使用P-P图进行对数正态分布检验。P-P图检验对数正态分布主要看其残差图形状是否有规律,而不仅仅看其波幅,至于波幅在什么范围并没有一个通用的标准,一般波幅最大不超过0.06,其对应的累积百分点在0.6以上。对于样本数据,数据点基本紧紧地围绕在P-P图的45度线上,基本上就符合对数正态分布。
本文使用样本数据47组,为了提高检验的准确性,在进行对数正态分布检验时,将剔除样本数据的异常值,即5组最大值和5组最小值。使用Excel对37组福建省台风灾害损失额取对数,再使用SPSS软件对福建省台风灾害损失额的对数进行正态分布检验并绘制出检验的Q-Q图,如表2、图4所示。
图4 1992—2018福建省台风灾害损失额对数正态检验Q-Q图
表2 台风灾害损失额对数正态性检验
由表2可知,sig.=0.2>0.005,福建省台风灾害损失额的对数服从正态分布,进一步观察其Q-Q图确认,可见样本点基本在直线附近,福建省台风灾害损失额的对数服从正态分布[7]。
POT模型阈值选取采用平均超出量函数(Mean Excess Function,MEF)[4]。当0<ζ
(3)
由式(3)可以看出超均值函数为阈u值的线形函数[8]。将福建省台风灾害损失额的47组数据导入到统计软件R.studio中并画出其平均超限函数图和POT模型的Hill图。如图5福建省台风灾害损失数据的MEF图可以看出,福建省历年台风灾害损失数据观测样本的超额均值有明显的上升趋势,分析得出观测样本符合广义帕累托分布(形状参数ζ>0)。观察图6,看出尾部指数大概超过15个样本数据以后变得相当平稳。综上,可以将最初阈值u确定为45.07亿元,小于阈值(u=45.07亿元)的台风损失认为是正常,超出阈值(u=45.07亿元)的台风损失将视为极值。
图5 福建省台风灾害损失数据的MEF图
图6 福建省台风灾害损失数据的Hill图
由于涉及的总体样本极值数据量较小,所以将采用基于GPD分布的极大似然估计法进行相关参数的估计[9]。
使用MATLAB软件进行拟合计算,得形状参数ζ为0.493,尺度参数β为43.21。1992—2018年福建省台风灾害经济损失分布函数为
(4)
文献[6]给定某个p值,得出高分位数点的估计[7]公式:
(5)
由式(5),通过Excel分析计算得到结果,如表3所示。从分位数的统计角度观察,福建省台风灾害损失额小于等于147.38亿元的概率为0.95,小于等于335.96亿元的概率为0.99,小于等于462.42亿元的概率为0.995,小于等于828.85亿元的概率为0.999。
表3 福建省台风灾害损失额的高分位数点估计
受极值数据的影响,福建省1992—2018年台风灾害损失额明显不符合传统正态分布,因此本文使用了超阈值模型复合对数正态模型对福建省历年台风灾害损失额进行了分析研究。选取的POT模型能最大限度的使用极值数据并且缺失的数据对POT模型影响比较小,总体分布对其没有影响,复合的对数正态分布能改善POT模型选取阈值具有的较大主观性,因此复合模型能充分体现在极值数据影响下的优势。结合复合模型对福建省1992—2018年台风灾损失额进行了对数正态分析、帕累托分析和高分位估计,并使用参数估计得出进行台风巨灾金融产品开发的相关参数。可为今后的气象灾害损失额度的分析、巨灾类金融产品开发提供科学依据[10]。
致谢感谢闽江学院校长基金项目(103952019031)的资助。