基于随机森林算法的三大经济区域金融风险测度

2022-09-09 03:42荣梦杰
智库时代 2022年32期
关键词:测度金融市场金融风险

荣梦杰

(武汉华夏理工学院 信息工程学院)

一、引言

2019年2月22日下午,习近平总书记在中共中央政治局第十三次集体学习时指出“防范化解金融风险特别是防止发生系统性金融风险,是金融工作的根本性任务”,因此及时、准确地掌握有效的金融风险信息是金融监管工作的重中之重。随着大数据时代的到来,金融市场也萌发了新迹象——互联网金融,互联网金融在极大地促进金融市场发展的同时,也带来了新的挑战,使得金融市场风险形式与传导机制更加复杂,金融风险呈现复杂的非线性特征。根据以往研究,金融风险测度方法主要可以分为三大类:信号法、综合评价法和模型法。信号法主要依赖于历史经验所得,并不适用于我国。虽然针对金融风险测度的模型已有很多,例如,基于期望损失理论的边际期望损失(MES)法、系统性期望损失(SES)法、系统性风险度量(SRISK)法等,基于条件在险价值理论的CoVaR和Co-Risk模型,基于Black-Sholes期权定价理论的未定权益分析(CCA)法[1],但这些经典模型都是针对传统金融市场而言,无法准确刻画现如今的金融市场。综合评价法被广泛用在金融风险测度方面,因为该方法灵活、多变、适应性强,其中权重的确定方法有很多,常用的有等方差权重法[2,3]、主成分分析法[4]、信用加权法[5]等,针对当今金融市场风险特征,这些加权方法已不足以充分刻画金融风险,因此本文采用能够进行非线性建模的随机森林模型来确定权重[6],最终进行综合评价,力求更加及时、准确地刻画出金融风险状况。

二、随机森林算法

随机森林通过决策树对样本进行分类,最早由Leo Breiman和Adele Cutler提出,该分类器通过Bagging算法,随机抽取样本,重复构建决策树,最终给出分类结果,其算法如图1。

图1 随机森林算法流程图

三、基于随机森林模型的区域金融风险测度

(一)数据来源

本文选取三大经济区域所包含的18个省区市作为研究对象①,观察时段为2000年到2020年,相应的指标数据来源于各省、市统计年鉴,其中,证券交易额数据来自各省、市的《国民经济和社会发展统计公报》。为消除量纲的影响,将数据进行标准化处理,并对地区生产总值增长率指标进行倒数正向化处理。

(二)区域金融风险指标体系构建

随着区域金融一体化进程的持续推进,不同区域之间的金融业务往来愈加频繁,也就意味着区域间的风险连带效应增强,区域内部金融市场机制与区域外部环境的相互作用、相互制约对本区域的金融市场稳定都起着同等重要的作用。因此,想要准确评价区域金融风险水平就要从多个维度、不同空间进行综合考虑,不能只考虑金融市场内部环境,外部环境同样是影响区域金融风险的重要因素[7]。结合我国环渤海、长三角和泛珠三角区域的区域特征,从金融市场内部和外部两个维度出发,构建的区域金融风险指标体系如表1所示。

表1 区域金融风险指标体系

(三)k-means聚类确定类别标签

确定了衡量三大经济区域金融风险的主要因素以后,需要进一步确定各个因素对区域金融风险的影响程度,进而确定出各个因素的权重。在确定权重之前,需要先量化各个因素对区域金融风险的影响程度。运用Rstudio对原始数据进行整体聚类,发现聚类结果欠佳,观察发现以2008年为分界点,此节点前后数据波动变化呈现明显不同,因此以2008年为分割点,将原始数据划分为两个部分,进行分段聚类。为获得每一部分的类别标签,先运用层次聚类法确定每个部分的最佳聚类数,再进行k-means聚类,最终给出样本的类别标签。为确定k-means聚类的结果是否准确,因此需要验证聚类结果的现实意义,表2列出了2000年-2008年时间段内的频数统计结果,表中只显示了各类别中出现频率较高的地区。

表2 k-means聚类结果统计②

一般而言,地区的金融风险水平与其经济实力是成正比的,可根据地区的经济发展状况初步推断地区的金融风险水平。从下表2可以看出,分在第二类的北京、广东、上海等地区为经济较为发达、金融市场发展较为成熟的地区,分在第三类的河北、安徽、江西等地区为经济、金融发展相对落后的地区,分在第一类的大部分地区的经济发展处于中等水平,二分在第二类的地区多为经济发达区域。可以看出,k-means最终的聚类结果与实际的经济实力水平相符,确实对各个地区的风险水平进行了有效区分。

(四)随机森林构建

将上文中确定的类别标签作为目标监督值进行随机森林构建,通过对已知类别的学习过程来确定各个指标的重要性程度。把含有类别标签的全样本分为训练集和测试集,比例为3:1,确定决策树的合适个数n,进行随机森林搭建,得到如下图2、图3所示的误差收敛图.2000-2008年数据段,n在数值200附近误差开始趋于平缓,因此n取200,2009-2020年数据段,n在数值300附近误差开始趋于平缓,因此n取300。

图2 2000-2008年随机森林过程的误差收敛图

图3 2009-2020年随机森林过程的误差收敛图

为确定各个指标的权重值,构建上述随机森林模型,输 出IncNodePurity指 标,IncNodePurity指标越大,指标对目标值越重要,各指标的IncNodePurity值如下表3所示,本文用各个变量在全部变量中的IncNodePurity值占比来表示各指标对于测度金融风险的权重,加权求和计算出区域金融风险。

表3 随机森林构架过程的IncNodePurity指标

对表3中指标数据进行加权求和,求出三大经济区域2000年到2020年间的金融风险平均水平,并绘制出各个区域的金融风险演变趋势折线图,如图4所示。

图4 三大经济区域金融风险水平演变趋势

由三大经济区域金融风险水平演变趋势图可以看出,整体来看,2000年到2020年间三大经济区域金融风险呈现此起彼伏的循环变化趋势,期间的金融风险波动幅度相近,三大经济区域风险明显增大、风险明显相对稳定的时间区间大致重合,主要由于三大经济区域的经济、金融都相对完善、成熟,业务往来较为密切,导致区域之间的风险联动性更为明显,促使三大区域的金融市场波动变化同步、风险相依性较强。

2000年到2020年间,2008年的金融危机对我国金融市场产生的影响巨大,本文基于随机森林模型测度出的三大经济区域金融风险水平,相较于2000到2020年间的其他年份,确实都在2008年附近产生了较大波动,说明本文的风险测度方法选取较为合适,能刻画出相对真实的金融市场风险现状。三大经济区域的金融风险水平除了受金融危机影响在2008年前后出现幅度较大的异常波动外,其他观察期内整体的金融风险波动幅度和水平都较为稳定。金融危机过后,自2010年以来,金融风险水平整体在平缓发展中略有下降,整体波动也趋于平缓。

四、结论与建议

本文以三大经济区域为研究对象,对2000年到2020年间18个地区的面板数据进行分析,建立随机森林模型测度出三大经济区域的金融风险水平,得出以下结论并给出相应建议:

(1)2000-2020年间三大经济区域金融风险的联动效应明显。

金融监管部门可通过区域间的联动效应整体把握三大经济区域的金融风险状况,可通过其中一个区域的风险演变趋势有效预判其他区域的风险走势与变化。

(2)自2010年以来,我国金融市场平均风险水平明显下降,风险波动也趋于平缓。

金融监管部门除持续稳定金融市场的当前状态外,应有针对性地加强三大经济区域外部环境稳定性的维护,减少外部环境因素对内部金融市场稳定性的牵制强度与力度,以实现三大经济区域金融市场内部与外部系统的“良性有效循环”,推动三大经济区域金融市场稳定、高效运行。

【注释】

①环渤海区域:北京、天津、河北、辽宁、山东;长三角区域:上海、江苏、浙江、安徽;泛珠三角区域:广东、福建、江西、湖南、广西、海南、四川、贵州、云南。

②括号内为同一地区在同一类中出现的频数。

猜你喜欢
测度金融市场金融风险
金融市场:寒意蔓延【精读】
假如金融市场崩溃,会发生什么? 精读
Rn上的测度双K-框架
平面上两个数字集生成的一类Moran测度的谱性
我国要素价格扭曲程度的测度
金融风险防范宣传教育
构建防控金融风险“防火墙”
跨境并购金融风险的应对策略
几何概型中的测度
金融创新产品与完善金融市场探讨