机器学习理论在商业银行区域性风险影响因素度量中的应用研究

2018-07-10 10:09吴金旺顾洲一

财务与金融 2018年3期

吴金旺　顾洲一

一、引　言

金融是国之重器，在现代经济体系中处于核心地位，伴随着我国供给侧结构性改革的全面深化，大数据、云金融、区块链、物联网等新型金融科技技术创新及应用不断深化，金融科技为经济产业供给侧改革资金来源提供更加多元、精准的渠道，也推动金融产品供给侧结构性改革，促进我国金融市场的发展与活跃，金融产品的内涵和外延不断丰富，尤其是第三方支付、互联网基金销售、P2P网贷、股权众筹、互联网银行、互联网保险、互联网信托、互联网消费金融等互联网金融模式的出现以及云计算、区块链等新技术的出现，对国内银行业的稳定性带来了明显的冲击，传统存、贷、汇等方面业务质量和数量下降。同时在资本约束深化、金融脱媒和利率市场化加速的市场环境下，银行利润空间受到挤压，传统银行业务面临着巨大的挑战。为了应对新时代、新金融形势下的改革，实现“去产能、去库存、去杠杆、降成本、补短板”五大任务目标，积极响应“后峰会”时期大力发展数字普惠金融的理念，在这种鲶鱼效应下，商业银行以互联网化变革来探索新路径，独立发展金融科技部门，或者购买社会服务技术外包，行企合作，全面借助技术提高金融服务范围，为推进区域协同、城乡一体化发展、全面实现小康社会贡献社会责任。

银行是经营货币的企业，本质上也是经营风险的特殊企业，通过经营承担风险，获得相应盈利，是银行生存和发展的最基本模式。时代在快速变化，如何适应时代要求，包括经营环境、政府监管、国际金融秩序等，及时、有效、充分、准确的识别、计量、预警和防控风险是商业银行经营管理的永恒主题。

银行业面临的风险主要来自于两个方面：一是宏观经济因素的冲击，二是银行体系自身的脆弱性，而这两个因素除了可能引发单个银行风险，并通过风险传染性，造成区域性和系统性的风险（刘春航和朱元倩，2011）。当前的银行风险评价包括单一银行风险的微观评价分析和对一国整体性风险的宏观评价研究，在宏观行政区域领域，理论很少涉及。实践中，每一家银行都有自己的风险评估模型，但对区域性风险却无能为力。我国地域广阔、经济发展不平衡，经济呈现出很强的集聚性，比如长三角、珠三角，中部地区、西部地区，各行政区域内的银行风险并不是随机的，很容易受到空间外溢作用影响，具有较强的内在关联，同时又是国家银行金融系统性风险的基本构成部分，所以宏观视角来研究是非常有必要的（高旺东，2012）。

在我国商业银行金融机构实行总分支行制度，均存在典型的区域集中性特征。以大型国有商业银行邮储银行为例，作为银行业体系中重要的组成部分，拥有近4万个实体网点，70%以上分布在县域地区,以服务地方经济为宗旨，属于具有强区域性特征的金融机构。当风险小范围的局限于一家或者几家空间相邻的邮储银行时，其表现特征为个别银行风险。但是，由于邮储银行在总行层面，至上而下的具有明确统一的战略定位（服务社区、服务中小企业、服务“三农”），具有相对统一的风险管理体系，相邻地区的资产负债结构、主营客户群体、小微企业行业属性等方面具有较高的相似性，所以当受宏观经济因素、技术变革等外部冲击，或者说自身经营内控能力差、经营脆弱性的内部影响时，很容易导致相邻区域或者属性类似地区的邮储银行发生风险，从而引发区域性风险，更为严重者将产生系统性金融风险。各省市数量众多的城市商业银行和农村商业银行业务更加集中，难以做好分散化经营，区域因素更加明显。

本文结合现有文献和大数据因素构建指标，从宏观经济的角度和微观银行自身的角度入手，通过机器学习的方法对大规模和多维度的历史数据进行建模挖掘，从理论上预测区域性风险发生的可能性，探索区域性风险的影响因素，为商业银行推动区域性风险管理提供指导，为监管部门借助大数据实现非现场监管提供借鉴。

二、文献综述

科学地、深入的发现和挖掘商业银行区域性风险的影响因素，实现风险提前有效预警是有效预防和控制银行风险的客观方法，一直以来受到了学界和监管者的高度重视，在实际操作过程中，每家银行、各分支机构也都会形成自己特有的经验，但系统性、科学性明显不强，主要依赖主观判断。目前,国内学术界关于银行区域性风险的文献相对较少，尤其是实证研究类的文献更少。仅有钱水土等（2016）基于Z省81家农村信用社2006-2012年风险数据，得到可以通过增加资本充足率和生产总值增长，来规避区域性风险。

（一）风险预警模型应用的演变

自上个世纪80年代以来，银行体系规模不断扩大，银行经营更加多元化，银行危机在全球范围内频繁爆发，从货币信用危机到银行危机再到金融危机，最后引发经济危机，对世界经济发展造成了严重的冲击，同时银行破产、清算或倒闭的现象也频频发生，由此大量学者对其展开实证研究（Peek and Rosengren，2000；Canbas et al.，2005）。从已有研究文献来看，预警模型众多，比如：一元判别分析（SDA）、多元判别分析（MDA）、Z评分模型等，离散选择Probit回归模型、Logit回归模型已经成为判别银行早期风险的主要方法。Martin（1977）首次将Logit模型应用于银行破产影响模型构建之中，以1970-1977美联储成员银行中58家困难银行为样本，从25个财务指标中选取8个财务比率建立了Logit模型，以此对分析对象进行风险评估和决策。Demirgüc-Kunt和 Detragiache（1999）通过建立多元Logit模型，发现如果实际利率、通货膨胀率较高、GDP增长率较低，会显著提高银行危机发生概率，另外一些因素比如财政赤字、贸易冲击以及货币贬值对银行危机基本没有影响。Probit模型与Logit模型在很多地方是类似的，区别在于在Probit模型中，假设条件之一是标准正态分布是量化积分，Logit模型能够比较不同因素的重要性（Demirgüc-Kunt and Detragiache,1999；Davis and Karim，2008）。综合来看，在分析银行风险影响因素时，Logit模型具有独特优势，是当前最为主流的方法之一，而且Logit模型中的Logistic分布更为简单，现实应用更为广泛，同时也更加容易被解释（Kliestik et al.，2015）。

随着大数据时代的迅速到来，数据维度和数据体量爆炸式的增长，特别是出现了很多非结构化数据，传统统计分析模型的局限制越发明显，比如：（1）处理变量间的相关性及共线性是建模之前的基本步骤，而当变量个数变多到一定程度时，处理过程就变得异常复杂；（2）统计方法一般先寻找自变量和因变量的相关性，继而拟定相应函数关系，但是当因变量和自变量之间无法用函数进行描述时，则很难进行深入研究；（3）很多情况下，传统的统计方法依赖于一些前提假设，而现实应用中很多假设无法满足，导致模型准确性不高、稳定性无法保障、解释能力弱（张万军，2016）。机器学习技术由于不受到变量分布假设的约束，拥有良好的鲁棒性和泛化性，所以目前将机器学习与传统统计模型相结合成为了学界和互联网企业的关注点。

（二）区域性风险的量化

区域性风险可以理解为在某一个特定区域内，由于一些金融机构组织的金融活动从而引发金融损失的现象。在研究商业银行区域性风险时，国外许多学者将法律意义上的银行是否破产定义为被解释变量，采用Logit模型，即将银行破产定义为1，反之设定为 0（Avery and Hanweck，1984；Demirgü?-Kunt and Detragiache，2005）。然而与国外情况不同，国内政府对银行提供了隐性担保，即使出现资不抵债的情况（所有者权益小于或者等于0），依然会正常运行，因此国外采用法律破产定义区域性风险的模式并无法在国内实行。基于此，国内学者在研究银行风险时采用了替代方法，林平等（2001）将是否被挤兑作为银行风险的衡量指标，这在我国银行从国有经济体制向市场经济体制过渡时，具有一定的科学合理性性。然而，陈鑫云（2017）根据国内银行深化改革后的现状，认为挤兑事件作为虚拟变量具有很大的局限性，不能客观的量化银行破产的概念，并创新地提出了以经济破产的概念作为虚拟因变量来研究银行区域性风险和系统性风险。本文借鉴最新的研究成果，采用以经济破产为虚拟变量，用权益资产比率来代表发生区域性风险的概率。

（三）区域性风险的影响因素

目前大多数文献都以系统性风险为入手点，分别从宏观经济层面或微观内部角度来探究其风险影响因素，并没有能够将两者综合考虑；同时系统性风险与区域性风险联系紧密，其影响因素相似度极高（钱水土等，2016）。从宏观经济层面来看，主要有以下四大类指标：第一类是信贷存量指标，主要有信贷增长率（Bordo and Meissner，2012）和信贷与GDP之比（Davis et al.，2012），这类指标通常会被滞后 i阶，其结果也不尽相同。第二类是资产价格，由于近些年房产在投资中的比例很高，直接影响了社会经济方方面面的运行，研究过程中运用最多的是房地产价格波动数据（王春丽等，2014）,其次就是股票数据（股市收益率、价格波动率），虽然此类数据可获性相对容易，但是实际效果并不好（Schularick et al.,2009）。第三类是GDP指标，该指标由于容易获得，且相对准确，被广泛应用，但是各类研究结果却又呈现完全相反的两个方面，一方面经济增速突然放慢，银行坏账增加，紧跟着发生银行危机（Hagen et al.,2007），另一方面是经济增长与银行危机并没有必然的联系（Rose et al.,2012）。第四类是对外经济指标，例如：外贸依存度（王春丽等，2014）、对外开放程度（张绍乐，2017）以及国际资本流动等（Jordàet al.,2011）。此外，还有财政赤字、地方政府债务增长率、M2乘数、高利率等也被用来作为相关指标（王春丽等，2014；Kauko，2014）。

从银行微观内部角度来看，早期国外大多数文献构建的指标主要以银行的资产负债表和损益表为主（Martin，1977；Avery and Hanweck,1984）。Demirg ü?-Kunt（1989）较早的发现资产质量、资本充足率、收益水平是影响银行区域性风险的重点指标。国内,仲彬等（2002）对区域性风险指标提出了理论探索，提出了兼顾流动性、盈利性、安全性等方面的指标构建，并从理论上构建了风险预警系统。之后大量的国内学者对区域性风险防范作出巨大的贡献（郑凯华，2014；陈强，2014；黄学军，2015；钱水土等，2016）。

随着互联网特别是移动互联网的普及，以网络信息技术为代表的科技与产业迅速萌发，大量的网络信息能够被采集、筛选、利用。近年来，有相当多的文献讨论了网络信息对金融决策行为的影响。Karlan（2005）提供了网络信息影响个体信贷决策的证据。Zhang等（2011）分析每条Twitter所包含的积极情绪和消极情绪，构建一个自变量（总Twitter数量中包含情绪的Twitter数量占的比例）发现这个自变量与芝加哥期权交易所波动率指数显著正相关，但与标普500指数、纳斯达克指数以及道琼斯指数均显著负相关。国内学者金雪军等（2013）利用文本挖掘技术来处理非结构化数据，探讨中小投资者在股票论坛的讨论与股票收益率与成交量之间的相关关系。杨晓兰等（2016）以新浪财经博客为数据来源，利用网络爬虫技术实时爬取网络博客数据，定量描述投资者基于博客进行社会互动的程度及其情绪倾向，进一步检验了行为金融学中社交互动对股票市场的影响。国内外学者已有的研究充分表明了网络信息对金融行为的重要性，同时随着党的十九大行动纲领和发展蓝图的出台，明确提出要建设“网络强国、数字中国和智慧社会”，推动数字化和实体经济深度融合，认识到数据的价值并深入挖掘，有效利用网络信息必将成为未来金融研究的热点。对于区域性风险来说，传统的风险指标构建中缺乏具有网络信息的代表性影响因素，目前尚未有学者对其展开深入研究。本文将对传统风险指标进行优化，并加入网络信息指标（例如：互联网舆情数据、微信、微博、博客以及交易类、社交类APP的行为数据）来刻画区域性风险的影响因素。

虽然银行区域性风险的系统性还不够，但学术界对区域金融风险的研究由来已久，并提出很多科学客观的规避风险的方法。本文在学习借鉴现有文献资料的基础上，通过选取科学、合理、适时的区域经济金融发展特点的评价指标，构建相对完整、多元化的银行区域风险评价指标体系，为做好银行区域风险识别、计量和控制打好基础。

三、商业银行区域性风险指标体系构建

本文参照国内外文献，将区域性风险影响指标分为宏观经济和商业银行内部两大类，同时利用爬虫等现代信息技术，在传统金融指标的基础引入最新的网络信息因素。

（一）宏观经济指标

从宏观经济指标来看，本文主要考虑外部发展环境对区域性风险的影响因素，并以月度为时间单位，以省或者市为样本区域分界。从以下4个角度来刻画：

第一：经济总量

金融风险是否会发生跟经济环境密切相关，本文采用GDP增长率代表经济发展环境，预期该指标与商业银行区域性风险具有负相关系数。不同银行在业务发展过程中，均有侧重点，一二三产业分布呈现一定的特征。以邮储银行为例，致力于服务三农，而随着现代化的进步，农业占整个经济体系的比重有所下降，这也是使得邮储银行服务三农的潜在风险可能也会相应增加。基于邮储银行扎根三农、服务三农的特点，可以将第一产业在生产总值的比重纳入指数模型中，预期该指标与邮储银行的区域性风险具有正相关关系。如果是其他类型的银行，可以依据该银行业务重点领域，选择相应的产业比重，纳入该银行的区域性风险指数中。

第二：经济动力

经济发展离不开政府，政府财政支出的增加有助于改善金融市场的环境，促进经济健康发展，本文将财政支出增长率作为指标之一，预期其与商业银行区域性风险呈负相关；固定资产投资是经济发展的重要引擎，同时由于现在我国融资结构偏向于以银行为主的间接融资，直接融资所占总融资比例较小，固定资产投资增长大多数表现为日益增长的银行贷款需求，故本文以固定资产投资增长率作为指标之一，预期其与商业银行区域性风险呈正相关。随着国际化进程的不断深入，特别是东部沿海地区对外贸出口依存度较大，容易受到来自外部经济的影响，故本文考虑将外贸依存度纳入指标体系，预期该指标与商业银行区域性风险呈正相关。

第三：区域性金融总量

商业银行的物理网点的建立和核心业务发展，受该地区金融环境影响很大。假如此区域贷款占生产总值的比重过大，那么贷款支持实体经济的效率将会下滑，贷款风险也会增加，同时过高的比重意味着后续贷款业务继续增长的可能性也在降低。本文采用该区域所有贷款占生产总值比重这一指标，预期该指标与商业银行区域性风险呈正相关关系。存款是商业银行最主要的负债来源，随着互联网金融业务的发展，当前银行存款流失现象比较明显，而存款可以为贷款等资产业务提供资金来源，存款的增加可以提高银行存贷款比例，降低银行流动性风险，本文采用该地区的存款增长率作为指标，预期该指标与银行区域性风险两者呈现负相关关系。当然从另一个角度来看，贷款的增加有助于银行增加收入，从而提高银行风险覆盖力，故本文采用该地区的贷款增长率作为指标，预期该指标与银行区域性风险呈现负相关。此外，银行理财业务的发展也会对区域性金融产生影响，本文将银行理财杠杆率作为指标，预期该指标与商业银行区域性风险呈正相关关系。不同区域经济有着不同的行业特色，某地区的失业率增加，可能意味着这个地区相应行业的衰退，借贷中的实际还款能力变弱，增加区域性风险，本文采用失业率指标，预期该指标与银行区域性风险呈正相关关系。同时，由于近年来房地产市场持续火爆，其价格指数影响着银行房贷业务，而房贷业务的风控也是银行资产业务的主要关注点，本文采用该地区房地产价格指数，预期该指标与银行区域性风险呈正相关关系。

第四：互联网情绪

从网络信息来看，随着网络爬虫等领域的快速发展，网络数据的采集越来越方便，谷歌利用网络流感类的搜索量来探究美国的流感看诊量之间的关系，阿里利用淘宝数据分析平台来挖掘潜在消费力，可见互联网数据的价值越来越重要。

互联网情绪指标需要基于互联网真实行为数据，包括官方评论、各大论坛、百度贴吧、微博等的文本数据作为研究对象，利用情绪倾向分析进行文本挖掘构造互联网情绪指标。

（1）媒体导向：利用爬虫技术对各大权威性财经类官网（例如：21经济网、网易财经、人民网等）爬取网络信息，并利用人工和计算机算法（例如：KNN）对爬取数据进行分类，例如：

表1　具有代表性的媒体标题分类

本文将t日媒体报道中情绪倾向为“积极”的新闻数量记为 M·post，“消极”的新闻数量记为 M·negt，情绪指数变量sentiment的构造规则如下（Antweiler and Frank，2004）：

sentiment=ln[(1+M·post)/(1+M·negt) （公式1）

当一天内积极情绪的媒体报道累计数量等于消极的数量时，情绪指标为零；当积极情绪的媒体报道数量大于消极情绪报道数量时，情绪指标值大于零；反之，则小于零。由于本文考虑的对象以月度数据为最小时间单位，即可对每日的情绪指数进行求和。本文采用媒体导向的情绪指数作为指标，预期该指标与银行区域性风险呈负相关。

（2）网民情绪：宽带的基础设施已经完善，移动互联网在智能手机的普及下迅速进度全面化阶段，互联网已经与人们的生活有机融合。截止到2017年5月，中国拥有7.51亿网民，这是一个非常巨大的基数，也是我国金融发展过程中难得的人口红利。而随着博客、微博、论坛以及贴吧等互联网产品的落地，网民们有更加多元的途径对周边事物或者一些热点话题进行评论。本文利用爬虫技术爬取网民评论的文本信息，并利用计算机方法或人为方法对其进行分类（例子见表2），从而间接地反映了网民的情绪（方法同媒体导向的情绪指数）。本文采用网民情绪指标，预期该指标与银行区域性风险呈负相关关系。

表2　具有代表性的帖子分类

（二）银行内部层面指标

从商业银行内部层面来看，指标的选取具体从以下5个角度来分析：

第一、业务发展

对于单一银行来说，贷款业务的增加，意味着盈利能力在提升，化解风险的能力在增加。本文选取贷款增长率指标，衡量银行业务发展状况，预期该指标与银行区域性风险呈负相关关系。贷款能否收回、贷款的质量如何，直接关系到银行信贷风险，本文考虑逾期率指标，预期该指标与商业银行区域性风险呈正相关关系。

第二、业务结构

业务结构实指不同类型业务所占的比重，能否形成合理的业务结构会影响银行风险。在我国，中间业务的发展比例还不够高，贷款仍然是各家银行主要业务。所以存贷差产生的利息收入是银行最主要的收入，本文选择非利息收入比重和贷款资产比两个指标，预期两者与银行区域性风险均呈正相关的关系。而随着普惠金融的落地以及P2P行业发展带来的影响，传统商业银行也逐渐放宽了小微贷的标准，本文将小微经营贷款用户数纳入指标体系，预期该指标与邮储银行区域性风险呈正相关。同时，部分地区推出了符合区域特色的理财产品，故本文将区域性理财产品销售量在总量的占比纳入指标体系，预期该指标与银行区域性风险呈负相关。

第三、风险抵补

发生风险后，银行自身抵补能力是化解风险的有效保障，银行核心资本和附属资本、损失准备金是弥补损失的天然屏障。本文选择银行资本充足率、不良贷款拨备覆盖率这两个指标，预期与银行区域性风险均呈负相关关系。

第四、收入盈利

盈利能力除了与收入有关，还取决于成本，通过控制成本能提升银行的盈利能力，增强银行风险抵补能力。本文采取成本收入比和净资产收益率这两个指标，预期与银行区域性风险均呈负相关关系。

第五、APP移动端

随着移动互联网的发展与创新，商业银行将业务拓展重点推向移动端，通过APP提供更加便捷的金融理财服务，与传统线下网点运营有很大差别，成为全新的增长点。关于APP行为数据，通过用户的开户行对移动端后台的数据进行划分，从而突显区域特征。首先，用户与客户还是有差别的，客户量是维持银行发展的生命线，新金融形势下购买移动理财产品的客户量，可以用用户的开户行来划分，筛选出移动端参与互联网投资理财人数，预期该指标与银行区域性风险呈负相关关系。再者，利用同一个时间段内同一个开户行不同用户借贷所选择的期限，可以得到一个综合的平均期限，即移动端平均借款期限，预期该指标与商业银行区域性风险呈正相关。由于很多银行APP中的客户之声的栏目中对留言类型设置为建议、投诉、表扬以及咨询这四类，其中表扬代表着客户积极的情绪，投诉代表着客户消极的情绪，本文将构建客户之声情绪指数变量（具体构建方式与互联网情绪一致），预计该指标与银行区域性风险呈负相关。

（三）指标体系

机器学习（Machine Learning,ML）是随着数据量的剧增，新兴发展起来的一门多领域交叉型学科，通过计算机强大的功能来模拟或实现人类的学习行为，从而获取新的知识，重新组织已有的知识结构和技术技能，不断改善自身性能。本文基于表3的两大类共26个指标，使用机器学习理论，结合随机森林模型（Random Forests，RF）和Logistic模型，构建RF-L模型，生成了一系列具有区域性风险评估能力的基分类器（子模型），然后通过XGboost模型对具有不同风险评估能力的子模型进行集成，最终增强模型的评估效果。

表3　商业银行区域性风险影响因素

（四）被解释变量的构建

防范金融系统性风险，全面深化金融改革，股份制改革有序开展，金融机构市场化退出机制日趋健全，体制日益完善，如果银行长期处于经济破产边缘，将会逐步被法律化进行破产重组或者处置。本文将经济破产定义为虚拟变量，设定研究现象包括发生和不发生银行区域性风险这两种情况，为进行回归分析，将Yit设为虚拟变量，其中i代表着个体，t代表着时间，当该现象发生时，Yit取1，反之则取0。鉴于事件发生的概率在0-1之间，引进一个不可观测的变量Zit来代替Yit，当Zit大于0时，Yit取1，反之则取0。本文定义Zit为区域性银行的权益资产比率，公式为（所有者权益-不良贷款）/总资产，其中钱水土（2016）将所有者权益定义为：实收资本、资本公积、盈余公积、一般风险准备以及未分配利润的总和与未弥补历年亏损的差值，并且将银行破产的临界值设定为0。该指标对于区域性中小银行实用，如果需要研究全国性的股份制银行，建议以不良贷款率与该银行全国不良贷款比率的平均值对比，来分析区域性风险是否发生。

四、基于XGboost集成学习的区域性风险评估模型

（一）基于互联网文本的情绪指标构建

根据知识获取方式的不同，文本可以分为两种，一种基于KE(knowledge engineering)的分类系统，另一种基于ML(maching learing)的分类系统。ML是基于统计机器学习的文本分类方法，优势体现在准确性和稳健性，因此本文采用基于ML的方式，文本情绪倾向分析的过程可分为以下几个步骤，具体见图1：

图1　文本分类

本文涉及的互联网文本信息可以分为三类，媒体导向情绪、网民情绪和用户情绪，大数据指标构建方法如下：

STEP1：数据清洗

第一步是数据清洗，通过数据清洗的工作可以对文本数据进行预处理，提取与研究相关的关键字段信息。网民的原始数据和媒体导向数据预估主要会包含URL、发布时间、用户昵称、导航信息等各类杂质数据，需要进一步提取其中的发布时间、新闻主标题、摘要、帖子名称等关键信息字段。

STEP2：训练集提取

从全体样本数据集中，随机抽取40%信息作为训练集，对文本信息的情感倾向基于情感词典进行分类。媒体、网民和用户的文本信息处理相同。

STEP3：SVM文本分类模型训练

基于训练数据集，形成SVM文本分类模型。

STEP4：应用测试集

根据STEP3的基于训练集建立的情绪分类SVM算法规则，用于剩余的测试样本数据，获得媒体导向的每一条新闻报道情绪、网民的每一条文本情绪和APP用户的情绪。

STEP5：情绪指标构建

对媒体导向信息、网民信息和用户文本信息，基于前述公式1的情绪构建规则，形成三者的每月情绪指标。

（二）RF-L基分类器

机器学习技术由于不受到变量分布假设的约束，拥有良好的鲁棒性和泛化性，不足在于模型的逻辑复杂，不易于直观展示和解释变量的风险特性。在稳定性和可解释性方面，传统的风险评估模型有独特优势，在各类金融场景中已经被广泛使用。本文的基分类器建模考虑将机器学习算法和传统风险评估模型进行适当结合，构建组合评估模型，发挥两者的优点，得到适用于大数据环境下的、分类精度高、稳定性好、解释力强的风险评估模型。

基分类器机器学习算法采用随机森林模型，随机森林的优点是可处理的变量维度多、分类精度高，由于单棵决策树和随机森林的生成过程是一个黑箱，建模指标的可解释性和易读性不强，不利于直接说明变量的风险特性。基于此，本文采用Logistic回归模型，该模型相对比较稳定。本文将两者结合起来，生成风险分类评估子模型，称之为RF-L模型。

图2　为RF-L风险评估模型的流程图

在进行Logistic统计建模前，首先利用随机森林模型中的决策树对构建的26项风险指标进行变量的选择，根据森林树修剪后的结果得到重要节点风险指标，将输出的显著量化指标导入Logistic回归模型中进行统计建模，从而确定显著风险因子的风险权重。RF-L克服了单独使用随机森林模型或Logistic模型的缺点，发挥二者的优势，建立一个适用于大数据环境下的RF-L风险评估模型。

（三）XGboost集成学习框架

集成学习是基于统计模型理论的机器学习方法，能极大提升分类器的准确率和算法的泛化能力。如图3所示，其基本思想：先通过训练个基分类器，然后根据一定的组合策略，最后形成一个强学习器，达到所有优势的集中统一。

图3　集成学习流程图

Boosting、Bagging和 Random Forest是常见的集成学习方法，以同质基学习器依赖关系是否成立，集成学习算法主要包括两类：第一类是一系列的基学习器之间存在依赖关系，需要串行生成，可以使用boosting系列算法；第二类是基学习器之间不存在强依赖关系，需要通过并行生成，可以使用Bagging和Random Forest系列算法。

本文拟采用XGboost集成学习算法，XGboost（eXtreme Gradient Boosting）是在 GBDT（Gradient Boosting Decision Tree,梯度提升决策树）的基础上对Boosting进行改进的一种算法。 Boosting模型具体可用公式2表示为：

D为数据集，即影响商业银行区域性风险因素的指标体系数据和风险评价结果，n为样本量，其中每棵树都是一个树模型，可用公式3表示为：

q(x)代表的是研究单位x中树模型叶子节点的映射关系。w是树模型中用来拟合属于各自叶子节点的样本的预测值。基本逻辑思路是，首先，根据RE-L基学习器1的误差率来调整更新训练样本的权重，使弱学习器1中学习误差率较高的训练样本点的权重变高，在弱学习器2中更加重视这些误差率高的点；然后，基于调整权重后的训练集来继续训练弱学习器2，并一直重复下去，直到弱学习器数与预先给定的数目一致；最终，将以上若干个弱学习器通过结合策略进行不断整合，得到评价商业银行区域性风险的强学习器。

与GBDT相比，XGBoost优点是速度快、效果好、支持大规模数据处理等，近年来在大数据建模竞赛和应用中得到广泛使用。由于XGboost能利用CPU多线程并行构建回归树，因此其运行速度比同类算法快10倍以上。XGboost优点还包括目标函数，为防止模型过渡拟合，XGboost的目标函数由复杂度和损失函数两部分组成，复杂度又由叶子数量和L2正则组成，传统的GBDT对损失函数只使用一阶导数信息，而XGboost要进行二阶泰勒展开，使得算法更快收敛到全局最优。

（四）基于XGboost的集成学习算法流程

本文采用RF-L作为XGboost集成学习的基分类器，构建基于RF-L模型的XGboost集成学习区域性风险评价模型，具体的算法设计流程如下：

输入：

数据集：n个训练样本的数据集，包含银行区域性风险指标体系数据和风险评价结果。

迭代次数设置为T；

学习效率参数为v；

基分类器C(RF-L)，运用随机森林选择影响区域风险的重要指标，导入Logistic模型进行风险权重估计。

算法：

STEP1：利用ACROA算法在数据集D上求得XGboost模型的最优参数，包括shrinkage、min_child、wight；

STEP2：利用求得的最优参数构建XGboost模型；

STEP3：迭代求解RF-L的最优解；

STEP4：直到达到迭代上限，结束循环

结果的应用：（1）通过对模型自变量X的筛选，构建适应大数据时代数据生成和数据计算的自变量。

（2）通过机器学习，强化模型的学习能力，分析影响区域性风险的最关键因素，可以有针对性的开展风险管理工作。

（3）通过预测因变量，判断区域性风险严重程度，为监管部门非现场监管提供技术支持。

（4）样本的范围可以以省或者市来划分，时间可按照月份或者更长维度来划分，以满足具体需要。

五、结　论

本文主要基于大数据的视角，从理论上对银行区域性风险的影响因素进行了模型构建的尝试，并且为商业银行预警区域性风险评价和预警提供参考思路。该理论模型的构建重点兼顾适用性、科学性、前沿性和可操作性四大特点，主要表现为：（1）考虑到“互联网+”背景下，网络信息的地位越来越重要，利用网络爬虫、文本挖掘等技术，去发现、分析以及利用网络信息，本文提供了文本类数据的爬取、清洗及量化，丰富了原有度量模型的指标体系。（2）指标从宏观和微观两个角度，在原有传统指标优化后，结合大数据时代的特征，充分考虑区域性、时效性、精确性，构建涵盖大数据源和大数据技术应用的指标体系，并利用基于统计机器学习的文本分类方法，客观量化互联网情绪倾向等非结构化数据。（3）以大数据技术建模，尽量通过先进的信息技术手段来代替人为的主观判断，利用互联网行业内目前主流的集成算法提高模型的精确度，探索了机器学习主流的算法在风险度量中的应用，具有较强的前瞻性。

但是，在度量和评价区域性风险时，对于全国性的商业银行和区域性商业银行来说，在功能、指标设计、可采集指标是有差异的，用于银行自身经营还是政府监管，需求点也存在一定差异。本文提供了一种探索、一种技术层面的应用指导，尚需要在实践应用过程中，不断加强数据的获取和数据的存储，加强模型的自我学习能力，在应用的过程中逐步完善。