基于混合数据的银行操作风险参数混合模型分析

2017-06-01 12:50高丽君

中国管理科学 2017年5期

关键词：度量阈值损失

高丽君，高翔

(1.山东财经大学工商管理学院，山东济南 250014；2.上海财经大学国际工商管理学院，上海 200434)

基于混合数据的银行操作风险参数混合模型分析

高丽君1，高翔2

(1.山东财经大学工商管理学院，山东济南 250014；2.上海财经大学国际工商管理学院，上海 200434)

由于操作风险损失数据收集及操作风险固有特性的影响，银行内部有限的操作风险损失数据难以准确、稳定地估计分布。需要对内部数据进行有益的补充，引入外部数据是最常见的方法，但外部数据具有内生偏差，不对其进行修正必然造成结果偏差。本文在分析内部、外部数据集分为公共部分及独特部分，建立幂率模型利用独特部分间的关系将外部数据进行调整，并采用两阶段阈值未知参数混合模型选择较佳损失强度分布，结合损失频率度量年度损失分布，结果表明，混合数据混合模型阈值选择稳定性更强，结果更可靠。

操作风险；混合数据；公共部分；独特部分；参数混合模型

1 引言

操作风险是银行最重要、最难衡量的风险之一。众所周知，对于操作风险而言，尾部极端损失的准确度量是操作风险最后一道防线——计提风险资本金的重要依据。Ganegoda等[1]认为在风险管理者量化操作风险的过程中，有一些非常明确的挑战：第一，业界并不存在一些广为接受的操作风险量化方法；第二，没有充足的数据去做严密的统计分析；第三，操作损失的厚尾天性加剧了数据的不足，使低频高损事件的恰当建模更加困难。这些挑战归根结底都是源于数据问题，即数据问题实际上是操作风险度量与管理最根本的问题。这是由于两个因素导致的：第一，监管机构要求银行对操作风险计提监管资本是在巴塞尔新资本协议提出之后，可想而知，即使是国际先进银行，其操作风险损失数据的收集最长也仅有十几年。而巴塞尔新资本协议要求的操作风险资本计提能覆盖99.9%风险分位数的要求，实际上是要求银行操作风险资本准备能抵御千年一遇的操作风险事件，因此，操作损失数据收集量的不足是困扰操作风险管理的最重要因素之一；第二，涉及到操作风险的本质特征，损失数据总是不足的，尤其是低频高损数据，而低频高损事件是度量操作风险资本金的重要因素。单靠银行内部有限的，尤其是极端损失数据，难以准确、稳定地估计尾部分布，迫切需要采取某些方法对内部数据进行补充。

对内部数据的补充，可以采用一些方法如引入外部数据或进行情境分析、或业务环境和内部控制因素、利用专家意见等方式对内部数据进行补充(Ergashev[2]，Dutta等[3]，Bolancé等[4])。其中，情境分析是引入非常极端的数据，业务环境和内部控制因素、专家意见法等方法要求对业务、环境非常熟悉，其实践性受到了一定限制。作为数据匮乏的一个解决方案，可以将银行的内部数据与外部数据相合并。巴塞尔新资本协议[5](2011，第248条)认为“外部数据……是内部数据度量损失强度一种天然的补充。监管机构希望外部数据能够用于损失强度分布估计，因为外部数据能为损失分布尾部提供有用的信息。”然而，合并内部数据和外部数据又会产生新的问题，因为外部数据由于收集途径、报告偏见、银行经营管理特征等原因具有内生偏差[6]。巴塞尔新资本协议(2011，第250条)认为“由于外部数据不一定适合某一银行风险预测，……，数据尺度调整需要考虑调整外部数据的损失额度来适应银行业务活动及风险预测。”即，外部数据不进行修正直接纳入计算必然会导致最终结果存在度量偏差。因此，有必要考虑利用外部数据对内部数据进行补充，且需要对外部数据进行调整修正。

近年来外部数据该如何引入，哪些方法可以被用来调整外部数据逐渐成为国际上研究者新的研究关注点。学者们对外部数据进行调整主要采用比例模型，提出了以下几种思路：第一类，分析银行规模等与损失强度的关系，建立影响因素模型，如Shih等[7]、Wei Ran[8]，但备选影响因素的选择对结果影响较大，且学者们只是指出其关系，未进行外部数据处理，且未说明为何备选因素选择了某些因素而未考虑其他因素；第二类，从银行共同部分、独特部分的角度提出尺度调整方法，如Na等[9]；第三类，贝叶斯方法将外部数据或专家意见等作为先验分布，如Lambrigger等[10]、Bolancé等、Ergashev等[11]纳入内部数据调整，先验分布的校准存在偏差及主观性强等受到质疑；第四类，分位数回归模型进行尺度分析线性拟合，如Cope和Labbi[12]、Shevchenko[13]，其虽然假设内、外补数据可以不同分布，但仍假设内、外部数据相对比较近似，实际应用受到限制。

国内对操作风险数据源的的混合问题，仅有少量描述性的，介绍国际前沿方法的文章，如徐润南[14]概括总结了国外内、外部数据收集阈值是否已知及分布是否相同的四种建模思路，得出内、外部数据收集阈值未知、分布独立同分布情况下是最有效的合并思路，但未进行实证；高丽君[6]对外部数据的内生偏差进行了总结，并概述了不同类型内生偏差的调整思路，对某种内生偏差进行了简单的算例分析；吴博[15]对四类数据元素的特点进行了比较，概述了混合法、分割法、加权法、定性调整法四种基本思路。卢安文等[16]在假设内、外部损失数据同分布，损失强度、损失频率服从的分布均有共轭先验分布的前提下，将外部数据作为先验分布内部数据提供信息，其假设相对武断，且未对假设分布的适用性进行验证。其他多为定性介绍。

对外部数据进行处理后，需考虑损失强度分布。操作风险损失强度分布采用的分布很多，其中针对其厚尾特征最常用的是极值理论(陆静等[17]；周艳菊等[18]；司马则茜等[19])。陆静等针对阈值选择图形法主观性强的不足，采用三种方法进行阈值选取：Hill图、平均超额图、峰度法三种方法各选择一个阈值，又通过经验函数选择两个阈值，最后通过卡方检验选择最佳阈值，加强了阈值选择；周艳菊等主要考虑了贝叶斯-Copula方法，但也涉及到阈值选择，其采用平均超阈图选择阈值；司马则茜给出了分维POT幂率模型，用分维确定阈值。本文将阈值作为待估参数，考虑了阈值与其他参数的同时相互作用。

总之，目前存在一些关于如何合并不同数据源的思路，但对其的研究仍处于比较起步的阶段，这些模型的应用受到不同的限制，还未有能被广泛接受的模型或方法。由于中国商业银行数据缺失严重，因素法备选因素的选择需慎重考虑，贝叶斯方法主观性强，分位数法假设要求较严格，在中国商业银行适用性受到限制。本文借鉴Na(2006)的思路，即不考虑具体哪个因素有影响，只是将损失强度分为共同部分和独特部分，但算法有所区别：Na采用几条业务线的损失均值拟合直线得公共部分，而本文采用每个机构所有数据分析异质性和共性。在混合模型部分，不预设阈值而是将阈值作为可变的待估参数，并考虑阈值处的连续性进行建模。

2 建模思路

2.1 外部数据预处理

对于操作风险损失数据较少的银行或管理环境发生重大变异的银行，需要引入外部数据进行补充。基本思路是，由于学者对频率分布的选择有一定共识，一般采用参数分布中的泊松或负二项分布，因此假设银行的损失频率保持不变，即仍采用内部数据度量银行损失频率，而对损失强度引入外部数据。而对损失强度分布，由于需要引入外部数据，需要对外部数据进行预处理。本文借鉴Na将损失分为共同部分、独特部分的思路，并根据Shih等的假设，认为共同部分代表了由于宏观经济、地缘政治、文化环境、一般人性环境等因素影响而导致的风险因素，而独特部分代表了由于某银行机构独特特性导致的操作风险因素。

假设对于不同的银行机构，由共同部分导致的风险损失是一样的。则银行操作风险损失可以看做为由两部分组成：L=l((Ridio),(Rcom))。其中，Ridio代表某银行机构的独特属性影响因素，而Rcom代表对银行机构具有共同影响的因素。可以将操作风险函数表示为独特部分影响因素的函数和共同部分函数的乘积：L=l((Ridio),(Rcom))=g(Ridio)×h(Rcom)。假设g(Ridio)可以表示为(Ridio)λ(Dahen[20])，可将函数表达转换为幂律形式，其中，对某一特定银行机构，Ridio为常量，则有：

l((Ridio),(Rcom))=(Ridio)λ×h(Rcom)

(1)

对不同的银行机构，其受公共部分影响风险损失一致，因此有公式(2)。Na采用对不同业务线的损失均值进行线性拟合方法得出，即共有n条业务线则获得n个均值，由这n个均值拟合出一条直线。

(2)

其中，下标1、2…代表第1、2，…家银行机构。

但本文认为：首先，操作风险损失数据范围非常广，仅由均值并不能体现某业务线的损失特征；且仅根据有限条业务线的损失均值获得由有限数据点(一般仅有几个点)拟合的直线其准确度不高。

1Dβ=1Dγ/1Dα，S：数据集；H:多样性测度；w：权重

假设均值，标准差的概率密度函数以相同的方式等同于操作风险的概率密度函数，即，λ，λu,λσ值相同，则可以通过估计λu,λσ来得到λ值。对操作风险函数两边取对数，可得：

log(LS)=λ×log((Ridio)S)+log(Rcom),S=1,2,…

(4)

分别以均值、标准差展开，可得：

log(u(LS))=λu×log((Ridio)+log(u(Rcom)),S=1,2,…

log(σ(LS))=λσ×log((Ridio)+log(σ(Rcom)),S=1,2,…

(5)

由此，可估计出λu,λσ来得到λ值。

在区分出异质部分的前提下，采用以下尺度调整方法可以用于调整外部数据：

(6)

2.2 参数混合模型

(7)

3 算例分析

3.1 内、外部数据基本统计分析

本文选择两家中国商业银行的历史操作损失数据作为实证分析算例，这两家银行在银行性质上是相同的。我们将银行A作的操作损失历史数据做为内部数据，银行B的操作损失历史数据作为外部数据。其中，银行A有历史损失数据81例，银行B有历史损失数据409例，操作风险损失强度以万元为单位。表1为两家银行操作损失数据的相关描述。

可以看出，这两家银行损失强度分布都具有偏峰厚尾的特征，作为低频高损的极端损失，对银行风险资本金的度量具有重要意义。

银行A(内部数据)的损失频率分布分析：当假设其损失频率服从泊松分布时，其双边检验p值为0.894，λ值为4.5455。而当假设其损失频率服从负二项分布时，其检验p值为0.4143，size值为2.6107，u值4.5452。因此，两种损失频率假设均可认为满足服从分布形式，但选择泊松分布更为合适。

3.2 损失强度外部数据调整

首先度量内、外部数据的公共部分及其标准差，并利用公式(5)对内部数据、外部数据计算λu,λσ。

9.47375=λu×log((Ridio)ext)-0.02586

10.98257=λσ×log((Ridio)ext)-9.30518

10.10895=λu×log((Ridio)int)-0.02586

11.68829=λσ×log((Ridio)ext)-9.30518int

解得，λu=1.7724,λσ=1.7371。根据假设，λ取二者均值，为1.7547。进而得出：

3.3 年度操作风险损失模拟

对年度操作风险损失，我们将混合数据的损失强度进行两阶段参数混合模型建模，阈值作为待估参数进行模型拟合，利用最小负对数似然函数值来判断模型拟合结果。这里，选择表3最小负对数似然函数值最小的对数正态广义帕累托阈值连接限制模型作为混合数据的操作风险损失强度拟合模型。可以看出，尽管预先未设定阈值，通过数据变阈值选择，各模型拟合阈值基本相同，可见，模型拟合阈值选择比较准确。

根据内部数据损失频率和拟合的混合数据损失强度模型编程进行蒙特卡洛模拟，得到年度混合数据的操作风险拟合损失。对比模型为仅采用内部数据采用极值理论进行模拟，通过hill图形法确定阈值，然后估计参数，计算风险值(简称IGPD)。

表1 两家银行操作损失数据描述

表2 损失强度备选两阶段模型

表3 非固定阈值的损失强度模型拟合结果

表4 拟合的混合数据年度在险值及条件在险值(单位：亿元)

对比表4，可知混合数据混合参数模型的年度在险值相对比较稳定。该银行年度操作风险在险值99.9%约为900亿元人民币左右，如果该银行对预期损失进行了较好的防范，需对操作风险拨备约887亿元左右的风险准备金。

4 结语

本文探讨在外部数据具有内生偏差的情况下，将影响操作风险损失强度的因素看做公共部分和独特部分，考察所有内、外部数据，利用数据同质性指标度量不同机构的损失强度同质性，利用幂率形式找出内、外部数据的特有因素影响，将外部数据调整后纳入内部数据。同时针对所有数据而不是仅超阈值数据建立参数混合模型，该混合模型减少了固定阈值错判的影响，并考虑了混合模型连接处的连续性限制。通过变阈值选择将损失分为主体和尾部两个部分，度量操作风险。结果表明，混合数据借鉴了外部数据的部分信息，有效补充了数据量，增强了模型估计对参数的鲁棒性，同时采用混合参数模型，考虑了模型所有数据，减少了主体部分高估的风险，得出的年度操作风险损失分布更为合理，更稳定。

模型对损失数据稀少或进行了重大调整的机构具有借鉴意义，对操作风险数据稀缺、数据分布偏峰厚尾的机构尤其适用。未来在数据信息量增大的情况下，可采用前述多种方法混合数据；亦可考虑主体部分半参数、非参数混合模型，来降低误假设、错判的影响。

[1] Ganegoda A, Evans J. A scaling model for severity of operational losses using generalized additive models for location scale and shape (GAMLSS)[J], Annals of Actuarial Science, 2013,7(1): 61-100

[2] Ergashev B A. A theoretical framework for incorporating scenarios into operational risk modeling[J]. Journal of Financial Services Research, 2012,41(3)1:45-161.

[3] Dutta K K, Babbel D F. Scenario analysis in the measurement of operational risk capital: achange of measure approach[J]. Journal of Risk and Insurance, 2014,81(2): 303-334.

[4] Bolancé C, Guillén M, Gustafsson J, et al.Adding prior knowledge to quantitative operational risk models[J]. Journal of Operational Risk, 2013,8(1):17-32.

[5] Basel Committee on Banking Supervision, Operational risk supervisory guidelines for the advanced measurement approaches[R]. Basel,Switzerland:Bank for International Settlements, 2011.

[6] 高丽君. 商业银行操作风险外部数据的内生偏差研究[J]. 管理评论, 2011,23(07), 138-142,148.

[7] Shih J, Samad-Khan A, Medapa P. Is the size of an operational loss related to firm size?[J].Operational Risk, 2000,2(1):21-22.

[8] Wei Ran. Quantification of operational losses using firm-specific information and external database[J]. Journal of Operational Risk, 2007,1(4):3-34.

[9] Na H S, Van Den Berg J, Miranda L, et al. An econometric model to scale operational losses[J]. The Journal of Operational Risk, 2006,1(2):11-31.

[10] Lambrigger D D, Shevchenko P V, Wuthrich M V.The quantication of operational risk using internal data, relevant external data and expert opinion[J]. Journal of Operational Risk, 2007,2(3):3-27.

[11] Ergashev B, Mittnik S, Sekeris E.A Bayesian approach to extreme value estimation in operational risk modeling[J]. The Journal of Operational Risk, 2013,8(4): 55-81.

[12] Cope E, Labbi A. Operational loss scaling by exposure indicators: Evidence from the ORX database[J]. Journal of Operational Risk, 2008,3(4):55-81.

[13]Shevchenko P V. Modelling operational risk using bayesian inference[M]. Berlin-Heidellerg:Springer, 2011.

[14] 徐润南. 操作风险模型的数据与建模[J]. 上海投资, 2006,(3):29-35.

[15] 吴博. 操作风险高级计量法四类数据元素的整合和应用[J]. 新金融, 2012,(7): 23-27.

[16] 卢安文，任玉珑，唐浩阳.基于贝叶斯推断的操作风险度量模型研究[J].系统工程学报,2009,24(3):276-292,349.

[17] 陆静, 张佳. 基于极值理论和多元Copula函数的商业银行操作风险计量研究[J]. 中国管理科学, 2013,21(3):11-19.

[18] 周艳菊, 彭俊, 王宗润. 基于Bayesian-Copula方法的商业银行操作风险度量[J]. 中国管理科学, 2011,19(4):17-25.

[19] 司马则茜, 蔡晨, 李建平. 度量银行操作风险的POT幂率模型及其应用[J]. 2009,17(1):36-41.

[20] Dahen H, Dionne G . Scaling models for the severity and frequency of externaloperational loss data[J]. Journal of Banking and Finance, 2010,34(7):1484-1496.

[21] Jost L. Partitioning diversity into independent alpha and beta components[J]. Ecology, 2007,88(10): 2427-2439.

[22] Scarrott C J, MacDonald A E. A review of extreme value threshold estimation and uncertainty quantification [J]. REVSTAT Statistical Journal, 2012,10 (1): 33-60.

[23] Lee D, Li W K, Wong T S T. Modeling insurance claims via a mixture exponential model combined with peaks-over-threshold approach[J]. Insurance: Mathematics and Economic, 2012,51(3): 538-550.

[24] Carreau J, Bengio Y. A hybrid Pareto model for asymmetric fat-tailed data: The univariate case[J]. Extremes, 2008,12 (1):53-76.

Analysis Based on Mixing Data Operational Risk with Mixture Parametric Models

GAO Li-jun1,GAO Xiang2

(1.Shandong University of Finance and Economics,School of Business Administration,Jinan 250014,China;2.School of International Business Administration,Shanghai University of Finance and Economics,Shanghai 200434,China)

Due to the inherent characteristics of operational loss and the data collection problem, the internal data is always insufficient and hardly to get correct and robust estimation. External data is the most recommended supplement data to internal data, but it has inherent biases, and there should be inevitable result deviation if directly mixed with internal data. How to combine external data with internal data is a hard problem and needs discussion. Since the operational data of Chinese commercial banks is scarce, the selection of candidate factors for factor method subjectively, the Bayesian method with strong subjective and the quantile methods assumptions strictly, these application all are limited to Chinese commercial banks. The factors are just splitred as the common component and the idiosyncratic component, and the loss affected by the common factors are equal. Using Macarthur's homogeneity measure, the homogeneity of the internal data and external data is estimated, which enables us to get the idiosyncratic factor of internal and external data. Then the external data is modified using scaling model and combined with the internal data. Since common model can’t fit the operational risk well, while the extreme theory model can just modify the tail distribution well, the two-phase mixture model is used to fit the whole operational risk severity distribution. The threshold is set as a parameter is used to be estimated. Considering the continuity constraint at the threshold, it is found that the distribution with log-normal as the body and the generalized Pareto distribution as the tail fits well to the mixture data. With the frequency simulated, the annual loss distribution is gotten. The external data comes from the 10 years collection of our team and the internal data from the bank. The result shows that the external data should be modified before combined to internal data. The threshold selection is more stable and the result more reliable of the mixed data and mixture models. The external data modified method we used has no assumption to distribution similarity, and it gives a reference to the mixture data literature.

operational risk; mixing data; common component; idiosyncratic component; parametric mixture models

1003-207(2017)05-0011-06

10.16381/j.cnki.issn1003-207x.2017.05.002

2016-06-20；

2017-01-08

国家自然科学基金资助项目(71301087,71501117)

高丽君(1977-)，女(汉族)，湖北新洲人，山东财经大学工商管理学院教授，博士，研究方向：风险管理，E-mail：glj963217@163.com.

F831