基于KMV-CatBoost增强的企业信用债券违约风险评估模型

2024-05-30 04:53:54王培培周小平陈佳佳王涵棋

上海师范大学学报·自然科学版 2024年2期

王培培周小平陈佳佳王涵棋

摘要：針对传统预测模型对于企业信用债券违约预测准确率低、拟合效果差的问题，提出了基于Kaufman-Merton-Voss （KMV）- Categorical Boosting （CatBoost）的企业债券违约预测模型. 首先对原始样本数据进行预处理，降低噪声数据对预测模型的影响；然后，利用KMV模型评估借款公司信用违约概率，计算公司资产市场价值与公司资产市场价值的波动率，获得企业资产价值与违约点之间的差额Distance-to-Default（DD）；最后，利用债务偿还期限、短期无风险收益率、公司股权市场价值、公司债务面值计算出的违约距离，将其加入指标中，利用CatBoost算法预测企业信用债券违约风险，通过基于Ordered Boosting方式的CatBoost算法训练模型，得到无偏梯度估计，以减缓预测偏移，从而增强模型的泛化能力. 实验结果表明：基于KMV-CatBoost增强的模型能够提高企业信用债券违约风险识别的准确率，识别正确率约为95.5%.

关键词：债券违约；预测模型； CatBoost； Kaufman-Merton-Voss（KMV）

中图分类号： TP 183 文献标志码： A 文章编号： 1000-5137（2024）02-0247-07

An identification of default risk in corporate credit bonds based on KMV-CatBoost enhanced model

WANG Peipei， ZHOU Xiaoping^*， CHEN Jiajia^*， WANG Hanqi

（College of Information， Mechanical and Electrical Engineering， Shanghai Normal University， Shanghai 201418， China）

Abstract： Aiming at the problems of low accuracy and poor fitting effect of traditional prediction models for corporate credit bond default prediction， a corporate bond default prediction model based on Kaufman-Morton-Voss （KMV）-Categorical Boosting （CatBoost） was proposed. Firstly， the original sample data was preprocessed to reduce the impact of noisy data on the prediction model. Secondly， the credit default probability of the borrowing company was evaluated by using the KMV model. The market value of the companys assets and the volatility of it were calculated， in order to obtain the Distance-to-Default （DD） difference between the companys asset value and the default point. Finally， the default distance was calculated by adding debt repayment period， short-term risk-free return rate， company equity market value， and company debt face value to the indicators. The CatBoost algorithm was used to predict the default risk of corporate credit bonds. The model was trained using the Ordered Boosting based CatBoost algorithm to obtain unbiased gradient estimation， which slowed down prediction bias and enhanced the models generalization ability. The experimental results showed that the KMV CatBoost enhanced model could improve the accuracy of identifying default risk in corporate credit bonds， with a recognition accuracy of approximately 95.5%.

Key words： bond default； prediction model； CatBoost； Kaufman-Merton-Voss （KMV）

0 引言

国外对于企业信用风险的度量研究已取得了很多成果. LIN^［¹^］证明了Logistic模型在风险识别时效性方面的优良性能. UMEZAWA等^［²^］利用神經网络研究公司的信用决策和欺诈预防. ROSENBER等^［³^］利用Logit模型研究企业破产与违约之间的关系，得到了很好的结果. CAMARA等^［⁴^］的研究表明Kaufman-Merton-Voss（KMV）模型与其他几种模型相比，能够有效判断企业的违约概率. NISHA等^［⁵^］利用Bolasso模型筛选特征，并采用随机森林算法建立模型，研究结果表明所提出的模型具有良好的分类性能.

国内度量企业信用风险的研究晚于国外. 孙小丽等^［^6-8^］利用相关数据基于KMV模型分析了信用风险. 朱小宗等^［⁹^］采用改进的Credit Metrics模型对我国银行贷款的信用风险进行度量研究，最终得到适合于中国市场的新解析式. 杨颖^［¹⁰^］利用XGBoost算法对企业债发行主体进行违约风险研究，得到了对于信用风险识别度较高的信用下调模型. 王泽祺^［¹¹^］利用Categorical Boosting（CatBoost）算法构建了债券违约风险识别模型，具有较强的识别与预测能力.周莲芳^［¹²^］基于改进的反向传播（BP）-KMV模型对民营企业债券违约风险进行了分析，研究结果表明该模型具有较好的预测能力，对于企业信用风险的度量具有一定的实际意义.

在企业信用债券违约风险的预测模型中，目前主要包括BP经网络、支持向量机、KMV、XGBoost、LightGBM等模型. BP神经网络模型虽然对样本中的模糊数据不敏感，预测的结果具有一定稳定性，但是其结果容易受限于局部最优问题且学习速率慢^［^13-14^］. 支持向量机模型在样本数量较小的情况下，也能够进行有效的学习，但是存在当缺失数据时，该模型容易出现欠拟合的情况. KMV模型采用了Black-Scholes-Merton（BSM）模型的正态分布假设，在企业市值无法真实体现企业价值时，其预测结果会出现较大的误差^［^15-17^］. XGBoost模型借鉴了随机森林的做法，支持列抽样，不仅能降低过拟合，还能减少计算量，但其预排序过程的空间复杂度过高^［^18-20^］. LightGBM模型进一步对XGBoost模型进行了优化，提高了算法对噪声数据的抗干扰能力^［²¹^］. CatBoost算法具有LightGBM与XGBoost模型大部分的优点，且其通过自身特点能够降低模型过拟合的程度，提高模型的预测准确率及学习速率^［²²^］.

为了提高对企业信用债券违约风险识别率，本文作者构建基于KMV-CatBoost模型来预测企业信用债券的违约风险. 首先对原始样本数据进行预处理，降低噪声数据等对预测模型的影响；然后，利用KMV模型评估借款公司信用违约概率，计算公司资产市场价值与公司资产市场价值的波动率，获得企业资产价值与违约点之间的差额；最后，将债务偿还期限、短期无风险收益率、公司股权市场价值、公司债务面值计算出的违约距离加入指标中，利用CatBoost算法^［^23-24^］预测企业信用债券违约风险. 实验结果表明：基于KMV-CatBoost增强模型能够提高企业信用债券违约风险识别的准确率，增强拟合效果.

1 KMV模型

1.1 KMV模型的定义

KMV模型是由美国KMV公司开发并用于评估借款公司信用违约概率的模型^［^15-17^］. 该模型认为债务到期时，公司的市场价值与债务价值的对比决定了借款公司能否到期按时偿还债务，若资产价值大于债务价值，则借款公司有能力偿还借款. KMV模型的建立依据是Black-Scholes-Merton期权定价理论，为现代金融体系的研究和发展奠定了基础.

1.2 KMV模型的主要步骤

KMV的计算过程如下：

1）计算公司资产市场价值与公司资产市场价值的波动率. KMV模型以BSM期权定价模型为基础，构造了一个欧式看涨期权，根据该模型，公司的资产价值和股权价值的关系为：

，（1）

，（2）

，（3）

其中，表示公司債务面值，（·）表示标准累计正态分布函数表示短期无风险收益率表示债务偿还期限，为自然对数的底数.

由公司资产市场价值与股权价值相对弹性公式可以得出：

，（4）

其中，表示相对于公司主体资产的债券价值弹性；表示股权价值的增量；表示公司资产市场价值的增量.

变换后，可以得到公司股权市场价值波动率为：

. （5）

结合式（4），可表示为：

. （6）

联立式（5）和（6），得到公司资产市场价值的波动率为：

. （7）

2）确定违约点与计算公司的违约距离，即企业资产价值与违约点之间的差额. 从模型基本思想出发，当公司发生资不抵债时，极有可能产生违约行为. 通常短期债务产生的影响力大于长期债务，KMV定义公司债务违约点价值为：

，（8）

其中，为公司债务违约点价值表示公司短期债务价值为公司长期债务价值. 代入下面的公式，就可以得出违约距离为：

. （9）

3）计算公司的期望违约概率. 因为我国发生实际违约的公司数量相对较少，期望违约概率计算不够准确，故将违约距离作为衡量公司是否发生债券违约的依据.

2 模型构建

2.1 指标因子的选取

根据孙琦^［²⁵^］对中小企业信用风险预测的研究，首先从宏观经济、财务指标以及债券自身属性3个方面选取指标进行研究. 由于单个指标难以准确预测违约风险，尽可能多选指标从各个方面综合反映债券违约公司的特征. 在原本的指标序列中加入KMV模型中的违约距离.

2.2 原始样本数据处理

2.2.1 缺失值处理

若单条数据中缺失值过多，则删除该条数据；否则，用对应年份的行业数值进行替换.

2.2.2 噪声数据处理

噪声数据是指错误或者异常的数据，这些数据会导致样本整体分布出现偏差，从而影响模型预测的精度与准确性，故将其直接删除.

2.2.3 不平衡数据处理

尽管CatBoost可以解决模型过拟合的问题，但是在实际情况中，上市公司中未违约公司的数量多于违约公司的数量，若使用不平衡的样本数据对模型进行拟合，会使模型的预测结果更加偏向不发生违约.采用自适应合成采样（ADASYN）方法，先分析样本数据中易于学习的违约公司样本，再处理剩余难以学习的违约公司样本，具体流程如下：

首先，计算需要生成的违约公司样本数量G，设原始企业数据序列为，经过缺失值处理与噪声数据处理过后，得到新的企业数据序列，则

，（10）

其中，未违约公司样本数量；是违约公司样本数量；為随机数，若=1，采样后正、负样本比例为1∶1.

再计算K近邻中未违约公司的占比为：

，（11）

其中是K近邻中未违约公司的样本数，. 对进行标准化：

. （12）

根据样本所属的权重，每个违约公司生成新样本所需的样本数为：

. （13）

在每个待合成的违约公司样本周围k个邻居中选择1个违约公司样本，根据如下公式进行合成：

，（14）

其中，是通過上述步骤后合成的样本类是违约公司样本中的第个小样本是的K近邻中的样本中随机选择的一个违约公司样本是之间的随机数. 重复合成违约公司样本，直到满足式（13）为止.

2.3 KMV-CatBoost模型

假设最终经过数据处理过后的企业信用债券相关样本为，包括中未违约公司样本，以及经ADASYN方法处理后的违约公司样本，最终输入KMV-CatBoost模型的序列为，其中为对应的真实值即是否违约的判定结果，，是选取的企业数据指标对应的数据.对每个样本，CatBoost算法生成一组回归树，预测其是否违约^［^23-24^］，并计算得到不同回归树对违约情况的预测结果：

，（15）

其中，是预测的结果（·）代表回归树的预测函数. 由于回归树的结构以及叶子节点的权重不同，所生成的回归树对价差的预测能力有所不同.

CatBoost的目标是让违约情况预测结果与真实情况的差异最小化，

，（16）

其中，是企業数据样本中预测结果与真实违约情况差异的度量（·）表示正则项，用来提高预测结果的稳健性，

，（17）

其中，用于控制叶节点的个数；代表决策树的叶节点的个数；为固定系数，用于控制叶子的权重，代表叶子权重. 为提高CatBoost模型的拟合性能，把目标函数用泰勒二阶近似展开：

，（18）

则CatBoost的目标函数（16）表示为：

，（19）

其中，与分别代表损失函数（·）的一阶以及二阶导数表示样本所在的叶子区域，在给定回归树结构为的情况下，最优叶子权重和目标函数为

，（20）

. （21）

3 KMV-CatBoost模型评估

3.1 评价指标

判断企业信用债券是否违约属于分类问题，结果为违约或不违约，因此预测的结果与真实的情况只有4种组合：真实值与预测值均为正样本（T_P）、真实值为负且预测为正样本（F_P）、真实值为正且预测为负样本（F_N）、真实值与预测值均为负样本（T_N）. 使用常见的4种评价指标来衡量模型，分别为AUC值、准确率A、精确率P及召回率R.

AUC值为受试者工作特征（ROC）曲线下与坐标轴围成的面积，AUC越大，模型的分类效果越好.

准确率A为预测正确的样本占所有样本的比例，即所有样本中被预测为违约且确实违约和被预测为未违约且确实未违约样本的占比，

. （22）

精确率P为所有预测为正样本中真实值为正的比例，即所有预测为违约样本中实际发生违约的占比，

. （23）

召回率R为所有正样本能够被模型成功识别的概率，即所有实际违约样本被预测为违约的可能性，

. （24）

3.2 模型预测结果

使用2014—2019年的企业样本数据来预测2015—2020年企业的违约情况，共200个测试样本，其中有175个是未违约的债券，25个是违约的债券，原始的样本数据经过缺失值处理、噪声数据处理以及不平衡数据处理过后，输入到KMV-CatBoost算法模型中，最终识别出169个不违约债券以及22个违约债券，6个实际不违约债券被识别为违约债券，3个实际违约债券被识别为不违约债券.

3.3 模型对比

选取Logit、BP神经网络及XGBoost模型与所提出的KMV-CatBoost模型进行对比，对比结果如表1所示，可以看出KMV-CatBoost模型的A，P和R指标均高于所对比的模型.

4 结语

结合KMV模型的违约距離构建了基于KMV-CatBoost框架的企业信用债券评估模型，首先对输入的原始数据进行数据处理，通过所提出的KMV-CatBoost模型计算得到预测结果. 通过与Logit、BP神经及XGBoost模型的实验对比，结果表明：所提出的KMV-CatBoost模型在准确性与预测精度上都有所提高，证明了KMV-CatBoost模型的有效性，可以较好地检验企业的信用违约风险程度.

参考文献：

［1］ LIN T.A cross model study of corporate financial distress prediction in Taiwan： multiple discriminant analysis， logit， probit and neural networks models ［J］. Neurocomputing， 2009，72（16/17/18）：3507-3516.

［2］ UMEZAWA Y， MORI H. Credit risk evaluation of power market players with random forest ［J］. IEEE Transactions on Power and Energy， 2008，128（1）：165-172.

［3］ ROSENBERG E， GLEIT A. Quantitative methods in credit management： a survey ［J］. Operations Research， 1994，42（4）： 589-613.

［4］ CAMARA A， POPOVA I， SIMKINS B. A comparative study of the probability of default for global financial firms ［J］. Journal of Banking and Finance， 2012，36（3）：717-732.

［5］ NISHA A，KAUR P D. A Bolasso based consistent feature selection enabled random forest classification algorithm： an application to credit risk assessment ［J］. Applied Soft Computing， 2019，86：105936.

［6］孙小丽. 基于KMV模型的商业银行信用风险测算研究［D］. 北京：北京邮电大学， 2013.

SUN X L. Research on calculation of commercial banks credit risk based on KMV model ［D］. Beijing： Beijing University of Posts and Telecommunications， 2013.

［7］毛莹，柳云凯，陆思颖，等. 基于修正KMV模型的我国信用债券违约风险度量［J］. 现代商业， 2021（5）：145-147.

MAO Y， LIU Y K， LU S Y， et al. Default risk measurement of credit bonds in China based on revised KMV model ［J］. Modern Business， 2021（5）：145-147.

［8］徐晨晨. 基于KMV模型的信用债违约风险研究［D］. 济南：山东大学， 2019.

XU C C. Research on credit bond default risk based on KMV model ［D］. Jinan： Shandong University， 2019.

［9］朱小宗，张宗益，耿华丹. 现代信用风险度量模型剖析与综合比较分析［J］. 财经研究， 2004（9）：33-46.

ZHU X Z， ZHANG Z Y， GENG H D. An anatomy and comprehensive comparison analysis of current creditrisk measurement models ［J］. The Study of Finance and Economics， 2004（9）：33-46.

［10］楊颖. 基于XGBoost分类算法的企业债发行主体违约风险研究［D］. 杭州：浙江大学， 2019.

YANG Y. Research on default risk of corporate bond issuers based on XGBoost algorithm ［D］.Hangzhou： Zhejiang University， 2019.

［11］王泽祺. 基于CatBoost算法的公司债券违约风险识别研究［D］. 太原：山西财经大学， 2022.

WANG Z Q. Research on identification of corporate bond default risk based on Catboost algorithm ［D］. Taiyuan： Shanxi University of Finance and Economics， 2022.

［12］周莲芳. 基于改进BP-KMV模型的民营企业债券违约风险分析［D］. 南京：东南大学， 2021.

ZHOU L F. Bond default risk analysis of private enterprises based on improved BP-KMV model ［D］. Nanjing： Southeast University， 2021.

［13］ RUMELHART D， HINTON G， WILLIAMS R. Learning representations by back-propagating errors ［J］. Nature， 1986， 323： 533-536.

［14］ NING J G ， FENG Y B ， REN H L， et al. Prediction model for the failure behavior of concrete under impact loading base on back propagation neural network ［J］. Construction and Building Materials， 2024，411：134297.

［15］ ZUO J C.Research on the credit risk of listed companies based on KMV model： taking Gree electric appliances as an example ［J］. Academic Journal of Business Management， 2023，5（10）：25-29.

［16］ YAN B Z， BAI P X. Research on credit risk assessment of commercial banks based on KMV model ［J］. Social Sciences，2021，10（5）：204-217.

［17］ WANG J Z， ZHANG H P， LUO H. Research on the construction of stock portfolios based on multiobjective water cycle algorithm and KMV algorithm ［J］. Applied Soft Computing Journal， 2022，115：115-134.

［18］ CHENT Q，GUESTRIN C. XGBoost： a scalable tree boosting system ［C］// International Conference on Knowledge Discovery and Data Mining. San Francisco： ACM， 2016：785-794.

［19］ WANG Y L， JIANG W H. Application of XGBoost model in the field of diabetes prediction ［J］. Advances in Computer， Signals and Systems， 2023，7（8）：29-36.

［20］ WANG Z D， WU X H， WU H. A spatiotemporal XGBoost model for PM2.5 concentration prediction and its application in Shanghai ［J］. Heliyon， 2023，9（12）：e22569.

［21］ MACHADO M R， KARRAY S， DE SOUSA I T. LightGBM： an effective decision tree gradient boosting method to predict customer loyalty in the finance industry ［C］// International Conference on Computer Science & Education. Toronto： ICCSE， 2019：1111-1116.

［22］ ZENG X R， ABDULLAH N， LIANG B X. A widely applicable and robust LightGBM：artificial neural network forecasting model for short-term wind power density ［J］. Heliyon， 2023，9（12）：e23071.

［23］ PROKHORENKOVA L， GUSEV G， VOROBEV A， et al. CatBoost： unbiased boosting with categorical features ［C］//Advances in Neural Information Processing Systems. Montreal： NIPS， 2018：6638-6648.

［24］ DOROGUSH A V， ERSHOV V， GULIN A. CatBoost： gradient boosting with categorical features support ［J/OL］. arXiv：1810.11363， 2018 ［2023-10-10］. https：// arxiv.org/abs/1810.11363.

［25］孫琦. 基于卷积神经网络的中小企业信用风险预测模型研究［D］. 北京：北京交通大学， 2019.

SUN Q. Research on credit risk prediction model of small and medium-sized enterprises based on convolutional neural network ［D］. Beijing： Beijing Jiaotong University， 2019.

（责任编辑：包震宇，郁慧）

DOI： 10.3969/J.ISSN.1000-5137.2024.02.016

收稿日期： 2023-12-23

基金项目：上海市科学技术委员会项目（22142201900）

作者简介：王培培（1989—），女，讲师，主要从事人工智能算法方面的研究. E-mail：630184725@qq.com

* 通信作者：周小平（1981—），男，副教授，主要从事信息技术算法方面的研究. E-mail：zxpshnu@163.com；陈佳佳（1986—），女，讲师，主要从事信息处理方面的研究. E-mail：xinning_316@163.com

引用格式：王培培，周小平，陈佳佳，等. 基于KMV-CatBoost增强的企业信用债券违约风险评估模型［J］. 上海师范大学学报（自然科学版中英文）， 2024，53（2）：247?253.

Citation format： WANG P P， ZHOU X P， CHEN J J， et al. An identification of default risk in corporate credit bonds based on KMV-CatBoost enhanced model ［J］. Journal of Shanghai Normal University （Natural Sciences）， 2024，53（2）：247?253.