基于DeepSurv的深度生存分析算法应用
——以沪深A股市场企业财务预警为例

2022-04-16 02:42赵芮悦赵雯璇樊雯韵
科教导刊·电子版 2022年8期
关键词:A股神经网络变量

赵芮悦 钟 意 赵雯璇 樊雯韵

(上海立信会计金融学院 上海 201209)

0 引言

随着我国证券市场的不断发展和完善,沪深两市交易的上市公司数量逐年增加,截至2021年,我国沪深两市A股上市公司总数达4000多家。但随着市场竞争的激烈,致使许多企业无法在此市场环境下幸存下来,出现不可挽回的财务危机。我国A股上市公司亏损数量和比重呈逐年增加态势,业绩亏损上市公司超200家,比例超6.30%,且合计亏损超1200亿元,而沪深两大证券交易所A股迄今也共有83家退市公司。可见企业经历经济冲击或是管理失控等原因,均可能使其财务活动出现各种随机性和风险性,进而造成退市风险(*ST)或者被特别处理(ST)。因此防范企业财务危机并做精准预警已经成为现上市公司风险管理的重要组成部分。

在基于传统Cox回归模型的研究中,多数学者采用固定协变量的Cox模型,然而考虑到实际场景中,财务指标往往会随着时间变化而变化,因此本文将时间因素纳入协变量的考量之中,构建时依Cox模型来刻画相对风险函数的动态变化。另外,本文引入Cox比例风险神经网络DeepSurv,将深度学习应用于非线性Cox比例风险网络中,构建深度生存分析算法以评估企业财务风险。不同于之前学者们使用的传统Cox模型,将其扩展至非线性Cox能够使协变量之间的非线性关系更好的被神经网络方法识别出,解决了传统Cox无法识别协变量间的交互作用这一局限性。

实验结果表明,DeepSurv模型能够推广应用于更复杂的数据集,更好的估计出相对风险函数于协变量间的非线性关系度量。应用于股票市场场景中,能够为上市公司实时评估财务状况、有效避免财务困境、降低退市风险做出贡献,也为投资者和商业银行分析、预测和监督企业的财务状况做出参考。

1 文献综述

20世纪70年代,Cox[4](1972)首次提出Cox模型,随后该模型就被广泛运用于各个研究领域。在流行病学领域,Insan[7](1997)利用Cox模型,研究新奥尔良黄热病有关时间与死亡风险之间的关系。在财务领域,William[5](1986)运用Cox模型来预测银行倒闭时间,并证明其预测有效。Chancharat[10](2008)应用Cox模型,证明财务比率对澳大利亚公司财务困境的影响具有统计学意义。Kristanti(2016)使用Cox模型,寻找影响财务困境生存可能性的因素。在生物统计领域Brazauskas(2016),以造血细胞移植研究数据表明Cox模型是评估治疗效果的优良工具。在人口统计学方面,Kundu(2021)按人口因素分组,发现运用Cox模型有助于评估印度COVID-19患者存活率的变异性。

为满足不同的研究需求,Cox模型也随之不断地扩展、优化。Faraggi-Simon[6](1995)使用深度生存神经网络为协变量与因变量之间的关系建模非线性表示,使用前馈网络来学习协变量与相对风险函数的关系,代表了神经网络在生存分析中的首次应用。Laura[9](2005)提出了一个随时间变化的新鉴别指数Ctd,该指数对于具有时间依赖性的协变量的评估模型具有分辨能力。Jared(2018)使用DeepSurv来研究病人的协变量和各种治疗方案之间的关系。实证发现,DeepSurv结合神经网络有更好预测效果。Havard Kvamme(2019)基于损失函数,提出了Cox模型的扩展,继而得到神经网络扩展Cox比例风险模型。

2 模型构建

为模拟企业财务指标和生存风险间的相互作用,本文引入Cox比例风险神经网络DeepSurv,将深度学习应用于Cox比例风险网络中,更好的捕捉变量间的关系,并借此评估企业财务风险。DeepSurv本质上是一个前馈神经网络,其输入为企业财务数据,网络的隐藏层由全连接层和Dropout层组成,其输出为是一个线性激活函数单元,用于估计Cox模型中的风险似然函数。通过设置损失函数为并进行正则化来训练该网络,最终估计出相对风险函数与协变量间的非线性关系度量。

2.1 Cox比例风险模型

Cox模型,又称Cox比例风险模型,是常见的生存分析半参数回归模型之一,可以研究生存时间是否具有一定规律,并分析一个或多个风险因素对生存时间的影响,在生物统计领域具有广泛运用。Cox比率风险模型采用偏似然函数对协变量进行参数估计,定义为具有预测效应的协变量,为参数变量,即各协变量的回归系数,是基准风险函数,即危险因素为0时t时刻的风险值,则有风险函数如下所示:

2.2 非线性Cox模型

3 实证分析

3.1 数据准备

本文实验数据取自国泰安数据库(cndata1.csmar.com),样本为沪深A股全部上市公司,共计3726家。在3726个样本企业中,截止至2021年有896家企业出现过ST/*ST/DT,认为具有财务风险。对于ST企业,本文将企业被ST的年份定义为第T年,考虑上市企业在T-3年的各项经营指标与在T年的财务危机结果有较强的相关性,截取上市公司被ST前三年的各项指标数据,对于非ST公司,则以近三年指标作为实验数据,并基于上市日期对齐时间序列。在选取变量时,依照全面性原则,由偿债能力、披露财务指标、比率结构、经营能力、盈利能力、现金流分析、风险水平、发展能力、每股指标、相对价值指标共计十个大类的因素入手提取了51个原始变量。

3.2 实验结果

对数据进行处理,将数据以十折交叉验证分为随机10组,取其中9组建立和优化模型,剩余1组为测试集,以评价模型在新数据上的表现。为评价模型准确性,本文选用一致性指数 (Concordance index,C-index)与Brier Score,NBLL三项指标分别对模型进行评估。为比较不同模型的预测能力,本文以时依Cox模型、逻辑回归模型、CoxCC模型作为基准线,与本文模型进行对照实验。实验结果表明,DeepSurv在C-Index,Brier score,NBLL三项指标中,均取得了最优表现,验证了模型的拟合优度与准确性(见表1)。

表1:实验结果比较

4 结论

本文选用沪深A股市场的所有企业为样本数据,从比率结构、偿债能力、发展能力、风险水平、经营能力、每股指标、现金流分析、相对价值指标、盈利能力十个方面选取51个原始变量作为预警指标。由于协变量在不同时间维度上存在变化,各协变量间存在交互影响,本文引用时依协变量Cox模型,随后使用基于DeepSurv的深度生存分析算法对数据进行训练最终获得相对风险函数,得到指标对于企业退市事件的正反影响及强度。实验结果表明,该预测模型与其他传统模型相较有较高的准确性,实现了对企业生存率的准确预测,动态展现了企业从正常转入财务危机的变化过程,尤其是较为复杂的财务数据集预测有了一定的突破,具有一定的判断能力。对于企业、监管部门、投资者三方都有一定的参考价值。

猜你喜欢
A股神经网络变量
抓住不变量解题
也谈分离变量
神经网络抑制无线通信干扰探究
1月A股市场月统计
基于神经网络的拉矫机控制模型建立
复数神经网络在基于WiFi的室内LBS应用
SL(3,3n)和SU(3,3n)的第一Cartan不变量
基于支持向量机回归和RBF神经网络的PID整定
分离变量法:常见的通性通法