荣飞琼,马维敏,李 坤
(兰州财经大学 a.信息工程学院; b.金融学院, 甘肃 兰州 730000)
近年来,供应链金融已成为中药材产业中小规模企业新的融资模式。甘肃省也在尝试这种新的融资模式,以应对省内中药材企业融资困难问题。因此,分析供应链金融中各参与主体的关系,挖掘供应链金融发展的核心问题并提供有效的解决方案,就成为理论研究的重点。
供应链金融这一术语由Allen N.Berger首先提出[1],目的是解决企业融资困难问题。这一新型融资模式出现之后,国内外学者对其进行了更多深入研究。Pellegrino将供应链融资的概念定义为:需以核心企业为主导,供应链上所有企业作为一个整体从银行等金融机构获得资金融通[2]。J.Martin和E.Hofmann将供应链上的核心企业与链上中小企业进行对比,从中得出核心企业无论资信等级还是融资渠道皆存在着突出优势[3]。国内部分学者将博弈论运用在供应链金融的研究中。严广乐利用信息经济学与博弈论的理论,对供应链金融模式中的中小企业、银行和第三方物流企业间的相互作用关系加以研究[4]。马娟指出,在供应链金融的中介服务中,传统金融企业和第三方物流公司之间的异业联合是一个建立契约关系的联合博弈行为[5]。郑忠良和包兴构建了一个银企博弈模型,研究银行如何设置融资业务的检查率和惩戒机制,来规避应收账款融资业务的信用风险[6]。而银企博弈模型对于主体行为违约与贷款的博弈关系问题,目前尚未有学者进行深度的研究和探讨。
本文使用的CART决策树算法,已有诸多成熟的研究成果。基于决策树的集成学习方法,L.Breiman提出了随机森林算法:随机森林通过构建多个决策树,并通过投票或平均预测结果来进行集成。每个决策树都是通过对训练数据进行自助采样(Bootstrap)和随机特征选择来构建的[7]。对于随机森林中特征重要性的理解和解释问题,G.Louppe介绍了一种常用的变量重要性度量方法,即基于减少不纯度(Impurity)的平均减少(Mean Decrease)方法[8]。随着更多学者的研究,决策树算法的应用有了进一步的发展。L.Rokach综述了基于集成学习的分类器,其中包括基于决策树的集成方法,对决策树算法在集成学习中的应用进行了广泛概述[9]。 王建强等人探讨了在不平衡数据环境中使用决策树算法的相关问题,并提出了相应的解决方案[10]。因此,本文采用的CART决策树算法有大量理论和实践依据。
在对上述国内外研究成果回顾和分析的基础上,本文旨在通过银企博弈模型分析核心企业对于供应链融资的重要性。同时,构建一个基于CART决策树算法的供应链金融核心企业综合评级预测模型,利用部分国内中药材上市企业数据,对企业的“综合评价等级”进行预测。使用甘肃省中药材上市企业的当期数据验证模型的有效性,最终推广到整个中药材产业供应链实际应用中去。
本文将采用完全信息静态博弈来分析银企之间的两种类型博弈,一种为供应链金融的融资模式,其中存在核心企业的参与,中小企业以核心企业的资信水平作为担保,从银行等金融机构获得资金;另一种为传统融资模式下的银企博弈。
1.决策空间
在完全信息静态博弈中,银行的决策在于选择是否放贷给中药材中小企业,中药材中小企业的决策在于获得贷款后是否履约。
2.基本假设及模型参数
在供应链融资中,假定银行愿意放贷的概率为yj(j=1、2),不放贷的概率为1-yj(y1为供应链融资中银行放贷的概率,y2为传统融资中银行放贷的概率),中药材中小企业还款的概率为xj(j=1、2),不还款的概率为1-xj(x1为供应链融资中银行放贷的概率,x2为传统融资中银行放贷的概率) ;银行愿意提供给某中药材中小企业融资额为L,银行收回的贷款利息率为i。
当银行选择放贷时,中药材中小企业使用这笔资金获得的投资收益率为r,投资成功的概率为p(其中0
在完全信息静态博弈中,供应链融资中银企双方博弈的矩阵形式如表1所示。
表1 供应链融资中银企完全信息静态博弈支付矩阵
在博弈模型中,如果银行选择放贷,银行的期望效用可以表示为:
E贷=x1(Li-S)+(1-x1)[-L(1+i)-S+M]
(1)
若银行选择不贷款,则期望效用函数为:
E(不贷)=0
(2)
令(1)(2)两式相等,求得:
(3)
中药材中小企业守约的期望效用为:
E(守信)=y1(pLr-Li)+(1-y1)E
(4)
中药材中小企业违约时的期望效用为:
E(违约)=y1(L+pLr-c)
(5)
令(4)(5)两式相等,求得:
(6)
在完全信息情况下,传统融资中银企双方博弈的矩阵形式如表2所示。
表2 传统融资中银企完全信息静态博弈支付矩阵
中药材中小企业守约的期望效用为:
E(守信)=y2(pLr-Li)+(1-y2)E
(7)
中药材中小企业违约时的期望效用为:
E(违约)=y2(L+pLr)
(8)
令(7)(8)两式相等,求得:
(9)
根据上述计算结果,可以观察到y1>y2,这表明在有核心企业参与的供应链金融的融资模式中,银行的放贷概率高于传统融资中银行的放贷概率,凸显了核心企业在供应链融资中的重要性。
由于中药材产业的特殊性和复杂性,评价核心企业的标准和指标会受到多种因素的影响。笔者考虑到甘肃省中药材行业的特殊性、政府的政策导向,以及金融机构的风险管理需求,结合甘肃省中药材产业自身特点建立评价指标体系,并明确评价指标的维度和权重。
本文在一般中药材核心企业评估指标体系的基础上,结合甘肃省中药材企业的特征,给出如下备选指标集合(Ia):华证ESG评级(I1)、GDP年增长率(I2)、预测净利润增长率(I3)、研发人员数量占比(I4)、前五大供应商采购金额占比(I5)、大客户销售收入占比(I6)、成本费用利润率(I7)、企业倍数(I8)、销售毛利率(I9)、博士人数占比(I10)、大供应商采购金额占比(I11)、应收账款周转率(I12)、研发支出总额占营业收入比例(I13)、存货周转率(I14)、资产负债率(I15)、流动资产周转率(I16)、总资产周转率(I17)、应付账款周转率(I18)、企业规模(I19)、前五大客户销售收入占比(I20)、应收账款比例(I21)、区间违规处罚金额(I22)、药企区间违规处罚金额占比(I23)、区间违规处罚次数(I24)、区间诉讼案金额(I25)、药企主体信用评级(I26)、区间违规处罚金额占比(I27)、药企主体历史信用评级(I28)、药企综合评级数值(I29)、综合管理人员人数占比(I30)。
需要说明的是,备选指标的选择是基于以下几方面因素考虑的:
第一,结合甘肃省中药材企业自身特点,金融机构对企业关注点的选择非常重要。笔者从相关研究、实践经验、行业标准和金融机构的需求等角度出发,综合考虑企业的财务状况、经营能力、创新能力、风险管理等方面的情况,来进行指标选择。
第二,考虑指标数据的获取来源,有针对性地确定备选指标。本文在大数据环境下,自由获取丰富的数据资源,这种方法可以确保有更多可靠和全面的数据,从而更好地支持指标的建立和后续进行评估分析。
第三,使用逐步回归法来评估备选指标对于评估结果的影响,并决定是否保留或剔除这些指标。具体而言,本文假设存在一个指标变量(Ii(Ii∈Ia)),其偏回归平方和为Vi=min{V(1,2,3,…,s)},其中V(1,2,3,…,s)是I(1,2,3,…,S)的偏回归平方和。
本文根据以下准则进行剔除决策:设定一个显著性水平α1,计算一个新的F值:
(10)
如果Fnew≤Fα1,则剔除该指标变量,否则保留。一旦Ii被剔除后,可以按照同样的原则对其他指标变量I(1,2,3,…,S)进行选择。通过这个过程,最终形成了一个合理的指标体系Ia={I1,I2,I3,…,Im},并建立了相应的拟合模型:
(11)
本文在指标构建过程中,充分考虑了可获得数据的种类,并运用线性和非线性的数据处理方法,得出最终的指标构建方法确保了指标的全面性和准确性。该方法能够从多个角度综合评估中药材产业核心企业的绩效和风险。
在数据处理过程中,本文运用了回归分析、因子分析、主成分分析等方法。这些方法能够揭示指标之间的相关性、重要性和潜在结构,帮助筛选和权衡各个指标的贡献度。评价指标具体构建方法见表3。
1.决策树理论
决策树算法是一种监督学习算法,既可用于分类问题也可用于回归问题。分类与回归树CART(Classification And Regression Trees )是一种决策树学习算法,它可以处理分类和回归问题。在CART算法中,每次都选择最优特征来划分数据,并且该特征能够最大程度地减少目标变量的不确定性(对于分类问题,使用基尼系数来量化不确定性;对于回归问题,使用方差或平均绝对偏差)。
CART生成的是二叉树,每个内部节点都有两个子节点,所使用的分割方式是二分法。这种结构使得CART算法非常适合于机器学习任务,因为它可以自然地适应任何输入数据的分布,并且生成的模型易于理解和解释。
决策树的一个重要优点是它的可解释性。一旦决策树被训练完成,它的决策过程非常直观。当然,决策树也有其缺点,例如容易过拟合,对于数据的微小变化非常敏感等,因此常常需要通过剪枝等技术来防止过拟合,提高决策树的泛化能力①。
2.决策树的组成
决策树通过学习一组训练数据,决策树模型以树状结构表示了对数据的划分规则,最终形成的树结构中的每个节点和分支都对应着一条决策路径。在决策树中,从根节点到每个叶节点的路径,代表了一个可能的决策路径。数据的分类或预测结果就是基于这些决策路径得到的②。
3.决策树的构建
决策树的构建过程主要由特征选择、树的生成和剪枝这三个步骤组成。首先,在特征选择阶段,本文会选取能够使目标变量的不确定性减小到最小的特征作为节点的划分依据。然后,通过递归的方式生成决策树,即在每个内部节点上都重复特征选择和划分的过程,直到满足某种停止条件。最后,为了防止过拟合,我们可能需要对生成的决策树进行剪枝,以达到模型复杂度和预测能力之间的平衡。
1.数据获取
在实证分析阶段,本文以Wind数据库作为主要数据来源。Wind数据库作为一个综合性的金融数据库,涵盖了广泛的金融市场数据、宏观经济数据、企业财务数据、行业研究报告等信息,能够提供本文所需的绝大部分上市企业指标数据。本文从中选取了国内中药材行业的276家上市公司作为研究样本。选取的上市企业基本都是所在地区的中药材行业头部企业,是当地中药材产业发展的核心支柱。鉴于此,最终以69家中药材上市企业作为样本,根据前文构建的指标体系,选取了它们在2010—2022年度的全部指标数据。而甘肃省的2家上市企业作为本文评估的重点企业,它们2017—2022年度的指标数据同样作为历史数据参与了模型训练。最后,根据模型预测结果,判断其是否能够成为甘肃省中药材行业供应链金融支持的核心企业。
表3 评价指标构建方法*
数据选取和预处理过程的具体步骤如下:
(1)使用Wind数据库中国内中药材行业69家上市企业的相关数据。
(2)明确最终确定的指标集合中各个指标的含义及计算方法,确定各样本在不同指标中的取值。
(3)将选取的上市企业样本依据时间标准,划分为训练集和验证集。训练集用于训练决策树模型,验证集用来测试模型预测的准确度。除了2022年的数据为验证集数据以外,其他各个年份的数据都为训练集数据。在决策树模型准确率较高的前提下,根据已知年份的指标数据,预测未来时间段的企业的综合评价等级取值。
(4)模型预测出中药材上市企业综合评价等级数值,根据供应链金融核心企业综合评价等级阈值③的计算结果,将企业等级分为“具备核心企业能力”“弱核心企业能力”“强核心企业能力”三个等级。
2.数据预处理
由于源数据库存在数据采集不完善的问题,所以有一定规模的指标存在数据在一个时间段内缺失的情况。鉴于此,笔者设计了多种方法来建立数据序列,填充缺失数据。而对于缺失较多的特征指标,为保证预测效果,选择了直接丢弃。具体处理方法在上文指标体系构建部分中进行了说明。
另外,在数据预处理过程中,通常会包含数据标准化过程,以此来消除不同特征或变量之间的量纲差异,避免某些特征对模型训练产生过大的影响。但是,本文采用的决策树模型是一种非参数的监督学习方法,它通过创建分支规则来预测目标变量。构建决策树时,算法会选择一个特征并设置一个阈值,将数据切分为两部分。选择哪个特征和阈值,取决于切分后可以获得最大的信息增益、基尼指数的降低等。所以,无论数据样本是原始未处理的,还是经过了标准化(比如所有特征都被缩放到0~1之间),决策树的构建过程都是一样的。因此,在本文数据预处理过程中,标准化的步骤被省略了。
基于以上过程和步骤,本文共选取了69家企业,25个指标④在2010—2022年度总共2700多个数据样本。本文评价指标体系的构建基于“减少专家评估的指标建设”原则,故只需对这4万多个数据进行Label预测,即可预测出企业在未来时间段的“综合评价等级”。这样就减少了人工干预的可能,最大限度地排除了主观因素,使“用数据说话”的思想得到体现。
1.模型训练
(1)模型核心算法能力。在决策树训练过程中,决策树会根据特征的属性值进行分割,构建出一系列的决策节点,并根据目标变量的取值确定每个分割点的最佳位置。本文的待预测指数为连续值,故采用回归类型的决策树算法,建立若干If-Else规则以形成足够复杂的树状规则链来达到预测推理目的。模型建立的具体描述如下:
第一,本文预测的目标是一个综合指数,该指数由多项指标共同计算得出。为了有效预测综合评级指数,搜寻并建立了一个完整的特征指标体系,包含诸多与药企评级相关性极强的指标,并用第m年的特征指标来预测m+1年的综合指数。
第二,本文采用了CART决策树变体模型。CART决策树与传统决策树在分割准则、决策节点和剪枝策略等方面存在一些差异。CART决策树既可以用于分类问题,也可以用于回归问题,而传统的决策树算法主要用于分类问题;另外,CART算法每次只生成二叉树,传统的决策树算法可以有多个分支,条件也是多元的。因此,本文结合研究问题及数据特征,选择了CART决策树算法用于实验。
为了说明本文决策树模型的算法,此处以一棵完整的树规则中某一规则链为例进行描述。通过运行决策树算法,当“华证ESG评级”取值≤0.5时,可直接得出预测的最终评级1.121;当取值>0.5时,还会进一步判断“华证ESG评级”取值是否≤3.5;若是,则对“前五大供应商采购金额占比”取值进行判断,是否≤12.99;若否,则判断“GDP年增长率”是否≤7.6,以此类推直至得到最终结果。
(2) 算法特殊参数设置。树的末端节点被称作叶节点。决策树理论上可以构建非常复杂的树来拟合训练集中每一个样本,若一个叶节点上只存在一个样本,由于该样本不具备较好的统计效应,用这个叶节点所在规则链的推理结果作为预测结果就不具备普遍适用性,即导致泛化性较差问题,所以,本文约束了树的最大深度(即规则链的最大长度)以及树叶子节点上包含的最小样本数。要求在模型训练的过程中,当模型树结构达到最大深度限制时,或者再进一步分裂叶子节点,将导致子叶节点中包含的样本数量小于规定的最小样本数时,则停止分裂。在本文的实际实验中,约束树的最大深度为20,每个树节点所包含的训练样本数不少于50,叶节点中包含的最小样本数为50。
(3)算法优劣势。选择CART决策树算法,主要原因是其能在较好的拟合精度和泛化性下,仍然保持非常好的可解释性。它建立的树状规则能为人脑快速理解,这将有助于实际场景的使用,使用者对其决策过程越理解,则越能信任算法的计算结果。
从特征指标的类型看,本文所构建的特征指标中,既存在分类型特征指标也存在连续型特征指标,线性回归或者神经网络模型都不擅长处理这种多类型特征的数据集合。而决策树算法能够处理这种多类型的数据,包括连续型数据、离散型数据和分类型数据,对于处理特征空间中的非线性关系、交互作用和高维数据具有较强的适应性,所以决策树是本文综合指标预测的最佳算法选择。
(4) 特征工程及预测目标构建描述。本文模型的预测目标是一个综合评级指数,也就是指标体系中的“药企综合评级数值”(I29)⑤,该指标也是CART决策树模型的标签。该指标的历史值可由多个具有强相关性的评级指标共同计算得出,其中每个指标的权重根据其对药企综合评价的影响程度来决定。具体计算方法见表3评价指标I29的计算公式。鉴于此,为了准确预测“药企综合评级数值”(I29)的未来值,本文建立了一个较为完整的特征指标体系,包含了诸多药企评级影响因素指标,并用第m年的特征指标取值来预测第m+1年的“药企综合评级数值”(I29)。
2. 模型拟合结果分析
本文收集了2700多个样本,以2021年的真实数据作为模型指标取值,预测了2022年各企业“综合评价等级”指标值。2022年企业“综合评价等级”指标取值是历史数据,是真实存在的,因此,为了测量模型的泛化能力,取2022年的企业真实数据作为验证集,来对模型预测结果的准确性进行判断。其余年份数据作为训练集引入模型训练过程。由此得到在两个数据集上的MSE,如表4所示。
表4 两个数据集上的MSE数据统计
从MSE对比来看,模型没有显示出明显的过拟合现象,且总体拟合精度控制在较小范围内,因此认为该结果是可接受的,模型的预测结果也是准确的。
另外,为了深入理解计算出来的决策树的推理过程,本文还绘制了整个决策树的树型图,该树型图包含了模型所有的规则链。部分特征指标核心规则链树状图如图1所示。
3.模型预测结果分析
(1) 模型预测结果。上文中的模型拟合结果分析证实了模型的有效性,因此本文根据2022年的企业实际指标数据,对选取的69家药企进行了2023年四个季度的综合评级指标预测。部分企业预测结果如下表5所示。
表5 部分企业四个季度综合评级指标预测*
从预测结果可以看出,影响力、综合实力越强的企业的综合评价指标预测值越大,反之,实力较弱的药企的综合评价指标预测值越小。本文特别关注了甘肃省的2家上市药企的预测结果。为了更客观、全面地反映这2家企业在2022的综合评级预测结果,对它们在2022年4个季度的预测结果进行了平均值处理,得到佛慈制药综合评级值为1.37925,陇神戎发综合评级值为1.10855。
(2) 阈值计算。已在“数据获取”部分予以明确。模型预测的综合评价等级数值,需要根据核心企业综合评价等级阈值的计算结果,将企业等级分为“具备核心企业能力”“弱核心企业能力”“强核心企业能力”三个等级。
本文实验主要利用企业在过往不同年份的综合评价等级数据进行阈值计算。在上文的指标体系构建部分中,关于企业“综合评价等级”指标的计算方法已经明确。计算公式如下:
(12)
其中,μi为样本企业在2010—2022年度的“综合评价等级”指标均值,n为选取企业数量,σμ1→i为全部选取企业“综合评价等级”指标均值的平均值对应输出的标准差。
需要说明的是,实验中阈值的计算,包括了样本企业“综合评价等价”的平均值以及选取企业“综合评价等价”指标均值的平均值标准差。平均值和标准差这两个统计量,可以对未来的趋势和情况进行预测和决策支持,以涵盖一定范围内的数据。其中平均值提供了数据集的集中位置的指标,可以帮助确定数据的中心倾向;而标准差是用于衡量数据集内部变异程度的一种度量方式。因此,为了“阈值”计算的科学性,将阈值结果设置为平均值下调2个标准差。
图1 特征指标核心规则链树状图⑥
(3)模型预测结果判定。根据阈值计算公式,本文分别选取了全部69家上市药企和优异且各年综合评级数据完整的20家药企进行了两次阈值计算,对应的阈值分别为为1.037 1和1.363 4。因此,确定核心企业判定原则为:设样本企业“综合评价等级”指标预测值为γ,若γ∈[1.037 1,+∞),则判定该企业为“具备核心企业能力”;若γ∈[1.037 1,1.363 4],则判定该企业为“弱核心企业能力”;若γ∈[1.363 4,+∞),则判定该企业为“强核心企业能力”。根据模型的预测结果,2023年甘肃省有2家上市企业具备了基本的供应链金融核心企业能力,分别是佛慈制药股份有限公司和甘肃陇神戎发药业股份有限公司。笔者发现这2家企业2023年的“综合评价等级”指标分别为1.465 5和1.189 7,表明佛慈制药具备强核心企业能力,而陇神戎发仅具备弱核心企业能力。可见,佛慈制药作为供应链金融模式中的核心企业,是整个供应链的主导者。它具备充分的供应链管理能力、信用可靠性、资金实力、风险管理能力以及数据管理和技术能力,能够确保供应链金融的有效运作和可持续发展。陇神戎发虽然具有了核心企业的基本能力,但在这些关键能力上还略有欠缺,需要进一步提升和优化。
首先,本文从甘肃省中药材产业供应链金融支持问题入手,通过建立完全信息静态博弈模型,分析两种融资模式下的银企博弈行为,证明了核心企业在供应链融资过程中的重要性,以及供应链融资更易使中小企业获得所需的融资支持。以69家国内中药材上市企业的财务数据作为原始数据源,构建了一个CART决策树模型。模型评估结果表明,该决策树模型没有显示出明显的过拟合现象,且总体拟合精度控制在较小范围内,MSE指标结果可接受,模型的预测结果也是准确的。根据模型预测结果,判定了省内中药材企业是否能够成为我省中药材行业供应链金融支持的核心企业,并提出了政策建议。综上所述,本文实证研究中构建的决策树模型预测结果准确,模型稳健可靠,可以推广至实际应用中去。
结合本文实证研究结果,及甘肃省中药材行业供应链金融发展特点,对中药材行业供应链金融核心企业评价的实际应用给出以下建议:
本文实证研究中的技术选择是权衡了现有数据情况及可解释性后做出的合理选择,但还是有可深入和调整的空间。第一,由于来源渠道的限制,本文所使用的数据多限于上市企业的财务数据,数据类型和数据规模相对偏小,未来研究中要积极拓展数据获取方式,增加样本容量,为充分发挥机器学习算法优势提供更充足的样本数量。第二,由于Wind数据库中指标数据的时间区间存在差异,造成数据缺失。面对这种情况,本文采用缺失值填充的方法予以解决,但是这种方法存在缺陷,一定程度上影响了数据的准确性和客观性。未来研究中应采取识别数据缺失、数据重建、寻求专业帮助等办法解决数据缺失问题。第三,在数据规模进一步扩大,数据缺失问题得到有效解决的前提下,可以考虑增加树模型的复杂度。同时,进一步考虑复杂树模型如何有效地向决策人员提供良好解释性的问题,因为这影响到决策人员对模型计算结果的信任程度。
本文基于CART决策树模型进行的实证研究,对于甘肃省中药材供应链金融的发展具有一定实践意义,但是,关于甘肃中药材产业中核心企业参与的供应链金融支持的研究还需进一步深入。第一,核心企业应最大力度保证原有资金来源的稳定,并发挥自身龙头地位优势,吸引众多社会资源(如民间资本)的加入,创新多元化供应链融资,推动中药材产业提档升级。此外,核心企业应增加融资服务的附加值,大力推动中药材产业、金融科技和养生旅游等深度融合发展。第二,中小企业应当重视创新对企业的作用,引进中药材行业的技术创新人才,不断增强自身的竞争力。农村种植户及合作社应当利用好供应链模式,与核心企业建立长期合作关系,保持自身种植及销售的连续性。第三,银行等金融机构应加强供应链融资的风险控制,通过对供应链运作的全程监管,综合分析评估核心企业及链上企业的潜在风险隐患,健全产业链风险控制体系。
[注释]
① 摘自Leo Breiman,Jerome Friedman,Charles J.Stone,Richard A.Olshen共同撰写的《分类与回归树》(ClassificationandRegressionTrees)一书。
②摘自Trevor Hastie,Robert Tibshirani,Jerome Friedman于2009年共同撰写的《统计学习基础: 数据挖掘、推断与预测》 (TheElementsofStatisticalLearning:DataMining,Inference,andPrediction) 一书。
③此处综合评价等级的阈值计算原理及计算方法会在模型建立部分详细说明。
④指标体系中,指标作为决策树模型训练的标签Label,历史值也是通过其他指标计算而来的,无需数据来源。
⑤是表3确定的评价指标体系中的指标之一。
⑥因版面限制,本文只展示特征指标核心规则链树状图。