基于逻辑回归评分卡的石油企业供应商风险模型研究

2021-12-06 07:59曹杰张岩松刘速杨文军高峰刘增霞
油气与新能源 2021年5期
关键词:发票供应商逻辑

曹杰*,张岩松,刘速,杨文军,高峰,刘增霞

(昆仑数智科技有限责任公司)

0 引言

石油企业是一个庞大的生产运营综合体,涉及上、中、下游复杂的业务链,集勘探开发、炼油化工、物流运输、成品油销售、天然气销售、石油贸易、装备制造、工程技术等业务于一体[1]。在实际生产经营中,石油企业及下属单位与大量供应商有着交易往来。供应商作为供应链的源头,在石油企业物流中有着不可替代的作用。面对良莠不齐的供应商,如何识别和评估供应商存在的各类风险,降低采购成本,有针对性地选择优质供应商,成为石油企业采购管理的核心。

对采购供应商进行风险识别和评估,是采购管理的关键环节,且采购是最为重要的成本开支之一,每年采购的进项发票有几千万张,金额巨大,业务范围广、采购种类多、供应商数量多,采购过程中一般基于历史采购经验、招投标和合作往来的方式进行供应商评选。随着“电算化”时代的到来和大数据技术的迅速发展,数字化技术为企业管理提供更有效的手段[2],采购行为信息能够以结构化或半结构化的数据形式存储,大量数据资源形成了庞大的数据库,蕴含着巨大的价值,通过深入挖掘数据标签和风险因素,建立供应商风险模型能够助力石油企业采购管理的提升,辅助供应商评估。

供应商风险模型的建立在不同行业存在一定的差异,许多学者将各类模型算法应用在相应的领域。梁梁等在供应商管理库存中运用欧式和美式期权对供应商经营风险进行分析[3]。梁泽彬等基于灰色层次分析和灰聚类相结合的分析方法,建立了供应商风险评价模型,并应用在物流企业的供应商风险管理[4]。李辉运用粗糙集与模糊综合评价,从交互能力风险、合作风险、服务风险指标维度对一家混泥土外加剂生产企业建立供应风险评价模型[5]。缪琳以物流企业为例,运用物元和可拓理论建立供应商风险评价模型[6]。胡爽等以航空企业的供应商风险管理为例,应用层次分析法建立供应商风险评估体系[7]。祝思佳等基于航空转包生产行业的复杂性,采用TOPSIS(熵权)算法模型对航空转包供应商进行风险评估[8]。耿俊成等基于基本属性、用电行为、95598信息等维度数据运用逻辑回归模型建立电力客户停电敏感度评分卡[9]。逻辑回归评分卡是一种成熟的风险评估模型,在客户信用风险评估和金融风险控制领域有着广泛的应用,其原理是从历史数据中探查良与不良客户或供应商的特征,运用逻辑回归算法基于WOE离散化后的模型变量进行二分类,建立数据模型,为信用评估提供依据。相较于层次分析法及物元和可拓理论依赖专家主观评价、熵权法对样本量要求较高且仅适用于计算权重,逻辑回归评分卡基于供应商特征数据进行逻辑回归模型训练,实现简单,训练速度快,结果客观可信,因此在供应商评价中得到广泛应用。

本文以石油企业进项发票数据和供应商主数据为数据来源,结合石油企业的采购特性,运用逻辑回归评分卡建立石油企业的供应商风险模型。

1 发展环境分析

1.1 逻辑回归评分卡模型

逻辑回归是广义的线性回归,常用于信贷评估等二分类问题,包含因变量和自变量两种变量类型,其中因变量属于二元分类变量,自变量呈现供应商或客户的信息。

设逻辑回归模型有r个自变量,用x1、x2、…,xr表示,因变量y∈{1,0}表示供应商良与不良信息这一事件,y=1表示不良的供应商,y=0表示良好的供应商。y=1事件概率以p表示,其公式为:

式中:β0、β1、…、βr——模型参数;β0——截距项[10]。经转换简化公式为:

式中:1-p——供应商良好的可能性;p(1-p)——不良事件与良好事件发生的可能性比,被称为odds。对odds取对数,得到线性函数。逻辑回归通过寻找最佳的参数β0、β1、…、βr实现模型优化。

采用最大似然估计函数测算β0、β1、…、βr模型参数,设有m组观测数据,则极大似然函数为:

式中:分别对参数β求偏导数,求得使对数似然函数最大的逻辑回归系数的估计值。

1.2 逻辑回归评分卡

逻辑回归评分卡是指基于逻辑回归算法生成的评分卡,最常见的是信用评分卡,它是根据客户属性和行为数据,利用逻辑回归模型计算客户信用评分,据此建立客户信用等级,辅助贷款、授信等业务决策。

结合评分卡和逻辑回归的基本原理,评分卡的分值以发生比的对数线性表达式表示:

式中:A与B是常数,高分值代表低风险,低分值代表高风险。

结合公式(3)和公式(6),评分卡分值计算公式表示为:

式中:x1、x2、…、xr——入模变量。经WOE转换后以 (βiωij)δij形式表示:

式中:A-Bβ0——基础分值;ωij——第i个变量的第j个分箱的WOE值;βi——回归方程系数;δij——二元变量,表示第i个变量的取值。

2 石油企业供应商风险模型构建

随着数字化时代的发展,石油企业建立了多项成熟的管理系统,存储了大量业务数据,其中发票作为商品(服务)交易的原始凭证,是石油企业采购交易的体现,可以提炼出供应商的交易往来、主销商品、税务风险、历史开票行为等特征,供应商主数据包含:单位性质、企业类型、注册资本等自然属性特征,能够为模型评估提供丰富的数据基础。本文以石油企业进项发票和供应商主数据为数据来源构建供应商风险模型,构建流程如图1所示。

图1 石油企业供应商风险模型构建流程

2.1 数据准备

从石油企业进项发票数据和供应商主数据提取62项供应商相关的属性,主要包括以下3类数据:①基础属性数据,如供应商税号、单位性质、企业类型、所属集团、所属板块、所属行业等。②经营表征数据,如经营现状、注册资本、内部合作单位数、主销商品等。③发票表征数据,如开票数量、开票金额、作废发票、失控发票、异常发票、红冲发票、风险发票等。

为了保证字段变量的完整性,选取具有较好代表性的样本,训练集样本量为22 544条,占比60%,测试集样本量为15 029条,占比40%,总计样本量37 573条。其中训练集好样本20 844条,坏样本1 700条,测试集好样本13 895条,坏样本1 134条,训练集和测试集好样本合计34 739条,坏样本合计2 834条。样本数据分布如表1所示。

表1 样本数据分布表 单位:个

2.2 数据预处理

模型经过缺失值处理、相关性变量剔除、数据转换(分箱离散化)及IV值变量筛选等优化过程,变量从最初62项到最终选定9项作为模型的特征指标,具体优化过程如下。

2.2.1 缺失值处理

本次研究初步提取 62项供应商相关的属性数据,但其中不少变量包含大量缺失值且部分变量与目标变量无关(如国家、编码等字段),因此将缺失比例在50%以上的变量及无关变量一并剔除。经过本次剔除,对剩余39个变量进行缺失值赋值,本文对缺失值处理,采用变量的众数进行插补。

2.2.2 相关性变量剔除

逻辑回归模型中自变量间若存在高度的多重共线性会影响模型估计结果,如偏回归系数估计困难,偏回归系数的估计方差会随自变量相关性的增大而增大,偏回归系数估计值的不稳定性增强,偏回归系数假设检验的结果不显著等。因此,本文研究中考虑变量之间的相关程度,根据 Pearson相关系数剔除相关系数在 0.6以上而对目标变量影响相对较小的变量。经过相关性剔除,筛选11个变量进入分箱处理。

2.2.3 卡方分箱及IV值变量筛选

分箱的目的是实现数据的离散化,降低过度拟合风险。信息价值IV是衡量变量预测能力的指标,能够判断特征变量对结果的重要程度,IV值越大表示特征变量的预测能力越强。对于分组变量,IV值计算公式如下:

式中:pyi——当前分箱中不良供应商占样本中不良供应商的比例;pni——该分箱中良好供应商占样本中良好供应商的比例;WOEi——当前分箱中不良供应商和良好供应商的比值和样本中不良供应商和良好供应商比值的差异。差异越大,该分组里的样本响应的可能性就越大。计算公式为:

式中:yi——当前分箱中不良供应商的数量;ni——该分箱中良好供应商的数量;yT——样本中不良供应商的数量;nT——样本中良好供应商的数量。

特征变量的IV值如表2所示,选取IV值大于0.01的9个变量作为入模变量,分别是历史作废发票数量比例、历史年均交易频次、近三个月作废发票金额、历史开发数量、供应商近一年内部合作单位数、供应商历史上内部合作单位数、所属板块、所属集团、单位性质。

表2 入模变量IV值表

2.3 模型开发

采用最大似然估计法计算回归系数的估算值,模型拟合结果如表3所示。入模变量9项,其中历史作废发票数量比例、历史年均交易频次、近三个月作废发票金额、历史开票数量、所属板块p值远小于 0.01,具有非常显著的意义,单位性质p值小于0.05有显著意义。

表3 逻辑回归结果

此外,根据表3逻辑回归系数显著性检验结果,变量显著性指标多为进项发票指标,考虑供应商评价应综合考虑多个业务维度,因此在不影响逻辑回归模型整体效果的前提下,将供应商历史上内部合作单位数、所属集团两个变量纳入评分卡模型。

基于逻辑回归算法模型输出的回归系数和WOE编码对每个入模变量按照不同的分箱建立评分刻度,如表4所示。逻辑回归评分卡模型通过综合计算入模变量的评分值和初始基础分,来统计每个供应商的总体得分。当有新的供应商数据进入模型时,模型会自动计算出供应商的分数,从而实现供应商风险的判断。

表4 评分刻度表

2.4 模型评估

二分类问题常见的评价指标有准确率、精准率、召回率、F1值、ROC(感受性曲线)曲线和AUC等。准确率是指分类正确的样本占总样本的比率,在不均衡的样本集上度量效果较差。精准率是指预测为正的样本中实际为正的比率。召回率是指正样本中被预测为正的比率。F1值是精准率和召回率的调和平均。ROC曲线是以真正率为纵坐标、假正类率为横坐标绘制的曲线[11]。AUC值被定义为ROC曲线下的面积,AUC越接近于1,模型效果越好,其中AUC介于0.5~0.7,模型效果一般;AUC介于0.7~0.9,模型效果较强;AUC大于0.9,模型效果很强。相比于其他评价指标,当样本集中正负样本不均衡时,ROC曲线能够保持相对的稳定,而精准率、召回率等会出现较大的变化。因此,本文采用ROC曲线和AUC面积值作为模型的评价指标。由图2训练数据和图3测试数据的ROC曲线可以看出,曲线明显高于对角线,证明模型是有强规则性的,且曲线上凸于纵坐标轴,AUC面积区域接近于梯形状,证明模型分类效果较好。该模型测试AUC为0.82,说明模型分类能力较好。

图2 训练数据ROC图

图3 测试数据ROC图

2.5 模型验证

测试样本共有15 029个供应商,其中不良供应商1 134个。基于逻辑回归评分卡对测试样本数据进行评分计算和验证,分值段按照供应商数量划分,每段供应商数量约为5%,以分值从低到高排序,见表5和图4。

表5 验证数据表

图4 分段提升度

分段提升度作为评估预测模型有效性的度量指标,衡量的是一个模型(或规则)对目标中“响应”的预测能力优于随机选择的倍数。通过验证数据表,测试集中供应商自然不良率为 7.55%,(0,376]分段不良率71.18%,比自然不良率提高了9.43倍,提升度显著大于1,在(0,447]低分段区间,分段提升度均大于2.5,预测能力明显优于随机选择,说明算法性能较好,且提升度曲线单调下降,呈“L”型,表明模型分类效果良好。

建立评分卡的目的是根据供应商的模型评分,对供应商做出风险判断,采取相应的防范措施。结合 Lift提升度曲线,(0,447]分段区间的提升度均大于2.5,相比自然随机抽取有较大的概率提升,存在风险供应商的可能性较大,基于分值区间的划分和业务考虑,将(0,376]划分为高风险,(376,433]划分为中风险,(433,447]划分为低风险。通过应用供应商风险模型,采购管理者一方面能够掌握供应商警示名单等信息,对447分段内的供应商重点关注,另一方面可以洞察供应商有关风险影响指标,辅助采购决策。

3 结论

石油企业进项发票数据和供应商主数据是本文运用逻辑回归评分卡建立供应商风险模型的主要数据来源,经过特征筛选选定了9项特征变量进行逻辑回归拟合,模型验证效果良好。供应商风险模型将可能存在风险的供应商划分为高、中、低三个等级,风险等级越高,存在生产经营风险的可能性越大。石油企业在进行采购交易时,可参考本文提出的供应商风险模型,并结合实际采购需求做出合理的判断,对于高风险供应商重点关注,尽量避免交易往来;对于中风险供应商综合评估采购需求,慎重交易;对于低风险供应商进一步分析风险指标项,综合评估采购的关联性,减少交易风险。

本文供应商风险模型的数据来源存在一定局限性,随着司法风险、立案信息、经营状况等外部数据的引入能够进一步丰富模型变量,提升适用范围。

猜你喜欢
发票供应商逻辑
刑事印证证明准确达成的逻辑反思
逻辑
供应商和客户是否可以抑制企业在职消费?
创新的逻辑
浅谈医院财务报销发票的审核
关于发票显示额外费用的分歧
基于供应链环境下乐山某超市供应商的选择
基于供应链环境下乐山某超市供应商的选择
女人买买买的神逻辑
全国增值税发票查验平台启用