王云丽,韩珍珍,杨文焕,成 彬
(河北省科学院应用数学研究所,河北省信息安全认证技术创新中心,河北 石家庄 050081)
高新技术企业作为经济新常态下最重要的创新驱动主体,一直受到政府的重点扶持。我国高新技术企业资格认定工作从20世纪90年代初开始,经认定的高新技术企业,资格有效期为三年,在资格有效期内可享受企业税收优惠及政府的多项政策优惠。认定政策对处于成长期企业的实质性创新有更强的额外激励效应,国家的研发激励和税收激励政策都能显著促进企业自主创新。相关数据显示,截止到2020年底,全国有效期内高新技术企业有27.8万家。随着企业认定数量的增长,国家监管趋于严格,科技、财政和税务等部门每年都对其进行日常检查和重点抽查,被取消资格的企业数量不断增加。截止到2021年10月12日,因不符合相关政策要求而被取消资格的企业共588家。被取消资格后,税务机关会要求企业补缴自认定年度起享受的税收优惠,相关部门也会对财政奖励资金进行追缴[1],可见高新技术企业资格对本企业声誉、核心竞争力和业绩等有重要作用。因此,对高新技术企业资格维护的研究对其未来发展具有重要指导意义。
目前,我国学者在高新技术企业资格预警模型研究方面有较多研究,王统一从审计角度阐述加强高新技术企业资格的维护与风险防范的措施[2];赵平从税收角度阐述高新技术企业资格保持的关键点[3];胡意等构建了高新技术企业运行发展预警模型,对湛江市部分高新技术企业未来的运行发展进行预测[4],但应用逻辑回归预警模型的很少。基于前人的理论研究与实证分析,本文参考高新技术企业认定的指标体系要求,以河北省高新技术企业为例,采集与高新技术企业经营发展相关公开数据,构建逻辑回归预警模型,预测企业在资格维护管理方面的潜在风险,提醒企业对风险项指标采取措施,防患于未然,并在提升高新技术企业自身资质管理方面进行探索。
逻辑回归(Logistic Regression)是一种名为“回归”的线性分类器,其本质是由线性回归变化而来,常用于二分类,是各类风险预警的常用模型,具备以下优点:
(1)逻辑回归返回的分类结果不是固定的0,1,而是以小数形式呈现的类概率数字。在制作评分卡时,不仅可以返回高新技术企业是否会被取消资格的判断,还能够给出确定的“资格维护分数”。
(2)逻辑回归在线性数据的拟合和计算速度上非常快,并且在小数据集上表现较好。由此可见,逻辑回归在实际问题的解决上具有一定的优势[5]。
线性回归是机器学习中最简单的回归算法,其方程为:
z=θ0+θ1x1+θ2x2+...+θnxn=θTX
(1)
式中θ为参数向量,X为特征向量。
引入sigmoid函数,即:
(2)
当自变量z取值大于0时,因变量g(z)取值大于0.5,自变量z趋近正无穷时,因变量g(z)趋近于1,表明该高新技术企业资格维护风险较大;而当z取值小于0时,g(z)取值小于0.5,z趋近负无穷时,g(z)趋近于0,表明该企业资格维护风险较小[6],所以它能够将任何实数映射到(0,1)区间,使其可用于将任意值函数转换为更适合二分类的函数。
因此,逻辑回归模型通常表示为:
(3)
逻辑回归的损失函数由极大似然估计推导出来:
(4)
其中,θ表示求解出来的一组参数,m为样本个数,xi是样本i各个特征的取值,yi为样本i上真实的标签,yθ(xi)是样本i上的基于参数θ计算出来的返回值。
模型追求的是能够最小化损失函数的参数组合,即求解最小值。追求最小损失函数以使模型在训练集上表现最佳,但是在测试集上可能会导致模型过拟合,需要在模型的损失函数中加上一个正则化项,有时也称为“惩罚项”,来缓解模型过拟合倾向。
正则化常用的有L1和L2两种选项,分别通过在损失函数后加上参数向量θ的L1范式和L2范式的倍数来实现[7]:
(5)
(6)
其中J(θ)是损失函数,C是用来控制正则化程度的超参数,n是方程中特征的总数,j代表每个参数。
虽然L1正则化和L2正则化都可以控制过拟合,但它们的效果并不相同。当正则化强度逐渐增大(即C逐渐变小)时,参数θ的值将逐渐变小,但L1正则化会将参数压缩为0,L2正则化只会使参数尽可能小,而不是0。L1正则化会使得某些系数不断地向0收缩,当C值变化时,某些系数会被压缩为0,达到解的稀疏性,从而实现变量选择的目的。
为了辨别基于逻辑回归的高新技术企业资格维护风险预警模型的分类效果,使用准确率和ROC曲线作为评估指标。根据样本真实的类别和模型预测的类别组合形成4类,分别为真正TP例、假正FP例、真反TN例、假反FN例。很明显,将这4类所包含的样本相加就是完整的数据集,分类结果的混淆矩阵如表1。
表1 混淆矩阵
准确率:正确分类的样本占总样本的比率,即正确分类的概率,是判断分类模型分类效果最直观的评价指标,计算公式为:
(7)
ROC曲线是受试者工作特征曲线(Receive Operating characteristic Curve),以真阳率(TPR=TP/(TP+FN))为纵坐标,假阳率(FPR=FP/FP+TN)为横坐标的感受性曲线。ROC曲线下方与坐标轴围成的面积为AUC(Area Under ROC Curve),AUC值越大说明分类器性能越好。
高新技术企业资质维护预警模型基本流程分为5个步骤:数据获取、数据预处理、分箱、模型构建调优及制作评分卡。
从“科技部火炬中心”网站获取河北高新技术企业的名录(2018年—2020年)共有9425家,根据企业名录,采集互联网上的公开数据,获取企业基本信息、经营状况、经营风险、知识产权以及招投标信息等85个特征指标[8]。
根据最近的河北省高新技术企业取消资格的公告文件,构造“被取消资格证书又重新获取”特征指标,并把该特征变量作为高新技术企业资格维护风险预警模型的标签。
高新技术企业证书编号为GR201813000828的企业,未能获取其相关数据,舍弃。
2.2.1 招投标数据的去重处理
以企业名称作为关键词进行检索,招投标项目信息出现了大量的重复数据(不同网站公告同一项目信息),这些重复的数据需要去重处理。共采集了455,485条(2018/1/1—2021/8/1)招投标信息,涉及5505家高新技术企业,经过数据处理构造特征变量:“招投标总数量”、“中标总额”和“中标项目数量”。
2.2.2 样本不平衡的处理
2018年—2021年间,被取消资格后再次获取高新技术企业资格的企业河北省共有9家,样本个数为9424,其中标签为1占0.0955%,标签为0占99.9045%,可以看出,样本严重不均衡。对于风险预警模型来说,真正想要被判别出来的是资格被取消过的高新技术企业,而这部分企业非常少,样本就不平衡。逻辑回归模型一般采用上采样(增加少数类的样本)的方法来实现样本平衡。不平衡处理后:标签为1占49.81%,标签为0占50.19%。
2.2.3 训练集和测试集
样本平衡后的数据,划分为70%训练集和30%测试集。
2.3.1 特征选择_嵌入法
图1 L1和L2范式模型准确率对比图
为尽量保留原数据上的信息,让模型在降维后的数据上的拟合效果保持优秀,因此不考虑训练集测试集的问题,把所有的数据都放入模型进行降维。风险预警模型的核心目的是通过求解参数来探究特征与标签之间的关系,所以要尽可能地保留特征的原貌,而PCA(Principal Component Analysis)和SVD(Singular Value Decomposition)的降维结果是不可解释的,因此,本文采用嵌入法以特征选择的方式进行降维。
首先通过描述性统计对数据进行整体探索,结果如表2所示。通过描述性统计结果看,特征变量比较稀疏。
使用嵌入法进行特征选择。使用L1正则化进行特征选择的结果如表2,而使用L2正则化项降维,模型效果较差,图1是L1和L2正则化效果对比。
2.3.2 特征筛选_IV值
制作评分卡,就是对每个特征变量进行“分箱”。分箱的本质是对连续变量进行离散化,以便将具有不同属性的企业划分为不同的类别(打上不同的分数)。
表2 特征变量(部分)描述性统计及嵌入法筛选
分箱一般以3-5个为最佳。连续变量的离散化必然伴随着信息的丢失,而箱子越少,信息的损失越大。为了衡量特征的信息量以及特征对预测函数的贡献,定义了IV概念:
其中N是某个特征上箱子的个数,i代表每个箱子,good%是这个箱内的好样本(标签为0)占整个特征中所有好样本的比例,bad%是这个箱子里的坏样本(标签为1,被取消过资格的企业)占整个特征中所有坏样本的比例,而WOEi写作为:
WOE本质就是好样本比上坏样本的比例的对数,对一个箱子来说值越大,代表这个箱子里的好样本越多[7,9]。
2.3.3 卡方检验、合并箱体,画IV曲线
等频分箱,每个特征分别划分为20箱,统计每个箱子中0和1的数量,确保每箱必须包含两类样本。对相邻的箱子进行卡方检验,合并卡方检验p值大的箱子,直到箱数小于设置的值为止,画出IV曲线。
2.3.4 最佳分箱、WOE值趋势单调
观察IV值在不同箱数下的曲线变化,找出最合适的箱数。IV值下降比较迅速的转折点对应的箱子,为最佳分箱个数。无法等频分箱的特征变量,如“企业年报”,通过观察然后手工分箱。从嵌入法降维后的24个特征里面选择IV值大于0.05且WOE趋势单调的11个特征,用来输入模型,见表3。
表3 特征选择_IV值大小、WOE趋势及最佳分箱个数
“变更记录次数”、“分支机构数量”、“建筑资质数量”、“新闻舆情条数”、“税务评级次数”、“资质证书数量”、“招投标总数量”、“中标项目数量”等8个特征变量的WOE趋势单调。而“招聘信息发布次数”和“软件著作权数量”的IV值曲线见图2和图3,WOE趋势单调或只有一个转折点。
图2 “招聘信息”IV曲线
图3 “软件著作权”IV曲线
计算每个箱的WOE,将其替换到原始数据中,使用WOE数据进行建模。使用C值和迭代次数(梯度下降法)进行调参,C取0.4,迭代次数为20,调优后模型的准确率:78.33%,ROC曲线:0.89,见图4-图6。
图4 C值学习曲线图
图5 迭代次数学习曲线图
图6 ROC曲线
评分卡中的分数,借鉴金融行业的信用风险评估计算公式:
Score=A-B*log(odds)
其中A与B是常数,A叫做“补偿”,B叫做“刻度”,log(odds)代表了一个企业被取消资质又获取的风险值。需要设定两个假定:一是某个特定比率的预期分值,二是指定概率翻倍的分数(PDO)[7,10]。基础得分和特征变量的各分档的结果见表4。
由表4可以得出,企业基本信息、经营状况和知识产权这三个方面的11个特征数据,基本上覆盖了高新技术企业认定需满足的主要指标。
本文基于逻辑回归算法提出高新技术企业资质维护风险预警的特征筛选模型。为保留原数据上的信息,使用嵌入法进行特征选择,鉴于数据的稀疏性,采用L1正则化范式。进一步使用IV值和WOE趋势进行特征筛选,最终保留了11个特征变量输入模型,ROC曲线结果表明模型有较高的预测价值。但是,本文的数据采集仅限于互联网上的公开数据,受到数据公开程度的限制,那些对企业资格保持影响较大的因素,如企业财务情况等核心数据是无法获取的,所以,本模型的应用有一定的局限性。
表4 高新技术企业资格维护风险预警评分卡模型
高新技术企业的竞争压力越来越大,自身所面临的风险相对较高,在运营过程中一定要重视资格管理,关注财务规范管理(税务评级),特别是企业年报、资质证书、招投标和知识产权等方面的情况变化,加强内控,及时补齐短板,避免因为某项指标不达标而失去资格,从而保持高新技术企业资格的稳定性和连续性。