冯梅秀
(江苏苏宁银行股份有限公司,南京 210000)
近年来,随着社会经济的发展,小微企业也发展迅速,不仅促进了经济发展,还对就业、国家税收发挥了重要作用。与此同时,小微企业在发展过程中面临着技术滞后、信息阻隔、人力缺失等制约因素。在融资过程中,由于规模、资质、场地等受限,融资难是贯穿小微企业生命周期的一大难题。随着互联网经济快速发展,运用线上平台进行融资以及灵活的网络借贷方式被越来越多的小微企业接受。
根据2019 年的统计数据,我国小微企业融资90.3%用于日常经营,73.1%用于扩大规模,46.2%用于开发新产品和新技术。在小型或个体工商户中,63.1%的资金用于扩大规模,53.1%用于日常运营,17.5%用于开发新产品和新技术。可以看出,小微企业融资主要是为了进行生产运营、维持日常经营和提高生产效率,这些贷款资金大都流入了实体生产[1]。
目前,我国小微企业已达10 140 万户,其中,企业2 640 万户、个体工商户7 500 万户。这占据目前实体经济市场主体的90%,为全国80%的就业、70%的专利发明和60%的国民生产总值作出了巨大贡献[2]。
但相关资料显示,截至2018 年,贷款户数中小微企业有1 723.23万户,80%以上的企业未能获得融资服务[3]。近年来,随着国家政策的支持和科技金融水平的提升,各家银行在巩固既定核心客户的基础上,开始关注线上小微业务风控技术的开发和运用。各家银行主推的几款基于小微企业大数据风控的产品主要包括以下几类:以政府部门数据为主的江苏银行的“税E融”产品、以行内积累的客户数据为主的小微“快e 贷”产品,以及以大数据风控为主的微众银行的“微业贷”产品等。
线上产品的落地需要大量的数据支持,小微企业线上数据主要包括以下几类:①基于政府部门的数据,如在税务局缴纳的税务数据、在工商局注册的工商数据、在国家电网部门缴纳的电费数据;②政府部门名下公司加工的数据,如发票数据(发票数据是由航信和小望科技两个企业开发的,主要体现在航信科技和小望科技方面)、司法数据(主要体现在企查查数据中);③特定场景下的数据,如美团等;④外部黑名单数据,主要是各数据公司搜集的各项数据,如冰鉴、融慧、百融等[4]。
下文以某一特定场景中的小微企业数据为例,运用机器学习①机器学习是一类算法的总称,这些算法企图从大量历史数据中挖掘出其中隐含的规律,并用于预测或者分类。更具体地说,机器学习可以看作寻找一个函数,输入的是样本数据,输出的是期望的结果,只是这个函数过于复杂,以至于不太方便形式化表达。需要注意的是,机器学习的目标是使学到的函数很好地适用于“新样本”,而不仅仅是在训练样本上表现很好。学到的函数适用于新样本的能力,称为泛化能力。模型模拟特定场景下小微企业风控模型的算法并得出风控评分模型。
在具有发票数据的场景模式下,选取10 000 户表现样本数据,以违约率(PD)大于等于90 天以上的客户为坏样本,选取了300 个坏样本,以超样本模式进行违约率计算,计算结束后再还原至正常情况下的违约率数据。在数据样本选择过程中,需注意避免季节性因素影响,拥有足够长的表现期,时间段的选择可以代表未来所有正常申请人。
建模流程如图1 所示。逻辑回归是机器学习模型中最基础也最实用的一种方法,其原理主要是根据一个二分类或多分类问题而得到的函数公式。在多元回归基础上,对似然函数取对数后,对β求导数,列方程求β值,从而得出最终模型计算公式:
图1 建模流程
根据上述10 000 个样本数据,按照不同行业的标签分类,选取了3 个行业大类分别建模,包括批发零售业、制造业和其他行业,以批发与零售业为例,该行业好坏样本对比结果如表1所示。
表1 批发与零售业好坏样本对比
不同行业的好坏客户占比及分数区分呈现不同的特征,这说明以行业为标准筛选的数据符合要求,接下来笔者又对不同行业的模型结果表现进行了分析,3 个不同行业的KS(经分布检验)、AUC(曲线下面积检验)均达到了模型表现的要求,结果如表2 所示。
表2 不同行业数据对比
从整体的KS 表现(见图2)来看,整体KS 达到了0.453,满足数据统计的要求,该模型结果可以采用。
图2 整体KS 表现
根据上述机器学习模型结果,我们得出了不同行业的客户表现数据及评分模型结果,以此模型结果为核心,计算不同行业项下客户的准入分值,并在区分各行业不同周转率的情况下测算额度模型公式。不同行业准入分数及资金周转额度需求情况如表3 所示。
表3 不同行业准入分数及资金周转额度需求
风控模型的搭建是线上产品的核心和基础,但同时需配备产品流程设计、资金运营流程设计、反欺诈甄别、贷前贷中贷后管理等多渠道、多维度手段,本文仅以风控模型搭建为源头,暂不展开论述。
商业银行在开发线上产品的过程中,主要希望运用线上模式突破线下网点的限制,但由于模型专业人员不足且稳定性不强,从而采取服务外包或者阶段产品合同制模式,交由外部机构承接模型方面的各项工作,包括模型开发设计和迭代,但存在以下几个方面的问题:①服务外包模式仅为某个阶段的工作代办,一旦工作结束后,仍需要相关人员进行产品维护和迭代,而外包机构已撤出工作,无法及时跟进产品上线过程中出现的各项问题,也不能及时解决,若产品上线过程中的问题不能及时解决,则存在上线后逾期率过高或者其他意外事项,这不仅在时间上拖延了项目的开展进度,还增加了项目的开发成本;②外包机构一般为乙方服务类公司,所开发的产品并不能很好地与各家商业银行的产品定位和风险容忍度挂钩,与市面上同类型的产品存在很大的同质性,而线上产品的开发过程需要结合长期历史数据和各项产品定位进行开发,这在一定程度上无法实现各家银行的不同业务目标;③目前在监管上对第三方服务机构的权责机制并不完善,一旦外包模式产生风险,大都由各家银行自行承担,这在一定程度上加大了各家银行的风险。综上,各家银行应结合自身情况建立自有独立的模型团队,培养自有专业技术开发人员,这样不仅能保证产品顺利上线,还能提高产品的市场竞争力,防范外包风险。
目前,各家银行的数字化转型工作正在开展过程中,存在的问题包括数据资源的收集不足、数据的加工和使用需进一步完善、数据的积累和保管需加强支持。建议其做好以下几点:①做好数据的采集工作。数据采集是开发线上产品的第一步,也是关键的一步,各家银行开发线上融资产品不仅需要掌握模型所需的企业、企业主数据以及三方验证的数据源,还需要人行征信等数据,在引入数据的过程中,大数据部门需切实做好数据的落地存储工作,确保数据的真实性和有效性,以便客户在申请过程中能真实调用外部数据源,做好企业或企业主的身份识别和验证工作。②做好数据存储和加工。目前,各家银行均建立了大数据部门,对于数据存储工作越发重视,但在实际操作过程中仍存在基础工作不扎实、海量数据存储空间小、批量数据获取功能弱的问题,这主要是由于各银行的资源匹配不及时、数据处理更新慢等,因此需加强资源的匹配,确保大数据的质量可控有效。③做好数据挖掘、处理等工作。鉴于线上产品的特殊性,银行面临欺诈、攻击等风险,因此对更新迭代的要求很高,产品上线后需及时更新迭代,结合市场风险和申请人群特征及时更新产品性能,不断打磨数据,做好模型的更新迭代工作[5]。
小微线上产品对市场的变化要反应迅速,并能更好地贴近申请客群的变化,这就要求模型上线后进一步加强模型管理工作。①模型工作需要梳理一整套管理流程,包括模型开发、上线、迭代、监控等流程管理,设置管理目标和监控指标。根据行业内的监控标准和业务目标,一般来说,设置模型上线的标准为AUC 检验达到75、KS 检验达到40(根据实际情况可调整),上线后的监控指标选择逾期率和不良率等指标进行筛选。②模型人员必须与指定项目挂钩,针对不同的项目配备专业的模型监控和迭代人员,定期披露业务目标和风险数据,确保项目风险在可控范围内,如果风险数据超出预警值或存在其他不可控风险,应及时上报管理层。③做好模型监测工作。产品上线过程中,需满足必要的测试条件方可上线,上线后需及时监测,确保各项监控指标合理合规,评价不同产品有效的指标主要是上线后的逾期率和不良率,根据逾期不良数据定期通报产品风险,并根据不良数据及时更新模型,确保产品上线后的风险可控。