关于征信行业评分产品问题思考与管理建议

2021-01-03 19:18张强
科技信息·学术版 2021年35期
关键词:数据概念模型

张强

摘要:当前国内征信行业的数据评分产品领域存在着产品质量良莠不齐,产品标准不统一、概念混淆等问题。本文从评分产品全流程(数据采集、数仓建模、机器学习、数据评分产品应用)来探讨此问题产生的原因,并给出一定的管理建议。整体上目前存在着核心信贷数据采集不到位,数仓建模不成体系,机器学习模型过于泛滥等问题。建议回归征信的本质,加强制度建设,同时发放多张征信牌照,引入市场化机制推动问题的解决。

关键词:数据,概念,模型,制度

笔者从2015年一直在征信行业数据评分领域工作,见证了国内征信行业评分产品的发展。当前征信行业各种概念层出不穷,为了便于表述清晰,现將文中讨论的概念提前说明。

文中提到的征信行业评分既包括传统的信用评分,也包括传统信用评分的有效补充大数据评分,两者的定义如下:信用评分是基于对个人信用档案的等级分析的数字表达式,代表个人的信用度。信用评分主要基于信用报告,信息通常来源于信用局;大数据评分是一项基于云的服务,让消费者贷款机构通过使用大数据提高贷款质量和接受率。

数据评分产品的产生整体上分为数据采集、数据仓库(基于数据模型构建、实施数据仓库)、数据建模(机器学习模型)、数据产品等环节。

一、征信行业数据评分产品存在问题

1. 数据采集不到位

1)信用数据采集不全

一个良好的数据评分产品需要有覆盖率高、数据质量高的数据源作为支撑,否则数据评分产品的质量很难做好。过去数年,部分企业打着“互联网金融”、“助贷”名义,实际从事着信贷业务。相关信贷数据既不共享给央行旗下征信中心也不共享给个人征信持牌公司。导致市场上没有一家数据机构能够采集覆盖银行、消金、小贷、互金的信贷数据。这为数据评分产品带来了严重的质量问题,例如某人在一家机构逾期了几个月的贷款,但由于数据没有共享到央行征信中心,基于央行征信中心做的数据评分产品可能会显示用户信用良好。不能如实反映用户信用状况。

2)隐私保护不到位

由于无法准确采集到用户信贷数据,前些年国内对个人隐私保护相关法律制度不完善。市场上充斥了以大量机构以大数据评分名义,采集用户资产、金融账户、互联网访问行为等数据,部分机构在数据采集上边界做的不到位,导致大量采集用户隐私数据。征信行业数据评分本来应当以信贷数据为主,大数据为辅,隐私数据的广泛采集造成了“本末导致”,最终导致数据评分产品不稳定。

2. 数仓建模体系不完善

1)数仓建模缺乏理论与制度支撑

当前我国征信行业数仓建模更多的以数据驱动、应用驱动为主,例如能采集到哪些数据就先都采集过来,然后全部存储。应用端需要哪些变量,数仓端就需要无条件支撑。缺乏理论支撑会造成只顾短期利益,不顾长远需求。导致数据仓库不稳定,进而导致上层数据模型不稳定,数据产品质量不稳定。

2)数仓团队投入较少

数仓环节涉及数据质量,数据加工运转效率等数据产品必须的要素。但在当前国内环境,对数仓的投入,无论是人力、物力上都远远不到位。高水平人才也不愿从事默默无闻的岗位,导致国内数据仓库的质量良莠不齐。最终严重影响了数据产品的质量。

3. 机器学习模型泛滥

1)模型泛滥

一个好的征信行业评分产品需要有清晰明了的模型进行支撑,模型的本质要简明、扼要。但国内目前存在着为了模型而模型的问题,为了获取客户,各种包装模型。

2)不实宣传

国内存在着宣传不实的问题,例如宣称评分完全是基于行为数据产生,但背后数据源确涉及很多信贷类数据。宣称模型底层运用了数万维度变量,但实际上可能仅仅是几十维度。不实宣传为模型的监管带来了极大问题,也为应用场景的稳定性带来了极大的隐患。

二、征信行业数据评分产品问题产生的原因

改革开放40余年以来,伴随着市场经济的发展,征信行业也经历的从无到有,那么深刻的剖析征信行业数据评分产品种种问题产生的原因,将是我们做好评分产品的必要前提。

1. 制度缺失带来评分产品开发全流程效率问题

成熟的市场经济国家,例如美国有17部征信相关法案规范征信行业应该采集哪些数据,如何保护消费者隐私等。这些法案从制度层面规定了征信行业参与者的权利与义务。而我国由于征信行业刚刚起步,目前仅有《征信业务管理条》、《征信业务管理办法》,在制度的建设上我们还任重而道远。

制度缺失带来数据采集、数仓建模、机器学习模型、评分产品应用等多个环节的不规范。

2  概念理解偏差带来评分产品开发全流程冗余投入的问题

如果将一件事情做好分为规划和行动两方面的话,那么规划往往占据的比例要更高一些。而对概念的定义、理解在规划环节特别重要。如果概念理解错误,那么执行往往会跑偏。最终会产生行动环节与理想中的目标脱节严重,进而带来整体效率的偏低。

一个好的应用,最终是需要有强大的数仓模型和机器学习模型的支撑的。这样这个应用的生命周期会变成,才更容易形成长效机制。重机器学习模型,会导致过度的根据机器模型的短期效果或者有偏样本形成的效果来指导数据仓库的建设。这会导致数据仓库的重复建设、冗余建设,最后会带来整体链路的不稳定性。进而导致整体效益偏低。

例如,在当前征信评分、大数据评分领域,市场上可能充斥是几百种评分,应用的机器学习模型“五花八门”,对数据需求需要也是多种多样。最终的结果是数据仓库层不稳定,模型效果也不稳定。整体的效益自然是偏低。

我国《征信业管理条例》颁发多年,各个银行,各大互联网机构依然会从外部采购多种数据,多种评分产品来辅助风控,部分银行会与几十家合作伙伴合作,评分产品的迭代周期也特别快。而部分发达国家,银行只需采购1-2家的评分产品即可,且评分产品几年不用迭代。

3  短期利益考核评分产品开发的资源错配问题

1)短期利益考核带来监管套利

重机器学习模型,轻数仓模型。还会带来非常严重的监管套利。人们乐于引入稀奇古怪的概念来解决短期问题,但对长期问题、本质问题却关注不够。在当前我国计划经济与市场经济并行的机制下,大家借助机器学习模型进行监管套利,混淆视听。

例如在当前大数据评分领域,市场上大部分机构对外宣称使用的是大数据(行为类数据),但背后使用的确是信用类数据。这个整个监管带来极大的困难。

2)短期利益考核带来的整体效率低下

从数据的采集,到数仓模型的构建,再到机器学习模型的构建,最后到最终应用是一个整体。当前各个应用场景一般以最终应用需求驱动机器 学习模型的构建,进而是数仓模型的构建。重机器学习模型轻数仓模型会带来投入较大的人力、物力放在机器学习端,而较少的人力、物力放在数仓模型。最终导致机器学习模型特别复杂,甚至某些时候脱离实际生产。最终导致依据应用层模型需求重新开发数仓模型的复杂度和实施周期极高。最后会带来整体效率的大幅偏低。

三、征信行业评分产品改革的原则

1 制度上对全流程进行规范:

建立一套从数据采集、数仓模型到机器学习模型再到最终应用的行业标准及相关制度。行业从业人员根据行业标准和制度展开业务。成熟的市场经济国家有相关的制度来规定该采集哪些数据,数仓模型如何设计,机器学习模型(或类似)应当遵守哪些原则。相关法律条文可参考成熟的市场经济国家,同时结合我国具体国情。

2 满足本质需求原则

数据评分产品应该在不损害企业利益的基础上尽可能满足与企业相关的利益集团的真实需求,以便维持和发展这些利益集团对企业的贡献和支持。以征信行业为例,征信的本质就是为授信机构或投资人的决策提供信息参考,是授信人或投资人之间的一种信息分享机制。在实际展开业务时,我们应当牢牢抓住这个本质。

四、我国征信行业评分产品改进建议

对现行征信行业评分产品的变革,一定要解决好继承与发展的问题,要改革与数据应用环境不相适宜的部分,进一步与国际数据应用接轨。总的来说,对数据应用体系的改革应是一种扬弃,主要包括以下几个方面:

1进一步加强征信行业评分产品理论研究

为数据评分产品的管理的改进提供坚实的基础。从本质看,对理论的研究包含数据应用体系相关概念的定义,相关制度的理论支撑。相关概念的定义可由国家主管部门给出标准,定义需要用清晰、明了的语言做说明。概念定义好后,还需要在整个社会做出广泛的科普。

在制度層面,相关主管部门可广泛调研,结合我国国情,尽快的在细分领域推出法规制度。例如,在征信行业,各主要金融机构,需要长期、持续的做好征信相关概念的科普,让老百姓对概念有清晰的认知。

2 进一步加强现有制度的落地执行

在征信行业,国家已经出台部分制度,规定了采集哪些数据,如何高效应用,如何保护隐私等,但确保制度落地执行到位是重中之重。同时,在检查过程中需要重点检查部分企业执行中是否存在“监管套利”行为。

同时在执行层面,对底层劳动者要做到尊重。

参考文献

[1]郭瑛琰,张舒伦。对我国通用个人信用评分产品开发的思考与建议.《征信》,2014.

[2]袁浩洲。基于用户体验的互联网个人信用评分产品设计研究. 《华东理工大学》,2017.

猜你喜欢
数据概念模型
自制空间站模型
模型小览(二)
圆周运动与解题模型
公路工程试验检测存在的问题及措施
一种借助数据处理构建的智能食堂管理系统
浅谈计量自动化系统实现预购电管理应用
古代的时间概念
离散型随机变量分布列的两法则和三模型
深入概念,活学活用