大数据风控在银行零售信贷领域的应用研究

2022-07-11 00:04殷浩伦宋泽昊
辽宁经济 2022年5期

殷浩伦 宋泽昊

〔内容提要〕随着银行的数字化转型不断深入,零售信贷风控由传统的线下人工审核逐步转为批量线上智能化管理。本文首先分析了大数据风控在银行零售信贷业务贷前、贷中、贷后等业务流程中的应用表现,然后指出了大数据风控应用过程中在数据来源、IT基础设施、人才建设等方面存在的问题,最后针对以上问题给出了相关建议,期待银行业的发展更加精准化、差异化、智能化。

〔关键词〕大数据风控 零售信贷 评分模型 风控策略

近年来受经济增速放缓、监管政策趋严以及新冠疫情等因素影响,银行业的发展受到了巨大挑战,但是随着人工智能、云计算与区块链技术的快速发展,银行加快了数字化转型的步伐,显著增强了在长尾客户的盈利能力,极大丰富了信贷业务的产品体系和应用场景,逐步实现了业务驱动与风险管控的智能升级。目前,具备一定科技实力的国有银行以及一些积极布局科技创新领域的中小银行,在大数据风控方面已经做了一些积极探索,这些举措虽然在银行数字化转型中还存在诸多问题,但依然促进了我国银行业的数字化转型。

信贷业务是银行最核心的资产业务,也是银行最主要的利润来源,将大数据风控技术应用在零售信贷领域主要是指银行通过采集行内客户数据、人民银行征信数据以及其他外部机构数据,利用逻辑回归、决策树、神经网络等算法,生成应用于贷前、贷中、贷后等场景的一系列评分模型,结合风控目标制定客户准入、额度管理、价格制定等管理策略,最终实现客户从准入到退出的全生命周期管理的线上化、精准化和智能化。从数据分析到模型设计、再到策略制定,都是围绕业务目标展开的。

数据是大数据风控的基石,银行信贷业涉及的数据可以分为行内数据和外部数据两类,行内数据包括客户在本行的基本信息、交易数据、还款数据、逾期数据等,外部数据包括人行征信数据以及银行从其他第三方获取的包括但不限于社保、纳税、消费、资产等信息。

模型是大数据风控的核心,银行在数据分析的基础上根据业务目标,通过分析各种风险要素对违约率的影响程度,运用合适的模型算法,最终形成风险评分。评分模型在建立时可选用线性回归法、逻辑回归法、决策树和神经网络等多种方法,但实务中应用最广泛的是逻辑回归法。这是因为逻辑回归算法对数据量要求较低、操作相对简单,模型效果较好,同时其具备的可解释性还能满足监管机构关于内部评级模型的透明度要求。

策略是大数据风控的关键,银行为了实现业务目标,可以根据评分模型区分贷款业务的风险程度并设置相应的管理规则,包括客户准入、额度调整、风险预警等内容,减少了人工干预带来的误差,从而实现对客户的自动化管理。

(一)大数据风控在贷前管理的应用

大数据风控贷前管理是指银行通过客户申请数据、征信数据以及外部数据,对申请贷款的客户进行分析,在此基础上建立申请评分模型,识别出存在较大信用风险的客户并拒绝其贷款申请,同时对审批通过客户进行授信管理和风险定价的管理过程。

1.贷前数据

零售信贷业务放贷前银行所能收集到的客户信息包括申请信息、登录信息、渠道信息、人行征信信息以及从其他渠道获取的黑名单等信息,其中对建模来说具有重要意义的主要是人行征信信息,银行通过查询个人征信报告对客户的每一项数据进行清洗、加工和处理,并建立专门的数据库将有效信息保存下来供建模使用。

2.申请评分模型

评分卡是以分数的形式来衡量风险几率的一种手段,是对未来一段时间内违约/逾期/失联概率的预测。基于统计模型建立的评分卡可以更准确地预测风险,并减少因非客观判断造成失误的风险。根据零售信贷生命周期的不同阶段,最常见的评分卡包括申请、行为、催收等评分卡,他们分别应用于贷前、贷中和贷后等业务场景。

申请评分模型是银行基于申请客户数据样本专门建立的模型,通过分析各种风险要素对违约率的影响程度,最终形成风险评分。评分模型的建立过程中,首先要对采集到的原始数据进行分析,然后再对经过筛选的变量采用一定的方法进行建模,之后对模型的准确性、稳定性和可解释性进行验证评估,并不断优化。

3.贷前策略

由评分模型建立的评分卡技术可广泛应用于银行零售业务的贷前申请审批、授信额度确定、利率定价等环节,根据风险策略的不同,银行可以在评分卡系统中设定不同的临界值,根据评分所处的临界值区间自动作出审批决策。同时,如果行内针对黑名单设置规则,则直接拒绝;如果针对优质客户设置绿色通道,则直接通过审批。

对于审核通过的客户,银行会制定相应的额度策略和利率定价策略。通常情况下,银行会综合考虑客户的信用状况、收益预期、对银行的贡献等因素,原则上客户评分越低,风险越高,授信额度越低,定价越高;客户评分越高,风险越低,授信额度越高,定价越低,整个策略制定过程坚持风险与收益对等原则。

(二)大数据风控在贷中管理的应用

大数据风控贷中管理是根据现有客户的行为数据,如消费、交易、还款、逾期等信息,利用合适的算法模型,对客户风险进行精准把控,最终实现贷中客户风险实时、动态管理的目标。

1.贷中数据

零售信贷业务贷中管理银行需要收集的数据主要是客户行为类数据,可以從行内和行外两种渠道进行收集。行内数据侧重于客户在本行的行为数据,例如客户的消费、交易、还款、逾期等行为积累的数据,但这些数据并不能完整反映客户的实际风险,这时候就需要引入外部数据,如客户在其他机构的消费数据、借贷数据、资产数据等,这些信息综合起来可以较好地刻画出客户的行为风险,为贷中风险策略的制定提供数据支撑。

2.行为评分模型

行为评分模型是银行基于客户行为数据样本专门建立的模型,其建模流程同申请评分模型一致。在数据分析阶段,首先对行内及外部数据进行提取,对数据分布进行初步分析,筛选出可供使用的有效数据;然后进行模型设计,比如排除哪些行内客户,对好/坏客户进行定义,对观察期和表现期进行界定等;下一步进行特征分析,在现有初级行为数据的基础上进行衍生设计,由此增加数据的表现力,比如对客户逾期金额取最大值、最小值、均值、中位数等以判断逾期的严重性,再结合衍生特征的分布情况、有效性进行筛选;接下来进行模型开发,通过抽取合适的建模样本利用逻辑回归、决策树、神经网络等算法进行模型训练,对参数进行优化直至模型区分好坏客户的能力达到相应水平;最后对模型有效性进行验证,为防止模型发生偏移,最好使用时间外样本进行验证,也可以利用之前建立的相关模型进行交叉验证,以评价模型的适用性。

3.贷中策略

信贷业务贷中风险管理应用最广泛的是信用卡业务使用场景,银行根据客户行为评分及其他风险收益状况,制定相应的额度调整策略和利率调整策略,使得客户的授信额度和利率定价能够精准匹配客户的风险状况。

此外,银行可以根据客户的行为变化,结合不同场景,制定相应的预警规则,如根据客户频繁更换手机号、住址及工作等信息预测客户稳定性,根据客户逾期信息判断客户还款能力是否恶化等,风险预警规则的设置有助于银行尽早发现风险客户并及时采取相应的管控措施。

(三)大数据风控在贷后管理的应用

借款人到期不能或不愿偿还借款而形成的逾期贷款是影响银行经营业绩和风险管控的重要因素,因此银行必须采用一些措施来有效催收逾期贷款。将大数据技术应用在贷后管理,可以构建催收模型,根据模型评分设置不同规则将催收模式精细化,对客户实施差异化催收策略。

1.贷后数据

零售信贷业务贷后管理所需要的数据主要是还款及逾期数据,如逾期状态、金额、次数、还款率等,这些数据真实反映了客户的信用状态,利用这些数据构建模型可以帮助银行实现催收管理的标准化与精细化。

2.催收评分模型

催收评分模型通过评估客户催收难度、逾期金额、账龄等多维度信息建立评分系统,对债务还款可能性进行综合评估。催收评分模型的构建流程与申请评分卡和行为评分卡的构建流程基本一致,需要注意的是,针对催收客户建立的催收评分模型是系统按月自动采集评分指标进行评分,然后给出评分结果,而申请评分模型是在申请时采集信息,行为评分是定期采集信息,但是采集周期比催收评分要长,这是因为进入催收阶段的客户风险较高,需要加大监控频率来反映风险的变化。

3.贷后策略

以大数据为驱动构建的智能催收策略,可以根据催收评分系统结合催收人员能力制定合理的分单策略,实现对案件的合理化分配,提升催收效果。通过设置友好自动拨号,对于高频、简单的催收案件,采用试触式轮循拨打,减少人工操作,缩短拨打间隔,有效提升催收效率。

任何事物的发展都有两面性,大数据风控在为银行精细化管理带来便利的同时,也带来了一些挑战,主要体现在以下方面。

(一)数据来源问题

数据是模型建立的原材料,是大数据风控的基础,但是面对14亿人口的庞大群体,首先很难做到全面覆盖,其次难以保证数据质量,再者涉及到个人隐私,同时可能存在非法交易。

1.数据不全面

从覆盖面来说,我国人口众多,存在大量征信空白人口,这些人群首次申请贷款时,因为数据缺失很难对其风险进行判定;从数据结构来说,部分人群的部分数据项存在缺失,在建模时可能导致具有较强区分能力的特征无法入模,从而降低模型的准确性。

2.隐私受侵犯

在数据采集过程中,会涉及客户的联系方式、学历信息、资产信息、职业信息等,这些数据通常要进行脱敏处理,但是由于客户数据广泛存在于各类客户端上,数据来源众多,一些不当操作可能会暴露客户隐私。

3.质量难保证

随着互联网的发展,大量客户端可能记载了客户的消费、行为、资产等各种信息,由于外部数据渠道范围广,各类信息可能存在不一致甚至冲突的情况,数据质量良莠不齐可能会严重影响建模效果。

4.可能存在非法交易

由于数据安全管理不到位,市场上出现了高价买卖个人信息的行为,造成了暴力催收事件,给当事人和社会带来了严重的负面影响,2018年以来,国家加大了对数据安全的管控,一定程度上降低了非法交易个人数据带来的恶劣影响。

(二)银行业IT基础设施不完善

一套严谨的风控体系运行依赖于完善的IT系统支持,目前我国国有大型及股份制银行IT架构相对成熟,但是地方性中小银行及农商行IT基础薄弱,数据治理水平有待提高,难以实现数字化独立管理。具体表现为,没有全行范围内的统一产品目录;不同系统间客户标识、客户分类存在不一致的情况;客户划分不统一,存在错误的分类结果,导致分类结果不可靠,无法用于准确地监管资本计量;上报数据缺失和不完整情况较为严重,依靠手工补录的方式完成,操作风险极大。

客户数据不一致会导致无法实现真正的客户统一视图,严重影响以客户为中心的战略目标得以落实;内部经营管理数据不完整导致无法实现精细化管理的需求,甚至使暗箱操作成为可能,给银行稳定运营带来极大隐患;风险类数据分类不准确导致监管资本、经济资产计算结果不可靠,甚至多占资本,影响资本精细化管理水平。

(三)模型更迭依赖更多专业化人才

模型的建立不是一成不变的,随着时间的推移,客户的行为习惯会发生变化,依托于历史数据构建的模型将会发生偏移,这就需要定期对模型的有效性进行验证,一旦发现模型效果出现下降就意味着模型区分好坏客户的能力在降低,可能会拒绝好客户的授信申请而提高坏客户的审批通过率,这将给银行带来巨大损失,因此应当在模型能力下降时对模型进行更迭,例如,某些特征对好坏客户的区分能力下降就需要更换更具区分度的变量,模型算法的局限性导致海量数据处理效果不佳则应尝试改变更优的算法。模型区分能力降低的原因是多种多样的,它依赖于专业人员的专业判断及解决方案,但是银行目前专业的建模人员并不多,模型建立大多依靠外包第三方来解决,导致模型后期更迭维护可能会出现问题。

(一)建立完善的征信体系

针对数据不完整、隐私受侵犯、质量难保证等难题,央行已搭建二代征信系统,在原有征信数据的基础上积极引入社会安全管理部门、公共事业单位等更多主体,这些主体的参与丰富了二代征信内容,建立起国家级信用信息共享机制,缓解了金融交易中信息不对称问题。

在此基础上,央行应该积极引入更多市场化主体,如非银金融机构,将更多信贷数据纳入征信体系,完善个人信贷信息,全面反映个人完整借贷情况;同时,应当适当降低征信数据使用成本,对于中小银行来说,由于自身数据较为匮乏,风控数据非常依赖人民银行征信数据,而对于贷中贷后风险管理来说,需要频繁使用征信数据,如果查询成本过高会增加银行成本。

(二)完善银行IT基础设施建设,加强数据治理

稳定的IT基础设施是保障大数据风控模型和策略实施的基础,针对数据标准不一致问题,应当建立统一的数据标准,确保相关数据的分类与执行保持一致,需要注意的是,数据治理应当覆盖数据的整个生命周期,同时与管理模式、风险状况和业务规模相适应,推动数据真实、准确、客观地反映出资产的真实风险。

(三)引进大数据人才,建立数据化管理团队

当前银行的大数据风险管理主要依赖于外部第三方机构,仅有部分人员牵头负责具体项目的实施。银行数字化转型离不开数字化人才,首先银行应当在管理层建立起数字化管理的先进理念,在实施层面,银行一方面可以通過外部引进大数据相关人才,也可以从当前业务团队挑选合适的人员进行转型培养,建立起覆盖数据分析、模型建立、策略实施等板块,贯通贷前、贷中、贷后等业务流程的数字化人才团队。

虽然我国银行业的数字化发展目前还存在一些问题,但在随着市场的逐步成熟、监管机制的不断完善以及银行自主转型不断深化,银行业的发展将会更精准化、差异化、智能化。

(作者单位:1.河南财经政法大学统计与大数据学院;2.河南财经政法大学统计与大数据学院)