大数据背景下商业银行个人信用评估体系构建

2022-08-04 13:28戴蓓蓓
经济研究导刊 2022年20期
关键词:降维个人信用维度

戴蓓蓓

(淮北师范大学信息学院,安徽淮北 235000)

商业银行在我国金融体系中的地位十分重要,是社会资本运转的枢纽之一。信贷业务是商业银行最重要的资产业务。当前,宏观经济与国内外形势复杂多变,金融科技在传统金融领域持续开疆破土,导致商业银行利润空间不断受到挤压。而积极开拓以消费信贷为代表的个人业务是商业银行经营转型的有效途径。

受新冠肺炎疫情影响,我国经济出现系统性停滞,企业及个人还款能力下降且信贷需求提升。因此,高效准确地识别信贷客户资质,平衡信用评估中的信息不对称,对降低银行坏账率、提升银行风控水平显得尤为重要。其中,识别个人客户信贷风险的基础是信用特征体系的构建。商业银行传统信用指标体系的构建主要是围绕客户财务数据,大数据背景下多源信息的覆盖能更全面反映客户信用特征。

一、研究现状

相比欧美发达国家,我国针对个人信用指标体系的研究较晚。传统指标体系的选取主要围绕个人基本信息、财务数据、信贷历史三个维度展开,从而评估客户的偿债能力及偿债意愿。黄儒靖(2004)提出从资产存量、信用历史、偿债能力三方面构建个人信用评估体系。方先明(2005)使用聚类算法选取指标。这些指标数据之间关联度高、耦合性强,但信用数据来源单一,只能片面反映个人信贷客户的真实信用情况,且审慎的态度也可能拒绝信用良好但缺乏征信历史的客户。

随着大数据技术在多场景下的成功应用,用户消费、社交等行为数据被收集记录,围绕客户的数据量和数据维度呈现爆炸式增长。学者们重点探究大数据基础上的多来源数据,尤其是软信息对用户信用评估及风险预测精确度的提升。王正位(2020)对信贷人的消费行为数据在信用评估中的作用展开实证研究,发现消费行为数据能高效弥补传统征信记录不足的弊端,从而提升征信历史信息不足人群的风险识别效果。黄益平(2021)利用大数据风控模型进行实证分析,结果表明,样本量及信息时效性提高有助于提升预测违约准确率。

但大数据信用评估体系的构建也存在诸多问题,主要体现在海量数据采集及评估结果的可解释性方面。相对于商业银行传统信用评估指标体系,大数据征信从多平台、广角度收集用户不同场景下的支付、消费、浏览历史等信息,缺乏信息隐私保护下统一的数据收集标准,数据量大但稀疏性强,且以非结构化数据为主。此外,大数据征信更依赖KVM、随机森林等在内的机器学习模型,训练后高度拟合数据的机器学习模型的黑盒机制缺乏对评估结果的有力解释。

二、大数据背景下商业银行个人信用评估的数据源

指标体系和所选模型决定信用评估效果。在商业银行传统信用评估体系中,个人指标特征的选取主要围绕客户基本静态信息、财务指标和信贷历史展开,特征维度有限。以UCI 平台上可以公开获取的“German Credit Dataset”真实信息为例,每条记录描述借款人20个属性信息,包括性别、年龄、从业年限、职位、信用卡等变量。数据维度主要覆盖贷款人基本情况、财务信息等方面,以及个人偿债能力强关联,能部分映射贷款人信用状况。

大数据技术的飞速发展变革了数据处理模式,“互联网+”影响着人们的消费及生活习惯。人们在互联网上留下众多行为痕迹,多维海量碎片化数据的积累可以刻画用户心理及行为特征,间接反映贷款人还款能力及还款意愿。基于商业银行视角,大数据背景下数据来源也更为广泛,主要包括以下三方面。(1)以资金为核心的基本业务(存、贷等)办理中所获取的数据。主要覆盖银行传统信用评估中涉及的特征维度。(2)获得以银行卡为交易接口的外部线上、线下消费数据。一般情况下,第三方支付平台并不将交易明细回传商业银行,但若采取合作方式接入二级商户,仍可捕捉客户消费类别及消费倾向等外部消费信息,比如“外卖”、“出行”等。(3)获取外部合作数据。相比以阿里为代表的金融科技企业,商业银行在掌握用户核心经济数据上具有绝对优势,但在用户网络交易、社交行为数据获取上乏善可陈。基于战略合作及资源交换,商业银行和金融科技企业就各自核心资源展开数据合作,但受制于各自利益最大化的内在追求,尽管商业银行从金融科技企业所获信贷客户软信息有限,却仍可通过与其他相关数据耦合捕获客户的部分浏览习惯、支付偏好等非传统信贷信息。

三、大数据背景下商业银行个人信用评估指标体系构建

大数据背景下,商业银行个人信用评估数据来源广泛、松散。本人将上述多来源数据按照以下原则构建商业银行个人信用评价指标体系。(1)全面性。基于现有研究,除与信用强关联的财务指标外,客户消费偏好、行为习惯、人脉信息等弱关联数据能有效弥补信用缺失客户的额外信息。(2)灵活性。指标选取应具有灵活调整的动态性,能满足信贷申请人的多场景需求,适应银行所处宏观环境的变迁。且灵活性较强的信用特征体现较好的时效性。相比时间维度跨越较大、信息更新较慢的历史信贷数据,新鲜动态的信用指标能更弹性地反映借款人的还款能力及还款意愿。(3)客观性。构建指标体系以数据的可获得性为基础,且需符合国家政策法规。数据来源真实可靠、客观公正,保证信用评估体系的完整和稳定。

基于以上原则,以商业银行传统信用评估指标体系为基础,综合大科技信贷风控经验,提出具有六个维度的一级信用评估特征类别,分别为用户基本属性、用户财务能力、用户信贷历史、用户交易特征、用户行为偏好及用户社交关系。(1)用户基本静态信息。包括信贷人年龄、性别、籍贯等静态特征,主要来自用户申请银行存贷、理财等相关服务时提交的个人基本资料。(2)用户财务能力。包括信贷人的收入、房产车辆信息、所持银行金融资产等直接反应客户还款能力的财务指标。(3)用户信贷及抵押历史。包括来自银行内部及央行征信获取的信贷人历史信用数据,信用卡、房贷、车贷等负债还款、逾期等情况,可以较为直接地衡量信贷人的还款意愿。(4)用户交易特征。包括银行内部及外部的用户消费行为数据。内部交易数据主要体现在购买商业银行金融产品所记录的信息,比如消费金额、时间、频次等内容。外部交易数据主要来自第三方平台的接口数据回传,比如消费类别、金额、支付渠道等内容。(5)用户行为偏好。包括线上线下消费倾向、商品浏览历史、社交网站行为数据等内容,主要来自资源合作下金融科技公司提供的电商及社交媒体数据,也来自其他渠道获取的用户行为信息。(6)用户社交关系。包括社交网站行为数据、人际关系网络等内容,主要来自资源合作下金融科技公司提供的电商及社交媒体数据,也来自其他渠道获取的用户行为信息。

四、降维个人信用评估指标

客户的偿债能力和偿债意愿是商业银行授信的依据,也是信用评估和风险预测的最终目的。上述六大特征维度从不同角度表达借款人的还款能力及意愿,但维度信息表达强弱不同。用户财务能力、信贷历史来自银行大量原始业务数据,价值密度高,对用户信用评估的表达力最强。用户交易特征、用户行为偏好、用户社交关系主要来自用户线上行为大数据搜集,价值密度低、直观解释性差,对借款人信用评估的数据表达力相对较弱。且每项特征维度下又包含多项二级或三级指标,数据维度间存在高耦合信息,过多的冗余增加了高维数据处理的难度和复杂度。

考虑指标可解释力及后续信用评估模型选择,在保证数据来源尽可能全面的基础上,对特征指标进行维度压缩。剔除六大特征维度下对信用评估数据表现较差的子类指标,实现对原始变量的降维处理,提升商业银行个人信用评估准确性,降低数据处理负担,缓解“维度灾难”和模型过拟合问题。降维的本质是重构原始高维空间特征指标,将其映射至低维空间。依据数据结构、样本信息等不同视角,对特征指标有不同降维处理方式。为提高数据处理和使用效率,结合大数据本身数据结构类型多样化特性,针对不同结构的数据采取不同的降维处理方式。

大数据背景下商业银行个人信用评估数据来源渠道广泛,聚焦信贷人偿债能力的传统经济指标一般以静态数据为主,可以采用主成分分析法进行降维。主成分分析法属于无监督方法,是将原始特征进行线性组合,构建少数新变量,实现指标数据降维。新产生的主成分因子保留尽可能多的原始信息,并避免原始信息的重复。在主成分分析法中,新构建的主成分因子可以表达为:

其中,x,x,…,x为原始数据特征指标值,Z,Z,…,Z是原始变量线性组合得到的主成分因子,其通过正交变换将贡献度低的变量舍弃掉,在指标降维的同时具有较好的信息解释力。

除商业银行等传统静态经济指标,社交、电商等线上平台记录用户动态使用痕迹,比如支付订单、消费偏好、浏览黏性等,数据量庞大冗余,多为个人信用评估间接衡量数据,记录真实可靠,样本覆盖面广,信息价值密度低。考虑线上平台大数据处理效能,可以采用随机森林进行降维处理。随机森林是基于Bagging 方法的集成学习模型,由多个彼此之间没有关联的决策树构成。其在训练决策树模型时,通过抽取方式获得多个样本,在每个样本集上分别训练。在对特征指标进行降维时,统计每个特征的分裂属性,找到能保留最大信息量的特征子集。

通过对商业银行个人信用评估指标降维处理,压缩各特征变量下所构建的二级或三级指标,剔除信息贡献度低的数据,且尽可能多地保留原始数据所蕴含的价值。在保证个人信用评估准确性的同时,压缩数据处理的时间复杂度,提升数据处理效能。

结语

个人信用风险的有效预测和管控,对商业银行降低违约风险具有举足轻重的意义。传统商业银行个人信用风险评估指标体系主要以客户财务指标为核心,数据源较为单一,对缺乏信用记录的客户并不友好。信用评估方法是动态发展的过程,随着大数据和机器学习技术的成熟,包括社交数据在内的多维数据源能更加全面、精准、动态地衡量客户资质和还款能力。本文在大数据背景下构建商业银行个人信用评估六大指标维度,依据不同维度数据表征不同,采用主成分分析和机器学习的组合方法开展降维处理,能够充分弥补传统信用评估中数据来源单一、指标信息解释弱的缺陷。

猜你喜欢
降维个人信用维度
如何促进我国综合交通运输高质量发展
——基于FSO框架的分析
老城新活力潮流新维度
理解“第三次理论飞跃”的三个维度
基于数据降维与聚类的车联网数据分析应用
新版个人信用报告即将上线拖欠生活费用将影响个人信用
幼儿教师专业成长的三个维度
论完善我国个人信用制度
个人信用云平台
导数在几何中的“降维”作用
几种降维算法的研究及应用