基于数据仓库的消费金融信用等级模型及应用研究

2021-01-29 22:20西安大略大学韩佩轩

商展经济 2021年15期

西安大略大学韩佩轩

1 消费金融客户数据仓库及其私有云体系结构

1.1 消费金融大数据整体框架

信息技术发展速度不断加快，消费金融能够获得更加精准的金融数据，同时数据量逐渐增多，在进行金融数据处理的过程中以及对有关数据分析的时候过程比较繁琐，需要耗费大量的时间。所以，在数据处理过程中如果依然运用传统的技术，是很难满足需求的[1]。建立消费金融大数据整体框架，对数据信息进行存储、处理，并做好统计工作。

1.2 消费金融大数据平台架构设计

1.2.1 系统功能模块

数据仓库架构，主要为六个模块，具体介绍如下：

其一，数据采集模块主要的功能是对原始数据进行采集，并在数仓中存储。

其二，消息队列模块是缓冲队列，其接收上游生产者传输的数据信息，向下游消费者传输[2]。

其三，数据预处理模块，用于预处理消费消息队列中的缓冲数据，经过流处理模块计算之后存储在实时数仓中。

其四，实时数仓，可以提供实时数据查询。

其五，非实时数仓，对于T+1时间的数据统计、数据分析以及数据查询服务予以提供。

其六，数据接口平台，将数据查询接口提供给各业务系统。

1.3 消费金融大数据平台数据管理

1.3.1 数据抽取

其一，抽取结构化数据。通过sqoop，可以将生产数据库中的所有库存数据导入HIVE，通过canal将每天增加的数据伪装成MySQL的从端，利用主数据库中的binlog进行查询，实时读取的时候，向Kafka队列中写入数据，而且还要实时更新数据传输到开源数据库中，开源数据库所发挥的作用是每天将数据定期抽取到HIVE中。

其二，抽取非结构化数据。非结构化数据是与结构化数据相对应的，即为视频信息、图片信息等，都不是由数字表达数据信息。这些数据都在RDB中统一存储，将结构化数据导入数据库，媒体文件数据存储在文件系统中。利用字符识别技术将非结构化数据转换成文本，提取出来，并在数据库中存储。

其三，抽取埋点日志。对客户行为日志用Kafka缓冲，Web前端和后端使生产者将数据写入到指定的Topic[3]。

1.3.2 数据转换及处理

将数据维度模型建立起来，对于分析需求快速完成，且响应性能得以发挥。在维度建模的时候，对决策的需求进行分析，构建数据模型，为分析需求提供服务。通过分析模型，将维度表建立起来，通过整合数据，搜集个人基础信息，建立客户信息表。

2 消费金融客户信用等级模型的构建

2.1 消费金融客户信用等级细分模型

2.1.1 k-means聚类算法

k-Means算法，是聚类数量经过定义固定之后，将记录迭代向聚类分配，并对聚类中心进行调整，在模型没有建立之前，其是作为一种无监督的学习机制存在的。该算法的特点是输入字段需要一个或多个字段，可以输出的信息为多个，能够快速集聚大型数据。

2.1.2 模型建立

本文应用K均值聚类算法建立了消费金融客户信用评级细分模型。具体采用如下的设计方法：

其一，在样本数据的选取上，合理选择客户数据主要用于细分消费信贷的信用等级。

其二，对数据信息分类处理中，可以根据消费信贷行为划分为两个群体，即有消费行为的客户群体和无消费行为的客户群体[4]。

其三，在处理数据的过程中，基于有消费信贷行为的客户对数据进行处理。

2.2 消费金融客户信用等级概率预测模型

2.2.1 算法介绍

其一，决策树算法。决策树是一种预测模型，是一种层次二叉树结构。树中的每个内部节点为单个变量指定一个替代测试。对于实值和整数值变量，使用阈值，对于属性数据，使用成员子集[5]。每个数据从树的根沿着唯一的路径向下到一个叶节点，变量在每个内部节点的选择测试结果中确定具体的路径。每个叶节点为最可能的叶分类指定类标签。

其二，逻辑回归算法。在线性回归中，样本点设置在空间中的直线上或直线附近，自变量和因变量可以用线性函数表示，从而阐明它们之间所存在的对应关系。然而，在某些应用中，既可以用曲线来表示变量之间所存在的关系，也可以用非线性函数来表达这些关系。这个时候的计算依然是用最小二乘法，但参与回归的时候则是以变量函数的形式。典型的是非线性回归中，因变量是一个随机变量，只有0和1两个值。自变量通过线性组合影响因变量的期望，获得回归模型[6]。

其三，随机森林算法。由于消费者信用评级的概率模型为分类模型，所以模型比较多，可以根据需要选择。比较常用的模型是决策树、logistic回归以及随机森林等算法。

2.2.2 模型评价指标

回归算法的评价参数主要包括精确率、召回率和 F1分数。

其一，精确率。模型预测是正，而且实际是正的样本数量/模型预测是正的样本数量，计算的时候使用TP/(TP+FP)。精确率就是通过预测所获得的结果，主要的作用是预测为正的样本中对的一共是多少。

其二，召回率。模型预测为正和实际为正的样本数/模型预测为正的样本数，TP/(TP+FP)是用于计算的公式。将召回率与原始样本进行比较，表示样本中有多少正面的样本，以及有多少被预测的样本是正确的[7]。

其三，F1分数。该分数就是精确率与召回率的调和平均数，计算所采用的公式：

F1分数=2×精确率×召回率/(精确率+召回率)

2.3 基于迁移学习的小样本解决方案

2.3.1 生成式对抗网络算法

采用迁移学习法可以通过现象对问题的共性把握，并能熟练地处理新问题。生成式对抗网络算法即为GAN算法，这是一种新的机器学习思想。在这个模型中，参与者有两个，一个是生成模型，另一个是判别模型，其中的生成模型重在捕获样本数据的分布，生成的样本与实际训练数据相似，其中为了生成与真实训练数据相似的样本，越接近真实样本越好。所谓的“判别模型”是一个双分类器，根据训练数据的概率对样本进行估计。如果样本的数据是通过真实的训练获得的，就可以断定其为输出大概率；如果样本的数据不是通过真实的训练获得的，就可以断定其为输出小概率。生成式对抗网络算法的主要目的是对发生器的输出情况做出判断[8]。

2.3.2 模型建立

其一，选择数据。如果在真实样本中发现有数据选取样本不足的问题，需要过滤掉客户数据字段，对消费者信用等级进一步细分。

其二，处理数据。在处理缺失值的时候，需要按照当前类型比例对分类变量的缺失值信息进行随机化填充，如果在宽表处理之前连续性变量的缺失值已经处理了，则缺失的时候都默认赋值为0。

对异常值和极值进行替换，使其成为最接近极值的值。例如，如果离群值定义为高于或低于三个标准差的任何值，则所有离群值都将替换为该范围内的最高或最低值[8]。

其三，迭代次数的设置。将总的迭代次数和一次训练迭代的操作是固定发生器，对鉴别器进行K次训练，使鉴别器逼近最优鉴别器，然后固定鉴别器，对发生器进行一次优化训练。执行训练循环，直到达到总迭代次数n。

3 基于信用等级模型的客户群体分类与预测

3.1 变量分析

对2019年5月至2020年5月的客户数据实施模型训练，以产品的所有业务数据作为样本，客户的逾期率可以达到1.1%，不良率可以达到0.6%。从客户的属性来看，主要包括个人基本信息、信用行为信息、第三方外部信息。与客户相关的变量为233个，对变量进行分析，对客户的区分度进行分析。

3.2 消费金融客户信用等级细分模型实验结果

基于sparkML框架，使用scalar程序将K-means模型进行设计。聚类数目由2个增加到10个，调整聚类数目后，选择最优聚类数目。如果簇的数目是第一次迭代为3，此时的模型就是最优的[9]。

比如，群体一，是2046人，在人群总数中所占有的比例是9%，平均授信是180000元，平均年龄是40岁，要比整体客户的平均年龄要高一些。

群体二，是17050人，在人群总数中所占有的比例是75%，这个群体的年龄分布比较广泛，授信额度的分布也是比较大的。

群体三，是3602人，在人群总数中所占有的比例是16%，这个群体的年龄是37岁。

对第二组进一步细分。风险客户群主要包括拒绝客户。日利率为0.000666，群体一的授信额度较高，被称为“高授信客户群”。第三组群体风险较大，称为“风险客户群”，第二组称为“大众客户群”。之前有过授信额而且有过借款，但此后就调整了授信。

如果按照客户的生命周期对大客户群进行分类，可以进一步细分为一个独立的群体，具有很大的战略价值。大众年轻客户年龄在19岁到30岁之间；大众不断增长的客户年龄在31至38岁之间；顾客的年龄介于39岁到46岁之间。

3.3 消费金融客户信用等级概率预测模型实验结果

进行训练的时候按照决策树模型、逻辑回归模型和随机森林模型，模型评价指标按照精确率、召回率、F1分数等，结果表明，随机森林模型的结果比较高，模型准确率高于90%，预测效果非常好。

4 结语

通过上面的研究可以明确，研究互联网消费金融等级模型，根据时间选择合适的模型分析风险控制是非常必要的。在本文的研究中，基于消费金融客户数据仓库及其私有云体系结构，构建消费金融客户信用等级模型，对客户群体进行分类并预测，提出做好风险评估的重要性，为信用风险管理研究提供依据。