黄英持+郑婷婷
【摘 要】为了研究运营商如何利用大数据的优势提高移动用户信用评估的科学性与准确性,基于熵值法和分类决策树模型,建立了移动用户信用评估模型,详细分析其实现原理,并给出实际应用场景。通过具体的应用,证明该模型能减少人工分析中更新计算公式的繁重工作量,高效、灵活、准确地完成用户信用预测评估工作,具有科学性和实用性。
信用评价 熵值法 分类决策树
1 引言
2015年1月5日,中国人民银行发布通知,允许8家机构进行个人征信业务,这被看作是个人征信体系即将向商业机构开放的信号,推动了各种互联网征信平台的蓬勃快速发展。在此之前,金融机构和民间团体主要通过央行个人征信报告来获取信息,但是对于蓝领工人、学生、个体户、自由职业者等用户,并没能建立个人信用记录,金融机构和民间团体了解这些用户信用记录的成本也比较高,可能无法对这些用户的信用风险进行准确的判断。
现有的互联网征信平台依托互联网产生的海量数据,有巨大的价值,虽然也无法覆盖到个人用户的方方面面,也存在一些盲点,但相比互联网企业,移动运营商所拥有的数据资源是互联网征信平台先天缺失的,移动运营商在征信业务上有其独特的、不可取代的优势,充分利用移动运营商拥有的优质数据建立个人信用记录,并与其他征信平台合作整合,既能挖掘移动运营商的资产潜力,也能顺应信息时代的发展潮流。
本文将立足于利用运营商大数据的优势提高移动用户信用评估科学性、准确性的思想,基于熵值法和分类决策数模型,提出移动用户信用评估方法与模型。
2 信用评估方法的历史和现状
信用评估方法大致经历了3个阶段[1-2]:专家打分法、公式法、规则引擎计算法。
专家打分法由专家根据经验对每个离散指标值赋予指定的分数、每个指标赋予权重,然后综合计算得出最终得分。专家打分法是最原始的評估方式,目前在一些特殊场景仍然使用这种方式,比如积分入户、贷款审核等。
公式法是最简单普及的信用评估方式,目前依然被广泛使用。公式法由专家意见结合实际的业务运营经验制定出评估公式,计算机根据用户的指标值可以直接计算出相应的信用得分。但随着业务复杂度的增加和指标的膨胀,单一的公式法也体现出了明显的局限性,无法适应业务需求,因此越来越多的系统采用规则引擎来实现。
规则引擎可以动态定义复杂的规则,在不同情况下采用不同的公式和参数计算。规则引擎法可以看作是加强版的公式法,但是仍然有许多局限性。这种方法计算方式更灵活,但是参数和公式仍然是预先拟定的,当业务情况发生变化时,仍然需要手动调整计算公式和规则、参数。
通过大数据进行评估预测[3-5],是信用评估方法未来的方向,采用机器学习算法是基于大数据进行训练学习的,其过程如图1所示。采用机器学习算法可以使训练、预测评估、反馈形成闭环,计算公式由大数据训练产生,过程更加科学,只要定期运行训练算法、更新模型就能应对业务情况的变化。
本文基于机器学习的信用评估方法,构建了信用评估的分类决策树模型,该模型能提高信用评估的效率与准确性,现已应用于信用评估系统,能通过Web Service返回评估结果。
3 移动用户信用评价方法
信用评价模型采用决策树分类算法和决策树回归算法进行预测[5-9]。决策树模型首先必须有满足一定数量和质量的样本训练集进行训练,形成决策树模型,然后在运营过程中持续扩大训练样本,达到较高的准确度。具体步骤如下:
采用专家打分法结合熵值法估算样本的评价取值;
对样本进行训练,形成决策树和回归树模型;
使用测试样本对模型进行验证;
使用模型预测用户信用等级和评价。
3.1 生成样本数据集
从移动公司数据部大数据平台可获取特定指标体系模型的样本数据,本文采集样本为50 000笔数据,其中40 000笔用于训练数据集,10 000笔用于模型验证。样本的分布必须满足对指标取值范围的有效覆盖,因此,提取样本数据后必须验证样本中指标值的范围。比如在用户类型中包括:钻石卡、金卡、银卡、VIP卡、普通用户,每个值必须有接近实际比例的数量,其他指标集同理。
3.2 估算样本信用
传统的估算方法一般使用专家法或者公式法。原始的专家打分法工作量太大,且专家打分主观性随意性和波动性无法保证,而公式法的主观性也较强[6,10],因此本文采用专家打分法结合熵值法进行估算。具体步骤如下:
对参与估算的指标进行归一标准化处理;
使用熵值法计算每个维度下面指标的权重;
使用专家打分法赋予维度权重;
使用指标权重和维度权重计算出信用得分;
根据信用得分赋予等级。
(1)指标归一标准化
特征指标按类型可划分为连续变量和离散变量。变量必须经过归一标准化处理后才能进行样本集的信用积分和等级计算;对于离散变量,只有有序类型的指标才能参与计算。有序类型的指标由专家给出评分标准,如表1所示:
(2)计算维度指标权重
维度指标的权重计算采用熵值法。熵值法的基本思路是求出指标的熵,然后根据指标熵的冗余度求权重。熵值法的意义在于指标聚集度越高,则权重应该越低,防止计算出的结果区分度太低。假设有一个指标,绝大比例的样本的得分均在区间[0.8, 0.9]中,则该指标的区分意义不大,权重应该降低。
计算维度指标i的熵采用的公式如下:
(3)
(4)
其中,hi是维度指标i的熵;样本数量为n;k的计算公式为:
(5)
维度总共m个指标,第i个指标的权重计算公式为:
≤wi≤ (6)
由以上公式可获得指标体系中五个维度下指标的权重。
(3)赋予维度权重
维度的权重属于专家决策或者运营者决策的范畴,因此,维度权重di由专家打分法赋予,如表2所示:
表2 专家打分法赋予的维度权重
维度 身份特征 行为特征 信用历史 账户状况 人脉特征
权重 0.15 0.2 0.2 0.3 0.15
(4)计算样本信用得分和等级
经过上述步骤,可获得指标归一化标准分、维度指标权重、维度权重,则可以计算用户的信用得分和信用等级。
设维度权重为di,维度指标权重为wi,样本指标标准分为p,则:
维度得分公式为:
(7)
样本信用得分公式为:
(8)
至此可得到每个样本的信用得分。虽然对所有指标直接赋予权重也可以计算样本得分,但是显然使用熵值法更加科学准确,区分度更高。
3.3 构建分类决策树模型
在训练样本中,除了采集原始的数据集外,还有一个通过计算出来的信用等级的指标,称为决策指标。本文采用C4.5算法构建决策树,首先将这个集合看成一个节点,然后选择合适的属性进行分裂。当判断符合条件时,分裂结束,构建决策树完成。
(1)选择分裂属性
C4.5算法在选择分裂属性时,选择属性熵增益率较高的优先分裂。熵是用于衡量集合有序性(或者说“纯度”)的一个度量。熵的增益率较高表明采用这个属性分裂能最大限度提高整体的纯度。
熵的计算公式是:
(9)
其中,Entropy(s)是集合s的熵,pi是属性的不同性。比如一个集合有10个样本,其中3个信用等级为2、5个信用等级为3、2个等级为4,则集合的不同性分别为3/10、5/10、2/10,而集合的熵为:
Entropy(s)=-3/10×log2(3/10)-1/2×log2(1/2)-
1/5×log2(1/5) (10)
熵的增益计算公式为:
(11)
其中,V(A)是属性A的值域,S是样本集合,Sv是S在属性A上值等于v的样本集合。
熵的增益率公式为:
(12)
其中:
(13)
其中,S1到Sc是c个值的属性A分割S而形成的c个样例子集。
使用增益比率代替增益来选择属性,会产生一个实际问题:当某个Si接近S时,分母可能为0或非常小。如果某个属性对于S的所有样例有几乎同样的值,这时要么导致增益比率未定义,要么是增益比率非常大。为了避免选择这种属性,可以采用这样一些启发式规则,比如先计算每个属性的增益,然后仅对那些增益高过平均值的属性应用增益比率测试(Quinlan 1986)。
(2)分裂节点
对于连续变量类型的指标,先对指标值进行排序,然后按定义bin的值,根据比例划分成n份Sample,计算每份Sample的均值,选取相邻两个Sample均值的中间点作为切分点分裂。
对于离散变量,则分为两种情况:当属性值属于有序变量时,直接按照属离散属性,每个属性分裂成一个bin;当属性变量属于无序变量时,则遍历所有的分裂组合,选择熵的增益最小的分裂方式。
(3)分裂结束
重复以上过程,对每个属性进行分裂,直到完成构建决策树。判断分裂是否结束的条件有:树的高度是否达到最大值、样本数量是否达到最小值、信息增益是否小于未分裂状态。当分裂结束时,返回到该叶子节点中决策指标中比例最大的值。
(4)验证模型
完成构建决策树模型之后,对测量数据集进行预测,然后比较预测准确率,可以了解模型的预测准确率。实践中,该模型经过训练后,准确率超过80%,具备一定的实用性。随着后续运营中数据的持续积累和反复增量训练,预计该模型的准确性和实用性会持续提高。
4 移动用户信用评估模型应用
移动用户信用评估模型的应用流程如图2所示。信用评估系统从基础数据模块采集待评估用户的基础数据,经分析整理后计算熵值,构建决策树模型进行评估。如果用户对于授信平台的评估结果有异议,可以向平台提出核对申请,由平台人工审核校正,人工矫正的数据可以作为下一轮训练数据。外部平台通过授信接口获得移动用户信用以后,作为用戶消费额度授信的基础参考数据。
授信平台信用接口模块通过Web Service向外部提供信用查询能力,移动用户可通过公众号、第三方平台等方式获取自己的信用状况,如图3所示:
5 结束语
本文建立了基于熵值法和决策树的用户信用评估模型,并充分利用了运营商的大数据优势,使用该模型实现了用户信用的预测评估。该模型应用于移动用户信用评估系统,可以高效、灵活、准确地完成用户信用的预测评估工作,减少了人工分析及更新的繁重工作量,具有科学性和实用性。
参考文献:
[1] 赵静娴. 基于决策树的信用风险评估方法研究[D]. 天津: 天津大学, 2009.
[2] 郭仌,梁世栋,方兆本. 消费者信用评估分析综述[J]. 系统工程, 2001(6): 9-15.
[3] 申华. 基于数据挖掘的个人信用评分模型开发[D]. 厦门: 厦门大学, 2009.
[4] 葛继科,赵永进,王振华,等. 数据挖掘技术在个人信用评估模型中的应用[J]. 计算机技术与发展, 2006(12): 172-174.
[5] 张丽娟,李舟军. 分类方法的新发展:研究综述[J]. 计算机科学, 2006(10): 11-15.
[6] 金剑,林成德. 基于混合型专家系统的资信评估系统模型设计与实现[J]. 计算机应用, 2003(4): 81-83.
[7] 王刚,韩立岩. 基于信息熵和回归分析的信用风险评估研究[J]. 运筹与管理, 2003(5): 94-98.
[8] 叶中行,余敏杰. 基于遗传算法和分类树的信用分类方法[J]. 系统工程学报, 2006(4): 424-428.
[9] 李旭升,郭耀煌. 基于贝叶斯网络分类的个人信用评估模型[J]. 统计与决策, 2006(20): 13-15.
[10] 田博,覃正. 电子商务中的信用模型研究[J]. 情报杂志, 2007,26(4): 42-44.