动态异质集成信用评分模型在P2P网络借贷中的应用

2018-12-10 10:25刘传哲马达亮夏雨霏

金融发展研究 2018年9期

刘传哲马达亮夏雨霏

摘要：本文借鉴了传统信用评分方法，提出了适用于P2P网络借贷环境的动态异质集成分类模型DSHE。该模型能够实现对冗余特征变量的筛选，具有一定的高维数据处理能力；其异质集成结构与动态筛选策略能够实现基础模型权重的自适应调整，从而提高信用评估性能。使用UCI数据库中的数据和网贷真实数据进行实证分析，结果表明，异质集成模型整体表现较优；DSHE模型在预测准确率上表现突出，在4个评价指标下的平均秩优于Logistic回归等对比模型。

关键词：信用评分；动态异质集成；P2P网络借贷

中图分类号：F832 文献标识码：B 文章编号：1674-2265（2018）09-0024-08

DOI：10.19647/j.cnki.37-1462/f.2018.09.004

一、引言

P2P网络借贷是指资金供需双方通过互联网平台实现的直接借贷，是互联网金融的重要组成部分。但是，P2P网络借贷的坏账率远高于同期商业银行的平均水平，信用风险不容小觑：由于其在线交易、陌生人交易和缺乏抵押品的特点，P2P网络借贷的投资决策常依赖于非标准化的、未经验证的软信息；出借人多不具备专业知识，所做的投资决策常为非理性的，且无充足资金构建投资组合以分散风险。因此，急需开发一套适用于P2P网络借贷环境的准确、易操作的信用评分系统来识别信用风险，协助投资者做出理性的决策。

信用风险的研究具有较高的理论与应用价值，一直是学术界的热点。信用评分可实现对违约概率的预测，是识别和管理信用风险的重要工具。很多研究关注传统金融领域的客户信用评分问题，涌现出大量建模方法。近年来，集成模型尤为受到关注：根据偏差—方差均衡理论，集成分类模型可通过融合多个基础分类模型提高其预测结果的方差，从而实现降低预测误差的目的。如吴冲和夏晗（2008）、肖进等（2015）等学者提出的集成支持向量机信用评分模型；West等（2005）、Tsai等（2008）提出的集成神经网络的信用风险评估模型。尽管这些集成模型取得了不错的效果，但是从结构上看，大多数为同质集成模型，即仅集成了一种分类模型，根据“没有免费午餐理论”，这可能对模型的外推性和泛化能力产生不良影响；从集成方法上看，大多数模型使用了简单的静态集成方法，如多数投票法、Dempster-Shafer等方法，未能充分考虑样本特征对集成模型进行自适应调整。另外，当前对P2P网络借贷的信用评分关注还不多。一些研究对P2P网络借贷的信用评分系统进行了探索，比较有代表性的是Guo等（2016）基于核方法度量P2P网络借贷的信用风险、Emekter等（2015）的Logistic回归模型、Malekipirbazari 和 Aksakalli（2015）的随机森林信用评分模型、傅彦铭等（2014）的支持向量机模型。但总体而言，这些模型以单一模型为主，结构比较简单且预测精度尚有待提高。有鉴于此，有必要借鉴传统金融领域的信用评分模型，并结合P2P网络借贷特点，构建适应于P2P网络借贷环境的信用评分模型。在传统金融领域，Visentini等（2016）提出使用F分数对信用评分模型中的基础模型进行动态筛选；Alaraj和Abbod（2016）提出了一种基于议会系统的异质集成信用评分模型。

本文借鉴先前信用评分的研究，并充分考虑P2P网络借贷的特点，提出了动态选择异质集成模型（Dynamic Selective Heterogeneous Ensemble Model， DSHE）。相较于先前模型，本文提出的DSHE模型的创新点主要体现在以下几个方面：第一，DSHE是一种异质集成模型，引入了多个常用的数据挖掘分类算法，扩展了监督学习的假设空间，从而提高了模型的泛化能力和对不同数据集的预测能力，而当前应用至信用评分领域的异质集成模型还较少，且相较于刘大洪等（2013）提出的动态模糊聚类信用评分模型，DSHE模型采用的是有监督学习的集成分类方法，而非无监督学习的聚类方法，二者建模思想上存在较大差别。第二，DSHE使用AUC-H指标对基础模型进行筛选，可依据测试样本的特征自动调整基础模型的决策权重，实现有选择性的集成，从而进一步提高模型的性能，而当前研究多使用F分数或准确率进行筛选。第三，该模型充分考虑了P2P网络借贷中的冗余变量问题，在模型中包含了变量筛选算法，可删除高维度的P2P网络借贷信用数据中的冗余变量，提高模型的运算速度和精度。更为重要的是，实验结果表明，在多个信用数据集中，该模型的表现优于当前的主流信用评估模型。

二、动态选择异质集成模型

（一）基本思想

当前实证研究所使用的数据集多来自加州大学欧文分校提出的用于机器学习的UCI数据库，这些数据集中特征变量数通常少于20个，且样本数在1000个以下；而本文所关注的P2P网络借贷领域具有高维度、高噪声、复杂性等特点，比如当前全球最大的P2P网络借贷平台Lending Club的公开交易记录中具有55维特征变量且样本数众多，连续变量与离散变量混杂。本文提出的DSHE模型旨在根据P2P网络借贷的信用数据特点，构建适合的信用评分模型。

假设Dtrain与Dtest分别为信用评分问题中的训练集和测试集。信用评分的目标是将测试集中的每个样本分成违约与非违约两类。DSHE的构建共包含三个阶段（见图1）。

第一阶段为变量筛选阶段。原始数据集中的冗余特征变量会增加模型训练时间、降低预测精度，本阶段通过变量选择算法筛选出具有代表性的特征變量子集[D*train]用于训练基础模型。

第二阶段为建立基础模型池。考虑到不同分类模型在处理不同类型数据、噪声敏感性和多样性上存在差异，本文使用异质集成结构，即引入三种主流数据挖掘信用评分模型——支持向量机（SVM）、多层感知器神经网络（MLP）和决策树（DT）建模。为进一步提高集成分类模型的多样性，引入了Bagging算法对[D*train]重复抽样，并逐个构建基础模型组成基础池，然后针对测试集Dtest中第i个样本输出预测分类和概率（ci，pi）。

第三阶段对基础分类模型池进行筛选、组合。对于Dtest中的每一个样本xj，在[D*train]中寻找xj的近邻作为验证集Dvalid，然后以模型在检验集中的表现为依据对基础模型池中每个模型赋予权重，对检验集预测较为准确的模型会被赋予较高的权重，反之则赋予较低的权重。最后通过加权多数投票的方式得到分类的最终结果。

需要注意的是，DSHE获得的验证集越贴近测试集，理论上基于验证集调整的各基础模型权重对测试集样本预测精度的提高越明显。特别是当样本数量较大时，在训练集中可以寻找到与测试集更为相近的样本。因此该方法一定程度上克服了Nascimento等（2014）提出的动态筛选方法的不足，更加适用于P2P网络借贷信用评分这种样本数量多的情况。

（二）变量筛选

变量筛选有助于降低数据集维度，提高模型运行效率。变量筛选的目标主要为两个：第一，保留与结果变量高度相关的特征；第二，删除冗余变量。因此该问题通常可视为优化问题，即保留与结果变量高度相关的特征的同时，尽可能降低特征间的相关性。DSHE引入遗传算法求解该优化问题。将特征变量的非空子集视为遗传算法中相互竞争的个体，每个个体具有k个基因的二元染色体，每个基因对应代表原始数据集中的特征变量。若某基因位点数值为1，则表示其被选中组成子集用于构建基础模型。初始种群确定后，按照适应度函数计算适应值，并通过选择、交叉、变异等算子形成新的群体并记录适应值，经多次迭代后在满足预先设定的停止规则后输出最优解。DSHE模型采取了基于相关系数的適应度函数作为该遗传算法的优化规则。适应度函数如式（1）所示：

[fλ=kλ×rλ，cfkλ+kλkλ-1rλ，if] （1）

其中[λ]表示第[λ]个特征变量子集，[kλ]表示子集中特征变量数量。式（1）越大，则说明该特征变量子集越优。[rλ，cf]代表该子集与结果变量的平均相关系数，而[rλ，if]表示子集中各变量间的平均相关系数。[rλ，cf]与[rλ，if]指标由Symmetrical Uncertainty（SU）度量。SU是一种基于信息理论的相关性度量方法，其计算如下：

[SUX，Y=IGX|YHX+H（Y）] （2）

其中[IGX|Y]表示观察到Y后对X的信息增益，[HX]与[H（Y）]分别表示X与Y的信息熵。SU值范围为[0，1]，1表示两变量完全相关，0则表示相互独立。根据SU定义分别计算[rλ，cf]与[rλ，if]。值得注意的是，式（1）的分子表示该子集的预测能力，而分母则衡量了子集中变量的冗余程度。与结果变量相关度低或与子集中其他特征高度相关的变量会使适应度函数值变小而被排除。因此，式（1）同步实现了变量筛选保留预测变量和删除冗余变量的目标。经筛选后的最优特征训练子集[D*train]被用于下一阶段的基础模型池训练。

（三）基础模型池构建

为使基础模型池更具多样性，DSHE模型使用Bagging方法对训练集[D*train]进行了重复抽样：从具有N个样本的[D*train]中随机有放回抽取N个样本组成训练子集Dtrain并用其训练基础模型，如此往复进行k次随机抽样。本文的基础模型池中包含三类常用于信用评分领域的分类模型，包括多层感知器神经网络、决策树和支持向量机。接下来对这三类分类模型进行简要描述。

MLP作为最常见的神经网络之一，其核心思想是将输入/输出的映射问题转化为非线性优化问题，其一般由输入层、隐含层和输出层等三层组成，每层各包含若干个节点，每层节点与邻层节点相互连接，而同层节点之间没有连接。当数据输入神经网络后，由输入层经由隐含层向输出层传播，随后按照网络实际输出与期望输出间的均方误差（MSE）进行反向传播，根据梯度下降算法经多次迭代修正网络权值，以实现MSE的最小化。神经网络具有较强的泛化能力和模式识别优势，较符合信用风险分类这一特点。

DT是一种基于信息理论建立的由上到下的树状结构，由一系列结点和分支组成。决策树的构建本质上是一个依据特定规则对数据的拆分过程：每个结点对应一个特征变量，结点延伸出的分支对应按该结点对应特征变量的临界值拆分出的样本集。理想情况下，分支对应的样本应属于同一类别。使用决策树进行决策的过程就是从根结点开始，测试待分类项中相应的特征属性，属性选择常基于信息增益（ID3算法）和信息增益率（C4.5算法），然后按照其值选择输出分支，直到到达叶子结点，将叶子结点存放的类别作为决策结果。决策树具有较强的可读性和描述性，与信用评分的特点较为吻合。

SVM是基于结构风险最小化建立的机器学习方法，其基本思想是将低维线性不可分的训练集按照映射函数投射至更高维度使其线性可分，从而找到一个最优分类超平面区分输入样本。SVM结构简单、推广能力强，在处理非线性及高维度模式识别中具有优势，因此在信用评分领域得到广泛应用。

令Bagging次数为k，使用Bagging方法对训练集[D*train]重复抽样获得的训练子集被分别用上述三类方法构建分类模型，共训练[C1，C2，???，C3k]，共计3k个模型作为基础模型池以备下阶段模型筛选，并对测试集Dtest中的样本进行预测，输出分类矩阵[ctest]及样本非违约的概率矩阵[ptest]。

（四）模型动态筛选

DSHE模型使用一种基于遗传算法的筛选准则对构建的基础模型池进行筛选，其基本思路是从基础模型池中挑选恰当的子集，对每一基础模型测试集预测结果的权重进行自适应调整。为实现上述过程，模型首先从训练集[D*train]中逐个寻找与测试集Dtest中每个样本最为相似的样本。经过特征变量选择阶段，训练集中特征变量间的相关性已经比较低，本文使用欧式距离衡量用作样本间相似性的度量，n维向量[xi]和[xj]的欧氏距离定义为：

[Dxi，xj=l=1n（xil-xjl）2] （3）

通过式（3）从训练集中找到与测试集中最为相近的样本组成验证集Dvalid，使用基础模型池中的所有模型对Dvalid进行预测。对于Dvalid中的任意样本[si]，输出分类结果[cvalidi=ci|C1，ci|C2，???，ci|C3kT]与样本非违约的可信度：

[pvalidi=Pci=1C1，Pci=1C2，???，P（ci=1）|C3kT]

（4）

为实现对基础分类模型[Cii=1，2，…，3k]的筛选，本文引入第二个遗传算法以对每个基础模型池赋予恰当的权重。先前研究多基于基础模型预测结果的多样性指标修剪模型，常用的指标有Yule Q 统计量、Kohavi-Wolpert方差、Kuncheva熵等，但是上述指标经常会对同一组分类器的多样性度量产生分歧。而基于精度的筛选是另一种思路，Visentini等（2016）比较了精度和多样性的筛选规则，并提出一种基于F分数的模型修剪方法。本文提出一种基于精度指标AUC-H的筛选规则，AUC-H指标由Hand（2009）提出，修正了传统AUC指标受模型可信度输出分布的影响导致的结果缺乏可比性的弊病，本文使用该指标作为基础模型池的筛选准则。

令[AUCH（*）]为给定一组可信度和实际类别后的AUC-H值，给定[pvalidi]，使用遗传算法寻找基础模型池中各模型的最优权重[w*]，遗传算法适应度函数为

[fs=argmax[AUCHpvalidi×w*]] （5）

求得[w*]后，对输出分类矩阵[ctest]及样本非违约的概率矩阵[ptest]进行加权处理，DSHE模型对验证集中任一样本[xi]的最终预测结果为：

[cxi=1，pxi=ptest×w*≥0.5-1，pxi=ptest×w*<0.5] （6）

三、实证分析

为验证DSHE模型对P2P网络借贷信用评分性能，本文选用美国P2P网络借贷平台Lending Club和中国平台人人贷的真实交易记录作为原始数据集；另外为验证模型的普适性，本文也引入UCI数据库中的经典信用评分数据集German进行实证分析。同时，将DSHE模型同以下几种常见的信用评分模型进行比较、验证。这些常用信用评分模型包括朴素贝叶斯（na?ve Bayesian，NB）、K近邻（KNN）、Logistic回归（LR）、MLP、DT和RBF核支持向量机等单一分类模型以及MLP-bagging、DT-bagging、SVM-bagging、随机森林（Random Forest，RF）、AdaBoost和LogitBoost等同质集成分类模型以及基于三种不同筛选策略的异质集成分类模型：多数投票、局部类别精度（Local Class Accuracy，LCA）、总体精度（Total Accuracy）。

（一）数据集描述

German数据集是UCI数据库中著名的信用数据集，常被用于构建信用评分模型，实现模型间的横向比较。该数据集共包含24个属性变量和1个类别变量，共包含1000个样本，类别变量将全体样本划分为good和bad两类，分别由1和-1表示，其中good样本有700个，bad样本有300个。

Lending Club的数据可从其网站下载。原始数据集共包含55维属性变量和1个类别变量。去除难以量化或与信用评分无关的变量，如借款描述、借款人地区、政策编码等，剩余14个特征变量。变量说明见表1。本文从2014年1月和2月发生的交易中各抽取2642个具有还款结果（类别变量为全部还清或发生违约，分别由1和-1表示）的样本组成的数据集。数据集中非违约貸款有1322个，违约贷款1320个。

人人贷数据集由Spider爬虫软件抓取，获得人人贷平台2015年1月间的交易记录，共包含借款人年龄、教育水平、平台评级等在内的14个特征变量，样本数共计2842个，其中非违约贷款有2144个，违约贷款有698个。

所有特征变量在进行投入模型前均实施[0，1]标准化以消除量纲影响。需要说明的是，上述数据集均不存在缺失值。

（二）实验设置

实验首先应确定Bagging的实施次数，Paleologo 等（2010）发现抽样次数定为20—50次会获取较好的分类效果。本文设置Bagging次数为50，即各构建50个SVM、MLP和DT模型，共构建150个基础分类模型。

三类分类算法——SVM、MLP和DT的参数设置参考Nascimento等（2014）的研究。SVM使用径向基函数核，成本参数C以及RBF核宽度γ使用网格搜索法寻优；MLP设置隐含层数为1，隐含层节点数按照公式“隐含层节点数=2[×]输入层节点数+1”设置；DT则使用C4.5算法，置信值设置为0.25。

为客观检验DSHE模型与上述信用评分模型的评估性能，本文采用十折交叉检验，即将全体样本随机十等分，每次取其中一份作为测试集，其他作为训练集，如此循环10次。为使实验结果更加稳定，本文对每个模型共进行30次十折交叉检验并取平均数作为该模型的表现。本文的实验基于Matlab R2015a和Weka 3.6.12实现。

（三）评价准则

为实现各模型间评估性能的比较，本文使用下列4种评价指标：准确率（AR）、第一类错误率（Error I）、第二类错误率（Error II）和AUC-H。指标具体的计算公式引入混淆矩阵进行说明。

表3为标准的二分类混淆矩阵，TP、FP、FN、TN分别表示预测结果与实际结果的4种情况。其中，

表3：混淆矩阵示意图

[预测结果

实际结果正类负类正类（信用好） TP FN TP+FN 负类（信用差） FP TN FP+TN TP+FP FN+TN TP+FP+FN+TN ]

[AR=TP+FNTP+FP+FN+TN] （6）

[Error I=FPFP+TN] （7）

[Error II=FNTP+FN] （8）

Hand（2009）指出传统的AUC假设不同分类模型的误分类成本不同，但实际上该成本取决于分类问题本身而非模型，因此提出了改进的AUC-H指标。该指标使用[β]分布，修正了不同分类模型误分类成本的不同，使指标更加可信。

针对不同的指标和数据集，模型间往往互有优劣。由于分类模型间的比较会违背参数检验的假设，本文引入非参数的Friedman检验，利用秩检验多个总体分布是否存在显著差异。Friedman检验的统计量值表示如下：

[χ2F=12DK（K+1）k=1KAvR2j-K（K+1）24] （9）

其中[AvR2j=1Di=1Drji]，D为数据集个数，K是分类模型个数，[rji]表示第j个模型在第i个数据集上的平均排序。当Friedman检验的零假设被拒绝后，可实施post-hoc检验，用于确认分类模型间的总体分布差异是否显著。本文使用post-hoc检验中的Nemenyi检验。该检验认为如果两个分类模型的平均排名大于某一临界值CD则存在显著差别。CD的计算如式（10）所示：

[CD=qα，∞，kK（K+1）12D] （10）

其中[qα，∞，k]值大小基于t统计量。为将本文提出的DSHE模型与其他基准模型比较，本文对CD进行Bonferroni-Dunn修正。

（四）结果分析

表4给出了DSHE模型与其他对比模型在German数据集、Lending Club数据集和人人贷数据集上的性能，表中的粗体字表示每一列对应的最佳表现。根据模型在各评价指标上的表现由好至坏排序，分别赋予1，2，…，16，最后通过对每个模型对应的序值取平均，即可得到平均秩。从中可以得出：

1. 对于单一分类模型而言，LR的表现优于其他统计学方法和SVM、MLP、DT等数据挖掘方法，这与Lessmann等（2015）、晏艳阳和蒋恒波（2010）的研究结果是一致的。LR取得了最低的平均秩且错误率较为平衡。加之LR易于操作，使得其在当今信用评分领域仍占据一席之地；而朴素贝叶斯和K近邻的表现较差，这是因为这两个模型较容易过拟合。

2. 在同质集成模型中，比较单一模型及应用Bagging方法构建的集成模型，发现MLP集成模型的精度提升较大，而SVM集成模型的提升较小，这也从侧面证明Bagging、Boosting等集成方法较适宜能够提供更高多样性的不稳定分类模型。随机森林在同质集成模型中表现最佳，Lessmann等（2015）也提出将随机森林作为新的信用评分模型的对照模型。

3. 异质集成模型的表现整体上优于单一分类模型和同质集成模型，简单的多数投票异质模型（HE-MV）就取得了相当可观的分类效果，包含行业标杆的LR和随机森林模型，这可能是由于不同类型的基础模型提供了不同的假设空间和搜索空间，从而增强了模型的泛化能力。这一结果为构建信用评分模型提供了新的思路，可继续探索异质集成信用评分模型。本文提出的DSHE模型是在HE-MV模型的基础上更进一步，在P2P网络借贷数据集和传统信用数据集均取得令人满意的效果，特别是AR和AUC-H两个指标，处于全体模型的前两位。而对于信用评分中比较关心的第一类错误，DSHE的表现也比较好，在集成分类模型中均处于前列，这也从侧面说明本文提出的基于AUC-H指标的动态筛选策略的有效性。

为更加清晰地分析各模型跨数据集和跨评价准则的表现，使用式（9）对表2中各模型性能使用非参数Friedman检验，得到[χ2F=65.875]，对应p值小于0.001，拒绝零假设，各模型的平均秩存在显著差异，进而实施Nemenyi检验比较DSHE是否与其他模型存在统计学上的显著差异进行具体分析，其结果如图2所示。

图2中横轴表示各模型，纵轴则表示模型在3个数据集、共计12个评价准则下的平均秩。平均秩越大，则表明该模型表现越差。其中DSHE模型具有最低的平均秩，说明其综合表现最优；针对其他模型而言，若高于对比线，则表明在该显著水平下其平均表现显著地劣于DSHE模型。在最为严格的p=0.01的水平下，DSHE的平均秩显著低于全体单一模型和除随机森林外的绝大部分同质集成模型，DSHE相较于当前的主流方法能够提供更佳的信用评估性能。而DSHE与大部分其他异质集成模型的表现在统计学上不存在显著差别，表明异质集成模型整体上取得令人满意的评估性能。

四、结论

建立准确且易操作的信用评分体系，对于P2P网络借贷的参与者而言具有十分重大的意义。本文借鉴了传统信用评分方法，特别地对P2P网络借贷的信用评分进行了研究，相比于相關集成信用评分模型研究，在结构和集成策略上进行了改进，提出了三阶段的动态异质集成信用评估模型DSHE，并使用UCI数据库中的数据集和P2P网络借贷的真实数据进行了实证分析，结果发现在3个数据集中DSHE的平均表现最佳，特别是在准确率和AUC-H指标上表现较为突出，其综合表现显著优于包括行业普遍使用的LR模型在内的大部分基准模型，从而为异质集成信用评分模型的建模提供了一个新的思路：在今后的信用评分模型的构建中，可充分考虑引入评估性能更具优势的异质集成模型，对P2P借款人信用情况做出更准确的预测。

参考文献：

[1]吴冲，夏晗.基于支持向量机集成的电子商务环境下客户信用评估模型研究[J].中国管理科学，2008，24（S1）.

[2]肖进，刘敦虎，顾新.银行客户信用评估动态分类器集成选择模型[J].管理科学学报，2015，17（3）.

[3]傅彦铭，臧敦刚，戚名钰.P2P网络贷款信用的风险评估[J].统计与决策，2014，29（21）.

[4]刘大洪，廖检文，陈柳洁.动态模糊聚类信用评价模型及其应用研究[J].企业导报，2013，19（16）.

[5]晏艳阳，蒋恒波.信用评分模型应用比较研究——基于个体工商户数据的检验[J].统计与信息论坛，2010， 25（5）.

[6]Guo Y，Zhou W，Luo C， et al. 2016. Instance-Based Credit Risk Assessment for Investment Decisions in P2P Lending[J].European Journal of Operational Research，249（2）.

[7]West D，Dellana S，Qian J. 2005. Neural network ensemble strategies for financial decision applications[J].Computers & operations research，32（10）.

[8]Tsai C-F，Wu J-W. 2008. Using neural network ensembles for bankruptcy prediction and credit scoring[J].Expert systems with applications，34（4）.

[9]Wolpert D H，Macready W G. 1997. No free lunch theorems for optimization[J].IEEE transactions on evolutionary computation，1（1）.

[10]Emekter R，Tu Y，Jirasakuldech B，et al. 2015. Evaluating credit risk and loan performance in online Peer-to-Peer （P2P） lending[J]. Applied Economics，47（1）.

[11]Malekipirbazari M，Aksakalli V. 2015. Risk assessment in social lending via random forests[J].Expert Systems with Applications，42（10）.

[12]Visentini I，Snidaro L，Foresti G L. 2016. Diversity-aware classifier ensemble selection via f-score[J].Information Fusion，28.

[13]Ala'raj M，Abbod M F. 2016. Classifiers consensus system approach for credit scoring[J].Knowledge-Based Systems，10.

[14]Nascimento D S，Coelho A L，Canuto A M. 2014. Integrating complementary techniques for promoting diversity in classifier ensembles： A systematic study[J].Neurocomputing，138（8）.

[15]Visentini I，Snidaro L，Foresti G L. 2016. Diversity-aware classifier ensemble selection via f-score[J].Info Infus， 28（3）.

[16]Hand D J. 2009. Measuring classifier performance： a coherent alternative to the area under the ROC curve[J]. Machine learning，77（1）.

[17]Paleologo G，Elisseeff A，Antonini G. 2010. Subagging for credit scoring models[J].European Journal of Operational Research，201（2）.

[18]Dem?ar J. 2006. Statistical comparisons of classifiers over multiple data sets[J].J Mach Learn Res，7（1）.

[19]Lessmann S，Baesens B，Seow H-V，et al. 2015. Benchmarking state-of-the-art classification algorithms for credit scoring： An update of research[J].European Journal of Operational Research，247（1）.

Abstract：Following the mechanism of traditional credit scoring methods，a novel dynamic selective heterogeneous ensemble（DSEH）model suitable to the application of P2P lending is proposed. The model provides a feature selection algorithm，which is able to filter redundant features and handle high-dimension data. The heterogeneous structure and dynamic selection strategy can adaptively adjust the weights of base models and thus，enhance the evaluation capability. UCI credit dataset and real dataset from two P2P lending platforms are used to validate the proposal. The results show that DSHE outperforms other mainstream credit scoring approaches in several measures. The average rank of proposed DSHE is superior to baseline models including logistic regression.

Key Words：credit scoring，dynamic selective heterogeneous ensemble model，P2P lending

（責任编辑耿欣；校对 LX，GX）