自动实时按揭风险早期预警模型的开发

2014-05-30 01:31蔡哲皓
中国外资·下半月 2014年4期
关键词:购房逻辑贷款

蔡哲皓

1 引言

近年来,中国的经济实力迅猛增长。然而,一些基本经济制度仍不完善,信用体系就是非常重要的一环。有资料说,在被称为“史上最严厉”的房地产调控中,我国温州房价不再继续疯涨,部分炒房者手中的房子开始贬值,有的温州投资者不但血本无归,甚至还欠上巨额债务,一些炒房者选择了违约甚至“跑路”。还有文章预测,房价开始下跌,坏账将一波一波袭来,然后进入恶性循环。

融机构面对日益激烈的竞争和不断增长的压力,为增加收益,他们需要寻求更有效的方式来吸引新的信誉良好的客户,并在同一时间,控制风险和损失。

因此,本课题的目的是开发一个自动和实时房贷风险模型以提供拖欠的早期预警。随着这种模式的实施,达到风险警戒线(如拖欠可能性为50%)的账户将被抽出来,显示在报告中,金融机构可以早期采取适当措施,防止损失。

本模型运用统计手段能够高效准确地筛查出绝大部分的违约人群,及时给贷款部门提出预警 。

2 方法

2.1 数据

本文用于模型开发和验证的数据来源为某金融机构2005年至2010年数万条客户贷款数据。每年的数据包括客户贷款申请数据和客户表现数据。贷款申请数据包含的变量有信用评分,是否是首次购房者,职业状况,贷款与价值比率,债务与收入比率,利率,贷款用途,贷款期限等。客户表现数据包含的变量有贷款拖欠状况,贷款期限,现行利率,等等共35个。

另外,2005至2010年宏观经济指数如GDP,失业率,居民消费价格指数,通货膨胀指数等也用于预测拖欠。

2.2原理

2.2.1 逻辑回归模型的开发原理

逻辑回归是一种统计模型,它针对因变量是二分变量(即是=1;否=0),而自变量可以是分类的或连续的,用于预测离散结果。

本文以拖欠状况作为因变量开发逻辑回归模型(如果该帐户付款已逾期超过30天,它被认为是拖欠= 1,否则拖欠=0)。自变量包括客户贷款申请和表现数据中所包含的若干变量。

逻辑回归模型可用下列公式表示:

其中P值是直接的拖欠可能性(概率),1-P是不拖欠的概率。ln(P/1-P)是拖欠可能性的logit(即事件发生比的自然对数)而不是直接的拖欠可能性P。 β0是常数, β1到βN是回归系数,X 1到X n是自变量,即为贷款申请数据包含的自变量和客户表现数据包含的变量。βN系数表示了拖欠可能性的ln(P/1-P)和自变量的线性关系,通过计算 ln( P/1-P)可推算出拖欠的概率P。 开发本预测模型所用的统计分析软件是SAS 9.2版,逐步回归添加变量分析。在这项研究中 p值(P value)< 0.05才可添加新变量。

得到逻辑回归模型公式后,把建模数据带进模型,得到结果,并将预测的拖欠可能性按顺序排列并分成10组, 计算柯尔莫哥洛夫 - 斯米尔诺夫值( Kolmogorov-Smirnov简称KS)(KS是最常用的评估二分变量结果模型的预测能力,如好与坏,响应与不响应,拖欠与不拖欠等。KS的范围理论值从0到100,但一般模型的KS是20到70 ,它是累积事件发生的百分比和累积事件不发生的百分比的差的绝对值 。最大KS用来衡量模型的分离能力。KS值越高,预测能力越强。)。最终做出增益图。

2.2.2模型的验证原理

将验证数据带入建立的逻辑回归模型,将预测的拖欠可能性按顺序排列并分成10组, 计算KS值,并做出增益图。如果验证数据的KS接近建模数据的KS,则该模型被认为是稳定的。

3 数据分析与结果

3.1单因素分析

3.1.1连续变量描述性统计

表1 连续变量的描述性分析(2005年数据)

说明:行数 - 所有数据的行数 缺失值行数 - 变量值有缺失的行数。

3.1.2分类变量描述性统计

对分类变量,分析每个变量值出现的频数和百分比,并总结列于表2中。

表2 分类变量的频率分析

3.1.3数据清理

要建立一个有效的模型,数据质量是非常重要的。对于连续变量,有缺失值的数据行会被除去,根据表1的描述性统计,没有异常值。缺失值因只占总数据量的2.5%则从分析数据中除去,。

对于分类變量,因为缺失值可能代表一定的行为模式。在本课题中,采用新的方法处理缺失数据。有缺失值的数据行被视为变量的一种可能值,将其重新定义成一个新的变量。

例如,对于变量“first_home_buyer_flag(是否第一次买房),3种可能值是“是”,“否”和缺失。带有缺失值的数据行约占10 %,删除它们是不适合的。所以,变量“是否第一次购房”就被重新分成3个新变量:

新变量1 ,fhb _yes(是第一次购房),如果是“是”,则数值被编码为1 ,否则编码为0;

新变量2,fhb _no(不是第一次购房),如果是“否”,则数值被编码为1,否则编码为0;

新变量3,fhb_miss(第一次买房值缺失),如变量的值为缺失,则数值被编码为1,否则编码为0 。

3.2双变量分析

双变量分析是评估某一自变量是否可成为因变量的预测因子。

本课题使用KS值来评估自变量因子的预测能力。其目的是为了在不影响概率测算精准度的情况下使得逻辑回归分析中的变量大大减少,从而 “节约”变量和运算。表3列出了某些自变量的KS 值。

双变量分析结果表明, FICO信用评分,债务与收入比率及贷款目的等变量用于预测拖欠可能性是最有效的预测自变量。

3.3模型开发 - 建模数据的回归

把2005年的29,225行建模数据带入逻辑回归计算中,获得系数值β。进而就可得到ln( P / ( 1 -P)所满足的关系式(见后)。

建模数据的拖欠回归分析结果列于表4 。

在这个课题中,模型开发的最大KS是31。表明该模型能有效地分离拖欠的账户和按期付款的账户。

3.4模型验证 - 验证数据的逻辑回归分析

将留作验证的2006年的19,484个未进行分析的数据,用于逻辑回归模型中进行验证。最后,该模型的 KS值被统计计算(表6)。模型验证的最大KS是33, 非常接近建模的KS ,表明模型稳定。

4 讨论

4.1逻辑回归模型结果及系数解释

根据表4中所列,预测拖欠的模型为:

ln( P/1-P)=5.7069-0.0119×FICO分数+0.0142×债务对收入比率+ 0.0144 ×贷款价值比+0.1774×不是首次购房者-0.2153×购房自用-0.1606×贷款用于购房+0.155×贷款用于融资

所列参数的系数为正表明增加拖欠可能性,系数为负则表示减少拖欠可能。

4.2综合评价模型

逻辑回归模型 与一般多元线性回归模型不同。所有的分析均建立在二项分布的基础上。 也正是基于此,系数及模型检验要用似然比检验和沃尔德等检验。本模型经由似然比和沃尔德测试检验。所有测试表明P值均< 0.0001 ,表明在本研究中所获得的逻辑回归模型比截距模型更有效。

通过对所建模型进行拟合优度测试,得出结论:本模型拟合数据良好。

4.3验证预测概率

一个常用的方法之一是将模型的增益图表和验证模型的增益图表相比较。图1是建模数据集和验证数据集的增益图。这两条曲线几乎重叠,表明该模型是相对稳定的。另一方面在图1中还可以看到,如果我们筛选10%的账户,该模型将检测会找到拖欠账户的22%。而根据随机效应(d45线),如果我们随机抽取10%的账户,只能将拖欠帐户的10%检测到。同样,如果我们筛选30%的账户,该模型将检测会找到拖欠账户的53%。而根据随机效应(d45线),如果我们随机抽取30%的账户,只能将拖欠帐户的30%检测到。由此得出本模型提升了检测概率。

5 模型的改进 - 宏观经济指数用于预测拖欠

将2005至2010年宏观经济指数,如失业率,居民消费价格指数,通货膨胀指数等和所在年份的客户数据合并,创建一个新的数据行用于预测拖欠。数据随机分成2份,60%用于建立模型,40%用于验证模型。

5.1 基本模型(不包括宏观经济指数)的建立

将表4中所有的有预测能力的变量用于基本模型。将建模数据进行逻辑回归计算,得出预测拖欠概率的基本模型为:

ln( P/1-P)=6.9205-0.01517×FICO分数+ 0.0199×债务对收入比率+ 0.0204×贷款价值比+0.4629×不是首次购房者-0.2328×购房自用+0.2644×购房用于投资-0.2020×贷款用于购房+0.2915×贷款用于融资

再对此模型计算KS值,得到最大KS为 41,表明模型预测能力强。

5.2 改进模型(包括宏观经济指数)的建立

经变量相关性分析,失业率和居民消费价格指数有明显的相关性,因此在建模中保留失业率,GDP和通货膨胀指数

预测拖欠的改进模型(加入宏观经济指数)为:

ln( P/1-P)=8.1187-0.01316×FICO分数+0.0163×债务对收入比率+0.0180×贷款价值比-0.2745×首次购房选项缺失-0.2180×购房自用+0.2169×购房用于投资-0.3267×贷款用于购房+0.1756×贷款用于融资-0.3128×失业率- 0.0179×通货膨胀指数

改进模型的KS为44. 和基本模型相比(KS为41),增加宏观经济指数加强了模型预测拖欠的能力。

上述模型说明:

- 失业率提高可能降低拖欠可能性,这是由于失业率对贷款拖欠有滯后作用。在此模型中采用2005-2010年数据,滞后现象还没有充分观察到。 通货膨胀指数提高可能降低拖欠可能性。 GDP对预测拖欠可能性没有显著意义。

5.3 改进模型(包括宏观经济指数)的验证

将验证数据带入改进模型进行验证,并计算KS。得出模型验证的最大KS是44, 非常接近建模的KS ,表明模型稳定。

6 结论

在这个课题中,对房屋贷款2005至2010年的客户的申请和表现数据进行了分析,制定一个预测模型来预测拖欠付款的可能性。并用不同年份的数据对该模型进行验证.得出结论:该模型是稳定的。因此模型具备长期使用价值,而且预测性强。

此外,通过对模型的改进,用05到10年数据并将一些宏观经济变量添加到模型中。与基本模型(无宏观经济变量)相比,KS由41增长为44,说明数据年份跨度加大和添加宏观变量可以提高好坏账户的分离能力,使预测更为精确。

综上所述,本模型可以通过金融机构来实现早期阶段自动检测拖欠帐户。当模型实施时,一个定时器被设置在操作系统如Unix上,进行通宵自动运行的程序,每天早上提交拖欠概率较高的账户的风险报告。以便在早期阶段的采取相应措施,以防止经济损失。

在未来的研究中,还可以将更多的有预测拖欠能力的变量添加到模型中,如个人资产,就业状况,婚姻状况等,此外,其他一些宏观经济变量,也可以添加到模型中,如消费者信心指数,汽油的价格等,这些变量可以提高模型的分离能力,使预测更为精确。

参考文献:

[1] Peng, C. J., Lee, K. L., Ingersoll, G. M. An Introduction to Logistic Regression Analysis and Reporting. The Journal of Educational Research, 96(1), 3-14.

[2]Tabachnick, B., and Fidell, L. Using Multivariate Statistics (4th Ed.). Needham Heights, MA: Allyn & Bacon, 2001.

[3]StatSoft, Electronic Statistics Textbook, http://www.statsoft.com/textbook/stathome.html. http://www.statsoft.com/textbook/stathome.html.

[4] Stokes, M., Davis, C. S. Categorical Data Analysis Using the SAS System, SAS Institute Inc., 1995.

[5]Raymond Anderson. The Credit Scoring Toolkit: Theory and Practice for Retail Credit Risk Management and Decision Automation. Oxford University Press, USA, 2007.8

[6]王济川,郭志刚,logistic回归模型---方法与应用,高等教育出版社 2001

(责任编辑:罗亦成)

猜你喜欢
购房逻辑贷款
刑事印证证明准确达成的逻辑反思
互联网背景下房地产网络营销模式分析——以HD“线上购房”为例
逻辑
创新的逻辑
购房合同中的“霸王条款”不得不防
Wang Yuan: the Brilliant Boy
My Huckleberry Friends:Even if the Whole World Stand against me,I Will always Stand by You
女人买买买的神逻辑
付款不及时卖家将房卖出,能否解除购房合同?
贷款为何背上黑锅?