基于两步子抽样算法的贷款额影响因素研究

2023-04-08 07:19潘登李莉莉
关键词:均方样本量信用

潘登 李莉莉

摘要:

针对Kaggle网站贷款数据冗余导致数据分析低效、计算成本高等问题,采用两步子抽样算法抽取样本,构建岭回归模型拟合贷款额,分析贷款额影响因素。实证结果表明,贷款额与资金总额付款、循环账户数量、信用额度等多方面因素相关;相较于简单随机抽样方法,基于两步子抽样方法建立岭回归模型参数估计均方误差降低21.35%,平均标准误降低36.79%,有效提高了数据分析效率和准确性。

关键词:

贷款额;岭回归;两步子抽样

中图分类号:F830.859         文献标志码:A

目前中国经济体制改革深入发展,市场经济体系不断完善,金融业贷款业务逐渐向个人全面开放,个人贷款业务品种和业务范围愈发完善。随着经济发展以及社会大众消费观念改变,个人贷款业务接受度大幅提升。研究发现,个人借贷行为影响因素主要包括家庭人口、社会资源、家庭总资产等[1],社会网络承担重要角色[2];债权人信任水平越高,提供个人贷款额越多[3],但各因素对贷款额影响作用尚不明确。银行信贷政策明确规定,要根据借款人还款能力和还款意愿综合确定个人贷款数额。由于借款人还款能力和还款意愿等信息不稳定性导致贷款额存有不确定性[4],如月收入、循环账户数量、未还贷款金额等,如何根据贷款数据提取有效信息确定贷款额成为金融机构面临的问题之一。海量贷款数据会占用大量存储空间,增加数据分析计算量,提高了计算机数据处理硬件要求,因此成为研究贷款额影响因素一大阻碍。基于提取数据信息的子抽样方法能减少计算负担[5],最优子抽样算法的相关研究主要基于线性回归模型[6]、logistic回歸模型[7]、Softmax回归模型[8]、分位数回归模型[9]、岭回归模型[10]、Kriging模型[11]等,各个模型基于实际数据验证子抽样算法优良性,为后续研究提供理论基础。贷款数据普遍存在多重共线性,会增加线性回归系数方差,使模型预测结果脱离实际[12]。岭回归模型是解决多重共线性问题有效方法之一[13],为保证系数显著有意义,通常采用岭迹法计算挑选最佳岭参数值[14],岭回归模型理论技术成熟,实际操作简便,广泛应用于产业结构调整[15]、居民消费分析[16]、知识产权保护[17]等领域。本文针对大维度贷款额数据,采用3种不同抽样算法选取样本,分别建立岭回归模型,基于回归运行结果的平均运行时间、估计均方误差、平均标准误等指标综合评价3种算法计算效率和准确度,根据实际回归结果综合分析贷款额影响因素。

2.3 不同抽样方法比较

使用R软件调用数据,分别采用uniform、mmse、mvc抽取样本,建立岭回归模型。两步子抽样实际操作通常保持第一次抽样样本量r0不变,计算第二次抽样入样概率,改变第二次抽样样本量r,最后估计样本量为r0+r。固定r0=300,默认rr0,取r=[300,2000],间隔100。基于样本估计参数值,计算均方误差MSE=1S∑Ss=1β⌒s-β︿ols2,其中,β⌒s表示利用第s次抽样样本所得岭回归模型参数估计值,β︿ols表示全样本岭回归模型参数估计值,S表示抽样次数。每组抽样运行1 000次,比较平均值。不同抽样方法下,参数估计平均均方误差越小,说明基于该抽样方法和该样本量所构建模型越接近利用全部数据所构建模型,该抽样方法效果越好。

由图1(a)可知,uniform均方误差平均值最高,mvc均方误差平均值明显低于另外两种抽样方法。mvc平均均方误差比uniform低0.412 1,准确度提高37.78%;比mmse低0.355 5,准确度提高34.33%,说明利用mvc抽样所得参数估计值更接近利用全样本估计结果,拟合效果较好。增大第二次抽样样本量,3种方法MSE均有小幅度下降。uniform最小误差仍高于mmse与mvc最大误差。由此可见,对于大维度数据集,提升第二次样本量,子抽样结果准确性提升有限,为了提高准确性而加大样本量就失去了抽样意义。要提高估计准确度,改进方法要比增加抽样样本量更有现实意义。

在Windows10操作系统,AMD 5900X中央处理器,32GB内存运行环境中计算CPU运行时间,分别利用3种抽样算法完成1 000次参数估计,取各算法运行时间平均值。由图1(b)可知,不同抽样方法所用平均运行时间有明显差别:mvc与mmse两种抽样方法运行时间均明显少于全样本估计运行时间,mvc运行时间相较于mmse少约0.15 s,计算效率提升约62.5%。这是由于mvc抽样方法不涉及计算M-1H,运行时间相较于mmse算法有明显优势。增加二次样本量,mmse运行1 000次总耗时增加9.6 s,mvc总耗时增加6.5 s。

以第一次抽样样本量r0=300,第二次抽样样本量r=1 000为例,基于3种抽样方法分别抽取样本,记录估计参数及相应标准误。按照如上步骤,每种抽样方法重复运行1 000次取平均值。

基于uniform、mvc、mmse抽样算法所得平均标准误均大于全样本岭回归模型平均标准误。由图1(c)可以发现,多数变量下,uniform置信区间范围最大,mmse置信区间最小;估计第1个和第15个变量参数时,3种方法的置信区间较大。抽样算法本质是利用子样本建立模型,所抽取样本量相较于全样本规模非常小,因此标准误均高于全样本。基于uniform所得平均标准误最大,说明采用uniform估计精准度最差。mmse算法下15个估计参数标准误最低,与mvc相比平均降低21.93%,与uniform相比平均降低65.82%,因此mmse算法估计精准度优于mvc算法和简单随机抽样。mvc抽样算法平均运行时间和平均均方误差方面优于mmse抽样算法,但估计精准度劣于mmse抽样算法,同时二者估计精准度和均方误差皆优于简单随机抽样。

分析影响因素可知,利用全样本估计参数结果共有7个变量系数为负,说明贷款额与这7个变量呈负相关,与另外10个变量呈正相关。变量系数绝对值越大,影响贷款额越明显。“目前资金付款总额”、“目前持有本金”、“借款人信用档案中未结信用额度的数量”、“令人满意的账户数量”、“总银行卡高信用/信用额度”5个变量显著影响贷款额,变量“目前资金付款总额”系数最大为1.612,说明该变量有最大正向影响,资金付款总额每增加1美元,贷款额就会增加1.612美元;变量“目前持有本金”系数最小为-1.225,说明该变量有最大负向影响,持有本金每增加1美元,贷款额就会减少1.225美元。金融机构确定贷款额更看重消费能力,倾向于向高消费水平客户提供高贷款额,而向保守消费且有存款的客户提供较少贷款额。除了消费水平,信用水平因素也明显影响贷款额。“借款人信用档案中未结信用额度的数量”系数为-0.580 9,表明客户信用水平越低则获取贷款额越少;相反“令人满意的账户数量”、“总银行卡高信用/信用额度”系数分别为0.533 9、0.382 3,表明信用水平越高获取贷款额越高。消费水平与信用水平是影响贷款额主要因素,贷款额影响因素研究为银行等金融机构针对不同用户确定贷款额度提供了参考。

3 结论

本文采用3种算法抽取样本,建立岭回归模型拟合贷款额,解决数据冗余繁杂及多重共线性问题,研究贷款额影响因素。研究结果表明,客户消费水平与信用水平明显影响贷款额,贷款额与目前资金付款总额、目前持有本金、借款人信用档案中未结信用额度数量等因素相关。比较两步子抽样算法与简单随机抽样,前者参数估计均方误差和平均标准误较低,更接近全样本结果。比较两步子抽样第二次入样概率πmmsei与πmvci,后者平均均方误差降低34.33%,参数估计平均运行时间降低62.5%,提高估计准确度同时解决计算机处理冗杂数据运行时间过长问题;前者参数估计平均标准误相比于后者降低21.93%,二者皆优于简单随机抽样。本文侧重两步子抽样算法处理复杂数据,选取所有对贷款额有影响解释变量引入模型,后续研究可精简解释变量,提高模型预测能力。

参考文献

[1]李岩,丁启军,赵翠霞. 不同类型农户贷款行为特征及其影响因素——基于连续6年农户贷款面板数据[J]. 中国农业大学学报, 2016, 21(1): 157-166.

[2]张华泉,刘杰,吴平. 社会网络对农户借贷行为的影响——基于CFPS2010~2018数据的实证研究[J]. 农村经济, 2022(5): 88-97.

[3]董诗涵. 社会信任与个人贷款供给行为[J]. 金融论坛, 2020, 25(6): 71-80.

[4]林建华. 一种用于确定小微贷款额的盲数模型及其应用[J]. 海南金融, 2013(4): 45-49.

[5]李晨露. 大数据下广义线性模型的参数估计算法[J]. 系统科学与数学, 2020, 40(5): 927-940.

[6]徐礼文,廖丹. 大样本线性回归模型的子抽样及变量选择[J]. 统计与决策, 2022, 38(2): 5-9.

[7]WANG H Y, ZHU R, MA P. Optimal subsampling for large sample logistic regression[J]. Journal of the American Statistical Association, 2018, 113: 829-844.

[8]YAO Y Q, WANG H Y. Optimal subsampling for softmax regression[J]. Statistical Papers, 2019, 60(2): 585-599.

[9]WANG H Y, MA Y Y. Optimal subsampling for quantile regression in big data[J]. Biometrika, 2021, 108(1): 99-112.

[10] 李莉莉,靳士檑,周楷賀. 基于岭回归模型大数据最优子抽样算法研究[J]. 系统科学与数学, 2022, 42(1): 50-63.

[11] 周楷贺,李莉莉.基于单元间距离估计的不等概率抽样算法及应用[J].青岛大学学报(自然科学版), 2023, 36(2): 5-10.

[12] 肖霞,伍兴国. 线性回归中多重共线性的几何解释[J]. 统计与决策, 2021, 37(21): 46-51.

[13] 尹康. 常用统计软件关于岭回归计算原理的比较分析[J]. 统计研究, 2013, 30(2): 109-112.

[14] 刘文卿. 基于泛岭估计对岭估计过度压缩的改进方法[J]. 数理统计与管理, 2011, 30(4): 614-619.

[15] 范德成,张伟. 中国三次产业结构与初次分配结构变动关系的实证研究[J]. 数理统计与管理, 2013, 32(5): 769-776.

[16] 陈钰芬. 我国居民收入、人口、教育、财政政策和货币政策与居民消费模型的实证分析[J]. 数理统计与管理, 2004(2): 10-14.

[17] 苏为华,孔伟杰. 基于知识产权保护的国际贸易和FDI技术溢出效应研究[J]. 统计研究, 2010, 27(2): 58-65.

Research on Loan Amount Based on Two-step Sampling Algorithm

PAN Deng, LI Li-li

(College of Economics, Qingdao University, Qingdao 266061, China)

Abstract:

Aiming at the problem of low efficiency of data analysis and high calculative cost caused by the loan data redundancy of Kaggle website, two-step subsampling algorithm was used to sample. Ridge regression model was used to fit loan amount and analyze the impact of different factors on loan amount. The results show that the loan amount is related to various factors such as the total capital payment, the number of revolving accounts, and the credit line. Compared with simple random sampling, the ridge regression model based on two-step sampling method reduce mean square error by 21.35% and standard error by 36.79%. The two-step subsampling algorithm can effectively improve the efficiency and accuracy of data analysis.

Keywords:

loan amount; ridge regression; two-step subsampling algorithm

收稿日期:2023-02-24

基金項目:

国家社科基金(批准号:2019BTJ028)资助;山东省金融应用重点研究项目(批准号:2020-JRZZ-03)资助。

通信作者:

李莉莉,女,博士,教授,主要研究方向为金融统计、统计调查与预测。E-mail:lili_lee2003@126.com

猜你喜欢
均方样本量信用
一类随机积分微分方程的均方渐近概周期解
医学研究中样本量的选择
为食品安全加把“信用锁”
Beidou, le système de navigation par satellite compatible et interopérable
信用收缩是否结束
航空装备测试性试验样本量确定方法
Sample Size Calculations for Comparing Groups with Binary Outcomes
信用中国网
信用消费有多爽?
基于抗差最小均方估计的输电线路参数辨识