西部农村产权抵押信贷中农户分类实例研究

2017-05-30 16:43孙一清陈漳顺李启璐石行邱丽萍吴养会
安徽农业科学 2017年29期
关键词:决策树抵押产权

孙一清 陈漳顺 李启璐 石行 邱丽萍 吴养会

摘要 基于陕西及宁夏部分地区农户关于产权抵押贷款的有关调研数据,以所在地区、年龄、家庭年收入等6个因素作为自变量,以农户产权抵押贷款需求为因变量,利用R语言构建决策树的农户产权抵押贷款信用评估模型,为相关农村金融机构提供金融政策方面的支持。研究结果表明:对于具有不同特征的农户,其贷款意愿呈现出一定的差异性。最终,除耕地面积变量外其余5个变量被引入决策树模型进行分析。通过检验和改进后的模型具有一定的分类正确性及准确性,对于农村金融机构在制定相应的金融政策及实际贷款风险控制过程中能起到一定的参考作用。

关键词 产权抵押贷款;C5.0决策树模型;ROC曲线

中图分类号 S-9 文献标识码 A 文章编号 0517-6611(2017)29-0209-05

A Case Study of Farmers Classification in the Western Rural Property Mortgage Credit

SUN Yiqing, CHEN Zhangshun,LI Qilu,WU Yanghui* et al

(College of Science,Northwest A&F University, Yangling, Shaanxi 712100)

Abstract The decision tree model about the farmers credit evaluation of property mortgage was constructed by Rlanguage based on the investigation data related to the property mortgage in Shaanxi and Ningxia. We chose the region, age, family income, et al was 6 factors as the independent variables, the demands of farmers property mortgage as the dependent variable. The purpose of the model was to provide support for the related rural financial institutions in financial policy. The results showed that the willing to lend of farmers who have different characteristics present a certain diversity. Except the cultivated area, the other 5variables were introduced into the decision tree model to analyze. By testing and improving operation, the model had a certain correctness and accuracy in classification. The results of the model provided a certain reference role in corresponding financial policy and controlling the process of the actual loan risk.

Key words Property mortgage;C5.0 decision tree model;ROC curve

基金項目 2015年西北农林科技大学大学生创新训练项目(20151071 2172)。

作者简介 孙一清(1995—),男,山东威海人,本科生,专业:信息与计算科学。*通讯作者,副教授,博士,从事数据挖掘与应用研究。

收稿日期 2017-08-09

長期以来,由于历史和社会发展等原因,在西部地区金融资金供给不足、农村金融市场化不足、农村金融业结构与服务不完善等因素制约下,我国西部地区的农村金融经济发展相对缓慢[1]。而农村金融发展是促进农业经济发展和提高农民收入水平的关键力量,因此,如何加快农村金融的快速发展成为一项重要的发展问题。实践发现,农村产权抵押融资是有效地解决这一现实问题的重要途径。农村产权抵押融资是一种农户或集体以自身所拥有的土地所有权、使用权等作为信贷物向银行或其他金融机构进行抵押贷款的行为。针对农村产权抵押贷款,国内学者主要对其发展意义、现状、制约因素及其制度中存在问题等进行定性分析,而基于农户微观数据的定量研究相对偏少[2]。向红等[3]以重庆为例,采用制度经济学的分析方法,对重庆农村“三权”(土地承包经营权、林权和宅基地使用权)抵押融资现状、制约因素等进行深入探索,并根据融资的制约因素提出了相关对策。陈波等[4]运用结构方程模型对影响农村产权抵押融资农户满意度的因素进行了实证研究,并提出了提高满意度的政策建议。许多学者对影响农户参与农村产权抵押意愿的因素进行了研究[5-7],得出农户年龄、性别、文化程度、劳动力数目、家庭总收入、金融机构服务满意度和政策了解程度等因素对农户参与产权抵押有较显著的影响。

纵观以上研究,大多都是制度研究或少数以Logistic回归模型进行的实证分析,但由于模型同性质和独立同分布等理想化假设,研究结果很难全面客观地反映出农户融资的实际需求,也难以为银行业根据不同类型的农户制定抵押贷款政策提供有效的依据。因此,笔者将前期已获得的农户调查资料作为对象,利用SPSS、MATLAB、决策树等统计及数学软件与方法,根据特定的因素对农户进行分类,建立并检验以农户贷款预期为目标的分类模型,以便于未来新数据预测与分类的使用。

1 决策树分类方法

在机器学习问题中,决策树方法[8]是以实例为基础的归纳学习算法,代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,每个分叉路径则代表某个可能的属性值,而每个叶节点则对应从根节点到该叶节点所经历的路径所表示的对象的值。 决策树方法从一组无次序、无规则的事例中推理出决策树表示形式的分类规则,通常用来形成分类器和预测模型,可以对未知数据进行分类或预测、数据挖掘等。人们可以利用树上各节点的分支将样本分成若干组,通过选择将数据分类。决策树模型能够从一个或多个决策变量中,根据自变量的值预测因变量的值。作为一种决策技术,决策树分类已广泛应用于生物医学、工程控制、金融管理等诸多领域中。

决策树分类方法分为2个阶段:构建决策树阶段和分类阶段。第一阶段:利用训练样本集建立决策树模型。这个过程实际上是一个从数据中获取知识,进行机器学习的过程。这一步通常分为特征选择、节点分裂和决策树剪枝3个步骤。在生成决策树的过程中需要根据不同属性将节点分开,形成多个类别,通常的做法是测试所有属性,对每个属性分裂的好坏做出量化评价,选择一个最佳的属性作为当前节点的分裂属性,这个过程叫特征选择。节点分裂是根据该属性不同的取值将节点分开,生成新的节点。决策树的剪枝则是对树结构进行修建,删除已多余分支的过程。第二阶段:利用建好的决策树对测试样本集进行分类。

2 基于决策树的农户产权抵押贷款信用评估模型

2.1 数据来源

该研究数据是西北农林科技大学经管学院学生采用调查问卷的方式走访陕西及宁夏部分地区的农户所获取的。问卷主要分为5个部分,即农户基本信息、贷款经历及对此的评价、产权抵押政策的落实情况、未来融资的需要与打算和对农村产权抵押贷款的意见和建议。参考之前国内外学者在这方面的研究,最终通过聚类等数据处理方法选取了所在地区、户主性别、经营类型、年龄、家庭年收入、教育程度、家庭土地经营面积、家庭规模、政策了解程度、机构数目、机构信誉、交通便利、服务满意等13个因素初步作为该研究的自变量,并以产权抵押贷款需求作为因变量来进行研究。

2.2 数据规范化

相比银行信贷部门的贷款申请表和贷款人违约记录等相关资料,调查问卷数据存在着变量繁多、缺失值难以忽略,难以选取适合的自变量、因变量等问题。因此,对得到的数据进行初步的数据预处理显得尤为重要。调查问卷得到的数据含有定性和定量问题,离散性变量和连续性变量共存,所以要做数据规范化,把连续性变量转变为离散性,定量问题变为定性问题,规范化后数据见表1。

2.3 缺失数据补缺与变量精简

2.3.1

缺失值的补缺。由于调查数据存在一定的缺失现象,该研究利用等级变量补缺方法对缺失数据进行填补。其主要过程为:以变量为参考,将调查数据分为矩阵A1和矩阵A2,无缺失值的数据集记为A1,有缺失的数据集记为A2。然后根据A2中第i行第t列元素x(2)ij與该列样本均值 t的关系找出缺失值x(2)ij,以完全样本A1的相关矩阵找出与缺失数据x(2)ij所属变量Xj相关系数最大的变量Xk并且x(2)ik没有缺失,如果缺失便向下寻找相关系数第二大的变量,一般选取和缺失变量相关系数最大的前2个到前5个变量。其计算公式为:

| (2)ij- j|= 1 5 5 t=1 (x(2)it- t)

根据以上公式计算出 (2)ij估计值,其中正负号的取法为x(2)it大于与该列样本均值 t取正,小于则取负。最后,由于该研究所采用的数据中的变量等级不等,即调查问卷的每个问题不全是A、B、C、D这4个选项,所以当估计值 (2)ij小数部分取值大于0.65或小于0.35时,对估计值 (2)ij进行四舍五入取整得到缺失值的补缺估计值x(2)ij 。 当估计值 (2)ij小数部分取值在0.35~0.65时,利用公式zk= x(2)ik-1 Mk-1 及 (2)ij=zk(Mj-1)+1(其中Mk为变量Xk的最大取值,其中Mj为变量Xj的最大取值)對 (2)ij四舍五入后作为缺失值的补缺估计值x(2)ij 。

2.3.2 变量的精简。由于变量间相关性、同质性等关系会对数据分析存在一定的影响,需要对调查问卷中涉及的所有变量进行筛选精简以获得较佳的分类预测结果。该研究采用主成分分析方法,根据变量与主成分的贡献率间的关系,采取逐步剔除的方法获得新的变量用于后续分析。

采用主成分分析法[9]选取14个评价指标的相关系数矩阵的特征根,结果见表2。从表2可以看出,特征值大于1的为前7个主成分,但是前6个主成分的贡献率已经达到60%,而且各个主成分贡献率相差不大,根据主成分方法筛选变量原则,可以从原来的14个变量中剔除8个。剔除方法为:从第14个主成分开始,变量“机构信誉”与该主成分之间的相关系数(绝对值)最大,为0.399,因此首先应该剔除该变量,重复上述步骤直至第7个主成分。最终结果剔除了机构信誉、经营类型、贷款意愿、文化程度、政策了解程度、交通便利、性别、机构数目这8个变量。

3 决策树模型构建与分析

3.1 训练样本和测试样本的选择

由于样本数据集合数据量比较大,采用保留法建立和评估模型,即把样本集合分为训练样本集合和测试样本集合两部分。在500条样本记录中随机抽取80%(400条)作为训练集合,剩余的20%(100条)作为测试样本集合对模型进行检验。通过详细的问卷调查,确定农户对产权抵押贷款的愿意程度,通过此标准将农户分为愿意贷款客户和不愿贷款客户。

3.2 模型构建

采用决策树C5.0建立决策树结构(图1),利用R语言建立决策树模型、对模型预测处理并检验模型的有效性以及真实性,为相关农村金融机构提供金融政策方面的支持。

该决策树以贷款意愿为决策目标,利用400条数据的训练集建立决策树模型,通过决策树剪枝之后得到上图的决策树模型。由从图1可以看出,最终的决策树模型一共有6层,其中变量“耕地面积”没有被纳入决策树的因素之中,说明耕地面积的大小对农户贷款意愿的影响并不显著,虽然耕地面积作为农户产权抵押的资本可能决定了銀行为农户贷款的意愿及额度,但并不影响农户自身的贷款意愿。

基于上述的决策树模型,对于具有不同特征的农户,其贷款意愿呈现出一定的差异性。例如:所在地区为县城郊区的农户贷款意愿特别大,其愿意贷款的概率高达78%,这说明处于偏远的县城郊区的农户往往经济状况低下,相比留在家乡种地经营农业,他们更愿意通过土地抵押兑换为本金从而去城市寻求更进一步的发展;所在地区为农区或小城镇的年龄在40~49岁的农户,年收入在20 001~50 000元并且对贷款服务态度表示满意的农户,其中66%愿意贷款,说明家庭收入且年龄为40~49的此类农户自身具有较高的经濟水平,其进一步发展家庭经济及偿还贷款的能力均具有一定的信心;年龄处于20~29岁,家庭规模为3~4人或7人以上的农户,贷款意愿较高(75%),说明在家庭劳动力充足的前提下,这部分年轻的农户愿意尝试贷款来进一步发展。

反观不愿意贷款的农户,其中农区小城镇50岁以上的农户67%不愿贷款,因为大部分老年农户生活已经稳定,并不想也不需要贷款;处于农区小城镇的年龄在30~39岁对农村金融机构的服务态度不满意的农户,其中80%不愿意贷款;地处农区年龄在40~49岁年收入20 001~50 000元的农户由于不满意服务态度而不愿贷款的占64%,这部分农户其实是具有偿还贷款的能力并且想要进一步发展经济的,但是由于对金融机构服务态度的不满意使得他们中的大部分贷款积极性不高,这需要金融机构提高自身的服务水平,防止这部分优质的客户流失。

从最后得到的各因子构建决策树时的重要性来看,较高的变量是所在地区和年龄,分别为100%和83.75%,重要性相差无几的变量是服务满意度(24.75%)和家庭年收入(2125%),最低的是家庭规模(8.00%)。决策树模型直观地表明基于抵押贷款为目的的农户分类结果,其分类规则可以为金融机构提供有指导价值的农户分析与认识,这对于考察产权抵押贷款政策落实情况以及进一步完善产权抵押贷款政策具有积极的指导意义。

3.3 模型评估

利用R构造的ROC曲线和混淆矩阵来评价该研究所建立的分类模型的分类效果。ROC曲线指受试者工作特征曲线,是反映敏感性和特异性连续变量的综合指标,是用构图法揭示敏感性和特异性的相互关系。它通过将连续变量设定出多个不同的临界值,从而计算出一系列敏感性和特异性,再以敏感性为纵坐标、特异性为横坐标绘制成曲线。曲线下面积越大,诊断准确性越高。在ROC曲线上,最靠近坐标图左上方的点为敏感性和特异性均较高的临界值。

从图2可以看出,ROC曲线下图形面积为0.666,表明该研究所建立的决策树分类模型对于农户分类问题具有较高的正确率及可靠性,建立在农户调研数据基础上的决策树分类模型具有一定的应用价值,可以应用与农户贷款预测与分析。从表3可以看出,在此分类问题中,模型的准确率为66%,其中,负例覆盖率为74.07%,远大于正覆盖率5652%,这说明将没有贷款意愿的客户正确分类的概率要远大于将有贷款意愿的客户正确分类的概率。但是从金融风险的角度上来讲,错分有贷款意愿的客户要比错分没有贷款意愿的客户代价高出很多。为了改进上述出现的情况,规避金融风险,进一步提高分类的精准度,应在决策树模型中引入代价矩阵。

4 结语

针对农户产权抵押贷款试点执行过程中所获取的调查数据进行决策树分类研究,对繁琐的调查问卷数据采用规范化和填补缺失值,利用主成分分析从影响贷款意愿的14个因素中,选择有显著影响的6个因素作为分类研究对象,利用决策树C5.0算法对农户建立决策树模型,根据最后的决策树结果,给出金融机构建议:第一,贷款抵押的政策推广方面应该加大贷款意愿较高的偏远县城郊区的推广工作;第二,提高机构的服务态度与水平,从而挽回部分优质的客户;第三,积极为20~29岁家中人口较多的农户提供贷款帮助。

由于该研究的样本容量较小(只有500份),导致最后的分类精度有所降低,在后续的研究中将扩大样本容量,进一步改进决策树分类模型,更全面地分析和比较分类结果,做好西部农村金融贷款工作,推动西部农村经济快速发展,完善西部农户产权抵押贷款制度。

参考文献

[1] 王毛毛. 我国西部地区农村金融发展现状与对策浅析[J].企业技术开发,2010,29(8):27.

[2] 于琴, 刘亚相. 西部地区农村产权抵押贷款对农户收入影响的实证分析[J].四川农业大学学报,2014(4):455-461.

[3] 向红,曹跃群,何涛.农村产权抵押融资的制约因素及路径选择:以重庆为例[J].安徽农业科学,2011,39(3):19517-19519.

[4] 陈波,汪海洋,孔荣.基于农户视角的农村产权抵押融资方式评价:以宁夏同心县为例[J].贵州农业科学,2013,41(5):230-233.

[5] 庸晖,罗剑朝.农户选择农村产权抵押融资行为的影响因素研究:基于不同贷款选择的对比分析[J].广东农业科学,2014,41(21):220-226.

[6] 袁小博,白雪,刘亚相.西部地区农村产权抵押融资的农户满意度影响因素[J].贵州农业科学,2015(3):211-215.

[7] 崔诗雪,菅惠立,张立中. 农户参与农村土地承包经营权抵押贷款意愿影响因素分析:基于内蒙古包头市土右旗调研数据[J].安徽农业科学,2016,44(16):28-30.

[8] 毛国君,段立娟,王实,等.数据挖掘原理与算法[M]. 北京:清华大学出版社,2005:1-10,109-127.

[9] 王绍辉.对消费信贷中个人信用评价方法的探索[D].北京:首都经济贸易大学,2004.

[10] 蔡丽艳,冯宪彬,丁蕊.基于决策树的农户小额贷款信用评估模型研究[J].安徽农业科学,2011,39(2):1215-1217.

[11] ROBIN X,TURCK N,HAINARD A,et al.pROC:An opensource package for R and S+ to analyze and compare ROC curves[J].BMC Bioinformatics,2011,12:77.

猜你喜欢
决策树抵押产权
产权与永久居住权的较量
《民法典》时代抵押财产转让新规则浅析
俄藏5949-28号乾祐子年贷粮雇畜抵押契考释
一种针对不均衡数据集的SVM决策树算法
动产抵押登记办法
决策树和随机森林方法在管理决策中的应用
共有产权房吹响集结号
对“小产权”房的认识与思考
基于决策树的出租车乘客出行目的识别
债主“巧”卖被抵押房产被判无效