贝叶斯分类器在农村金融数据分类中的应用研究

2018-07-09 08:32蒲京京苏巧荣张朝瑜肖振东吴养会
安徽农学通报 2018年11期
关键词:农村金融

蒲京京 苏巧荣 张朝瑜 肖振东 吴养会

摘 要:针对农户产权抵押贷款信用问题,利用陕西高陵、临潼、杨陵3个地区农村金融抵押贷款的有关调研数据,运用贝叶斯网络分类模型进行分类研究,以农户所在地区、家庭类型、教育程度等10个因素作为自变量,以产权抵押贷款的意愿作为分类依据,结果表明,采用十折交叉验证的贝叶斯网络分类器对解决此类问题具有良好的分类效果,其分类结果可以为农户抵押贷款研究提供理论参考。

关键词:农村金融;贝叶斯网络分类器;ROC曲线;交叉验证

中图分类号 F832 文献标识码 A 文章编号 1007-7731(2018)11-0002-04

Abstract:According to the problem of farmers' property mortgage credit,the Bayes Network classification model was constructed which based on the investigation data related to the property mortgage in Gaoling,Lingtong and Yangling.We chosed the region,family type,level of education and other 7 factors as the independent variables,the property mortgage loan willingness as the independent variables.The analysis results show that Bayes Network classification model which used ten-fold cross validation has good effect in solving these problems.Besides,the classification results provided the certain reference role in the household mortgage policy.

Key words:Rural finance;Bayes network;ROC curve;K-fold cross validation

1 引言

当前中国经济正在飞速发展,这其中金融业起着至关重要的作用,然而我国农村金融行业的创新能力仍然明显不足。围绕农村产权抵押贷款,国内学者展开了大量的研究,现有研究大多局限在对农村产权抵押贷款发展意义、现状、制约因素及其制度中存在的问题等方面上的定性分析,而基于农户微观数据的定量研究则相对偏少。曾庆芬[1]以成都试点为例,利用二项logit模型分析了影响农户参与土地使用权和宅基地使用权融资意愿的影響因素,并提出了相关政策建议;美国耶鲁大学经济学家Hugh T.Patrick研究中,强调农村经济主体的金融服务需求以及农村金融组织及相关服务的供给先于农村经济主体的需求。值得我们借鉴的还有像孟加拉国那样的农村金融机构,孟加拉国乡村银行模式调动了农村的发展积极性,不仅充分发挥了乡村银行对农村经济发展的作用,而且提高了农村银行自身的发展效率。对于中国农村现状,孟加拉国的小额扶贫贷款模式适用于我国如此之多的农村人口数量,能有效地带动银行资金的流动,促进农村银行的发展。从以上研究方法可以看出,对农村产权抵押贷款的研究更多的集中于制度研究,少有的实证分析也仅局限与二项logit模型或二项logistic回归模型,受限于模型同性质和独立同分布等理想化假设的影响,所得到的结论难以全面、客观地反映出农户融资的实际需求。

李旭升[2]在个人信用评估中使用朴素贝叶斯分类器(Neive Bayesian,NB)建立分类模型,对数据类型进行细致分类,实验表明,NB进行信用分类可以取得更好的效果,由于NB作为一种概率型分类,各类概率以及各属性的条件概率有明显的物理意义,具有较好的解释性。康庄[3]在纳税评估方面建立贝叶斯分类纳税评估模型,有效地发现税法执行偏差,能够较为准确地发现税收执行偏差者;吴陈和张明华[4]研究分析了朴素贝叶斯分类算法在个人信用预测方面的应用,实验表明,基于最大后验概率熵的最优朴素贝叶斯算法在个人信用预测方面显著提高了预测的准确性。唐炉亮[5]在针对浮动车数据的城市车道数量信息调查采用朴素贝叶斯分类方法确定目标路段的车道数量,最终结果表明其提取的精度高达76.3%。作为一种良好的分类器,朴素贝叶斯分类器受到越来越多的研究者的关注,在各个研究领域都得到了广泛的应用。

为研究我国西部农户产权抵押贷款中的农户分类问题,本文利用贝叶斯网络具有较高的分类精度和优良准确性的特征,以农户抵押贷款的预期为分类指标,建立影响农户类型的贝叶斯网络结构,以为金融机构提供有价值的信用参考。

2 贝叶斯网络分类器

贝叶斯网络[6](Bayesian Network)是一种概率网络,是基于概率推理的图形网,而贝叶斯公式则是这个概率网络的基础。贝叶斯网络又称为信用网络(Belief Networks),是用来表示变量之间连接关系与概率关系的一种图形模型,是目前不确定知识表达和推理领域最有效的理论模型之一。贝叶斯网络是贝叶斯方法的拓展,提供了一种表示因果信息的方法,适用于不确定性和概率性事件的表达和分析,可以从不完全性、不精确或不确定的知识或信息中进行推理,主要处理人工智能中的不确定性信息,在计算机智能科学、工业控制、医疗诊断等领域等许多智能化系统中得到了重要应用。

贝叶斯网络采用一个DAG(Directed Acyclic Graph,有向无环图)表示,由代表变量的节点和连接这些节点的邮箱边构成。节点代表随机变量,节点间的有向边代表了节点间的相互关系(由父节点指向其子节点)。如果变量是离散型,可以采用表的形式表示,称为条件概率表,列出子节点与其父节点的每一种值的祝贺所对应的概率。有父节点的节点用条件概率表示关系强度,没有父节点的节点使用先验概率。贝叶斯分类器的分类原理是经过实验中某样本对象的先验概率,使用贝叶斯公式计算出其相应的后验概率,从最大的后验概率的类中进行选择。贝叶斯分类基于贝叶斯原理,以贝叶斯公式为中心。贝叶斯公式如下:

朴素贝叶斯分类假定所有属性变量是“类条件下相互独立”的,即每个属性变量[Xi]只与类变量[ti]相关。拓扑结构图如图1所示。

估计每个类的先验概率,一般可以按照[P(t=ti)=Ni/N]进行估算,其中:[Ni]为子数据集中[t=ti]的样本数,[N]为训练集样本总数,之后按照最大似然估计准则,在每个由[ti]标定的子集,对类条件下属性变量的概率进行估计。

3 数据来源、变量选择及数据处理

3.1 数据来源 本文使用的数据是西北农林科技大学经管学院学生采用调查问卷的方式走访陕西高陵、临潼、杨陵3个地区所获取的。问卷主要分为5个部分,即农户基本信息、贷款经历与评价、产权抵押政策的落实情况、未来融资的需要与意见和建议。数据样本容量为349。

3.2 变量选择 产权抵押贷款一般是根据个人信用评估的指标进行的。个人信用评估的指标是综合反映个人本身和环境所共同作用产生的复杂系统的不同属性的指标,按照隶属关系、层次结构可将影响个人信用评估的因素加以分类和综合,使个人信用的特征划分为5个部分:品行、偿付能力、资金。抵押担保和条件,即常用的“5C评估法”[7]。参考“5C评估法”,最终选取所在地区、家庭规模、家庭经营类型、文化程度、近6年年均收入、近六年年均支出、家庭土地经营面积、当地农信社信誉情况、工作人员服务态度、政策了解程度等10个因素作为本文研究的自变量,并以对产权抵押贷款意愿作为因变量来进行研究。

3.3 数据处理

3.3.1 数据清洗 数据处理旨在清除掉与分类无关的数据,对与本分类无关的数据进行清除。同时还应清除与分类无关的指标以及重复指标,减少计算中带来的不必要工作。

3.3.2 数据集成 将多个数据按照格式统一起来存储,并建立信用数据库。

3.3.3 数据转换 主要是对数据进行离散化。不同的算法对输入数据的要求不同,而且获取的数据较为原始,计算时需要对数据进行相应转换。本文所使用数据经过预处理后,各变量属性及编码如表1所示。

4 农户分类研究

利用Weka软件[8]建立贝叶斯网络模型,利用模型进行预测及检验模型的有效性及真实性。该贝叶斯网络分类模型是以对产权抵押贷款意愿(Class)为因变量,利用349条数据的训练集建立贝叶斯网络模型。

采用BayesNet下的local TAN模型构建方法,并采用交叉验证方法,通过weka软件分析得到模型。图2为建立所获得的贝叶斯网络结构图。

从图2可以看出,家庭规模、文化程度、家庭经验类型、近6年的平均收入、工作人员服务态度以及当地农信社信誉情况作为子节点时,它们的父节点同时是所在地区和对产权抵押贷款意愿。所在地区作为子节点时,相应的父节点是近6年的平均支出和对产权抵押贷款意愿,近6年的支出作为子节点时,其父节点为政策了解程度和对产权抵押贷款意愿,政策了解程度作為子节点时只有一个相应的父节点为对产权抵押贷款意愿。其中正确分类的实例到达58.7%,Kappa统计为0.3178,案例的覆盖程度(0.95 level)为99.4269%,表现出较好的分类效果。

ROC曲线指受试者工作特征曲线,是反映敏感性和特异性连续变量的综合指标,是用构图法揭示敏感性和特异性的相互关系,它通过将连续变量设定出多个不同的临界值,从而计算出一系列敏感性和特异性,再以敏感性为纵坐标、(1-特异性)为横坐标绘制成曲线,曲线下面积越大,诊断准确性越高。在ROC曲线上,最靠近坐标图左上方的点为敏感性和特异性均较高的临界值。针对上述网络结构图分类结果,利用weka软件构造roc曲线,对贝叶斯网络分类结果进行分类效果评价。

图3~5分别表示对应分类结果为a、b及c,根据贝叶斯分类器所获得结果分类准确性比较,其曲线下对应的图形面积分别为0.692,0.6902和0.701。可以看出,本次建立的贝叶斯网络分类模型对金融农村具有较高的正确性及可靠性。在此基础上,为了改进并提高分类效果,在交叉验证上进行参数修改,将Cross-validation Fold原定参数15改为10,即采用十折交叉验证(表2)。通过交叉验证的参数改变,贝叶斯网络分类效果,有明显的提高。

5 结论

本文针对农户产权抵押贷款,对农村金融数据进行贝叶斯网络分类研究。在对调查数据进行数据处理后,通过利用“5C评估法”,将大量的数据变量进行筛选,选出了10个有显著影响的数据变量,并将对产权抵押贷款的意愿作为数据类进行分类研究。分类结果表明,采取十折交叉验证方法的贝叶斯网络分类模型中,在农村金融数据中有较高的正确性和覆盖性。同时,构建反映各因素间相关关系的贝叶斯网络结构图,能更进一步解释影响农户抵押贷款的各因素及其作用大小,对于农村金融机构进行贷款决策起到了一定的积极作用。由于本研究所获得数据容量较小,在后续的研究中,将扩大调查范围,以扩大样本容量,更进一步提高分类的准确性,为农村金融改革提供有价值的参考。

参考文献

[1]曾庆芬.产权改革背景下农村居民产权融资意愿的实证研究——以成都“试验区”为个案[J].中央财经大学学报,2010(11):63-68.

[2]李旭升,郭耀煌.基于朴素贝叶斯分类器的个人信用评估模型[J].计算机工程与应用,2006,30:197-202.

[3]康庄,余元全.基于贝叶斯分类器的纳税评估模型研究[J].经济问题,2009(06):124-126.

[4]吴陈,张明华.基于最优朴素贝叶斯分类器的个人信用预测[J].江苏科技大学学报(自然科学版),2012,26(04):376-380.

[5]唐炉亮,杨雪,阚子涵,等.一种基于朴素贝叶斯分类的车道数量探测[J].中国公路学报,2016,29(03):116-123.

[6]吴养会,罗剑朝.农村金融计量研究方法及应用[M].北京:中国金融出版社,2015:244.

[7]王梦琪.应收账款管理的“5C评估法”及补充[J/OL].经营与管理,2017(07):29-32[2018-05-01].https://doi.org/10.16517/j.cnki.cn12-1034/f.2017.07.012.

[8]袁梅宇.数据挖掘与机器学习-WEKA应用技术与实践[M].北京:清华大学出版社,2014.

(责编:张宏民)

猜你喜欢
农村金融
《农村金融研究》征稿启事
《农村金融研究》征稿启事
《农村金融研究》征稿启事
《农村金融研究》征稿启事
福建省农村金融减贫的路径研究
《农村金融研究》征稿启事
农村金融要多些“乡土味”
健康养老·农村金融 加快推进“医养结合”养老模式
农村金融深化在山西省的实证分析
基于农业产业化的农村金融改革研究