逻辑回归和支持向量机在客户信用分类中的应用

2023-03-03 05:45代雯月DAIWenyue
价值工程 2023年5期
关键词:逻辑向量分类

代雯月 DAI Wen-yue

(四川文理学院数学学院,达州 635000)

0 引言

随着经济的快速的发展,人们的消费观念也在增强,客户分类的应用也在频繁运用于各商业银行中,商业银行也在市场经济中发挥着至关重要的作用。与此同时,商业银行运营过程中面临着诸多风险,其中判别客户信用以此来进行客户分类是商业银行面临的主要营销之一,利用判别分析对银行客户进行预判是有效降低信用风险的方法,所以正确分类客户类型的重要性越发突出。

客户信用分类是指,根据个人的各种相关经济指标建模,指标的选取可以使用专家选择或者大众评估得到,进一步根据这些指标所建立的模型是对个人是否能履约各种承诺和信用程度高低的全面评价,并用简单明了的符号或文字表达出来,以满足社会需要的市场行为。

1 数据集说明与问题分析

1.1 数据集说明

此数据集来自UCI机器学习库被公开的信息,是关于一家葡萄牙银行机构从2008年5月到2010年11月的直接电话营销活动,旨在促进现有客户的定期存款,内含两个数据集,数据集1(bank-full.csv)共有45211条数据,数据集2(bank.csv)是数据集1中随机选取的10%的子集,共有4521条数据。每一个数据样本有17个属性。前16个是预测变量(自变量),依次表示为“年龄”,“工作”,“婚姻”,“教育”,“违约”,“余额”,“住房”,“贷款”,“联系人通讯类型”,“天数”,“月数”,“持续时间”,“接触次数”,“活动日数”,“联系人数量”,“营销活动结果”(分别用X1—X16表示),最后一个为响应变量(因变量),表示“订阅定期存款”(用Y表示,当Y=1时表示“是”,当Y=0时表示“否”),这是真实的商业数据银行根据客户当时的社会经济情况,以此来预测客户是否可能购买储蓄产品从而接受营销,此数据集具有普适性和一般性。

1.2 问题分析

首先,以分类模型理论为基础,基于判别分析思想,选取并对比逻辑回归模型和支持向量机模型,说明模型的可行性;然后,对数据进行预处理,包括数据集的划分、平衡、类别变换,以此建立两种判别函数模型求出判别结果;其次,针对模型判别结果,利用混淆矩阵对比错判率,利用ROC曲线进行性能评估;最后,选取相对最优模型来进行客户的判别分类,根据判别表达式得出客户预约定期存款的概率较小,刻画出潜在的客户人群。

2 模型选择与建立

2.1 判别分析思想

判别分析是多元统计推断中应用于对样品进行判别分类的一种实用性很强的统计方法,是一种通过对已知分类样本的研究得出具体模型,将模型用于未知样本的判别分类中的多元统计分析方法。不论用什么具体的判别分析方法处理问题,通常模拟出用来衡量与所有已知样本组别的接近程度的标志值,即判别函数值,同时也需要指定具体的判别准则,用以判定待判别样品的组别。常用的有距离式准则、费歇准则、贝叶斯准则,逐步判别准则等。

2.2 逻辑回归

逻辑回归(Logistic Regression,LR)是研究二元分类的表现变量(因变量)与预测变量(自变量)之间关系的一种多变量统计分析方法,属于概率型非线性回归,是二分数据的广义线性模型。由于因变量二分类数据的取值特点(一般设置为取0或1),该模型实际上就是在一般线性回归的基础上,引入了一个逻辑转化函数Sigmoid,因此逻辑回归被认为是一个被Sigmoid函数所归一化后的线性回归模型[1]。

对于二分类因变量Y和解释变量X,令概率p为:

借助Sigmoid函数的转换,此时的Logistic回归模型为:

β向量中各分量(β1,β2…βp)′的符号决定了发生比是会随着解释变量X的增加而上升还是下降,其变化的速度由│βi│所决定。一般会将阈值设置为0.5,如果输出结果p大于等于0.5时,把待判样本归为1类,反之归为0类。

2.3 支持向量机

支持向量机(Support Vector Machines,SVM)是一种二分类模型,它的本质思想是构建特征空间上不同类别间隔最大的分类器,通过转化为凸二次规划问题,从而实现间隔最大化。SVM的目标是找到一个最优决策超平面,使不同的两类样本之间的距离达到最大,其中距离超平面最近的点称为“支持向量”。假设数据集的样本D={(x1,y1),(x2,y2)…(xm,ym)},yi∈{-1,+1}是线性可分的,对于超平面(ω,b),要使得不同类支持向量间的间隔距离最大化,即:

这就是支持向量机的基本型[1]。

2.4 模型对比

逻辑回归与支持向量机都是分类算法和监督学习算法,如果不考虑核函数两者都属于线性分类。但是,两者之间也存在着显著的差异:首先,支持向量机只考虑局部的边界线附近的点,而逻辑回归考虑全局;其次,支持向量机不直接依赖于数据分布,分类平面不受一类点影响,而逻辑回归则受所有数据点的影响,一般需要先对数据做平衡性处理;最后,在解决非线性问题时,支持向量机采用核函数的机制,而LR通常不采用核函数的方法。

由于支持向量机并不是基于经验风险最小化原则,因此其经验风险可能较大,为了解决这个问题,本文将逻辑回归引入到传统支持向量机中,利用逻辑回归的输出概率为支持向量机的输出结果提供支持信念,其目的是降低支持向量机对预测样本进行判别的经验风险[2]。

3 模型求解与分析

3.1 数据的预处理

将数据集2(bank.csv)中的4521条数据视为测试集,用于模型结果的测试,将数据集1(bank-full.csv)中的45211条数据减去数据集2(bank.csv)中的4521条数据后的结果记为数据集3,将其视为训练集,共有40690条数据,用于模型的训练。

通过简单的统计发现样本分配差距很大,其中Y=1的那部分样本占了13.16%,样本具有不平衡性,采取了欠采样、过采样、人工数据合成三种方法分别进行了数据平衡化处理,但却发现平衡后数据的预测精度还不如原始数据的精度值高。经过文献阅读,这类数据的不平衡性由于银行做客户分类,客户具有一定的偏好性,即具有一个先验概率问题。因此后面的分析使用原始数据进行。

此外,数据不缺在缺失值,由于采用的是R语言,在使用逻辑回归模型时会自动对因子型变量设置虚拟变量,从而实现了对分类变量的量化。至此数据处理完毕,可应用于后续数据分析。

3.2 模型的性能评估

将预处理完后的数据分别建立逻辑回归和支持向量机的判别模型,借助R语言[3],通过对比选择错判率更低的模型对测试集数据进行预测,两类模型的预测结果混淆矩阵如表1和表2所示。

表1 逻辑回归的混淆矩阵

表2 支持向量机的混淆矩阵

模型结果的性能评估往往采取ROC(Receiver Operating Characteristic)曲线,全称为“受试者工作特征曲线”,源于雷达信号分析技术。ROC曲线的横轴是“假正例率”(FPR),纵轴是“真正例率”(TPR),如果曲线越靠近左上角,则说明分类模型的分类结果准确率越高。AUC(Area Under ROC Curve)指ROC曲线与坐标轴围成的面积,相对于ROC曲线,它是一个更加直观的准确率评判标准,面积越大,则说明分类模型的分类性能较好,两类模型的ROC曲线如图1和图2所示。

图1 逻辑回归ROC曲线

图2 支持向量机ROC曲线

通过判对率和ROC曲线的性能评估可知,逻辑回归的效果要更优于支持向量机,因此在分析客户是否预约定期存款上选择逻辑回归模型。为了更直观的看出16个预测变量对响应变量的具体影响,将采用逐步回归法依次筛选有效的预测变量[4],最终的显著性变量表和逻辑回归结果如表3和表4所示。

表3 显著性变量表

表4 逻辑回归结果

逻辑回归判别表达式为:

3.3 模型的结果分析

通过对训练集建立的逐步逻辑回归可知,对16个预测变量整体而言,“age(X1)”、“job(X2)”、“default(X5)”、“days(X10)”、“months(X11)”、“previous(X15)”显著性不明显,即这六个方面各自差异并不能很好的体现客户对于是否订阅定期存款的偏好。其中的“marital(X3)”、“housing(X7)”、“loan(X8)”、“campaign(X13)”、“pdays(X14)”变量对最后结果的影响显著,且为负向影响,即其数值越大则表明客服订阅定期存款的可能性约低,其中“housing”的负向影响程度最大,“pdays”的影响程度最小。其中的“education(X4)”、“balance(X6)”、“contact(X9)”、“duration(X12)”、“poutcome(X16)”变量对最后的结果影响也为显著,且为正向影响,即其数值越大则表明客服订阅定期存款的可能性约高,其中“poutcome”的正向影响程度最大,“balance”的正向影响程度最小。

根据最终择优选出的逻辑回归方法,根据训练集中已有的数据建立的判别模型,预测出在测试集的4521个客户人群中,可以得出:有272个客户会订阅定期存款,其余的4249个客户不会订阅定期存款。

4 总结

为判别银行客户是否预约定期存款,建立逻辑回归判别模型与支持向量机判别模性,并进行综合比较,最后建立最优逐步逻辑回归模性。得出最终以下结论:从整体上讲,“marital”、“education”、“balance”、“housing”、“loan”、“contact”、“duration”、“campaign”、“pdays”和“poutcome”这10个预测变量对结果有较强的影响,其中,变量“poutcome”的正向影响因素最显著,即其数值越大则表明客服订阅定期存款的可能性约高,变量“housing”的负向影响因素最显著,即其数值越大则表明客服订阅定期存款的可能性约低。从分类变量上讲,应着重关注单身人员、受教育程度更高的客户、具有贷款的、余额越多、与客接触的时间越长则越有可能前来订阅定期存款。此外,尽量减少在二月份进行营销活动,适当增加三月份的营销活动,在营销活动中接触客户人数适当就好,越多并不代表成功率越高。

猜你喜欢
逻辑向量分类
刑事印证证明准确达成的逻辑反思
向量的分解
逻辑
创新的逻辑
分类算一算
聚焦“向量与三角”创新题
分类讨论求坐标
数据分析中的分类讨论
向量垂直在解析几何中的应用
向量五种“变身” 玩转圆锥曲线