基于主成分分析的支持向量机对购房意愿的分类研究

2016-05-30 00:06邹玉梅范敬雅张鹏程
技术与创新管理 2016年5期
关键词:主成分分析法

邹玉梅 范敬雅 张鹏程

摘 要:居民的购房意愿在整个宏观层面上影响着整个社会结构的变迁和转型。文中基于500份居民购房意愿调查问卷,利用主成分分析法提取了主要特征,对主成分序列建立了支持向量机分类模型。五折交叉验证结果表明:分类效果良好,对政府和房地产开发商进行客户细分、制定营销策略有一定的借鉴意义。

关键词:购房意愿;主成分分析法;核函数;五折交叉验证;支持向量机分类

中图分类号:TP 891 文献标识码:A 文章编号:1672-7312(2016)05-0544-03

0 引 言

支持向量机(Support Vector Machine,SVM)由Vapnik于1995年提出,是在VC维(Vapnik-Chervonenkis Dimension)理论和结构风险最小原理的基础上的一种学习机器[1],有着很强的模型泛化能力和推广能力,在20年间被广泛应用到模式识别、医疗器械诊断等领域[2]。模型在处理分类和回归问题上已相当成熟,通过由台湾大学林智仁教授等开发设计的LIBSVM工具包,能更多地应用到实际问题上。针对文中的数据而言,先采用主成分分析法提取主要信息,再进行分类处理,这有效地提高了运算精度、缩短了运算时间。

文中数据基于500份问卷调查,内容包括受访者的性别、年龄、婚姻、职业、常住人口数、家庭月收入和购房意愿,对数据进行赋值量化处理后进行分类研究。

1 主成分分析法提取特征

主成分分析法(Principal Component Analysis,PCA)是在1933年由Hotelling提出,它是一种通过降维的技术把多个变量化为少数主成分的统计分析方法。这些主成分能够反映绝大部分的变量信息,通常表示为原始变量的线性组合[3]。对购房意愿的影响因子xi(i=1,2,…,6)进行标准化处理,计算主成分

Yi=xTUi,i=(1,2,…,6),Ui为特征向量。取累计贡献率大于等于85%的少数主成分即可。变量设定见表1.

2 支持向量机分类

支持向量机(SVM)突破了线性判别模型的限制,很好地解决了小样本、局部最优点、非线性等复杂的实际问题,提高了模型的泛化能力。SVM主要针对在2类分类问题,如文中所研究的购房或者不购房,其目的是找到一个最优分类面H将样本空间中的训练样本分成2部分,使得SVM超平面的错分率最小[5]。

分类超平面的最优化问题可描述为如下的二次规划问题

其中,ω为权重系数;b为偏置量;C为惩罚系数,它可以控制SVM泛化能力和错分率之间的折中。C越大表示对错误的惩罚系数越高,越不能容忍误差。但是,C取的过大的话,相应的权重就小,系统的泛化能力变差,会出现“过学习”的现象。ξi为非负松弛变量。

转化为拉格朗日对偶问题[6],求得最优超平面的判别函数定义为

其中,αi为最优超平面所对应的系数;K(xi,xj)为核函数,其选择是分类准确率的关键因素[5]。

具体建模步骤如下所示:

建立訓练样本集T={(x1,y1),L,(xn,yn)},xi∈Rd,目标集yi∈{-1,1},i=1,2,L,n.在500个样本库里随机抽取400例作为训练样本,100例为测试样本。x为主成分提取后的样本,y=-1代表不买房,y=1代表买房。

下面均采用五折交叉验证的方法来判断其结果的可靠性。即为了充分利用样本集对算法效果进行测试,将样本集随机均分为5个包,每次将其中1个包作为测试集,剩下4个包作为训练集进行训练。

选择最优的核函数及其参数。文中以常用的线性核函数、多项式核函数、RBF核函数和Sigmoid函数进行训练[7],在LIBSVM环境下,其他参数取默认值,分别得到C=1,10,100,300,500时的分类正确率Accuracy.输出结果如图1所示。

3 结 论

文中通过对样本数据提取主成分,突出主要特征信息,形成了新的序列样本。支持向量机是在结构风险最小化原则的具体实现,具有良好的推广能力。针对文中数据运用RBF核函数来构造学习能力和泛化性能都很强的向量机,再通过五折交叉验证,分类效果良好,

错分率仅为2%.模型结果表明,年龄在25到35岁之间,已婚,家庭月收入在15 000元以上,工作单位相对稳定的人群更有购房意愿。

该模型具有泛化能力强、实现简单、训练速度快等优点,可以正确且有效地进行二分类问题,具有较强的推广能力[9]。但是针对复杂样本的多分类问题,还需进一步研究。

参考文献:

[1] Cortes CVapnik.V.support-vector networks[J].Machine Learning,1995,20(3):273-298.

[2] Peter Andras.The equivalence of support vector machine and neural networks[J].Neural Processing Letters,2002,65:97-104.

[3] 孙刘平,钱吴永.基于主成分分析法的综合评价方法的改进[J].数学的实践和认识,2009,39(18):16-18.

[4] 崔庆安.基于主成分分析与支持向量机的能源需求预测方法[J].统计与决策,2013,17:70-71.

[5] Camp bell.C·Kernel methods:a survey of current techniques[J].Neurocomputing,2002,48:63-72.

[6] Vapnik V N.统计学习理论[M].徐建华,张学工,译.北京:电子工业出版社,2009.

[7] 梁礼明,钟 镇,陈召阳.支持向量机核函数的研究和仿真[J].计算机工程和科学,2015,37(6):1 136-1 138.

[8] Doumpos M,Zopounidis C.Additive support vector machines for pattern classification[J].IEEE Trans on Systems,Man,and Cybennetics:Part B,2007,37(3):540-550.

[9] 顾亚祥,丁世飞.支持向量机研究进展[J].计算机科学,2011,38(2):14-16.

猜你喜欢
主成分分析法
山东省旅游产业竞争力评价研究
中国装备制造业阶段竞争力研究
陕西省各地区人力资本水平综合评价与分析
基于主成分分析的煤层气赋存影响因素分析
成都市中心城区商服用地基准地价空间演变规律研究
基于主成分分析法的高校财务风险评价指标体系构建
太原市土地可持续利用研究
基于主成分分析法的成都市房地产泡沫程度评价
考察我国各省市自治区社会发展综合状况
金华市服务外包产业科技创新能力研究