徐晖 张涛
摘要:支持向量机(SVM)是在统计学习理论的VC维理论和结构风险最小原理的基础上发展起来的一种新的机器学习方法。本文利用SVM对商品房的几种主要价格因素数据进行统计学习,并且针对SVM学习过程中计算量巨大的问题,提出一种对核函数加权的方式来提高其学习效率,并针对不同因素调整其学习权重,有效提高了模型的学习速度和推广能力。SVM以统计学习理论为基础,具有简洁的数学形式、直观的几何解释和好的泛化能力等优点。研究证明,SVM的预测结果准确,使用方便,是一种优良的商品房价格建模方法。
关键词:商品房;支持向量机;权重;建模
中图分类号:F293.3
支持向量机方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以期获得最好的推广能力。支持向量机利用了核函数,巧妙地把低维空间的非线性函数映射为高维空间的线性函数,避免了“维数灾难”问题,使得算法复杂度与样本维数无关,非常适合于处理非线性问题。选择适合的核函数在解决某一给定的问题时起着重要的作用。核函数是通过描述样本相似性的内积来定义的,而内积是根据样本的所有特征计算的。这些特征与分类的相关性各不相同,一些次要特征同等占用着核函数的计算资源,从而影响分类器的分类效率。找到一个方法科学合理地评价样本集合对于学习的重要性是十分必要的。统计商品房价格的各种组成因素的数据,建立样本库,按照各种因素对商品房价格的影响程度设定权重,利用SVM对样本库进行学习,建立商品房价格预测模型,可以对地区的房价进行科学的预测和指导,同时对处于观望中的购房者提供可靠的参考信息。
一、决定商品房价格的因素
对房价的组成因素进行客观合理的分析是SVM学习建模的前提条件。经过大量的市场调查和经济学角度的综合分析,本文SVM学习的价格因素样本库包括以下4点:
(一)房屋造价。商品房的价格组成首先要考虑其成本价,对于房屋来说,就是其建筑成本以及土地成本,即买一块地皮的价钱和从这块地上将房子盖起来的费用,其中也包含人工和材料的费用。这是决定房价的基础。房屋的造价直接影响了商品住房的成本,因此,理论上该变量和商品住房的价格呈正相关。
(二)地区人均国内生产总值。通常是指一定时期内,一个国家或地区的经济中所生产出的全部最终产品和提供劳务的市场价值的总值。在经济学中,常用GDP来衡量该国或地区的经济。发展综合水平通用的指标,商品住房价格与当地的经济发展水平有着密切的联系。从理论上说,一个地区的经济越发达,商品住房的价格越高,即两者之间应该呈正相关。
(三)人均可支配收入。这一指标代表一个地区的居民的经济实力。人均可支配收入越多,人们提高生活质量和进行投资的欲望和能力就越强。房屋相对于其他商品而言,具有保值性和增值性,因而人们用大量的资金进行投资,促使房屋价格上升。从理论上说,该变量和房价存在正相关性。
(四)人口密度。人口密度是单位面积土地上居住的人口数。由于土地资源的稀缺性,单位面积土地上的人口数越多,对土地的需求就越大,从而推动房屋价格的上涨。从理论上说,人口密度与房价呈现正相关性。
房价主要是受以上因素交互作用影响的,但是各种因素对房价的影响程度各有不同,本文将对其进行分析量化,给出一个能够直接表达出影响程度的权重值。
二、支持向量机与核函数
支持向量机是在统计学习理论的VC维理论和结构风险最小原理的基础上发展起来的一种新的机器学习方法。假设存在样本集,n为输入维数,学习的目标就是找到一个超平面将这两类样本完全分开。
通过采用不同的核函数可以对高维的输入空间进行有效的降维,如图1所示。即在构造判别函数时先在输入空间比较向量,然后再对结果进行非线性变换。核函数是满足Mercer条件的任意对称函数,所以对于这种非线性变换没有具体形式,而是由核函数直接实现算法的线性化。这样,大量的工作就可以在输入空间中完成,而不需要在高维特征空间中进行。本文选用径向基核函数:
式中为核宽度,反映了边界封闭包含的半径。
三、权值支持向量机
(一)权计算规则
支持向量机方法最初是针对二类分类问题提出的,先按照规则A将样本集C分类,形成了两个类 (类 和类)的中心式和心,如图2所示。
类的任一元素xi的发生和类的任一元素yj的发生之间存在一定关系,我们用量化的数字wi对其进行描述。一般情况下, wi满足0≤wi≤1。可以量化本集中每种商品房价格因素对其影响力度的大小,具有最高权重的是给定特征集合中具有最高区分度的特征,亦即对分类贡献最大的特征,即wi越大,相关性越强。
对于样本集中的两样本点xi和yj,在一般意义下,其点积xi.yj的值是通过计算两点的欧氏距离而得到的。引入权重之后,拟用两个样本点的集交互熵来调节欧氏距离。
(二)SVM学习权重wi的量化
本文的样本库包括房屋造价、地区人均国内生产总值、人均可支配收入和人口密度。房屋造价可谓和房屋价格息息相关,对其具有直接触动的作用,所以权重最高定位0.9,地区人均国内生产总值和人均可支配收入从某种程度上体现了市场的购买能力,间接地影响着房价,权值定为0.8,而人口密度的大小对市场的供求关系有一定的影响,但是没有前两种因素的影响大,权值定为0.7。
(三) 实例分析
本文采用某省会城市2001—2010年的相关因素统计数据作为BP网络的学习数据。如表1所示。
完成训练后,如图3所示,2001—2007年的数据误差逐步拉大,最大相对误差大于1900。据分析,造成这种现象的主要原因包括以下几方面:首先,政府的激励措施,如2007年应对全球经济危机的购房补贴激励,造成房价的全面升高;其次,由于交通更为便捷,省会城市的聚集效应放大,许多不在省会城市工作的人,在此购置房产,让老人、孩子定居在此,推高了房价;最重要的是投资、投机、通胀预期下购房保值增值等因素的影响。由于这些因素在统计数据中难以反映,造成实际数据与模型曲线的偏离。可以认为,这种偏离不完全是市场规律的作用,在某种程度上反映出商品住宅泡沫化的趋势。2007—2010年的数据误差逐步缩小,虽然没有明显的缩小,但是这种差距从某种程度上得到了有效的遏止。其主要原因在于,2007年以后国家和地方政府分别推出了各项措施,控制房价进一步走高的趋势。
四、结论
本文按照组成商品房价格不同因素设定其学习权值,利用权核函数支持向量机对人均国内生产总值、房屋造价、人均可支配收入、人口密度等统计数据进行学习训练,拟合商品住宅价格。商品房价格的学习网络模型计算出市场实际价格与理论价格的差距,从某种程度上反映出了商品住宅泡沫化的程度,能够给购房者提供一定的参考依据。实验结果表明,SVM的预测结果准确,使用方便,是一种优良的商品房价格建模方法。
参考文献:
[1] Lin C F, Wang S D. Fuzzy Support Vector Machines[J]. IEEE Transactions on Neural Networks, 2002, 13(2):464-471.
[2] Lee Y J, Mangasarian O L. SSVM: A Smooth Support Vector Machines[R]. Proceedings of the First SIAM International Conference on Data Mining, 2001.
[3] 周水生,周利华. 训练支持向量机的低维Newton算法系统[J].工程与电子技术,2004, 26(9): 1315-1318.
[4] 蒋正科,向鑫.城市商品住宅价格的影响因素研究[J]. 价值工程,2008(10):147-149.
[5]孔煜,魏锋,任宏.城市住宅价格的宏观影响因素[J].统计观察, 2010(6):85-85.
[6]吕红军,王要武,姚兵.房价增长时期商品房需求调控模型研究[J].哈尔滨工程大学学报. 2008(10):1116-1121.
[7]张翔, 肖小玲, 徐光枯.基于样本之间紧密度的模糊支持向量机方法[J].软件学报,2006, 17(5): 951-958.
(编辑:张小玲)