张汉中+张倩+王斌+周小平+黄继风
[摘 要]近些年,上海市商品住宅的价格增长迅速,成为拉动内需、带动经济增长的支柱性产业。但是,若任其发展,将在一定程度上影响房地产市场健康发展的持续稳定,影响宏观经济和社会稳定。虽然政府相关部门出台了一系列调控措施,如房产税、户口限制等,但“购房热”“买房难”依然是持续影响百姓生活的重大问题。也正因为多数新房价格昂贵,大多数人会选择购买二手房,那么,二手房的房价走势是一个很值得研究的问题。文章主要通过对数量指标进行数据整理与清洗,并运用动态聚类法完成多元线性回归模型的构建。通过构造合理准确的多元线性回归模型来预测出较为客观的上海市二手房房价走势。
[关键词]商品住宅价格;线性回归模型;房价预测;二手房
[DOI]10.13939/j.cnki.zgsc.2018.02.042
1 引 言
在我国文化观念的影响下,房地产业是每位我国国民几乎都会进行消费的重要产业,是推动国民经济增长的关键组成部分,[1]但由于房价泡沫等一系列因素导致房价陷入持续性飙升的“怪圈”。这种奇怪现象说明了对房地产业的研究和房屋价格走势预测刻不容缓。[2]由图1可知,上海的商品住房价格走势一直呈现上升态势。随着更多的流动人口进入上海,住房的需求会越来越大。然而,在房价居高不下致使大多数人买不起房的情况下,房价依旧持续走高,不但加重了居民购房的负担,还可能造成诸多经济、社会问题,[3]所以,住房问题日渐成为我国的政治问题,引起中央与地方政府的高度关注。虽然国家出台了一系列宏观调控政策,但是效果并不是特别明显。[4]上海作为国家经济发展的重要城市,对上海市商品房价格走势的预测,有着一定的现实意义。
2012年,张小富、侯纲发表题为“基于多元线性回归模型的西安住宅价格泡沫研究”的文章,其中通过构建多元线性回归方程分析多种因素对房价的影响。2013年,卢小涛对上海房地产业与区域经济相关性研究,发现房地产业发展对其区域经济的带动作用更为显著。2015年,Lisi G和Iacobini M通过对意大利房产数据进行分析,构建数学模型进而对房地产进行较为合理的估价,此模型对世界各地房地产普遍适用。本文中,笔者将通过对变量进行处理,构造多元回归线性模型,运用更为准确的方式分析上海市二手房价格的变动因素及发展趋势。[5]见图1。
2 数据的获取与分析
2.1 数据的获取
本文主要以链家网为例通过python编写代码获取相应的已成交二手房信息。[6]其中所需的有效信息为上海各个区域下每套二手房的所在区域、小区名称、户型、面积、成交日期、售价、楼层(分区)、朝向、单价及建造日期。(注:获取的成交数据建造日期存在部分,通过与未成交数据匹配可以尽量弥补所缺少的建造日期),获取数据整理成如图2所示的格式(共24036套)。
2.2 数据的整理与分析
2.2.1 上海各地区二手房的均价
各区近期房价如图3所示,上海二手房价格最高的三个地区为:静安、黄浦和徐汇,均价都在7万元以上,房价较低的三个区为:金山、崇明和奉贤,均价都在2万元左右。
2.2.2 二手房的户型和档次的分布
从图4中不难看出,户型分布数据的长尾向右延伸,属于严重的正偏态分布。所以,考虑将600套以下的户型统统归为一类,以此减轻长尾现象。如图5所示。
2.2.3 二手房的面积和成交价格的正态性检验
核密度估计是对直方图的一个自然拓展。
QQ图是由标准正态分布的分位数为纵坐标,样本值为横坐标的散点图,利用QQ图可以判断数据是否近似符合正态分布,只需看QQ图上的点是否近似地在一条直线附近,该直线的斜率为标准差,截距为均值。
PP图是根据变量的累积比例与指定分布的累积比例之间的关系所绘制的图形。利用PP图可以判断数据是否符合正态分布。当数据符合正态分布时,PP图中各点近似呈一条直线。[7]
显然,获取到的数据的面积和成交价格均不满足正态分布,那么就无法直接对数据进行方差分析或构建线性回归模型。通过上述方法检验发现,二手房的面积和成交价格均不符合正态分布。详见图6和图7。
3 多元线性模型的构建
3.1 相关分析
动态聚类法又称逐步聚类法,其基本思路为,起初进行粗略分类,然后依据最优原则将原本不合理的分类进行调整,进而形成最终聚类。此方法较为简便,占用计算机内存较少,所以更适用于大样本的聚类分析。其中最常用的为kmeans函数。由于获取到的数据属于大样本范畴,本文将采用此算法进行聚类。[8]
第一,用房子的单价(danjia)和面积(mianji)这两个变量对楼盘进行聚类分析,用K均值聚类,分成四类,进行显组间比较,结果差异显著,有统计学意义。[9]聚類数量分布表——每个聚类中的个案数量见表1,方差分析表—ANOVA见表2。
第二,根据每个类别的单价,面积的平均值,以及各个类别在区域、朝向、户型的分布情况。[10]四个楼盘的类别是以下几类。
第一类:大户型,楼盘的面积最大,价格最高,数量最少。相对的户型是5室以上。以静安为代表,一般朝西。
第二类:徘徊型。价格第二高,面积适中,数量一般,相对的户型是4室或3室2厅的,集中在黄浦、长宁、徐汇一带。主要以朝东南、朝西南为主。
第三类:大众型,价格最低,数量比较多,主要是2室1厅、3室1厅。集中在崇明、金山、奉贤一带。朝向是南北为主。
第四类:地段型,价格适中,面积小,数量最多,主要是没有厅的户型,集中在闸北、杨浦、普陀一带。朝向以东南、朝南为主。
第三,四种楼盘分类如图8所示。
第四,以单价(danjia)为因变量,区域(are)、户型(tye)、学区(xuequ)、面积(mianji)、看房量(kanfan),朝向(P)、容积(rongji)、绿化(lvhua)为自变量做方差分析如下:从表3中可知朝向的P值大于0.05,没有统计学意义,因此可以考虑把朝向剔除。endprint
第五,剔除朝向后的方差分析如下:区域、户型、学区、面积、看房量、朝向、容积、绿化率均有统计学意义。在单变量方差分析中,SSA 代表A因素产生的组间变异, SSE是组内变异。公式分母是组内变异SSE 和A因素的组间变异的和,偏eta方的公式为n2p=SSASSA+SSE。偏eta方能说明某个因素与误差的关系,[11]因此从偏Eta平方可以看出区域、学区房对单价的影响比较大。见表4。
3.2 数学模型的构建
基于上述分析,我们可以给出上海住宅的多元线性回归模型。
因变量单价:
Danjia=46852.6+26422.9are1+15252are2-25304are3+8328tye1+1881.5tye2+2059.74tye3-6863.77xuequ+17.3mianji+214.22kanfan+5351.3rongji+25624.34lvhua.(1)
式(1)中,Danjia表示前三类房屋单价,are1表示第1类楼盘的区域,are2表示第2类楼盘的区域,are3表示第3类楼盘的区域,tye1表示第1类楼盘的户型,tye2表示第2类楼盘的户型,tye3表示第3类楼盘的户型,xuequ表示学区,mianji表示面积,kanfan表示看房量,rongji表示容积率,lvhua表示绿化率。
当是第4类的楼盘、学区房时。相对应的楼盘单价方程为:
Danjia=46852.6+17.3mianji+214.22kanfan+5351.3rongji+25624.34lvhua(2)
式(2)中,Danjia表示第4类房屋单价,mianji表示面积,kanfan表示看房量,rongji表示容积率,lvhua表示绿化率。
表5可以得出各种类型的房价预测,学区房比非学区房的房价要贵。以第4类楼盘为参照水平。
通过LSD法比较各个户型楼盘单价的高低情况,[12]得出tye1>tye2>tye4.tye1>tye3>tye4。tye2和tye3 P值大于0.05,没有显著性差异。见表6。
通过LSD法比较各个区域楼盘单价的高低情况,得出are1>are2>are4>are3。见表7。
从残差图图9来看,整体的波动不大,因此模型的拟合效果比较好[13]。
4 结 论
本文通过构建线性回归方程建立起上海二手房价格的评估模型,并对具体数据进行房产价格的评估,分析得到,楼盘的单价减去预测值,如果为正则楼盘有升值空间,如果为负则楼盘为泡沫存在。从以图10可以看到,存在泡沫的主要是第三类大众型和第四类地段型楼盘。图10为结论图。
参考文献:
[1] 许艳荣.房地产业对相关产业的带动效应研究[J].中国经贸, 2013(18):22.
[2] 刘其华.试论影响我国房地产价格持续上涨的主要因素及其原因——以上海为例[J].经济师, 2011(4):236-238.
[3] 张元姣.基于主成分回归分析的上海房价影响因素研究[J].江苏商论, 2013(27):125-126.
[4] 任晨莹.上海楼市主线政策大回顾[J].上海房地, 2017(4):19-23.
[5] Lisi G, Iacobini M.Estimating the Housing Price with a Search-and-matching Model[J].Journal of European Real Estate Research, 2015, 8(2):196-216.
[6] 王荩梓, 赖雯洁.基于房产交易网站的数据获取与在线工具开发[J].计算机技术与发展, 2017, 27(5):154-159.
[7] 张小富, 侯纲.基于多元线性回归模型的西安住宅价格泡沫研究[J].价格月刊, 2012(11):41-44.
[8] 丁飞.上海与重庆房地产价格决定因素对比分析[J].知识经济, 2011(13):96.
[9] Berna Keskin.HedonicAnalysis of Price in the Istanbul Housing Market[J].International Journal of Strategic Property Management, 2008, 12(2):125-138.
[10] 丁軍.北京、上海、深圳房地产价格的影响因素比较研究[J].中国房地产, 2016(36):28-35.
[11]刘纪辉.基于多元线性回归分析房地产价格的影响因素[J].湖北工业大学学报, 2008, 23(4):87-90.
[12] Tsai I C, Peng C W.Linear and Nonlinear Dynamic Relationships between Housing Prices and Trading Volumes[J].North American Journal of Economics & Finance, 2016(38):172-184.
[13] Francke M K.Repeat Sales Index for Thin Markets[J].Journal of Real Estate Finance & Economics, 2010, 41(1):24-52.endprint