基于ARMA模型的房地产销售趋势预测方法研究

2019-09-24 02:00邓佳雯陈继红
电脑知识与技术 2019年19期

邓佳雯 陈继红

摘要:数据挖掘是指从大量的、客观的、有噪声的、随机的数据中,通过算法提取隐含在其中的信息。随着房地产行业的不断发展,数据量越来越庞大,将数据挖掘技术应用于房地产行业,对销售数据进行处理和分析,从真正意义上体现数据的价值。本文以江苏省某市房地产数据为案例进行定量研究展示建模过程,基于ARMA模型并结合加权最小二乘法对模型进行改进。研究结果表明加权最小二乘法与ARMA模型的适应性较好,且优化模型在预测精度上有明显的提高。旨在掌握行业目前所处态势,并为房地产行业的开发计划和营销策略提供决策性指导。

关键词:自回归滑动平均模型;加权最小二乘法;单位根检验;房地产销售数据;趋势预测

中图分类号:TP391      文献标识码:A

文章编号:1009-3044(2019)19-0228-05

Abstract: Data mining refers to the extraction of implicit information from a large number of objective, noisy and random data through algorithms. With the continuous development of the real estate industry, the amount of data is getting larger and larger. The data mining technology is applied to the real estate industry to process and analyze the sales data, so as to truly reflect the value of data. In this paper, a real estate data of a city in jiangsu province is taken as a case to conduct a quantitative study to demonstrate the modeling process. The model is improved based on ARMA model and combined with weighted least square method. The result shows that the weighted least square method and ARMA model have good adaptability, and the optimization model has a significant improvement in the prediction accuracy. It aims to grasp the current situation of the industry and provide decision-making guidance for the development plan and marketing strategy of the real estate industry.

Key words: ARMA model; weighted least square estimate; ADF test;real estate sales data; trend prediction

國家统计局数据显示,房地产行业在税收中的占比基本保持在百分之十五左右,占国民生产总值的份额也呈逐年递增态势,在国民经济发展中的重要性不言而喻。随着房地产行业的不断发展,房地产行业数据量越来越庞大,由于技术手段的不足,传统的数据处理方式不能对收集的数据进行科学、有效地加工和处理,影响当前数据分析以及未来数据趋势的预测,致使决策失误。众所周知,随着管理体制的不断深化改革,作为典型的数据密集型行业,房地产行业的竞争也越来越激烈。与其他行业相比,房地产行业负载着更多的数据。谁能准确地分析数据,谁就能提供更好的服务,从而获得更多的机会,在市场竞争中取胜。房地产行业的分析样本数据集来源于行业服务支撑系统,包括房源信息,开发信息,销售信息,账务信息,客户信息等,涵盖了所有的业务信息。由于房地产行业的某些数据存在实时性和波动性,如此海量的数据如果没有得到有效的分析和处理,数据的价值将无法体现,因此亟需合理有效的预测手段。

1 房地产预测研究方法

文献[1]中将马尔科夫链的状态转移概率应用到商品房价格预测中,在对2009 -2012年北京住房销售数据进行处理后,预测未来6个月的房价走势。

文献[2]通过建立VAR模型选取评价指标对多伦多房价进行预测,评价指标主要有消费价格指数、房价平均增幅的滞后三期、贷款利率等。

文献[3]中分别用人工神经网络、Hedonic回归模型对土耳其的房价进行预测,对比结果表明人工神经网络的预测效果相对较好。

除此之外,张珊玉等人在灰色预测模型的基础上加以改进,对某地区房价进行了预测,同时也证明了灰色预测模型在房地产行业的适用性。

申瑞娜、曹昶基于支持向量机模型建立预测模型,并结合主成份分析法预测了上海市房价,预测结果显示采用该方法构建的模型预测效果较好。

国内外对房价预测的研究方法主要有人工神经网络、各类回归模型以及灰色预测等,表1列举了常用的预测方法,并进行对比分析。

表1  常见预测方法的比较分析

[方法名称 适用情况 灰色模型 针对数据量少、信息贫乏且不确定性系统进行预测分析 人工神经网络模型 以神经元的数学模型为基础表述,由网络拓扑、节点特点和学习规则来表示[4],通过不断调整自身权重反映输入和输出的映射关系,网络适应能力较强。 随机理论模型 常用于分析不确定性问题,主要包括随机变量方法和随机过程方法 支持向量回归模型 通过假定预测,将数据分为两部分,一部分用来建模,一部分用来检验 ARMA 基于时间序列分析,且时间序列是平稳的。对异常变化值适应性较强,精确度高数据量较大的情况下运行速度很快。 ]

目前房地产数据在实际应用中还存在着许多不足,主要表现在:一是研究数据源的格式不规范、存在大量数据噪声,难以确保数据的准确性;二是预测和分析技术要适应市场的变化,常规的统计分析方法还远远不够;三是预测维度单一,笼统地分析价格涨幅意义不大。

房地产行业数据预测有这两个趋势,一是将销售数据看作一个时间数列,选用恰当的模型对销售趋势进行预测;二是将房价影响因素建立指标体系,从而构建预测模型。文中采用第一种方式,结合模型适用情况和待预测数据特征,同时为了准确地预测销售趋势,在经过数据预处理操作的基础上采用ARMA模型构建计量经济学模型,以客观真实的预测方法进行多维度分析讨论,排除外在环境、人口、经济发展、季节等周期性因素的影响,并以某市房地产实际销售数据为实例进行预测。本课题涉及的时间序列处理后经检验均具平稳性。因此ARMA模型适用于房地产销售趋势预测,理论上预测精度较高。

2 ARMA模型

自回归-移动平均混合模型(Autoregressive moving average mode,简称ARMA模型)是任何线性时间序列模型的理论方程式[5],是一种常见的随机时间序列模型,由自回归模型和移动平均模型组成的,是对数据进行预测的较为客观科学的计量经济学方法之一[6]。

2.1 ARMA模型的基本思想

基于ARMA模型的房地产销售趋势预测的基本思想是:按时间顺序将房地产销售变化数值视为随机时间序列,其中待预测时间序列中第n个值不仅与第(n-1)个值存在关联,且与前(n-1)个时刻也存在关联,以此来预测第n个时刻的值[7]。只有预测对象为零均值的平稳随机时间序列,才可以使用ARMA建立预测模型。因此在建模之前,需要对时间序列进行差分平稳化和零均值处理。

参考文献:

[1] 连星. 太原市商品住宅价格预测研究[D]. 太原:山西财经大学, 2017.

[2] 刘扬. 哈尔滨市松北区商品住宅价格预测研究[D]. 哈尔滨:东北林业大学, 2016.

[3] 叶桂芳. 基于国房景气指数的我国房地产市场发展趋势研究[D]. 广州:暨南大学, 2015.

[4] 和湘, 刘晟, 姜吉国. 基于机器学习的入侵检测方法对比研究[J]. 信息网络安全, 2018, 209(05):7-17.

[5] 章晨, 郑循刚, 龚沁. 基于ARMA模型的我国房地产价格预测分析[J]. 生产力研究, 2012(2):27.

[6] Paulo Teles,Paulo S. A. Sousa. The effect of temporal aggregation on the estimation accuracy of ARMA models[J]. Communications in Statistics - Simulation and Computation,2018,47(10):2865-2885.

[7] 李瑞莹, 康锐. 基于ARMA模型的故障率预测方法研究[J]. 系统工程与电子技术, 2008, 30(8):1588-1591.

[8] 吕福琴. 基于自回归和神经网络算法加权组合的负荷预测[J]. 广东电力, 2011, 24(5):69-72.

[9] 叶瑰昀, 罗耀华, 刘勇. 基于ARMA模型的电力系统负荷预测方法研究[J]. 信息技术, 2002(6):74-76.

[10] Jongoh Nam,Seonghyun Sim. Forecast accuracy of abalone producer prices by shell size in the Republic of Korea: Modified Diebold–Mariano tests of selected autoregressive models[J]. Aquaculture Economics & Management,2018,22(4):474-489.

[11] 赵彦艳. 随机时间序列模型在煤炭价格预测中的应用[D]. 济南:山东大学, 2010.

[12] 张俊民. 基于特征融合的ARMA短时睡眠状态分析研究[D]. 上海:华东理工大学, 2016.

[13] Wu X , Kumar V , Quinlan J R , et al. Top 10 algorithms in data mining[J]. Knowledge and Information Systems, 2008, 14(1):1-37.

[14] Berkhin P. A Survey of Clustering Data Mining Techniques[J]. Grouping Multidimensional Data, 2006, 43(1):25-71.

[15] Rhodes D R, Yu J, Shanker K, et al. ONCOMINE: a cancer microarray database and integrated data-mining platform[J]. Neoplasia, 2004, 6(1):1-6.

【通聯编辑:梁书】