大数据背景下的房价归因模型

2019-03-15 01:30金广朔
电子制作 2019年4期
关键词:假设检验归因房价

金广朔

(济宁市第一中学,山东济宁,272000)

1 概述

1.1 研究背景

近年来,随着城市经济的高速增长,城镇人口逐年递增,城市土地资源日益稀缺,从而导致中国房价飞速增长,大量投资者从中攫利,同时无数人也成为了“房奴”。由于房价与国计民生休戚相关,房价预测无论在经济学、数学还是计算机学中都成了一个热门同时也非常困难的问题,因为其涉及了太多的随机影响因素,而且影响因素非常多元,无法通过简单的统计学模型进行预测。目前为止,学界对于房价预测有了多种方法,如多元线性回归模型、灰色理论预测模型、马尔科夫预测模型、遗传算法和神经网络等等模型,但均未能取得一个较为理想的结果。目前影响房价预测准确性的一个重要原因是房价数据维度太高,并且没有一个比较合适的降维方法,因此模型的复杂度随着维度的增加而上升,但是精度却随之而下降。因此建立一个行之有效的房价归因模型迫在眉睫。

1.2 研究综述

国内外学者在这方面已经开展了许多研究,如付益松和张明以南昌市青山湖区为研究对象,基于结构方程模型,建立起房价影响因素模型[1],贾德铮和张恩阳基于房屋特征模型,对二手房房价影响因素进行了回归分析[2],汤文彬通过相关理论,对历史数据进行深入分析,构建了房价影响因素模型,并运用面板回归模型和面板脉冲响应函数进行了实证分析[3],但在房价归因的研究中,仍然存在着一些不足,如黄厚霞和侯莉颖指出目前对我国房价的研究不系统且在研究中存在着如研究很少涉及微观因素、较少有定量的分析研究等的局限[4],肖磊则指出研究中尚存的诸如数据收集困难、使用的是截面数据等的缺陷[5],所以,对于这方面的分析研究,仍有待完善和改进。

1.3 本研究简介

本文基于多种方法建立了多个房价归因模型,其一,运用假设检验方法,利用其对单一数据分析的优势,对各个因素进行逐个分析,建立起归因模型;其二,运用机器学习方法,将简单清洗过的数据在对精度影响不大的前提下选取一小部分投入神经网络中进行训练,初步建立起归因模型,随后进行测试并给定阈值,提取出主要影响因素;其三,基于结构方程模型,利用其具有可同时处理多个因变量的特点对各影响因素进行多元分析,从而建立归因模型;最后,笔者用直角坐标系的坐标轴分别引入房价及其对应影响因素的数值,直观地求出各影响因素的影响率,再给定阈值,建立起房价归因模型,从而更简洁地提取出影响房价的主要因素,这也是本文的创新之处。

2 模型综述

2.1 假设检验

在总体的分布函数完全未知或只知其形式、但不知其参数的情况下,为了推断总体的某些未知特性,提出某些关于总体的假设。我们要根据样本对所提出的假设做出接收还是拒绝的决策,假设检验是做出这一决策的过程。

我们的思路是,对于房价Y和影响因子A、B、C、D等等,分别提出类似这样的假设:有95%的把握认为A与Y的变化有关,再使用假设检验相关的验证方法:首先找到检验统计量,然后根据不同的检验方法(X检验、t检验、F检验等)得到置信区间,最后看检验统计量是否落在置信区间中,如果落入,则认为假设成立。使用这种方法对于各个因素进行假设检验之后,即可得知哪些因素对于房价有着比较大的影响。

这种方法有着比较大的缺陷,因为一次只能检验一个因素的影响,很容易忽略很多有用的信息,而且这种检验方法精度较低,效率也不高。

2.2 机器学习

2.2.1 神经网络模型

人工神经网络是从信息处理角度对人脑神经元网络进行抽象的一种运算模型,是由大量的节点之间相互联接构成的。一个神经网络由若干层组成,第一层是输入层,第二层是输出层,中间的是隐藏层,隐藏层可以有多层。最近十多年来,对于神经网络的研究工作不断深入,在很多领域成功地解决了许多实际问题,表现出了良好的智能特性。作为机器学习的一种方式,神经网络具有自学习、联想存储、高速寻找优化解的特点和优越性,因此,本研究基于神经网络,建立了机器学习模型,用以提取影响房价的主要因素。

图1

2.2.2 神经网络归因将房价及其影响因素的原始高维数据进行简单的数据清洗后投入机器学习模型,如果数据繁多,训练时间较长,可以在对准确度影响不大的前提下,只将一小部分数据投入模型中进行训练,比较各数据的输入和输出,然后根据经验确定一个阈值,从而根据阈值提取出影响力较大的因素,建立起一个房价归因模型。

2.3 结构方程模型[1]

2.3.1 模型构成

可直接观测的因素为观测变量,无法直接观测的因素为潜变量,可以用观测变量解释,构建基于结构方程的房价归因模型,明确对房价具有重要影响的因素,并对其影响程度作定量分析。

2.3.2 信度分析

利用α系数法对观测变量进行信度分析,α系数取值越接近1说明内部一致性越好。

2.3.3 效度检验

用SPSS对数据进行验证性因子分析,以检验观测变量对潜变量的影响程度,即所选的观测变量能否准确有效地解释潜变量。

2.3.4 验证性因子分析

我们可以运用验证性因子分析对所有变量进行区分效度的检验,为避免潜变量不被模型所识别,将只有一个因子的变量随机分为三个部分,使用AMOS17.0软件来检验各测量模型的拟合指数,从而检验所有变量的区分效度。

2.3.5 假设验证

汇总得到各影响因素对房价的影响程度,用标准化路径系数表示,即通过路径分析将各因素的影响系数标准化。

2.4 建系比较

2.4.1 数据预处理

其一,利用维规约降低数据维度,其二,去除冗余数据,准备多个特征子集,训练后选择效果最好的,其三,利用规范化,将房价及其影响因素的数据拟合为正态分布,方便曲线图合并后的比较。

2.4.2 建系比较

建立直角坐标系,将房价数据代入y轴,将各个影响因素数据代入x轴作出曲线图,将各个曲线图合并在一张图中进行比较,通过房价与因素的比值即曲线的斜率比较出各因素影响率的大小,确立一个阈值,影响率在阈值以上的因素为影响房价的主要因素,建立起房价归因模型,从而直观简洁地得出影响房价的主要因素。

3 结论

房价预测作为当今时代的热门话题之一,在很多领域被分析研究,笔者认为,房价预测的根源应当在于对房价影响因素的分析,因此,本文基于假设检验、机器学习、结构方程以及笔者建系比较的创新性想法建立了四种房价归因模型,以期为以后的房价预测和归因研究提供有价值的借鉴和参考。

优点总结:其一,基于假设检验建立的房价归因模型,对单一因素影响的分析具有显著效果;其二,基于机器学习建立的房价归因模型,可以将输入和输出数据之间的关系较为准确地建立起来,并可以同时对多组数据进行分析;其三,基于结构方程建立的房价归因模型,适合于多元性分析,并可应用于对无法直接测得数据的因素的分析;其四,基于笔者建系比较想法建立的房价归因模型,可以较为直观地比较出各因素影响程度的大小,同时结构简单,过程简洁。

本研究仍存在一些不足和缺陷,就此笔者提出改进的方向。第一,数据收集上仍有困难,许多细节数据难以查找,且样本容量过小。笔者认为,以后的研究中收集的数据要尽量广泛、细致且准确,这样才有利于建立精度更高的房价归因模型,达到更好的房价预测效果。第二,机器学习模型中仍然只是投入少量数据进行训练,笔者认为如果在条件允许的情况下,仍可以将大批量数据投入训练,这样有助于对模型精度的进一步提高。最后,笔者的创新想法虽然可行,但对于数据预处理的要求较高且不能准确表示出各影响因素与房价的关系,在精度上仍有待提高。

猜你喜欢
假设检验归因房价
盛松成:什么才是中国房价持续上涨的真正原因?
梧州市房价运行和减少金融杠杆的思考
两大手段!深圳土地“扩权”定了,房价还会再涨?
假设检验结果的对立性分析
班主任引导高三学生考后积极归因的探索
为何越来越爱
农村留守初中生的学业成就归因倾向研究
积极归因方式:当船漏水了
统计推断的研究
凤爪重量质量管理报告