刘佳丽,段永辉,郭一斌,王翔
(1.河南工业大学 土木工程学院,河南 郑州 450015;2.郑州航空工业管理学院 土木工程学院,河南 郑州 450015)
房地产市场给地方政府和国家带来了巨大的经济效益,成为国家宏观经济命脉之一.房地产市场具有信息不对称、固定性和交易离散性的特点,市场力量无法有效地平衡一般的产业结构和供求关系[1].然而,房地产市场需要一个健康稳定的环境.一旦出现问题,就会造成地方经济甚至国家经济的不稳定[2].同样,对于消费者来说,一个健康合理的房地产市场也可以在没有投资者的情况下,提供安全可靠的投资场所,帮助改善民生.因此,一个合理可靠的房地产预警系统对消费者、金融机构、地方政府乃至国家都具有重要意义.
本文将以bagging-GWO-LightGBM模型为基础,深入分析该模型的原理以及该模型在房地产市场预警系统中的应用.本文将从房地产市场的需求和供给的视角进行分析,构建相应的指标体系.最后,本文基于bagging-GWO-LightGBM模型,结合郑州市2006- 2020年房地产市场实际数据,构建房地产市场预警系统.
房地产在经济增长和金融稳定中发挥着重要作用.世界历史上的主要金融危机大多与房地产相关,迫使学者们对房地产风险的相关研究给予了密切关注.由于房地产行业具有产业链长、相关行业众多、驱动力强的特点,导致房地产风险的因素很多.
从影响房地产市场风险的因素层面考虑:目前,系统研究房地产风险影响因素的国外文献较少,大部分学者的研究主要集中于房地产泡沫生成机理、房地产价格影响因素.例如Kallberg[3]通过对美国过去20年的房地产价格演变进行研究,首次指出金融机构的不当贷款是房地产相关风险的主要因素.后来,Pavlov[4]通过研究房地产贷款损失引起的银行间市场风险证明了这一观点.与此同时,Quigley[5]利用宏观状态的基本相关指标,结合房地产价格变化影响因素,诠释了短期内宏观经济对房地产市场的影响.随后,Victor Contreras[6]等从微观层面研究了住宅房地产价格风险的影响因素.
因此,本文从房地产市场的需求和供给视角分别进行分析,以Boosting集成学习框架下的LightGBM模型作为Bagging集成学习策略的基学习器,并采用GWO算法对LightGBM模型的参数进行寻优,从同时降低模型预测方差和预测偏差的角度建立Bagging-GWO-LightGBM集成学习组合预测模型,实现对房地产风险的高精度预测,为今后的相关研究提供一种新思路.
本文首先分析郑州市房地产需求市场和供给市场,研究影响当前房地产行业供需的主要因素有哪些,对房地产供求关系进行分析并预测,并且在借鉴前人研究的基础上,将影响我国房地产风险的因素(供给因素,需求因素)进行建模研究分析.
2.1.1 供给类指标
房地产供给是指房地产开发商在某一特定的时间内,在每一价格水平下,对房地产所愿意而且能够提供出售的数量.郑州市房地产市场的供给受多方面因素的影响,微观层面的因素主要是站在房地产开发商的角度来考虑的,还有宏观经济政策层面对房地产市场供给的影响.以下从作者认为比较重要的几个方面对房地产供给产生的影响进行分析.根据数据的可得性,本文选取施工面积、竣工面积、新开发面积以及房地产开发投资额作为供给类指标.
2.1.2 需求类指标
房地产需求一般指在一个特定时期内,消费者或投资者在各种可能的价格下,愿意而且能够购买的房地产数量.这也称作房地产的有效需求.因此,依据数据的可得性,本文选取新建住宅销售价格指数、二手住宅销售价格指数、居民消费价格指数、房屋销售额、房屋销售面积作为需求类指标.
2.2.1 房地产市场风险指标设计
对于房地产风险的衡量,国内外根据自身的发展情况有不同的标准.本文在界定这一标准时,通过文献回顾,从我国实际出发得出了八个指标作为评价房地产风险的基准.
X1:住宅泡沫指数.依据梅特卡夫定律,城市住宅金融单价正比于城市人口规模以及人均国内生产总值.其值越高说明泡沫度越高.X2:房价收入比.房价收入比从居民住房刚性需求角度真实反映了居民住房支付能力,邢丹凤[6]通过对郑州市房价进行研究,认为世界银行的定义比较适合中国.X3:房屋空置率.住房空置率反映住房供给与需求之间的关系,一般的商品市场理论告诉我们商品的供求不平衡会引起价格的波动,反过来这种波动进而又会影响供求关系[7].X4:房地产投资额增长率/GDP增长率.衡量房地产开发投资增长快慢的指标是房地产投资额增长率/GDP增长率,一般应该不超过2倍.高于此值,则说明出现房地产泡沫的风险较高.X5:施工面积增长率/销售面积增长率.施工面积是未来的房屋供给量,当施工面积增长也超过销售面积增长时,即考虑投机需求,风险增加.X6:房屋销售增长率/社会消费品零售总额增长率.当比值较高时,表明房地产销售市场存在着大量的投机需求.X7:住房景气指数.其反映了房地产业的繁荣程度,通常情况下,景气指数100点是最合适的景气水平.X8:房价增长率.房地产价格持续急剧上扬是房地产泡沫的重要表现.商品房价格的同比增长率可以通过反映房价的波动来反映一定的房地产市场风险信息.
2.2.2 确定综合预警指数
为了避免评价体系的复杂性,本文采用主成分分析通过筛选变量形成综合评价指数的方式,确定房地产风险的综合预警指数.主成分分析就是将原来就有相关性的n个指标进行重组,生成的一组相关性的线性组合作为综合指标.
应用SPSS17.0统计软件,基于标准化的指标数据进行主成分分析,并提取特征值,得出主成分分析结果如表1所示:
表1 解释的总方差
根据成分得分系数矩阵,通过线性组合的方式将提取的前三个主成分进行表示,各个因素前的系数为得分与因素特征值根号的比值,具体形式如下:
F1=0.279X1+0.064X2-0.413X3+0.267X4+0.363X5+0.493X6+0.223X7+0.502X8
F2=0.625X1-0.600X2+0.150X3+0.410X4-0.129X5-0.236X6+0.148X7-0.111X8
F3=0.011X1+0.342X2+0.106X3+0.066X4+0.426X5-0.305X6+0.705X7-0.308X8
根据三个主成分F1、F2和F3可得出2006-2020年郑州市房地产市场的综合预警指数F:
F=0.390F1+0.167F2+0.150F3
3.1.1 LightGBM算法原理
LightGBM模型是2016年由微软研发的一种开源、高效的基于决策树的梯度提升(Gradient Boosting)框架模型[8,9].与XGBoost[10]、scikit-learn(machine learning in Python)[11]等模型类似,LightGBM模型同样支持并行化学习.不同的是,相对于XGBoost模型,LightGBM训练速度快、占用内存较少[12].
(1)
令h(x)为弱学习器,利用h(x)拟合损失函数的负梯度,并求出最佳拟合值为:
gj=argmingL(yi,Fj-1(xi)+ghj(xi))
(2)
此时模型更新公式为:
Fj(x)=Fj-1(x)+gjhj(x)
(3)
通过上述方式,Gradient Boosting不断迭代更新,每次训练一个弱学习器,当迭代完成时,将弱学习器进行线性相加得到强学习器.为了能够在不损害准确率的前提下加快Gradient Boosting 框架模型的训练速度,LightGBM模型采用的优化方法众多,其中最核心的方法为直方图算法和带深度限制的leaf-wise生长策略.
3.1.2 GWO优化算法
灰狼算法(Grey Wolf Optimizer,GWO)最早由 Mirjalili 等人提出,是一种受自然界灰狼生活习惯启发的智能优化算法[13].其算法由多个最优解寻求最优位置,相比于其他智能算法可以有效降低陷入局部极值的概率[14].该算法的本质就是模拟大自然灰狼群体中严格的等级制度和狩猎行为.
Step 1:包围猎物.当灰狼一旦发现猎物,便会迅速向猎物靠近.灰狼与猎物的距离以及灰狼位置的更新可由式(1)、式(2)得到.
(4)
(5)
(6)
A=2ar1-a
(7)
C=2r2
(8)
式(6)中,tmax代表最大迭代次数;a在迭代过程中线性从2下降至0;r1与r2均为[0,1]上的随机变量.
Step2:追捕猎物.狼群进行狩猎行为,通常是按照其适应度大小进行排序.可以依次获取α狼的位置;即最优解Xα;β狼的位置,即次优解Xβ;δ狼的位置,即次次优解Xδ.
α、β、δ、ω灰狼的实时位置更新公式(6)-式(8)得到.
(9)
X1=Xα-ADα
X2=Xβ-ADβ
(10)
X3=Xδ-ADδ
(11)
式(1)中,X1、X2、X3依次代表灰狼α、β、δ的实时更新位置,X(t+1)代表更新后的最优解向量.灰狼算法最优解的更新过程如图3所示.
Step 3:攻击猎物.当猎物停止移动时,灰狼便开始发起进攻.进攻行为的发起主要是通过式(3)中a的迭代次数,从而间接控制式(4)中A的取值来完成的.当|A|≤1时,灰狼群对猎物进行攻击,对应局部搜索;当|A|>1时,灰狼群将远离猎物散去,再次进行全局搜索.
3.1.3 Bagging 集成学习
Bagging算法又称装袋算法,是机器学习领域的一种团体学习算法.最初由Leo Breiman于1996年提出,核心思想是采用有放回的采样规则[15].Bagging算法可与其他分类、回归算法结合,提高其准确率、稳定性的同时,通过降低结果的方差,避免过拟合的发生.
Bagging算法是并行集成学习方法最著名的代表.为了使集成的个体学习器尽可能独立,Bagging 算法通过自助采样法(bootstrap sampling)随机产生多个训练子集,然后基于每个训练子集训练出多个个体学习器,最后将这些个体学习器进行结合,集成为整体[16].
本文综合两种集成学习算法的优势,提出以Boosting集成学习中的LightGBM模型作为Bagging集成学习的基学习器模型,从同时降低模型预测偏差和预测方差的角度建立串、并行相结合的集成学习组合预测模型.具体实现步骤如图1所示.
图1 bagging-GWO-LightGBM 算法流程图
郑州作为“中原经济区”和“中原城市群”规划中的核心城市,是国家中长期发展规划中关于“中部崛起”和未来中国发展的重点区域之一.
本文对郑州市房地产市场风险测度与预警进行了实证研究.从供给和需求两方面选取了9个房地产风险影响因素作为标签值,然后通过主成分分析将8个房地产风险评价指标合成房地产风险指数作为特征值.样本期为2006年1月1日至2020年12月1日,共计180条数据.数据来源为中国统计年鉴、郑州市统计局、choice financial数据库以及郑州市年度房地产市场分析公报等.
4.1.1 预警区间的划分及房地产风险指数的验证
本文在前人的研究基础上选择1倍的标准差作为异常区间的依据,将u-σ、σ、u+σ作为警界区间的分界点.根据2006-2020年的综合预警指数,进行预警指数的均值和标准差的计算,所示均值为0,标准差为0.73927.
根据误差理论,对郑州市房地产市场预警系统的三大警界区间进行划分:偏冷区间为(-∞,-0.73927),正常区间为(-0.73927,0.73927),偏热区间为(0.73927,+∞).
由于房价收入比从居民住房刚性需求角度真实反映了居民住房支付能力,比值越高,说明房价越高于居民收入水平,居民住房支付能力则越弱,房地产市场存在泡沫风险.施工面积是未来的房屋供给量,施工面积增长要求未来必须有与之匹配的需求增长.当施工面积增长也超过销售面积增长时,即考虑投机需求,风险增加.而全国住房气候指数反映了全国房地产业的繁荣程度,因此三个指标都与房地产业的风险相关.将房地产风险指数与上述三个指标进行比较,如图2所示.
图2 房地产风险相关图
从图2中可以看出,房地产风险指数可以从房价收入比、房地产泡沫和全国房地产市场的繁荣程度三个方面来评估房地产信息,较好地反映了郑州市的房地产风险状况.
4.2.1 各个模型参数设置
本文选取9个房地产风险的影响因素作为标签值,风险指数作为特征值.以2006年1月1日至2020年12月1日的月度数据,共计180个样本进行仿真实验,通过10年预测未来一年,划分为5组数据集,得到60个测试集结果.为衡量bagging-GWO-LightGBM模型的预测效果,采用多种算法对模型预测效果进行对比分析.
针对单模型预测,本文选取ARIMA、SVR、RF和DT模型对比分析LightGBM的预测效果;GWO算法性能方面,选用WOA优化LightGBM模型(WOA-LightGBM)对比分析GWO-LightGBM模型.各模型具体参数设置如表2所示.
表2 模型参数设置
4.2.2 各模型预测效果分析
图3和表3分别展示了各模型对于房地产风险指数在测试集样本中的拟合曲线以及在三种评价指标的预测效果.通过分析可得到如下结论:
图3 模型预测效果图
表3 各模型预测精度
由表3中可得,加入bagging算法后的组合算法模型的预测效果优于单模型以及单算法模型的预测,其中bagging-GWO-LightGBM模型中的RSquared预测精度在所有模型中最高.
4.2.3 特征重要性分析
为找出在房地产风险预测时影响最大的因素,本文分别采用WOA-SVR-SHAP、WOA-XGBoost和WOA-GBDT模型进行特征重要性分析.其中WOA-SVR-SHAP模型进行特征重要性分析时,表现出较好的泛化能力.各模型特征重要性排序结果如表4,通过初步观察,发现三种模型中的特征排序结果并不完全相同.因此,本文选择三种模型中的第一名作为房地产风险预测的关键影响因素,其分别是房屋销售面积、新开工面积和房屋销售额.
表4 房地产风险影响因素特征重要性排序
房地产风险是我国金融风险的主要来源之一.本文根据郑州市房地产市场风险的主要表现特征,选取供给类指标、需求类指标共计9项指标来构建指标体系.通过主成分分析将8个评价房地产风险的指标综合成房地产风险指数,建立了bagging-GWO-LightGBM房地产风险预警模型,得到以下结论:以Boosting集成学习框架下的LightGBM模型作为Bagging集成学习策略的基学习器,并采用GWO算法对LightGBM模型的参数进行寻优,从同时降低模型预测方差和预测偏差的角度建立Bagging-GWO-LightGBM集成学习组合预测模型.实现对房地产风险的高精度预测,为今后的相关研究提供一种新思路.