张大力 林大川 郑一帆
摘 要:以温州市房地产市场为研究对象,基于2011年1月至2020年12月间相关关键字的百度指数搜索数据和温州新建商品房销售价格,通过文本提取获取初始关键字,并二次拓展关键词库,后续使用相关时差分析筛选先行且具有相关性的关键字,再利用随机森林递归消除筛选出关键字,并根据筛选出的关键字建立随机森林模型,分析并预测,预测误差率在2.989%。
关键词:网络爬虫;随机森林;温州房地产;网络搜索
中图分类号:TP311 文献标识码:A文章编号:2096-4706(2022)05-0134-04
Market Research Based on Web Search Data and Random Forest Model
—Take Wenzhou Commercial Housing Market as an Example
ZHANG Dali1, LIN Dachuan2, ZHENG Yifan2
(1.Zhejiang college of Security Technology, Wenzhou 325024, China; 2.College of Life Sciences, Zhejiang University, Hangzhou 310027, China)
Abstract: This paper takes the real estate market in Wenzhou as the research object, based on the Baidu index search data of relevant keywords from January 2011 to December 2020 and the sales price of new commercial houses in Wenzhou, and obtains the initial keywords through text extraction, and expands the key thesaurus twice. It uses the relevant time difference to analyze and screen the first and relevant keywords, and uses the recursive elimination of random forest to screen the keywords, and establishes the random forest model according to the selected keywords for analysis and prediction. The prediction error rate is 2.989%.
Keywords: Web crawker; random forest; Wenzhou real estate; Web search
0 引 言
房地产市场是人民关注重点,它的稳定有序发展影响着地方经济和人民生活幸福。温州地处东南,是东南沿海重要的商贸城市和区域中心城市。2011年温州市房价位列全国第一,超过北京、上海等城市,但2021年温州房价较十年前下降30%,温州房地产市场的发展吸引着全国目光。大起伏的房价,对城市发展造成不可估量的伤害。目前针对温州地区房地产市场相关研究较少,且时间久远。对温州地区房地产市场进行研究,能够对温州房地产市场稳定有序发展提供支持,以保证今后楼市的平稳、健康发展。同时随着互联网的普及率日益增加,购房者买房前会往往会通过互联网全面地搜索和了解信息,因此网络搜索数据能体现用户的需求和预期。搜索行为会在搜索平台留下相关记录,可以利用搜索关键字的数据来发现用户的行为与房地产市场表现的规律。
至2021年12月,我国网民规模数量达到10.11亿,互联网的普及率还在逐年增加。网民中使用最高的应用为搜索引擎、网络新闻等。其中搜索引擎的使用率,占比最高的是百度引擎,占我国互联网搜索引擎使用率的81.26%。百度在2011年开始发布百度指数。考虑到百度引擎在我们网民中使用率高,本文将使用百度指数中关键字搜索数据,通过寻找搜索数据与温州市房地产价格之间的关系,从而建立模型,对温州市房地产市场价格进行预测分析。
目前对于网络搜索数据和房地产的研究,主要经历了以下阶段,先是网络搜索数据对其他经济领域的研究。刘颖,吕本富[1]运用时差相关性分析法和Granger因果关系检验法,研究网络关键词搜索量与上证指数的关系。任乐[2]通过证明了北京市搜索数据与月旅游客流量之间关系,并构建北京市旅游客流量预测模型。网络搜索数据与房地产市场的研究起步较晚,Wu L和Brynjolfsson E[3]引入Google提供的房屋搜索指数探求房屋搜索指数与商品房的销量价格的关系。Van Dijk D W[4]等使用互联网搜索数据来研究房地产市场的价格和流动性动态。国内搜索数据的研究主要利用百度指数的搜索量数据。董倩[5]以百度搜索指数为数据基础,使用计量模型对16个城市的二手房价格和新房价格进行了拟合和预测,预测的月度房地产价格能够比官方数据发布提前约两周时间。唐一丁[6]运用聚类分析对百度搜索指标关键词进行筛选和优化后,通过主成分分析合成宏观和微观指标,建立北京新建住宅价格指数与网络搜索数据间的回归模型。卢小溪[7]分析房地产交易量与基于百度搜索关键词构建的网络搜索指数之间的关系,并得出百度搜索数据更适用于商品房成交量的短期预测,能够提高预测的时效性。
当前国内研究房地产价格预测研究中主要存在以下问题:(1)数据大多为时效性较低的统计数据,研究网络搜索数据与房价关系的较少。(2)部分网络搜索数据预测房价研究时,仅考虑了二者之间的相关程度,忽视了时间序列数据的时滞性。(3)网络搜索数据的关键字筛选较为主观。(4)较多研究预测房地产价格时较使用计量经济模型。基于此,本文将选取温州市作为研究对象,利用网络搜索数据预测温州房地產价格。通过选取温州地区2011年1月至2020年12月的百度指数的相关搜索词的数据,利用时差相关分析,筛选出与温州新房销售价格先行且相关的关键词,再利用随机森林递归消除等降维方法,筛选得到最终的关键字数据;以2011年1月至2017年12月的数据作为训练集,2018年1月至2020年12月的数据作为训练集,利用随机森林模型对训练集进行训练,通过优化获取最优模型,并用模型对温州房地产价格进行预测。
1 变量描述与模型构建
1.1 论基础
房产存在价值高,流通性慢的特点,因此消费者产生购房需求后,会慎重考虑并获取尽可能多的信息。消费者对信息的收集方向反馈消费者对房地产市场行为预期。同时房地产参与主体,面对外部政策变化都存在形成时间过程。互联网络搜索关键词变化一定程度上反映了房地产市场所有参与者的行为预期,市场参与者的消费或者供给行为会对市场价格进行影响。该理论如图1所示。
1.2 变量与数据對象
1.2.1 研究对象
国家统计局从2011年1月份开始发布70个大中城市的新建商品房价格指数,分别包括新建住宅销售价格指数和新建商品住宅销售价格。本文选取国家统计局发布的2011年1月至2020年12月的温州新建商品房销售住宅销售价格作为研究对象。原始数据来自国家统计局官方发布的月度数据。
1.2.2 数据描述
百度指数是通过记录用户在百度搜索引擎上搜索的关键词,收集检索痕迹,统计不同搜索关键字信息在不同地区每日的检索量,反映了相关关键词在不同地区、不同时间段的相对关注度和趋势。网络搜索数据的获取与处理,通过百度指数的服务实现。在百度指数输入关键词,可获得该词的搜索量,该搜索量为相对数据,反映该词汇在该地区相对关注度。获取的网络关键字的百度指数需要换算成月度数据。
1.2.3 解释变量
解释变量是与温州新房价格相关的搜索关键字数据。利用以下方法进行网络搜索关键字选择。使用NLPIR系统对爬虫获得的百度、新浪网、腾讯新闻网、网易新闻等网站中搜索到的与温州房价关联度高的新闻进行关键词提取,删去重复和无用的词汇。同时结合运用文献研究法,参考相关类似研究所选的初步关键词,并结合温州地区网络搜索数据的实际情况进行关键词的选取,并确定初始关键词库,共有7个关键字,分别为:房价、房地产、温州楼市、商品房、房贷、房源、土地出让。
为确保后续对数据的筛选和优化,构建科学合理的初始数据库,可以减少后续工作量。因此要确保拓展的网络搜索数据足够丰富,范围广泛。使用常见的网络搜索数据拓展办法,例如长尾挖掘法、二次搜索法和热词推荐等方法对初始关键词库进行拓展。拓展后共获得129个网络搜索数据作为初始的语料库,如图2所示。
初始关键词 拓展关键字 共计数目
房价 商品房价格,房价走势,房价走势图,房价网,房价点评网,房价走势最新消息,房价上涨,房价下跌,房价收入比,暴跌,未来房价走势,房价会跌吗,房价计算器,二手房价格,房价排行,房价评估,经济适用房价格,房价调控,房价涨幅,人民币贬值对房价的影响,租房,房租,价格,人口 25
房地产 房地产发展趋势,房天下,搜房网,房地产网站,房地产泡沫,投资性房地产,房产投资,房地产交易,房地产中介,房地产开发商,房地产价格,房地产走势,房地产新政,房地产崩盘,楼市,房地产市场,房产中介,网签,温州房产网,炒房,买房政策,限购政策、二手房市场、开发 25
温州楼市 温州楼市最新消息、温州楼市新闻、温州楼市论坛、温州楼市泡沫、万科、楼市调控、温州房价、二线城市 9
商品房 商品房买卖合同、商品房销售管理办法、商品房预售许可证、公寓、小产权房、房改房、样板房、公租房、商品房买卖、商品房政策、商住房、商住楼、商住两用房、住宅房和商品房有啥区别、商品房产权是多少年、商品房销售网上管理系统 18
房贷 房贷利率,房贷计算,房贷计算器,房贷提前还款计算器,房贷利率计算器,房贷利息,首付,首付比例,买房首付,二手房首付,二手房贷款,二手房贷款流程,公积金房贷计算器,小产权房能贷款吗,银行房贷,房贷收入证明,房贷首付,房贷政策,房贷利率上调,房贷利息抵个税,公积金贷款,公积金,降息,利率 25
房源 房源app、房源网、房源信息一般在哪里看、房源信息发布平台、房源详情模板通用、房源查询、58同城、房源信息网、房源信息、房源标题、套内使用面积、链家网、租房网站、楼盘查询 15
土地出让 土地出让金、土地出让金征收标准、土地出让流程、土地出让金征收新政策、土地出让方式、土地出让金评估费怎么算、土地买卖、土地出让年限、土地招拍挂、土地招标、土地报批 12
1.2.4 变量筛选
通过网络爬虫技术,对129个关键字数据对应的百度指数数据进行爬取,并对数据进行以月度为单位进行汇总。网络搜索数据与房地产价格均为时间序列数据,搜索行为与购买行为之间存在一定的时间差,只有搜索关键字领先于住宅市场价格的关键词才具有研究价值。从相关性和领先性这两个指标进行考虑,通过时差相关分析进行筛选出与温州新房销售价格具有先行关系且相关性强的关键字。时差相关分析的数学表达式为:
式中时间序列yi为第i期的温州新房销售价格;y为温州新房销售价格的平均值;时间序列xi为有某个搜索关键字的网络搜索数据;x为有关房地产价格的网络搜索数据的平均值;l为时差数。筛选出l值小于0的关键字,l值小于0代表网络搜索关键词的搜索量变化相温州新房价格变化具有提前性。考虑到现实需求,买房需求产生到做出决策大约是在两个季度内完成,因此关键字领先值l最多为8期。同时考虑rl值的大小。相关系数rl值的范围是-1~1的数,其绝对值越大证明相关性越大,筛选出相关系数绝对值大于0.4的所对应的网络关键字数据。通过时差分析法,筛选出的具有先前并有较强相关性的关键字共有15个,分别为:房价走势、房天下、房地产崩盘、网签、炒房、买房政策、商品房买卖、商住楼、商住房、房贷利率计算器、二手房首付、房贷首付、房贷政策、房源、土地出让。结果如图3所示。
通过时差相关分析法筛选出15个关键字,后续使用的模型是随机森林模型,属于机器学习模型,故未进行平稳性检验、协整检验等。但观察现有样本数据集,可知数据样本量级不够多,直接对15个关键字进行拟合,容易出现过度解释的现象,导致预测效果降低。因此需要对关键字更进一步的筛选。此处结合随机森林算法中重要性排序与随机森林下的递归特征消除方法对15个关键字进行筛选。
首先利用随机森林算法对关键词的重要性进行排序,计算原理为:(1)对所有决策树根据袋外数据计算袋外数据误差,记为errorobb1。(2)对所有样本的特征加入噪声干扰,再次计算此时袋外数据误差,记为errorobb2,则特征的重要性可表示为:。使用Python先创建模型后,调用feature_importances_直接获取15个关键字在随机森林模型中的重要性,结果如图4所示。
根据重要性排序结果,筛选重要性系数大于0.05以上的关键字参数可知为有9个关键字参数:商住房、房贷计算机、房贷政策、商住楼、炒房、网签、房贷首付、房价走势和房源。同時综合考虑随机森林下的递归特征消除法(RF-RFE算法筛选)。以下为RF-RFE算法的思路[8]:(1)首先使用随机森林中feature_importances参数对现有特征的重要性进行排列,重新排列特征顺序后,递归消除,依次进行减少1个特征数量,重新计算模型的精度。(2)在特征依次减少的过程中,对模型的精度进行可视化选择,以参数数量作为自变量,模型进度精度为因变量。(3)选择最优的参数变量和参数数量,根据预测精准度进行选择最优参数的个数并筛选出特征。四、进行重复交叉验证,保证实验结果的稳定性。运行RF-RFE算法得到运行结果如图5所示。
可知在4个关键字的情况下,预测效果最优。4个关键字分别为:房价走势、炒房、商住房、房贷计算器。观察RF-RFE算法关键字运行结果图,可知RF-RFE方法在关键字精准筛选过程中确实可以提高模型预测的精准性。结合随机森林变量重要性排序和递归特征消除方法进行变量的筛选,最终选择的关键字变量为:房价走势、炒房、商住房、房贷计算器。
2 模型建立与分析
2.1 随机森林模型
随机森林是一种经典集成学习算法。随机森林模型具有以下优点:(1)泛化能力高,如果存在较大部分的数据缺失,也能保持较好的预测准确度。(2)训练速度快,学习过程迅速(3)对数据的平衡能力强,能处理分布不均衡的样本数据。(4)能处理高维度数据,模型训练效果好。
随机森林模型在训练阶段,使用bootstrap采样从输入训练数据集中采集多个不同的子训练数据集来训练多个不同决策树;在预测处理回归问题时随,机森林将内部多个决策树的预测结果取平均得到最终的结果。
文中随机森林回归模型的工作流程如图6所示。首先对样本进行测试集和训练集的划分,设定0.8的比例划分样本。然后在随机森林模型中输入训练集,使用机器学习中GridSearchCV筛选出最优参数,构建随机森林回归树。最后对模型进行效果的预测,代入测试集数据,每个回归树都会得出预测值,最终预测结果为n个回归树预测结果的平均值。最后对预测结果和真实结果进行比较,对预测效果进行评估。
2.2 模型评价指标
使用RMSE(均方根误差)和MPE(平均相对误差)衡量模型的效果,模型的稳定性由RMSE判定,平均相对误差是相对误差的绝对值的均值,能直观地看出预测效果的优劣。两个评级指标的数值都是越小越好,两个指标的公式为:
2.3 实证分析
将样本数据按照比例划分为训练集和测试集,训练集的时间区间为2011年1月至2018年1月,测试集的时间区间为2018年1月至2020年12月,以训练集来建立模型,以检验集来检验模型的可靠性。将数据导入到Python编程语言中,导入机器学习库skearn中Random Forest Regressor实现随机森林建模的过程。同时使用机器学习中Grid Search CV进行最优参数的筛选,得到最优的参数为:n_estimators=500,bootstrap=True,random_state=0,max_depth=15,min_samples_leaf=1,min_samples_split=2。通过运行程序对训练集进行拟合,同时计算出该模型的RMSE和MPE,结果如图7所示。
从表可看出随机森林模型预测精度较高,在测试集中均方根误差在0.137 3万元,预测误差率在2.989%。可得出结论,使用4个网络搜索关键字数据并结合随机森林模型的预测模型,对温州市新房市场价格有较好的预测效果,相对于传统的计量模型具有一定的先前行。
3 结 论
本文提出的网络搜索关键词的确定方法有较好的筛选作用,并结合随机森林模型对温州市新房市场价格预测具有一定的指导性。对温州地域关键字网络搜索数据与温州新房价格数据的时差相关分析发现,网络关键字搜索数据与人的经济行为存在一定的相关关系,温州市新房购房者在购买新房时会关注商住房、房贷利率、房价走势、房贷政策、房贷首付等信息。将网络搜索关键字与随机森林模型相结合的温州新房价格预测模型具有较好的预测效果,可领先官方数据公布,可监控温州地域百度搜索关键字数据的实时变化对温州新房市场进行监控,有很好的预警效果和时效性。
参考文献:
[1] 刘颖,吕本富,彭赓.网络搜索对股票市场的预测能力:理论分析与实证检验 [J].经济管理,2011,33(1):172-180.
[2] 任乐,崔东佳.基于网络搜索数据的国内旅游客流量预测研究——以北京市国内旅游客流量为例 [J].经济问题探索,2014(4):67-73.
[3] BERACHA E,WINTOKI M B. Forecasting Residential Real Estate Price Changes from Online Search Activity [J].Journal of Real Estate Research,2013,35(3):283-312.
[4] VAN DIJK D W,FRANCKE M K. Internet Search Behavior,Liquidity and Prices in the Housing Market [J].Real Estate Economics,2018,46(2):368-403.
[5] 董倩,孙娜娜,李伟.基于网络搜索数据的房地产价格预测 [J].统计研究,2014,31(10):81-88.
[6] 唐一丁.网络搜索数据在预测房地产价格指数中的应用研究 [D].长春:吉林大学,2016:57.
[7] 卢小溪.基于网络搜索的商品房成交量预测效果研究 [D].北京:首都经济贸易大学,2019.
[8] 褚桂健.基于网络搜索数据与随机森林模型的房地产价格指数预测研究 [D].重庆:重庆交通大学,2018.
作者简介:张大力(1995.02—),男,汉族,浙江温州人,助教,硕士研究生,研究方向:大数据技术与应用、金融大数据;林大川(2000.12—)男,汉族,浙江温州人,本科在读,研究方向:生物信息;郑一帆(2000.11—),男,汉族,浙江杭州人,本科在读,研究方向:信息资源管理。