杭州共享住宿入住影响因素分析及预测*
——基于Airbnb爱彼迎平台数据

2018-03-05 07:11薛洁姚雨萌吴霞
统计科学与实践 2018年12期
关键词:入住率房源住宿

□薛洁 姚雨萌 吴霞

随着全球化和自由化进程的加快,越来越多的人热衷于体验共享生活。继滴滴出行打开共享交通出行市场之后,人们纷纷把目光投向了共享住宿。针对杭州市共享住宿问题,借助国际住宿分享平台Airbnb爱彼迎,研究杭州市共享住宿的发展状况,并且利用XGBoost算法对杭州市共享住宿的入住率进行预测。结果表明,杭州市共享住宿的入住率受入住时间、访问量和评论数的影响较大,并且提出的基于机器学习算法XGBoost的预测模型对入住率的拟合效果较好,可以作为消费者和共享住宿房东做决策的模型依据。

引言

随着“互联网+”和社会生产力水平的不断发展,衍生了一种新的经济形态——共享经济。共享经济是利用互联网等现代技术,实现资源优化再配置,减少资源浪费,降低成本的模式[1]。我国的共享经济相较国外虽然开展的较晚,但却发展迅速,展现了良好的生机。2018年6月21日,国务院总理李克强主持召开国务院常务会议,部署促进分享经济健康发展,推动创业创新便利群众生产生活。据国家信息中心分享经济研究中心估计,我国共享经济保持高速增长,2017年我国共享经济市场交易额约为49205亿元,比上年增长47.2%,到2020年中国的共享经济的总规模将占到中国GDP的10%左右,到2025年中国的共享经济的交易总规模将达到GDP的20%左右[2]。由此看出,共享经济在未来对我国的经济发展贡献巨大。

随着共享经济实践与理论的不断发展,国内住房分享日渐普及,行业持续升温,在市场交易规模、融资量、参与人数等方面都取得了重大突破。初步估算,2017年我国共享住宿市场交易规模达145.6亿元,比上年增长70.6%,融资额约为5.4亿美元,比上年增长约180%[3]。目前,国内共享住宿市场整体处于起步阶段,未来发展潜力巨大。《2018中国共享住宿发展报告》中提到2017年主要共享住宿平台的房源数量约300万套,参与者人数约为7800万人,其中房客7600万人。报告中还提到,我国共享住宿行业初具规模,业务创新不断涌现,整体处于快速上升阶段,头部企业正在脱颖而出[3]。

目前对于共享住宿的研究,从概念、运营模式、发展进程到社会影响等各个方面都做了很多工作,成为了一个跨学科综合性课题。国外JonesD.等人(2011)在调查中国香港游客对中国大陆分享住房的偏好时,发现年轻、接受中高等教育、中等收入水平的女性是大陆分享住房的主要目标群体[4];Chen L.等人(2013)对中国台湾游客的调查发现,选择分享住房的游客呈现出核心家庭、获得良好教育及中低阶层的特征[5];ZhihuaZhang等(2017)利用地理位置加权法对影响Airbnb平台房价的主要因素进行了定量研究[6]。国内的共享住宿研究主要以定性分析为主,顾彦(2017)指出目前住房分享市场成立较早、规模较大的活跃平台大概可以分为三个梯队:第一梯队是小猪短租、途家网等;第二梯队包括Airbnb、中国、木鸟网等;第三梯队主要包括大量的、长尾的特色品牌和民宿联盟等[7]。而王漪(2017)则指出现阶段国内住房分享平台呈现途家、小猪、Airbnb三足鼎立的局面[8]。虽然共享住宿已经广受市场认可,但其发展仍面临诸多问题,如邱榕等(2016)从国情、房源及市场这些因素出发分析了Airbnb在我国发展存在的问题,其中信任缺失和房源质量参差不齐这两个问题最为严重[9]。

因此,针对国内共享住宿定量研究的不足,本文以历来有“上有天堂,下有苏杭”美誉的杭州市作为研究对象,分析杭州市共享住宿的发展、入住率等影响因素,提出基于XGBoost算法的共享住宿入住率预测模型,从而为杭州共享住宿发展提供科学建议和决策支持。

数据来源

官方界定共享住宿主要指以互联网平台为依托,整合、分享海量的、分散的住宿资源,满足多样化住宿需求的各种经济活动的总和[3]。由此可见,互联网平台在共享住宿中的重要性。目前,国内共享住宿业务开展较好的互联网平台有Airbnb、途家、小猪短租等。其中,Airbnb平台作为共享住宿平台的主力军,占整个中国用户群体的83%,其中房东平均年龄32岁,30岁以下房东占比45%[3]。

表1 各变量的具体描述

由于本案例研究对象的发展尚处起步阶段,不利于开展问卷调查,因此本文以Airbnb作为研究共享住宿的数据平台,获取网站上展示的杭州市307个共享住宿信息,以及2018年第一季度的每日住房可订情况,将每月的不可订比例作为每月的入住率。

经过数据收集及整理发现,评论数为空的房源在总房源中所占比例较低,且房源的入住率也较低,可以认为,评论数为空是新房源的缘故,因此,直接删除评论数为空的房源。基于此,本文最终确定了281个不重复房源。通过对房源入住率的分析,发现约七成房源的入住率超过60%,如图1所示。从图中也可发现:入住率低于20%的房源仅占3.6%,整体而言,杭州市在线房源的入住率较好,说明现阶段杭州市共享住宿的发展较为乐观,从而研究杭州市房源的入住率具有重要的现实意义。

图1 杭州市在线房源入住率饼图

为了便于消费者更加直观的判断房源,在接下来的模型构建中,因变量入住率则根据计算出来的数值大小将其转换成高、中、低三个程度,即入住率低于0.33设为低,0.33到0.66设为中,高于0.66则设为高。

而为了具体分析杭州市共享住宿入住的影响因素,本文利用网络爬虫技术获取每个房源的特征信息作为自变量,共计22个。自变量大致分为两类:一类为“硬件设施”,即描述房屋内部特征,比如卧室数、床数、卫生间数和最多可住人数;另一类为“软件设施”,描述房屋的各性能,比如价格、评论数、图片数等。具体描述如表1所示。其中,综合评分取值为4、4.5和5三种,且以4.5和5居多,鉴于此,对于综合评分变量采取随机替换为4.5和5的随机填补法;浏览数变量,采用均值填补法补充缺失值。

接下来,本文将基于XGBoost算法构建多分类预测模型,具体分析上述因素对杭州市共享住宿入住率的影响,并对入住率进行预测,评估模型的预测效果。

共享住宿入住率的多分类预测

由TianqiChen在2015年提出的XGBoost算法作为如今的新起之秀,在数据挖掘领域熠熠生辉。XGBoost全名 ExtremeGradient Boosting,作为监督学习,可以处理回归和分类两类问题[10]。因此本文选用XGBoost算法作为预测模型。

XGBoost是在GBDT基础上发展起来的,通常以决策树或者回归作为基学习器[11]。XGBoost是递归模型,每次建立模型都是在上一次的模型基础上建立的,并且以损失函数(lossfunction)作为模型建立参考,损失函数越大,则说明模型越不稳定。每一次建立模型的目的就是要减少误差,如果建立的模型能够让损失函数不断的下降,则说明模型性能在不断的提高。

模型的目标函数表示为:

其中,L(Θ)为训练误差,Ω(Θ)为正则项。优化误差项,以便于减小误差,提高模型的精度;优化正则项是为了简化模型,简单模型往往未来变动较小,预测更加稳定。但是没有办法同时训练很多树,所以采取逐步增加的方式,先固定之前学习到的,再在其基础上添加一颗新的树[12]。

表2 Booster参数之分类模型参数

则目标函数可以改写成:

const表示常数项,对目标函数进行泰勒展开,如:

对泰勒展开的目标函数,遍历每个特征的分裂点,计算该分裂条件下的前后目标函数变量值,最后确定目标函数变化值最大的为分类条件。

(一)模型构建

目前很多平台可以实现XGBoost算法,常见的如R,python,Java等。本文选用Python作为实现工具,对Airbnb网站的共享住宿数据进行模型构建。模型的优化选择本质上就是模型的参数选择过程,为模型选择最优参数,才能不断提高模型的性能。XGBoost算法的参数大致分为三种类型:通用参数,Booster参数和学习目标参数[13]。其中Booster作为控制每一步迭代的参数,对模型的性能影响较大,对模型具体的参数解释如表2所示。在建立模型之前将281条数据分为训练集和测试集,其中训练集为221条数据,测试集为60条数据。

上述参数中,对模型影响最大的参数为eta(学习速率)和n_eati-mators(迭代次数)。对模型而言,n_eatimators越大说明学习越充分,模型的性能也会提高,但是,过大的迭代次数会浪费资源,也会导致过拟合现象。所以选择合适的迭代次数显得尤为重要,既可以让模型处在一个良好的性能,同时,也可以达到最好的效率。eta参数的设置和n_eatimators的参数选择有关,为了能够快速的迭代找到其他最优的参数,通常先将eta设置较大,当其他参数确定了之后再尽可能的选择较小的学习速率以获得最优的性能。

选择最优参数的过程,实际是参数的排列组合过程,不同的参数组合拟合程度也是不同的。为了找出最优的参数组合,本文利用网格搜索法,通过遍历所有的参数组合选定最优的参数组合(调参过程如图2所示),分别设置树的最大深度、最小叶子节点样本权重和、gamma值、类别数目、训练模型的子样本占样本的比例和每棵树随机采样的列数的占比为[3,10]、[1,10]、[0,0.5]、[3,8],[0.6,1]和[0.6,1],搜索步长从大到小。对每一个参数进行网格搜索法调参,最终获得最佳参数如表3所示。

表3 模型最终确定参数

图2 网格搜索调参流程图

图3 模型特征重要性排序

表4 模型混淆矩阵

(二)结果及分析

XGBoost模型作为预测模型,算法较为复杂,只能得到最终的预测结果,其中自变量和因变量之间的关系无从得知。因此,本文利用XGBoost包中的important函数来获取各变量的重要性大小,从而得出各变量对预测结果所贡献的权重比重。如图3所示:

从图中可以看出特征重要性依次为:入驻时间,访问量,评论数,价格,图片数,浏览数,服务费,清洁费,回复率,是否超赞房东,是否整套,是否有自我介绍,最多可住人数,卫生间数,是否可以自助服务,床数,是否有交通介绍,星级评分,是否有助手,语言数,卧室数,是否有房屋介绍。

其中,入驻时间、访问量、评论数、价格、图片数、浏览数、服务费、清洁费、回复率和是否超赞房东,对入住率高低的影响较为重要,也体现出了房客选择房源的着重点所在。而星级评分、是否有助手、语言数、卧室数和是否有房屋介绍这五个因素的重要性最低,不仅说明了这些变量对入住率高低的影响较低,也体现了如今Airbnb的主要客源还是国内。

(三)模型评估

利用测试集对模型进行检验,可得混淆矩阵如表4所示:

1.总体模型评估。模型的总体准确率为:p总=100%=86.67%,该模型的总体准确率为86.67%,认为该模型的预测效果较好。

Hammingloss(汉明损失)是描述多分类的评价指标,表示所有分类中错误样本的比例,所以该值越小则模型的分类能力越强。其中,|D|表示样本总数,|L|表示标签总数,xi和yi分别表示真实结果和预测结果,xor表示异或运算。根据公式得出模型的Hammingloss(汉明损失)为:HammingLoss(xi,yi)=

显示模型的整体分类错误较低,模型的整体拟合程度较好。

2.各分类评估。研究了模型的整体效能之后,对每一个分类进行讨论。本文所研究的是三分类问题,对于多分类问题需要对二分类做类似推广,将每个类别单独视为“正”,其他类别视为“负”,得出每个类别的精确度、召回率,以及精确度与召回率的调和平均值F1,如表5所示:

表5 不同类别的精确度、召回率和F1

可以看出,入住率中和高的各项指标都较高,显示该模型对这两类的拟合程度较好,而与入住率为中和高相比,入住率为低的召回率较低,但是F1值和精确度较高。由于F1值是对精确度和召回率的调和平均值,是综合了两个指标的评判指标,F1值越高,则说明模型较理想。入住率为低的F1值为1.96,较高。则说明XGBoost模型不仅在整体上表现优异,在每个类别上也表现良好。

结论

本文基于Airbnb网站上281个房源信息,运用XGBoost算法对杭州市的共享住宿进行入住率预测。

考虑到共享住宿入住率目前研究的不足,提出使用XGBoost算法对入住率进行多分类预测,从模型的各项评判指标来看,模型的拟合效应较好,可以作为判断入住率高低的依据,从而为消费者提前选择合适的共享住宿提供参考。为了提高模型的性能,本文使用网格搜索法,寻找最优参数组合,提高模型的预测准确度。

从模型的特征重要性评估结果显示:(1)重要性排名前三名的为入驻时间,访问量和评论数,也说明了在共享住宿的选择上价格并不是影响消费者的重要因素,选择共享住宿,是为了体验时下年轻人十分注重的社交体验机会。入驻时间可以体现房源的存在价值,时间越久,消费者会更加倾向该房源。访问量和评论数可以作为评判房源吸引力的直接指标,是房源预订与否的重要因素。(2)重要性排名后三名的是语言数,卧室数,是否有房屋介绍。其中,语言数直接体现了我国的国外市场没有打开,为了让我国的共享住宿事业有更好的发展,应适当的拓展国外客户,吸引国外消费者的青睐;卧室数和是否有房屋介绍则显示了消费者对于房间的具体构造关注度较低,人文情怀才是人们选择共享住宿的着重点。

本文提出的共享住宿入住率预测模型有助于共享住宿房东针对不同时期的入住采取措施,制定对应的策略,也可以查缺补漏,在有关方面采取针对性的提高策略,以更好的达到共享。另一方面,为消费者提前制定出行计划提供数据支持,致力于让更多的消费者可以选择到满意的共享住宿,让出行更加便利。

猜你喜欢
入住率房源住宿
从一句广告词看房地产经纪的本质
民宿市场占比已超星级酒店
南京市乡村旅游地产入住率及其影响因素的研究
锦江股份:受累七天酒店调整5月Rev PAR增速放缓
云南省3年累计安排搬迁资金376亿元
P大的住宿学院
常武地区养老需求调研及养老机构盈亏分析
常武地区养老需求调研及养老机构盈亏分析
酒店住宿
“住”和“往”