基于生存模型的酒店客人住宿时间影响因素分析
——以武汉市酒店为例

2019-03-27 03:24徐松华鲁婉婷
福建商学院学报 2019年1期
关键词:住宿客人显著性

徐松华,鲁婉婷

(武汉商学院 武汉旅游研究院,湖北 武汉,430056)

自2013年以来,在中国经济增速放缓和酒店消费逐渐回归“社会理性”的大背景下,国内酒店尤其是高端酒店遭遇经营“寒潮”,部分高档酒店收入大幅下滑,经营困难。2014年“中国五星级酒店品牌的现状及发展趋势”高峰论坛提供的数据显示,2013年国内五星级酒店营业额普遍下降三成以上。作为酒店经营的重要指标,客人住宿时间在一定程度上反映了酒店的吸引力以及客人对酒店的整体满意度,也直接决定了客人在酒店入住期间的餐饮、住宿等消费支出。

当前关于酒店住宿时间的研究,国内关注的焦点集中在“住宿时间结算”的问题上,对酒店客人住宿时间的分布特征及影响因素的研究还不多见。酒店客人住宿时间是一个持续时间型数据,具有生存数据的基本特征。一是客人住宿时间经常以入住天数来统计,是一个非负的变量;二是在随访期内,部分客人没有出现“结账退房”失效事件,即存在删失数据。因此,适合应用生存分析模型对其进行研究。

一、研究方法

生存分析法是研究所关注事件在什么时间发生的一种事件数据分析方法,是一种既考虑结果又考虑随访时间的处理生存数据的方法。生存数据包含生存时间、观测结果以及相关因素。其中生存时间是一个非负变量,应用经典统计工具如线性回归模型会导致有偏的估计,因而并不适宜做生存时间的模拟;同时,生存数据中一定删失数据的存在,严重违反传统统计模型的假设,也会造成显著的偏误[1]。HELSEN等[2]指出, 生存分析方法在处理持续时间型数据时具有优越性,尤其是在处理删失数据时更具有无法替代的作用[3],最近几年国内外开始将之应用于旅游研究中来分析游客停留时间问题[4-7]。生存分析法主要基于以下基本原理。

1.生存函数(Survival Function)是反映个体生存时间超过时间t的概率,记做S(t)。若无删失数据,则S(t)=P(T≥t)=过了t时刻仍存活的个数/观察开始时的总个数,其中t为个体的存活时间。但如果资料中含有删失数据,生存率的计算公式应为:

S(tk)=P(T≥T)=P1·P2…Pk

(1)

其中P1、P2…Pk表示不同时间段的生存概率,可以看出,这种情况下生存率是多个时段生存概率的累积,故又称为累积生存概率(Cumulative Probability of Survival)。当t=0时,生存函数取值为1,随着时间推移(t逐渐增大),生存函数的取值逐渐减小。因此,生存函数是时间t的单调递减函数。

2.非参数分析

非参数分析方法不引入任何的外生变量,包括寿命表法(Life Table)和Kaplan-Meier估计。其中寿命表法适用于观察例数较多而分组的资料,通过计算落入时间区间[tk-1,tk]内的失效和删失的观察个数来估计该区间上的死亡概率,然后用该区间及之前各区间上的生存概率之积来估计S(tk)[8]。Kaplan-Meier估计又称乘积极限法(Product-Limit Method),于1958年由卡普兰(Kaplan)与迈耶(Meier)提出,主要用于观察例数较少而未分组的生存资料,是利用条件概率与概率的乘法原理计算生存率及其标准误的。

S(ti)=S(ti-1)S(ti/ti-1)

(2)

其中S(t)表示t年的生存率,S(ti/ti-1)表示活过ti-1年又活过ti年的条件概率。

3.Cox比例风险模型。

由于生存分析模型中的参数估计法对生存函数分布有假设限定,若假设限定有误,那么估计的准确性将会下降;而半参数法只规定影响因素和生存状况之间的关系,不对生存函数的分布情况作出限定,是一种研究生存概率影响因素的多因素分析方法。对于一批生存数据, 在事先不知道寿命分布的总体趋势, 且又不好判断应该用何种模型最合适时, 多数学者一般直接采用非参数方法或半参数法。因此,作为半参数分析的代表性方法,Cox比例风险模型近年来得到了快速的发展。该模型将风险概率Hi(t)建模在时间t上的基准概率h0(t)和影响因素向量X的函数之上,即:

Hi(t)=h0(t)>·exp(((β1)(Xi1))+((β2)(Xi2))+…+((βk)(Xik)))

(3)

其中,Hi(t)指t时刻风险函数、风险率或瞬时死亡率,h0(t)是基准的生存分布危险函数,即所有变量都取0时t时刻风险函数。Xi1,Xi2,…,Xik为预后变量向量,β1,β2,…βk为回归系数向量。

Cox模型以半参数方程回归方式对风险作出估计,并得到β的极大似然估计值,作为各影响因素的风险比系数。通过系数β可以得出该因素是保护因素还是危险因素、相对危险度的大小,其中RR= exp(β)。若β>0,RR>1,说明变量X增加时,危险率增加,即X是危险因素;β<0,RR<1,说明变量X增加时,危险率下降,即X是保护因素;β=0,RR=1,说明变量X增加时,危险率不变,即X是危险无关因素。本文采用生存分析中的Cox回归模型进行分析,对酒店客人住宿时间的影响因素进行估计。

二、 研究设计

(一)研究假设

根据国内外对游客停留时间的研究结果,假设客人住宿时间与人口学特征、出行特征、消费特征和服务质量等四个维度的解释变量有直接关系。假设之一,客人住宿时间由客人的人口学特征决定,研究测定的人口学特征变量包括来源地、年龄、性别、职业;假设之二,客人住宿时间与客人的出行特征存在关联,研究测定的出行特征变量包括出行目的和出行方式;假设之三,客人住宿时间受客人的消费特征影响,研究测定的消费特征变量包括花费水平(人均天花费额)、来汉次数;假设之四,客人住宿时间受酒店服务质量控制,研究测定的酒店服务质量变量仅包括客人服务满意度,因为服务满意度是客人对酒店服务质量集中和综合的反映。上述变量测度分为2种,住宿天数属连续型变量;性别、年龄、职业、来源地、出行动机、出行方式为分类变量;花费水平、来汉次数和服务满意度属序次变量。观测变量的解释与调查结果基本数据如表1。

表1 统计变量说明

(二)变量设计

生存分析模型设计以10d为随访期,在随访期内调查客人是否发生“结账退房”为“失效”事件,客人结账退房(即“失效”事件)时在酒店住宿天数即为生存时间。客人在酒店入住天数超过随访期,即入住天数超过10d的住店客人定义为删失数据。在随访期内,客人是否办理结账退房为生存状态变量,该变量有两个水平,变量标记为:1=客人已结账退房;0=删失。

(三)数据来源

在武汉主城区随机选取20家不同档次、类型的宾馆、酒店作为调研地点,以各酒店结账退房客人为调研对象,以面对面的方式对客人进行问卷调查。从2018年3月至2018年8月,共投放调查问卷1 450份,回收调查问卷1 362份,回收率为93.93%;经程序录入审核,获得有效问卷为1 271份,有效率93.32%。

(四)数据处理与分析

本文采用SPSS17.0进行统计学处理。首先应用寿命表法分析客人在酒店住宿时间的总体分布规律,表3是在10d的随访期内武汉酒店客人住宿时间的寿命表分析结果,其中客人在酒店住宿的平均时间为2.65d,而且50%武汉客人在酒店住宿时间不会超过2.79d。

从表2可以看出:客人入住酒店1d后,就有“结账退房”终点事件发生,依据发生频率可分为3个阶段:(1)高发期,集中于[1,2)、[2,3)、[3,4)这3个时间区间内,占到完全数据的83.01%,相应地,期末累积生存比例下降趋势明显,下降速度较快,这就表明大部分住店客人或因行程安排,或对酒店不太满意,而都选择将入住天数控制在3d以内;(2)缓和期,集中于[4,5)、[5,6)、[6,7)、[7,8)4个时期内,占到完全数据的15.42%,期末累积生存比例下降速度减缓,表明该部分客人多是因为行程原因而选择结账退房,对酒店的满意度在逐渐积累,有在酒店较长住宿的强烈意愿;(3)平滑期,其余剩下时间区间内武汉客人住店生存率下降得更为平缓,3个时间区间内结账退房的客人仅占完全数据的1.57%。这表明客人入住酒店超过7d后,对酒店的内外环境逐渐熟悉,服务质量逐渐满意,长住酒店的意愿上升,有很大可能成为酒店的长住客。

表2 客人住宿天数寿命表

备注:生存时间的中位数为2.79d。

图1更为直观地显示:随访期的1~3d所对应的生存函数降幅较大,从各段生存率之间的高度差可以明显看出;4~7d考察范围内生存函数阶梯状高度差减小,表明降幅变缓;7d之后各时期降幅更小,最终几乎演变为一条直线。

图1 生存分布函数Fig.1 Survival function of guests in Wuhan hotels

三、生存模型的实证分析

(一)影响因素的确定

采用Kaplan-Meier法分别检验来源地、职业等9个变量对酒店客人住店时间的影响显著性。为了稳健起见,分别使用LogRank test、Breslow test、Tarone-Ware test 三种检验方式。它们的区别是赋予观测权重的方式不同,其中LogRank test各时间点权重一样,此法最常用;Breslow以各时间点的观察例数为权重;Tarone-Ware以各时间点观察例数的平方根为权重。显著性检验结果如表3所示。三种检验方式所得结果保持一致:客人职业、来汉次数、出行目的、消费水平和服务满意度5个变量的统计显著性水平检验值(Sig.)均小于0.01,达到较高的显著性,表明这5个因素是影响客人住宿时间的重要因素;而客人性别、年龄、来源地和出行方式4个变量则相反,未通过显著性水平检验,则表明这4个因素不是客人住宿时间的影响因素。

(二)Cox 生存模型的构建

采用Cox回归分析方法将职业、来汉次数、出行目的、人均天花费和服务满意度5个经Kaplan-Meier单因素检验呈现出显著性的影响因素变量进行预后预测检验。为消除纳入模型中各指标之间可能具有的共线性影响,采用基于偏最大似然估计的向前法(Forward:LR)选择自变量进入Cox回归方程,建立Cox比例风险模型。最后,还需从单个参数与模型整体两个方面对Cox比例风险模型的显著性进行检验,其中单个参数检验采用Wald检验,整体检验采用Score检验,两种检验方式均包括卡方值、自由度、显著性3个检验结果。

表3 Kaplan-Meier单因素显著性检验结果

(三) Cox生存模型的拟合

纳入偏最大似然估计向前逐步回归的数据共1 271个,占全部数据的100%。其中完全事件数为1 261个,占99.21%;删失数为10个,删失率为0.79%;无数据在逐步回归过程中被剔除。此外,经过5步向前回归,服务满意度、消费水平、旅游目的、旅游次数和职业5个变量Sig.值均小于0.05,满足显著性检验标准,依次先后进入Cox比例风险模型,最终结果见表4。从模型参数的整体检验方面来看,Score检验的卡方值为304.679,自由度为12,Sig.值小于0.001,检验结果显著;从模型的单个参数检验结果来看,纳入模型的所有协变量参数估计值的Sig.值都小于显著水平0.05。因此,模型参数的显著性无论单变量检验还是总体检验效果都比较理想,在5%的显著性水平下,Cox比例风险模型假设成立。

(四) 结果分析

Cox比例风险模型中影响因素的参数估计结果见表4。从表4可以看出:

1.变量“花费水平”的偏回归系数B为0.254>0,表明“花费水平”是客人住店时间的危险性因素,即客人花费水平越高,倾向于在酒店住宿的时间会越短,而且消费水平每提高一个等级,客人结帐离店的可能性会提高28.9%。这主要是花费水平较高的客人,受旅行支出预算的限制,在酒店住宿时间就相应缩短。

2.变量“来汉次数”的偏回归系数B为0.139>0,表明“来汉次数”是客人住店时间的危险性因素,即多次来汉的客人,在汉住宿的天数会越来越少,而且来汉次数每提高一个等级,客人结帐离店的可能性要提高14.9%。这主要是随着客人来汉次数的增多,武汉的旅游吸引力会相对减弱,在武汉逗留的时间会逐渐缩短,进而在酒店住宿时间也就相应缩短。

3.变量“服务满意度”的偏回归系数B为-0.797<0,表明“服务满意度”是客人住宿时间的保护性因素,即对酒店服务越满意的客人,其在酒店住宿的时间会延长,而且服务满意度每提高一个等级,客人在酒店继续住宿而不结帐退房的机会要提高54.9%。这显然与酒店经营实际相契合,客人对酒店服务质量越满意,就会把酒店当作自己的家,从而增加客人在酒店住宿的愉悦感,所以在酒店住宿时间也就相应延长。

4.变量“职业”为2(企管人员)、3(工人和农民)、4(文教人员)、5(服务销售人员)、6(学生)和7(其它人员)的偏回归系数B分别为0.263、0.482、0.358、0.437、0.300和0.384,均大于0,表明它们是客人住宿时间的危险性因素,即相对于公务人员类客人,以上几类职业的客人在酒店住宿时间短。其中最短的是服务销售人员,其次是工人和农民类客人。这主要是公务人员、企管人员多是公务性花费为主,出行计划性较强;而工人和农民多是自费,出行较自由,所以他们的酒店住宿时间差异比较明显。

表4 Cox比例风险模型中影响因素的参数估计结果

注:a表示哑变量编码方式为Indicator,并且以最先一个变量值为参照基准(估计系数设为0);-2似然对数=15980.363,整体卡方值= 304.679 ,自由度=12,检验P值=.000。

5.旅游目的为“观光游览”客人的偏回归系数B为0.247>0,表明这类客人相对于休闲度假客人,在酒店住宿的时间要相应缩短;旅游目的为“商务会议”客人的偏回归系数B为-0.269<0,表明该类客人相对于休闲度假客人,其在酒店住宿时间相对延长;旅游目的为“其他”客人的偏回归系数B为0.086>0,未通过显著性检验,表明该类客人相对于休闲度假客人,在酒店住宿时间上没有显著性差异,这主要是商务会议类客人行程计划性强,出行自主性差,而观光游览客人走马观花,武汉只是其旅游目的地之一,在汉逗留时间不可能太长。因此不同旅游目的客人在酒店住宿时间差异比较明显。

四、 结论与不足

本文以武汉酒店住宿客人为研究对象,运用生存分析中的寿命表法、Kaplan-Meier法及Cox回归法,分析了酒店客人住宿时间及影响因素。结果显示:客人在酒店住宿,前三天是结帐退房的高峰期,有83.01%的客人会在此期间选择结帐退房,而且50%武汉客人在酒店住宿时间不超过2.79d,所有客人在酒店住宿的平均时间为2.65d。客人在酒店住宿时间与客人职业、来汉次数、出行目的、花费水平和服务满意度有显著相关性,而与客人性别、年龄、来源地和出行方式的相关性并不显著。花费水平、来汉次数是客人住宿时间的危险性因素;服务满意度是客人住宿时间的保护性因素;职业为公务员、企管人员类客人住宿时间相对较长,工人和农民类客人住宿时间相对较短;旅游目的为商务会议类客人住宿时间相对较长,而观光游览类客人住宿时间相对较短。

生存分析在旅游科学研究的应用主要集中在游客停留时间方面,在酒店方面的应用研究还不多见。本文虽然采用问卷调查获得了第一手数据,但由于受多种主、客观条件的限制,很难采集各层次人群样本,样本的代表性有待提高,由此可能导致偏差产生;此外,客人在酒店住宿时间受到很多因素影响,一些变量可能没有在本文的分析中得以体现,需通过后续研究,运用不同学科知识与方法进一步挖掘和探寻。

猜你喜欢
住宿客人显著性
小客人
本刊对论文中有关统计学表达的要求
做一个好客人
基于显著性权重融合的图像拼接算法
被蛇咬的客人
基于视觉显著性的视频差错掩盖算法
民宿市场占比已超星级酒店
不常见的客人
论商标固有显著性的认定
P大的住宿学院