季殊杨
(长河高级中学 浙江 杭州 310000)
酒店入住情况是城市发展的一个直观体现,也是众多酒店经营者的关注点。对酒店入住情况进行预测,比如月入住次数、月收入等具体指标的预测,使酒店不仅可以合理安排收支,提高资金使用效益,而且还可以根据市场行情调整经营战略,以便更好地适应市场形势。特别地,预测将来的月入住次数,根据预测的月入住次数来准备房间,制定合理的房间价格,以便更好地满足客户需求,提升消费体验,同时避免房间资源浪费,解决供需不平衡的问题,实现酒店收益最大化。
总的来说,酒店入住情况预测相关的研究并不多见,但是对于类似的时间序列数据的预测则覆盖了众多领域和方法。文献[1]基于对太阳黑子数时间序列的奇异谱分析(singular spectrum analysis,SSA),讨论和分析了太阳活动的周期性和趋势性,以及太阳活动中的一些周期之间的可能关系,并对太阳黑子活动做出预报。文献[2]应用时间序列的广义自回归条件异方差模型(generalized auto-regressive conditional heteroskedasticity,GARCH),对汇率体制改革后的人民币美元汇率建模并预测,验证了GARCH模型预测汇率的可行性,并取得了令人满意的预测效果。文献[3]通过分析青藏高原东部冬半年(1967—1996)雪灾的气候特征,表明雪灾的总趋势是增加的。文献[4]通过奇异谱分析,发现北京市能源消费排放二氧化碳量自2007年起进入下降阶段,而上海市能源消费排放二氧化碳量自2012年起进入平稳或下降阶段。文献[5]提出了基于奇异谱分析和组合核函数最小二乘支持向量机(least squares support veotor maohine,LSSVM)的短时交通流量预测模型,以厦门市的实测交通流量数据为基础,对预测模型进行实验验证和对比分析,结果表明所构建的模型具有较好的预测效果,能够有效提高短时交通流量预测精度。
奇异谱方法是一种特别适合于研究周期振荡行为的分析方法,它是从时间序列的动力重构出发,并与经验正交函数相联系的一种统计技术,是EOF(empirical orthogonal function)分解的一种特殊应用,目前已应用于多种时间序列的分析中。奇异谱分析分解的空间结构与时间尺度密切相关,可以较好地从含噪声的有限尺度时间序列中提取信息。奇异谱分析通过浓缩主要信息和减小误差,从数据中找出其变化的主要趋势,不被暂时的数据影响,使预测结果能更好地符合实际。奇异谱分析具体可以分为嵌入、奇异值分解、分组和重构四个步骤。
本文的整体研究方法大致分为以下几个步骤:首先从互联网上搜集到维多利亚1980年1月到1995年6月的酒店入住数据并整理成“.csv”格式的数据文件,再将数据进行预处理(将原始数据时间序列化),然后将预处理后得到的数据划分成训练集和测试集,并由此对训练集建立SSA模型,接着应用SSA模型进行预测,最后将所得到的预测值与测试集对比进一步计算预测精度。整个过程的具体步骤如下所示(算法1):
首先,引入“Rssa”和“rminer”这两个程序包到开发环境中。第一步,通过调用“read.csv()”函数,将酒店的入住情况数据读取进来,并保存到“Rn”这个变量中。然后,我们从“Rn”变量中取出月总入住次数这一列数据,依次使用“as.numeric()”和“ts()”函数将其数值化和时间序列化,接着将1980年1月到1994年12月的180个数据点划分为训练集,把1995年1月到1995年6月的6个数据点划分为测试集,分别保存在“train”变量和“test”变量中。随后,我们应用“ssa()”函数对训练集建立SSA模型,通过“forecast()”函数建立预测模型。最后使用“plot()”和“lines()”这两个绘图函数绘制实验结果,并应用“mmetric()”函数计算预测精度。
本文所使用的数据是维多利亚酒店1980年1月到1995年6月的月入住情况数据(分为月度入住次数和月度酒店收入两个时间序列),共有186个数据点,其中前180个点作为训练集,最后6个点作为测试集。总的来说,两个时间序列数据呈上升趋势,但是也存在以年为单位的周期性波动,主要是受一年中不同季节的影响,可能与旅游淡旺季有一定关联。本文使用了R和RStudio作为实验运行环境,R语言是一款可编程的统计分析软件,集统计分析与图形显示于一体。RStudio为R语言提供了具有图形界面的开发环境,易于编辑和运行。其中,本实验应用了R语言中的Rssa和Rminer两个程序包,Rssa是奇异谱分析的程序包,Rminer是数据挖掘的程序包。
本文选用了均方根误差(Root Mean Square Error,RMSE)作为模型的度量指标,来计算模型的预测精度。RMSE值越小,表明模型的预测效果越好。RMSE的计算公式为,其中y和f分别表示时间序列的观测值和模型输出值,T为数据点的个数。本文对测试集计算RMSE值来定量地评价模型的预测精度。
本实验分别对两个时间序列应用SSA递归和向量预测模型展开实验,并根据RMSE值比较预测精度。具体模型参数和实验结果如表1所示。从表中可以看出,以上四个模型得到的RMSE值的数量级均小于原始数据的数量级,说明SSA模型的预测效果较好。此外,可以发现使用递归预测模型得到的月度入住次数和月度酒店收入RMSE值均小于向量预测模型得到的RMSE值,说明递归预测模型比向量预测模型精度要高。
本文应用奇异谱分析方法建立酒店入住情况的预测模型,分别应用递归和向量预测模型对月度酒店入住次数和月度酒店收入进行预测,其中递归预测模型与向量预测模型相比更优,预测精度(RMSE值)分别达到了23953.79和2897.07。基于目前工作,后续还可以做进一步研究,比如应用自回归移动平均(autoregressive integrated moving average,ARIMA)、人工神经网络(artificial neural network,ANN)等模型进行实验,比较各种统计学和人工智能等不同预测模型的优劣。
[1]袁忠良.基于奇异谱分析研究太阳黑子长期行为的周期性及其预报[D].重庆大学,2015.
[2]惠晓峰,柳鸿生,胡伟,等.基于时间序列GARCH模型的人民币汇率预测[J].金融研究,2003(5):99-105.
[3]董安祥,瞿章,尹宪志,等.青藏高原东部雪灾的奇异谱分析[J].高原气象,2001,20(2):214-219.
[4]赵立祥,刘亚萍.基于奇异谱分析方法的北京、上海能源消费的二氧化碳排放趋势研究[J].科技管理研究,2015,35(21):236-244.
[5]商强,杨兆升,张伟,等.基于奇异谱分析和CKF-LSSVM的短时交通流量预测[J].吉林大学学报(工),2016,46(6):1792-1798.
[6]王鑫,吴际,刘超,等.奇异谱分析在故障时间序列分析中的应用[J].北京航空航天大学学报,2016,42(11):2321-2331.