基于BernsteinCopula函数的中国入境旅游需求预测

2017-11-21 15:30朱亮张建萍
旅游学刊 2017年11期

朱亮 张建萍

[摘 要]旅游需求的序列相关结构是旅游学研究中长期被忽略的一个问题。在旅游预测建模中,往往假定线性的或者是某种特定的非线性序列相关结构。这种假定虽然为模型构建带来一定的便捷性,但是很可能会影响预测的精确性。该研究引入Bernstein Copula函数刻画中国入境旅游需求的序列相关结构,以构建预测模型进行实证分析。实证结果表明,Bernstein Copula模型在旅游预测中具有其优越性。研究的结果为旅游需求建模提供了一个新的思考方向。

[关键词]序列相关结构;Bernstein Copula函数;中国入境旅游;旅游需求预测

[中图分类号]F59

[文献标识码]A

[文章编号]1002-5006(2017)11-0041-08

Doi: 10.3969/j.issn.1002-5006.2017.11.010

引言

旅游需求预测对于政府和旅游相关企业的战略规划和决策制定来说有着极为重要的作用[1],因而长期受到旅游学界的关注。许多学者都致力于旅游需求预测模型的研究,以期提高旅游预测的精确度。然而,对于不同的建模数据频率、预测期长度、客源地和目的地来说,旅游需求预测模型也会表现出不同的预测能力[2-3]。因此,迄今为止,旅游需求预测依然是旅游研究中的热点和难点。

国内外学者从20世纪60年代就开始对旅游需求预测进行研究,并取得众多成果[4]。Peng等的综述结果显示,时间序列模型从80年代开始成为旅游需求建模的主流[5]。这些时间序列模型主要是单变量模型,依赖旅游需求的序列相关关系,即滞后变量与当期变量之间的相关性,来进行预测。其中,Box和Jenkins提出的自回归移动平均(ARMA)模型[6],运用最为广泛,其各种衍生模型也被应用到旅游需求预测中,如考虑季节性因素的SARIMA模型[6-10]、分数整合的ARFIMA模型[11]、奇异谱分析模型[12]等。ARMA及其衍生模型因在应用中具有易操作性和易解读性等特征而受到推崇,但是在理论上,这些模型具有两个主要缺陷。首先,这些模型的运用需要假设旅游需求服从特定的累积分布形式(如正态分布);其次,这些模型通常假设旅游需求的当期变量和滞后期变量之间是线性关系。

线性模型虽然简单且容易解释,但线性关系只是众多相关关系的一种。Yu等通过分析一个旅游需求的大数据集,发现旅游需求呈现4种数据特征:稳定的线性趋势,非线性趋势,波浪形趋势和结构骤变趋势;这些数据特征会影响旅游需求预测的准确性[13]。这些数据特征的后3种都属于广义上的非线性特征,因此单纯的使用线性结构来描述旅游需求的序列相关关系往往是不准确的。为了解决线性结构的局限性,神经网络被引入旅游预测中,但是神经网络存在网络结构难以确定及过度拟合等问题[14],在旅游预测中不易推广。其他一些非线性模型,如正弦波回归和稀疏高斯回归模型等[15-16],也是事先为旅游需求的序列相关关系假定了某种特定的结构,而不是寻找序列相关结构的最优表达,因此不具有普适性。

中国旅游资源丰富,是世界上最受欢迎的旅游热点地区之一。近年来,随着中国入境旅游不断升温,对中国入境旅游需求预测的研究开始受到国际学术领域的重视。Huang从修正旅游需求分布形式的角度出发,提出基于Skew-t分布的ARMA模型,并与传统的基于正态分布的ARMA模型进行比较,从而检验修正分布形式对中国入境旅游需求预测的重要性[17]。Yang等则从数据源入手,探讨搜索引擎数据对中国入境旅游需求预测的贡献[18]。国内对入境旅游需求预测的研究众多,涉及的预测模型包括各种线性的时间序列模型[19-20],也包括神经网络等非线性的预测方法等[21-22]。这些研究从不同的角度提出优化入境旅游需求预测模型的可行方案,但是仍未涉及对序列相关结构的探讨。

据此,本研究从寻找相关结构最优表达的思路出发,利用Bernstein Copula函数描绘中国入境旅游需求的序列相关结构,并在此基础上检验序列相关结构的准确刻画对入境旅游需求预测的影响,以期为旅游预测建模开辟一个新的角度。

1 序列相关结构与Copula 函数

1.1 序列相关结构

正如引言所述,广泛运用于旅游需求预测的时间序列模型主要依赖于旅游需求的序列相关关系,因此,旅游需求的当期变量和滞后变量之间的相关性分析对于旅游需求预测建模来说就显得尤为重要。然而,现有研究通常只关注相关程度的分析,而将相关模式限制为线性结构或者某种特定的非线性结构,忽略了对序列相关结构的最优表达进行探讨。

对于两个随机变量来说,线性相关系数常被用来分析它们之间的相关性;然而事实上,只有当联合分布服从椭圆分布(如高斯分布或t分布)时,联合分布才能由这两个变量间的线性相关系数和边缘分布唯一确定[23]。但事实上,随机变量之间的联合分布不一定是椭圆分布;而即使是联合分布服从椭圆分布的两个随机变量,它们之间的相关性也不一定就是线性结构[24]。这一结论对于旅游需求的序列相关性来说也是适用的。定义随机变量Yt为旅游需求t时刻的当期变量,随机变量Yt-i即为旅游需求的滞后i期的变量。Yt和Yt-i之间的的联合分布不一定服从椭圆分布;即使在椭圆联合分布的情况下,线性结构也不一定适用于描述Yt和Yt-i之间的相关性。

1.2 Copula技术对序列相关性的刻画

Copula函数实际上是连接随机变量边缘分布的累积分布函数。Copula技术可以帮助寻找或识别旅游需求序列相关的相关模式,确定序列相关结构,并进一步服务于旅游需求的预测。目前,Copula技术在分析不同随机变量相关结构上的高度灵活性已经在金融、精算和经济学等研究领域中得到广泛探讨[25-30]。对于任何形式的相关关系,无论是线性还是非线性的,对称的还是尾部相关的,都可以找到一个适宜的Copula函数来描述[31]。不仅是不同随机变量的相关结构分析,时间序列中的序列相关结构分析也同样得益于Copula技术[32-35]。任何形式的序列相关关系也同样可以找到一个适宜的Copula函数来描述。此外,Copula技术的灵活性还体现在它不限制边缘分布的选择。边缘分布是一个相对于联合分布的概念,一般就是指随机变量的累积分布。传统的时间序列模型中会要求旅游需求服从特定的累积分布形式(通常是正态分布),而Copula技术对旅游需求的累积分布形式则没有限制。因此,当序列相关结构不是线性结构或旅游需求不满足特定累积分布假设时,可以选择不同的Copula函数描述相关形式和选择不同的累积分布作为边緣分布。从这个意义上讲,Copula是一个更为一般的框架,既有的线性时间序列模型都可以放到Copula的框架之下而成为一种特例。endprint

由式(3)可看出,Copula技术将旅游需求的序列相关程度和相关结构有机地结合在一起,不仅可以通过相关系数来度量序列相关程度,还可以通过具体的Copula函数形式来描述序列相关结构,从而更全面地刻画旅游需求的序列相关关系。

1.3 Bernstein Copula函数

Copula函数的种类繁多,可以描述形形色色的相关结构。但在实际操作中,最常用的Copula函数主要是两大类:参数估计的Copula函数和非参数估计的Copula函数。其中,参数估计的Copula函数虽然形式相对简单,但是单个函数所能刻画的相关结构有一定的限制,而且有的函数只能刻画二维(即双变量)的相关关系,无法处理多维(即三变量或以上)的相关关系。相比较而言,非参数估计的Copula函数,如Bernstein Copula函数,对相关结构的刻画更为自由。

Bernstein Copula函数是由Sancetta和Satchell于2004年提出。该函数以Bernstein多项式为基础,可以灵活地刻画多维相关关系[39]。一方面,Bernstein多项式的微分结果是闭型解,在利用Bernstein Copula函数处理多维相关关系时,这一特征会带来运算上的便利性。另一方面,任何一种Copula函数都可以近似地用Bernstein Copula函数来表达。事实上,Bernstein Copula函数可以描述任意的相关结构。Sancetta和Satchell的研究中展示的是对多变量相关结构的描绘,本研究中将Bernstein Copula函数的应用加以拓展,用来描述单变量时间序列的序列相关结构,并在此基础上构建中国入境旅游需求预测模型。

Bernstein Copula函数的基本原理,是将一个k+1维(k≥1)的单位向量空间划分为mt×mt-1×…×mt-k等份,并形成(mt+1)×(mt-1+1)×…×(mt-k+1)个交点(包括原点),这些交点即为描述序列相关关系的关键。假设我们描述的是二维(k=1)的相关结构,且mt=mt-1=2,单位向量空间如图1所示。点A是由ut-1及其对应的ut构成的点。Bernstein Copula函数则是用点A到各交点的距离作为权重,用以描述ut和ut-1的相关结构。多维相关结构则是在二维情况下加以拓展。

2 实证分析

本研究在R语言环境下对中国入境旅游需求的序列相关结构进行分析,并在此基础上利用Bernstein Copula函数实现对旅游需求的预测。具体实现如下:首先要确保旅游需求序列是平稳序列,并检验其马尔科夫性;其次确定旅游需求序列的累积分布,并计算累计密度;再次,利用确定的累积密度观察旅游需求当期变量与滞后变量累积密度的散点图,分析序列相关结构;最后,利用确定的累积密度和Bernstein Copula函数,构建条件累积分布函数,通过二分法查找算法来实现对旅游需求的预测。

2.1 数据来源及数据分析

本研究以中国入境旅游人数作为旅游需求的代理变量进行实证分析,探讨旅游需求的序列相关结构特征及Bernstein Copula技术对旅游需求预测的贡献。研究人员收集了从1998年1月到2015年12月中国入境旅游的游客总量的月度数据(数据来源于中国国家旅游局)。其中,以1998年1月到2012年12月的数据作为训练数据集,进行序列相关的结构分析,并确定预测模型的构成。2013年1月到2015年12月的数据则作为验证数据集,进行样本外预测,以检验模型的预测精度。

实证研究的第一步是检验用于分析和建模的时间序列是否是平稳序列。本研究同时参考ADF(Augmented Dickey-Fuller)单位根检验和KPSS(Kwaitkowski-Philips-Schmidt-Shin)平稳性检验。其中,ADF单位根检验的原假设是序列具有单位根。如果ADF统计值高于临界值,则拒绝原假设,认为时间序列是平稳序列,没有单位根。而KPSS平稳性检验的原假设则是序列是平稳的。如果KPSS统计值低于临界值,则接受原假设,认为序列是平稳的。同时使用单位根检验和平稳性检验的方法称之为确定性数据分析(confirmatory data analysis),得到的结果稳健性较佳[40]。如表1所示,ADF的结果显示原序列存在单位根,KPSS的结果也显示原序列非平稳。而经过一阶差分后的序列则同时通过ADF和KPSS检验。但是,由于本研究中所用数据是月度数据,一阶差分后的数据仍然存在季节性单位根。如图2a中的自相关图所示,经过一次差分(一阶差分)后的序列仍然表现出很强的季节性特征,自相关图每12个滞后期就会出现一次明显波动。季节性差分可以消除序列的季节性波动。但是如表1所示,季节性差分序列的KPSS统计值大于临界值,序列非平稳。因此,本文中对旅游需求序列进行两次差分(一阶差分和季节性差分)。两次差分之后,旅游需求序列达到平稳(表1),且季节性波动消除(图2b)。因此,后续讨论针对的是经过二次差分的中国入境旅游需求时间序列。

对于平稳的时间序列,还需确保其属于马尔科夫过程,才能利用Copula函数进行序列相关分析。Deco和Schürmann的论述中指出,一个时间序列的p阶自回归模型,或AR(p)模型,如果其残差是白噪声,那么这一时间序列可以看作是p阶马尔科夫过程[41]。月度数据由于具有季节性变化特征,当期变量往往会受到12期滞后变量的影响。因此对于月度数据,应优先考察AR(12)模型,检验序列是否是12阶马尔科夫过程。而在时间序列分析中,越靠近当期变量的滞后期变量对当期变量的影响一般更为显著。因此对于中国入境旅游需求时间序列,从一个只含有1阶和12阶自回归项的AR(12)模型开始检验其马尔科夫性质。该AR(12)模型的自相关偏相关图和Q检验结果如图3所示。Q检验值在所有12个滞后期上均不顯著,说明AR(12)模型的残差可看作是白噪声。因此可以认为中国入境旅游需求时间序列是一个12阶的马尔科夫过程。endprint

在确定序列满足平稳性要求和马尔科夫过程以后,则可以利用卡方检验(Chi-square test)确定旅游需求序列的累积分布。卡方检验的原假设是受测数据服从给定的分布形式。如果检验结果的卡方值大于对应的临界值,那么就会拒绝原假设,认为数据是不服从给定的分布形式的。对于本研究中给定的样本量,卡方检验在0.05显著水平上对应的临界值是15.510。一般情况下,假定旅游需求序列是正态分布的。对于本研究的序列来说,正态分布对应的卡方值为9.738,小于临界值。因此认为该序列服从正态分布,可以用正态分布函数求解累积密度。值得注意的是,当时间序列不服从正态分布的时候,也可以利用卡方检验来检验其他分布形式,并用确定的分布函数求解时间序列的累积密度。

确定了旅游需求序列的累积分布以后,可以通过观察旅游需求当期变量与滞后变量累积密度的散点图来获得对序列相关结构的直观认识。如图4所示,中国入境旅游需求的序列相关结构应该是一个非对称的结构,散点在图形中部以及右尾部(图形右上方)显得相对集中。而如果序列相关结构是线性的话,那么散点图应该呈现出对称的椭球体结构。散点在图形中的分布也应该较为均匀,不会出现明显的中部或者尾部集中。因此,可以判断中国入境旅游需求序列相关结构的非线性性要更为突出。

相对于线性模型来说,Bernstein Copula能描述这种非线性结构,从而提高需求预测的精确性。具体的做法是要将图4的三维空间划分为m×m×m等份,利用训练数据集的数据来估计经验Copula,再由已知的ut-1和ut-12来预测ut。根据Sancetta和Satchell的经验,取m=10对图4进行空间划分[42]。Bernstein Copula方法下的经验Copula可以随三维空间中的散点分布状态不同而不同,因此具有很强的灵活性,可以刻画任何形式的相关结构。

2.2 预测结果分析

2.2.1 其他预测模型与误差评价方法

为了检验Copula技術对提高旅游预测精确度的贡献,本研究将Bernstein Copula模型的预测结果与不同的基准模型的预测结果进行比较,看哪个模型的预测误差较小。这些基准模型包括:季节性Na?ve(S-Na?ve)模型,只含1阶和12阶自回归项的AR(12)模型,以及包含1阶自回归项和1阶季节性自回归项的SARIMS(1,0,0)×(1,0,0)12模型。其中,季节性Na?ve模型是旅游预测研究中最基本的基准模型,主要是利用上一年同期观测值作为当前的预测值。AR(12)模型与Bernstein Copula具有相同的自回归项,只不过前者估计的是线性结构序列相关,而后者估计的既可以是线性,又可以是非线性结构的序列相关。因此,两者的比较更能凸显出序列相关结构的选择对旅游预测的影响。此外,由于本研究中使用的是月度数据,还利用SARIMA(1,0,0)×(1,0,0)12进行旅游需求预测。AR模型和SARIMA模型的估计和预测均利用Eviews来实现。

为了比较Bernstein Copula模型与其他预测模型的优劣,本研究中引入均方根误差(RMSE)和平均绝对百分比误差(MAPE)作为衡量预测性能的依据。对于预测误差的计算,是将差分数据转换成非差分数据后进行。为了便于比较各种预测模型对于短期预测和长期预测的预测能力,本研究采用递归窗体(recursive window)的预测方法,并比较1、2、3、6、12、18、24期(月)向前预测的RMSE和MAPE。其中,超过12月以上的预测期在旅游行业中被视为是长期预测[12]。

2.2.2 预测结果比较

表2中给出不同方法的预测误差情况。总体上看,Bernstein Copula模型的预测能力比其他3种预测方法要好。具体来说,通过比较表2中各种模型预测的RMSE和MAPE可以得到以下结论:(1)对于1期到24期向前预测,Bernstein Copula模型的MAPE比S-Na?ve模型、AR模型和SARIMA模型要小,说明Bernstein Copula模型预测会产生较小的相对误差;(2)尽管1期向前预测中SARIMA模型的RMSE最小,但是Bernstein Copula模型在其他期向前预测上的RMSE都是最小,说明Bernstein Copula模型预测的绝对误差也比其他3种基准模型要小;(3)单单比较Bernstein Copula和AR模型的预测结果,可以发现除了1期向前预测之外,Bernstein Copula模型的RMSE和MAPE明显比AR模型小,而在1期向前预测中Bernstein Copula模型的MAPE也较小,说明利用Bernstein Copula模型描述非线性序列相关结构确实会提高预测水平。

3 结论

旅游需求序列相关结构是旅游预测研究中长期被忽视的一个问题。由于缺乏一种有效分析旅游需求序列相关结构的工具,传统的预测模型只能假定线性的或者是某种特定的非线性结构,使得模型的预测精确度受到影响。本研究中将Bernstein Copula技术引入旅游学研究中,为旅游需求建模提供一个可以灵活描述序列相关结构的工具,并为旅游需求预测建模提出了一个新的思考方向。

实证研究的结果表明,考虑了序列相关结构的Bernstein Copula模型不管是在长期预测还是在短期预测上表现都比基准模型要好。与AR模型相比,Bernstein Copula模型只是修正了对序列相关结构的描述,并没有增加额外的变量信息或滞后期信息,即可带来预测精度的提高。此外,与SARIMA(1,0,0)×(1,0,0)12模型相比,Bernstein Copula模型的预测结果也要更优。值得一提的是,SARIMA模型中的1阶季节性自回归项实际上近似于12阶和13阶自回归项的线性组合,也就是说,SARIMA模型中具有额外的滞后期信息,但是预测精度仍不如Bernstein Copula模型,这就更说明了序列相关结构的重要性。endprint

Copula技术在分析旅游序列相关结构上具有优越性,而Bernstein Copula更是在处理高阶序列相关关系上具有较大的灵活性。这种技术可以和其他技术结合起来,构建更为合理的模型。例如可以和ARIMA模型或者SARIMA模型相结合,在Bernstein Copula函数中加入移动平均项或者季节变量。这也是未来的研究中值得关注的方向。

参考文献(References)

[1] Song H, Witt S F. Forecasting international tourist flows to Macau[J]. Tourism Management, 2006, 27 (2): 214-224.

[2] Witt S F, Song H. Forecasting future tourism flows[A] // Medlik S, Lockwood A . Tourism and Hospitality in the 21st Century [C]. Oxford: Butterworth-Heinemann, 2000:106-118.

[3] Li G, Song H, Witt S F. Recent developments in econometric modeling and forecasting[J]. Journal of Travel Research, 2005, 44: 82-99.

[4] Liao Zhixue, Ge Peng, Ren Peiyu, et al. Research on prediction of tourists quantity in Jiuzhai Valley based on AB@G integration model[J]. Tourism Science, 2013, 28 (4): 88-93. [廖治学, 戈鹏, 任佩瑜,等. 基于AB@G集成模型的九寨溝景区游客量预测研究[J]. 旅游学刊, 2013, 28 (4): 88-93.]

[5] Peng B, Song H, Crouch G I. A meta-analysis of international tourism demand forecasting and implications for practice[J]. Tourism Management, 2014, 45: 181-193.

[6] Box G E, Jenkins G M. Time Series Analysis: Forecasting and Control[M]. San Francisco: Holden-Day, 1970.

[7] Goh C, Law R. Modeling and forecasting tourism demand for arrivals with stochastic nonstationary seasonality and intervention[J]. Tourism Management, 2002, 23 (5): 499-510.

[8] Kim J H, Ngo T. Modelling and forecasting monthly airline passenger flows among three major Australian cities[J]. Tourism Economics, 2001, 7 (4): 397-412.

[9] Lim C, McAleer M. 2000. A seasonal analysis of Asian tourist arrivals to Australia[J]. Applied Economics, 2000, 32 (4): 499-509.

[10] Liang Y H. Forecasting models for Taiwanese tourism demand after allowance for Mainland China tourists visiting Taiwan[J]. Computers & Industrial Engineering, 2014, 74: 111-119.

[11] Chu F L. A fractionally integrated autoregressive moving average approach to forecasting tourism demand[J]. Tourism Management, 2008, 29 (1): 79-88.

[12] Hassani H, Webster A, Silva E S, et al. Forecasting US tourist arrivals using optimal singular spectrum analysis[J]. Tourism Management, 2015, 46: 322-335.

[13] Yu G, Schwartz Z, Humphreys B R. Data patterns and the accuracy of annual tourism demand forecasts[J]. Tourism Analysis, 2007, 12 (1-1):15-26.

[14] Tu J V. Advantages and disadvantages of using artificial neural networks versus logistic regression for predicting medical outcomes[J]. Journal of Clinical Epidemiology, 1996, 49 (11): 1225-1231.endprint

[15] Chan Y M. Forecasting tourism: A sine wave time series regression approach[J]. Journal of Travel Research, 1993, 32 (2): 58-60.

[16] Wu Q, Law R, Xu X. A sparse Gaussian process regression model for tourism demand forecasting in Hong Kong[J]. Expert Systems with Applications, 2012, 39 (5): 4769-4774.

[17] Huang Y L. Forecasting the demand for tourism in China by applying the Skew-t Distribution Model[J]. Chinese Economy, 2013, 46(4): 49-62.

[18] Yang X, Pan B, Evans J A, et al. Forecasting Chinese tourist volume with search engine data[J]. Tourism Management, 2015, 46: 386-397.

[19] Shang Lin, Qin Weiliang. Forecasting exchange earning of Chinese inbound tourism using ARIMA-EGARCH Model[J]. Ststistical Education, 2007, (4): 46-48. [尚林, 秦偉良. 基于ARIMA和EGARCH模型的中国入境旅游收汇预测分析[J]. 统计教育, 2007, (4): 46-48.]

[20] Weng Gangmin, Zheng Zhuye, Liu Yang. An empirical study on inbound tourism demand forecast based on ARFIMA Model[J]. Commercial Research, 2009, (6): 1-4. [翁钢民, 郑竹叶, 刘洋. 我国入境旅游预测: 基于ARFIMA模型的研究[J]. 商业研究, 2009, (6): 1-4.]

[21] Deng Zutao, Lu Yuqi. The application of BP Neural Network in forecasting Chinas inbound tourist population[J]. Tourism Science, 2006, 20(4): 49-53. [邓祖涛, 陆玉麒. BP神经网络在我国入境旅游人数预测中的应用[J]. 旅游科学, 2006, 20(4): 49-53.]

[22] Zhang Chen, Zhang Jie. Neural Network ensemble for Chinese inbound tourism demand prediction[J]. Scientia Geographica Sinica, 2011, (10): 1208-1212. [张郴, 张捷. 中国入境旅游需求预测的神经网络集成模型研究[J]. 地理科学, 2011, (10): 1208-1212.]

[23] Patton A J. Modeling Time-varying Exchange Rate Dependence Using the Conditional Copula[R]. San Diego: Department of Economics, University of California, 2001.

[24] Embrechts P, Lindskog F, McNeil A. Modelling Dependence with Copulas[R]. Zurich: Rapport technique, Département de mathématiques, Institut Fédéral de Technologie de Zurich, 2001.

[25] Balakrishnan N, Lai C D. Continuous Bivariate Distributions[M]. Springer: Science & Business Media, 2009.

[26] Embrechts P, McNeil A, Straumann D. Correlation and dependence in risk management: Properties and pitfalls[J]. Risk Management: Value at Risk and Beyond, 2002: 176-223.

[27] Frees E W, Valdez E A. Understanding relationships using copulas[J]. North American Actuarial Journal, 1998, 2 (1): 1-25.

[28] Joe H. Multivariate Models and Multivariate Dependence Concepts[M]. London: CRC Press, 1997.

[29] Klugman S A, Panjer H H, Willmot G E. Loss Models: From Data to Decisions[M]. New Jersey: John Wiley & Sons, 2012.endprint

[30] Nelsen R B. An Introduction to Copulas[M]. New York: Springer Science & Business Media, 2007.

[31] de Melo Mendes B V, Aíube C. Copula based models for serial dependence[J]. International Journal of Managerial Finance, 2011, 7 (1): 68-82.

[32] Beare B K. Copulas and temporal dependence[J]. Econometrica, 2010, 78 (1): 395-410.

[33] Chen X, Fan Y. Estimation of copula-based semiparametric time series models[J]. Journal of Econometrics, 2006, 130 (2): 307-335.

[34] Ibragimov R. Copula-based characterizations for higher order Markov processes[J]. Econometric Theory, 2009, 25 (3): 819-846.

[35] Smith M, Min A, Almeida C, et al. Modeling longitudinal data using a pair-copula decomposition of serial dependence[J]. Journal of the American Statistical Association, 2010, 105 (492): 1467-1479.

[36] Sklar A. Fonctions de Répartition ? N Dimensions Et Leurs Marges [M]. Paris: Université Paris 8, 1959.

[37] Chen X, Fan Y. Estimation of copula-based semiparametric time series models[J]. Journal of Econometrics, 2006, 130(2): 307-335.

[38] Ibragimov R. Copula-based characterizations for higher order Markov processes[J]. Econometric Theory, 2009, 25(3): 819-846.

[39] Sancetta A, Satchell S. The Bernstein copula and its applications to modeling and approximations of multivariate distributions[J]. Econometric Theory, 2004, 20(3): 535-562.

[40] Brooks C. Introductory Econometrics for Finance[M]. Cambridge: Cambridge University Press, 2014.

[41] Deco G, Schürmann B. Information Dynamics: Foundations and Applications[M]. New York: Springer Science & Business Media, 2012.

[42] Sancetta A, Satchell S E. Bernstein Approximations to the Copula Function and Portfolio Optimization [EB/OL]. https://www.repository. cam.ac.uk/handle/1810/284,2016-09-22.

Abstract: Tourism demand modeling and forecasting has long been an attractive topic in the tourism demand literature, because of its great impact on decision making of governments and tourism related businesses. Many researchers have highlighted the necessity of tourism demand forecasting. China is one of the most popular destinations in the world, and the rapid development of the tourism sector in China has caused tourism demand forecasting to become increasingly essential. This paper proposes the Bernstein Copula model as an alternative to analyze serial dependence structure of China inbound tourism demand for forecasting. Forecast endeavors should be underpinned by knowledge of serial dependence structure; however discussion of the latter has been insufficient in the tourism forecasting literature. In the traditional tourism demand forecasting model, the serial dependence structure is always been predetermined, either as the linear structure or some certain nonlinear structure. This restriction can reduce the forecasting accuracy of the traditional models. The proposed Bernstein Copula model is thus appealing, as it possesses some advanced properties which make it applicable and appealing for high dimensional associations. First of all, Bernstein polynomials are closed under differentiation, which leads to the computational convenience of the Bernstein copula for high dimensional associations. Second, any copula can be approximately represented by certain Bernstein copula with only simple restriction on the coefficients. Actually, the Bernstein copula allows for arbitrary dependence structure between dependent variables and covariates. Thirdly, different from many traditional models, the Bernstein Copula does not require the tourism demand variable follow any given distribution (usually normal distribution). Our empirical results indicate that China inbound tourism demand follow normal distribution, but its serial dependence structure is probably nonlinear. To illustrate the benefit of using the Bernstein Copula model for tourism demand forecasting, we compare the forecasting performance of the Bernstein Copula model with those of several benchmarks, including the Seasonal Naive (S-Naive) model, the Autoregressive (AR) model, as well as the Seasonal Autoregressive Integrated Moving Average (SARIMA) model. The compare results show that the Bernstein Copula model produces smaller root mean square error and mean absolute percentage error than the three benchmarks, which indicates that the Bernstein Copula performs better in forecasting China inbound tourism demand. The contribution of this study is not introducing the Bernstein Copula model as the universally best approach for forecasting tourist demand. Instead, it contributes to the existing tourism demand and forecasting research by highlighting the importance of serial dependence structure to tourism demand forecasting. The consideration of the serial dependence structure generalizes the existing time series model into a broaden setting, in which both linear and nonlinear serial associations can be addressed and the restricted distribution assumption of the demand series involved can be released.

Keywords: serial dependence structure; Bernstein Copula function; Chinese inbound tourism; tourism demand forecasting

[責任编辑:宋志伟;责任校对:周小芳]endprint