线性回归在世博会散客流量预测中的实验

2010-04-11 01:04
淮阴工学院学报 2010年4期
关键词:散客世博客流量

施 原

(复旦大学管理学院,上海200433)

0 引言

2010年5月1日开幕的上海世界博览会,是中国有史以来承办的最大规模的展览盛会,这是综合性世界博览会第一次在世界上人口最多的国家、最大城市的中心区域举办[1],引来了全世界媒体的聚焦。

世博会中游客的观博品质、游览体验是媒体关注的焦点之一。例如日本媒体《读卖新闻》于开幕初日报道中国馆前因预约券问题引发争吵抗议[2]、台湾媒体《苹果日报》于5月31日报道网络上流传甚广的踩踏事件造成严重后果[3]。世博会带来的是独一无二的“体验经济”,丰富的互动项目和展品可以为各种类型的游客带来全部四个领域的体验[4]。虽然鉴此游客的满意度无法使用简单标准化的指标来衡量,然而毫无疑问,在10万人次不到的普通日游客能一天参观24个场馆[5],而在客流突破40万后,一个场馆就可能排队超过9小时 的强烈反差下,我们还是可以推断:和其他大部分服务一样,需求与供给的不平衡会严重影响世博游客的满意度,而世博会游览活动中需求供给不平衡的背后,是各展馆有限接待能力和客流量波动变化的剧烈矛盾。为了提供给观博游客更好的参观品质,必须合理配置包括人力、展馆接待容量在内的各种资源满足需求(例如沙特馆在最长排队时间突破9小时后,于6月8日增发VIP直通券200张[7]),或者利用杠杆效应调节需求、平均资源的利用率(例如在5月初人数寥寥的浦西城市最佳实践区,推出集齐《城市名片册》中特定组合的城市印章后,兑换相应国家馆的预约券的“东西联动”方案,成功分流了大量浦东客流[8])。然而合理配置各类资源的成功前提,是对客流量有一个大致准确的预期。

世界博览会在上海举办,是对中国三十多年来改革开放建设成果的检阅,既是对诸如交通工具、各大场馆等展览中硬件设施建设的检验,也是对资源调控、信息调度等大型活动中软实力发展的检验。只有依赖于协同发展的软硬件,才能够更好地服务世博会的游客、参展方、媒体等诸多方面。在与客流相关的方面,世博局也做了一些工作。在开幕前夕的两周内,密集进行了人数分别为20万、5万、10万、30万、35万、10万的6次压力测试,测试园内设施在各种水平上对客流的承受能力并作出改进,例如中国馆的预约机在压力测试之中,被发现难以承受人流的负荷,而在实际运营中改为人工发放预约券的形式[9]。在世博局综合某美国公司的预测和国际展览局考察结果,而为全会期客流做出7000万人次的预期后[10],实际开园前两周人流大幅低于预期,有关方面开始转移焦点指出“游客体验比人次数更重要”[11]、“客流很难有规律性预测”[12],并于5月5日撤下官方网站上详细的实时监测数据指标[13],换上精简的版本[14]。

客流预测属于服务需求预测的范畴,理论上中短期的预测主要以因果模型和时间序列模型为主。回顾相关方面的研究,主要集中于对铁路、公路、地铁等的交通客流量采取灰色模型[15]、时间序列模型[16]的预测以及对旅游客流采取线性回归模型[17]、Logistic 增长模型[18]等的预测。

线性回归是一种最基础的回归模型,属于因果模型的范畴,较时间序列模型的缺点在于对于最新的随机变动反应不及时、变量选取难度较大,数据要求高,其优点在于由于含有实际因素的解释度,能够给各方决策者带来现实层面的参考,在统计意义的基础上有现实参照意义。线性回归在预测工作中有广泛的应用价值,在旅游客源预测、运动员成绩预测[19]、城市化水平预测[20]等其他领域都有所应用,而在需求预测的领域中,特种产品需求[21]、人才需求[22]等方面也都有利用线性回归预测的先例。

对于本届世博会各方面的预测工作,已经有人在“后世博”时期经济发展预测[23]、相关领域人才需求预测[24]等方面做了一定的研究,而客流量预测方面,亦有学者基于往届世博会的客流分布,给出了上海世博会的客流日分布预测及7300万的总量预测[25]。鉴于世博会客流预测工作的独特性和复杂性,将线性回归运用于世博会客流的预测当中仅是一种尝试。由于缺乏可参考的范例、更多翔实有效的数据并囿于笔者的理论水平和实际经验,这一工作只能定义为一次实验,其合理性和可行性有待进一步考量。

1 数据与方法

为保证研究的信度,本实验中所选用数据均来自官方公布口径,观察时间跨度为世博会开园后1个月(计31天),主要包括四个方面。

1.1 客流量方面

日总客流量:每一日记录前一日日总客流量,数据全部来自上海世博会官方网站“园区即时客流统计”栏目;日团队客流量:每一日记录本日、次日团队客流量,数据全部来自上海《解放日报》当日公布的《旅游信息》专栏[26];日散客客流量:在二分的观点下,采用计算得到,其中日总客流量为TT,日团队客流量为GT,日散客客流量为FT,对应日期为同日。

1.2 天气方面

日预报最高温、最低温:每一日记录明日天气预报中的最高气温和最高气温,日预报日间湿度、夜间湿度:每一日记录明日天气预报中的日间湿度和夜间湿度,数据全部来自上海中心气象台[27]①;日预报人体舒适度指数:采用公式[28]计算得到,其中E为人体舒适度指数,R为预报日间湿度与夜间湿度的平均,T为预报最高温与最低温的华氏温标下的平均。在我们的观察区间内,其实际值较小时,体感较为舒适。

1.3 信息方面

日网页检索记录量:原本设想以新闻报导量作为指标,然而考虑目前中国网民数量高达3.84亿,每日接受信息的渠道丰富,新闻可能不能反映信息输出量的全貌,故尝试性使用“世博”和“新闻”作为组合检索词,每日通过知名引擎谷歌请求检索前一日24小时内网页总数,作为每日接受相关信息量的表示。

周网页检索记录量:考虑到信息对人影响的延续性,每日对前七日的网页检索记录量进行加总,作为近期接受相关信息量累积的表示。此处因为取得数据的格式及其大小,使用“万条”计量。

1.4 日期性质方面

周末因素:直观观察显示,周末因素显著影响客流,而周六和周日对于客流的影响又不尽相同。周六之后的周日仍为休息日,即可选择继续游览也可选择休息调整;而周日之后即为紧张的工作日,对于游览世博这样体力消耗较大的活动游客应当会有所顾虑。采取如下的设定:对于观察期间内所有非指定日有:当日为工作日,周末因素WF=0;当日为周六,周末因素WF=2;当日为周日,周末因素WF=1。

指定日因素:指定日对客流的影响较为复杂,一方面指定日为世博会进行当中的关键时间点(“五一”开幕、“十一”长假及闭幕前最后一周共17日),园内活动较为丰富,故预售火爆[29],对客流有放大作用;另一方面,由于指定日票可平日使用,但平日票指定日不可使用,对客流又存在着约束作用,研究时间内的指定日仅开幕三日,资料有限,暂记指定日有指定日因素ADF=1,其余日期ADF=0。面对较多因素的情形,在无其它模型可以参考的情况下,从最简单的模型入手,采取多元线性回归模型。

给定一个随机样本 (Yi,Xi1,…,Xip),i=1,…,n,一个线性回归模型假设回归因子Y和回归量(Xi1,…,Xip)之间的关系可能是不完美的。加入一个误差项εi(也是一个随机变量)来捕获除了(Xi1,…,Xip)之外任何对Yi的影响。所以一个多变量线性回归模型表示为以下的形式:

Yi= β0+ β1Xi1+ β2Xi2+ … + βpXip+ εi,i=1,…,n[30]

2 实证分析

2.1 回归变量选择

在本文研究情境中,依变量选择为日散客客流量,原因在于团队客主要依靠预约方式入园,所以说有关方面不需预测就可知未来一段时间范围中某一日的团队客流量。不论对于某一个场馆还是对于整个世博园,预约都是一种有效的需求管理。团队客在预约后就较少有选择余地,上文中提到的因素影响也不明显。而散客则对购票、入园时机均拥有较大的选择空间,决策易受各种因素影响。在基本统计量的分析中,我们发现在5月份期间,无论是振幅还是方差,散客客流量都大于团体客流量,选取散客客流量(标记为FT)更为合适,见表1。

表1 描述性统计量

在自变量方面,将选取每个方面的最终处理所得的代表性变量带入回归,具体如下:日团体客流量(标记为GT)、日预报人体舒适度指数(标记为CI)、周网页检索记录量(标记为WR)、周末因素(标记为WF)、指定日因素(标记为ADF)。在选取完自变量和因变量之后,对其进行标准化处理,消除量纲上的差异。

2.2 相关性分析

因为标准化过程不会影响变量间的相关性,所以对标准化后数据进行相关性分析,由于可能有多个因素共同作用于同一变量,简单相关性分析的结果可能会扭曲变量间的实际关系,所以采取偏相关分析控制其它变量,单尾检验结果见表2。

表2 偏相关分析

从结果中可见,去除其它因素影响后,周末因素与日散客客流量的相关性不显著,所以在直接回归过程中应当不予考虑;同时人体舒适度指数预报与日散客客流量的关系也较弱,在此暂时保留,以检验其回归中的效果。其余变量相关性显著(95%置信水平下)。考虑到周末因素的实际意义较为合理,富于解释性,笔者曾尝试将周末因素转换为定性变量处理(即:将所有周六的数据单独回归、周日的数据单独回归、工作日的数据单独回归),但是由于所研究数据量较小、周六与周日差别显著等诸多原因,按周末因素分类进行回归效果并不理想,解释度较低。

2.3 多元线性回归分析

将剩下的日团体客流量(GT)、日预报人体舒适度指数(CI)、周网页检索记录量(WR)、指定日因素(标记为ADF)对日散客客流量(FT)采取Stepwise法进行多元线性回归(中间结果已省略),见表3。

表3 模型概要

由表3可知,得到的第四个模型调整后,R方值已达0.828,属于较好的解释水平;德宾检验值为1.849,距离2也较近,所以残差的自相关性问题也不显著。

表4 方差分析模型

由表4可知,对该模型F检验的线性特征显著,总体上进行线性回归可行,模型有实际意义。

表5 共线性诊断

由表5可见,特征值和条件指数都没有出现异常,可判定共线性没有对模型造成较大不良影响。

表6 多元线性回归系数报告

从表6中可见,对于各个变量的回归系数存在性检验在95%的置信水平下也都为显著,其中值得注意的是,代表天气预测状况的人体舒适度指数预报,值在回归模型中的加入对模型的解释度具有正向作用,且其回归系数存在性亦通过检验,所以决定保留这一变量,其相关性检验方面表现不良可能和样本量少、指标本身敏感度不够等有关,这一点有进一步改进的空间。最后可得标准化数据下的多元回归方程为(其中s代表标准化数据):

FTs=0.973GTs+0.332ADFs-0.198CIs+0.176WRs

在此模型下,使用原始数据代入,则可以得到合理的未标准化下原始数据的回归方程:

FT1=24526.7+1.043GT+57197.611ADF -2961.555CI+1.034WR

回归方程中各个因素实际表现出来的对散客客流的影响值得探讨。首先,对于天气的预期的确能影响潜在散客的决策,当对天气的舒适程度预期较高(指标较小)时,散客可能更倾向于决定游园,在回归方程中表达出负相关的关系。其次,人群接受相关信息量也显著正向作用于观博的动机,这一点亦容易从广告学的理论得到解释。再次,指定日的因素从这个模型中看来,对散客客流量的影响是正向的,说明指定日人流较少,所以因为票种差别产生上文提到的限流作用不明显。最后,团体客流量与散客客流量的高度相关性就显得较为难以解释。

按常理来说,如果散客知道某日团体客流较大,会选择回避该日观博,然而现实情况是散客客流量与团体客流量几乎同向波动,且散客的波幅大于团体客。原因可能如下:(1)散客大部分都不太了解未来团体客流的情况,除了各大媒体新闻中只字片语的报道,第二天的团体客流通告只见于《解放日报》的《旅游信息》专栏。(2)即便散客可以正确预期团体客流高峰的日期,因为他们面临的和团体客同样的约束,而无法做出回避的选择,比如上班族大多只能选择周末游览。(3)团体客对散客具有一定的拉动作用,外地的团体客可能带来他们生活在上海的亲友散客客流。然而团体客客流与散客客流间的关系尚未有现实意义的解释,仍然需要进一步的、也许是其他角度的研究。

2.4 预测效果分析

已知调整R方值为0.828,属于良好水平。下面对回归值、预测值进行简要分析,并对模型的进一步修正做出初步设想,观察区间内的回归值和真实值按日期的描点图见图1。

图1 观察区间内回归值与真实值描点图

从图1可见,拟合情况虽然总体良好,但是在一点出现较大偏差,即5月最后一个周六(29日)客流总量出现井喷首破50万,而前后两日则均不到40万,28~30日团体客流在14~18万的水平小幅波动,所以实际客流井喷的主要力量来自散客。散客自28~30日从22.16万飙升至31.99万又回落至22.18万,犹如“脉冲”的波动形态线性回归模型未能成功预测,实际上这是下面预测过程中暴露问题的先兆。

利用该预测模型对观察区间以后的6月前14天的日散客客流量进行预测,计算预测误差见表7。

表7 2010年6月1~14日预测基本指标汇总

对相对误差进行分析,由表7可知其中误差在10%以内的有5天,误差在20%以内的有9天,而其余5天的预测误差在21.88% ~37.88%。而误差超过15%的日期均为假期前后。结合前面观察期间内回归误差较大的5月29日(周六),推断可能随着暑期临近,假期因素对客流的影响将走向显著。模型的修正也应当围绕假期的影响进行。

我惊奇地发现,学员们不但在知识水平上有了明显提高,思想意识也有了很大改变。坦白讲,我也改变了想法,决心终身务农了。

对绝对预测误差分析,发现绝对误差并非随机分布。从误差超过15%的日期作绝对误差的直方图(图2)可见,预测值与现实值差别较大的日期,绝对误差大致集中在5万和10万两个水平附近。

图2 观察期外预测较大绝对误差直方图

综上可见,五月底开始散客客流的波动模式 开始发生显著变化,主要表现在假日前到假日中的放量增长,以及爆发性平日大客流。由此试探性为六月份的散客客流增加假日因素WF,修订假日前一日WF=1,假日因素最大值2出现在假日首日,试探性修正预测公式:

则可以将5个假日相关日期的预测误差减小在6%以内,即14日中12日预测误差在10%以内。

3 总结与反思

本研究先确定回归拟合的对象为日散客客流量,再从天气预期、接受信息量、周末因素、指定日因素、团体客流五个方面选择代表性变量与日散客客流量进行偏相关分析,进而选择出四个与日散客客流量显著相关的变量进行多元线性回归分析。通过一系列检验确认模型的有效性和解释度,然后将观察期间内的回归值、观察期间后两周的预测值分别同真实值做出比较与分析,并提出下一阶段的模型修正设想。

从整个分析过程可以看到一些不尽如人意之处,首先,标准化是一个消除数据量纲差异的惯常处理手法,然而在实例中标准化后的回归方程的极小值(4.87E-016)的常数项显示存在性不显著,而原始数据的回归下常数项存在性显著,面对复杂的多个变量指标,标准化回归“丢失”常数量,让人重新考虑这个模型是否真正需要标准化的预处理。另外,天气方面早期湿度预报值因为找不到资料的原因,用真实值代替可能是人体舒适度预报值与散客客流量相关存在假设的置信水平仅达93.8%的一个重要原因。当然,由于数据取得时间纵度、涵盖广度的有限,全部回归指标都来自世博会本身的“外部”,忽略了世博会本身的动态变化特征(比如每日各类活动数量)对于客流量的解释作用,也是本研究的一个局限。

从分析结果可见,不能过分高估线性回归模型的意义,对于世博会日散客客流量的多元线性回归,可以作为世博会客流量预测研究工作的起点,因为线性回归模型是最简单的一种回归。对线性回归模型进行扩充、加入其他预测模型的元素进行修正才有可能使模型的预测精度提升。比如后期假日前后的客流量预测误差往往较大,然而“周末因素”的观察期内的线性相关不显著。同时直观观察可见周五、周六的客流普遍有所上升,而周日较周六客流回落明显,同时按照实际情况下,散客选择周五晚以及周六全天入园参观有较工作日应有更强的参观动机,这里可能“周末效应”要将周五扩充入,并且可能“周末效应”并非线性的叠加,而是一种乘数的“放大”,周五至周日三日的指标如何定量才能取得最佳的预测效果都是值得进一步探讨的问题。

随着时间的推移,模型一定是需要持续修正的。一是因为可能影响散客参观日期决策的因素可能会增加,不过在新增因素的时候必须了解因素过多的线性回归是不合理的,譬如:若为高考结束单独增加因素就是不合理的,因为全上海2010年的高考人数为6.6万。二是因为原有的因素解释度可能发生变化,譬如:同属指定日的国庆长假、最后一周闭幕的人流变动模式可能和开幕期间相比就不尽相同,或者园区内传出重大的公共事件也将显著影响原先的模型。三是有些一直存在的、显著影响散客决策的因素我们也许尚未发现或是未能找到一个合理的定量指标来表示,譬如:到6月12日为止出现的三次50万以上的大客流,模型中就没有变量能够充分解释。当然,对于世博客流量这样一个现实环境中较为复杂的变量,也必须认识到其中必然存在不可解释的随机因素。同时,也不能拔高预测工作的意义,客流量预测只是更好服务世博游客的一项准备工作,而基于客流量预测做好资源的优化配置工作,积极响应各种预测外的变化,拥有前瞻性的观念和视角,才可能全面提高世博游客的满意度、全面提升他们的观博体验。

注释:

①由于天气预报历史记录取得的困难,5月1日~5月10日的湿度采用真实值代替。

[1]维基百科.中国2010年上海世界博览会[EB/OL].[2010 -06 -14].http://zh.wikipedia.org/zh.

[2][日]加藤隆则.上海万博开幕、初日1万人大行列[EB/OL].[2010 -05 -01].http://www.yomiuri.co.jp/world/news/20100501-OYT1T00402.htm.

[3]《苹果日报》香港版官方网站.世博韩国馆推挤1死百伤[EB/OL].[2010-05-31].http://www.nextmedia.com/applenews/article/art.

[4][美]菲茨西蒙斯.服务管理 运作、战略与信息技术[M].张金成,译.北京:机械工业出版社,2008.

[5]王琪舒.游园技巧 五进世博园的达人教你逛世博[N].复旦学生服务导报,2010-05-18(6).

[6]东方早报.沙特馆排队长达4000米 究竟为何让游客痴迷[EB/OL].[2010 -06 -09].http://expo2010.ifeng.com/dongtai/detail_2010_06/09/1600465_0.shtml.

[7]毛丽君.沙特馆直通VIP券增至每天200张 最晚20时可兑换[EB/OL].[2010-06-08].http://news.xinmin.cn/rollnews/2010/06/08/5154484.html.

[8]许明,屠仕超.“东西场馆联动”显效 城市最佳实践区今火爆[EB/OL].[2010-05-19].http://sh.xinmin.cn/shizheng/2010/05/19/4938260.html.

[9]曹玲娟,王有佳.完成六场试运行演练?世博热身收获百万热情[EB/OL].[2010-04-28].http://travel.people.com.cn/GB/11471357.html.

[10]邱瑞贤.世博局局长洪浩:客流数低于预期他“松了一口气”[EB/OL].[2010-05-05].http://gzdaily.dayoo.com/html/2010 -05/05/content_952652.htm.

[11]南方日报.世博游客大幅低于预期 外界猜测门票将减价[EB/OL].[2010 -05 -20].http://china.nfdaily.cn/content/2010 -05/20/content_12081708.htm.

[12]东方早报.世博局局长洪浩坦言:世博客流很难有规律性预测[EB/OL].[2010-05-31].http://sh.sina.com.cn/news/s/2010 - 05 - 31/0810144473.html.

[13]世博网.上海世博官方网站园区即时客流统计[EB/OL].[2010 - 05 - 05].http://www.expo2010.cn/yqkl/indexn.htm.

[14]世博网.中国2010年上海世博园区即时客流统计[EB/OL].[2010 -05 -06].http://www.expo2010.cn/yqkl/indexn.htm.

[15]刘长虹.客流量预测方法的探讨[J].上海工程技术大学学报,2004(3):236-238.

[16]张世英.时间序列在城市交通预测中的运用[J].天津大学学报,2006(5):13-16.

[17]蒋文燕.基于不同空间尺度的旅游客源预测模型对比研究[J].旅游学刊,2007(11):17-21.

[18]严汾,蒙吉军.Logistic增长模型在游客流量预测中的应用:以贵州省绥阳县为例[J].人文地理,2005(4):22-26.

[19]魏春玲,孙晋海.中外优秀十项全能运动员成绩结构的因子分析及回归预测模型研究[J].北京体育大学学报,2004(5):653-655.

[20]邓谋优.基于线性回归模型的城市化水平预测:以内江市为例[J].内江师范学院学报,2008(12):36-38.

[21]邹亮.基于多元线性回归模型的怀化卷烟需求预测分析[J].湖南烟草,2009(1):28-38.

[22]杨月,沈进.多元线性回归分析在人才需求预测中的应用[J].商业现代化,2006(32):33-34.

[23]徐炳胜.后世博效应研究及预测:以上海为例[J].上海经济研究,2010(1):103-110.

[24]傅冰.2010年世博会后上海会展人才需求分析[J].特区经济,2009(12):60-61.

[25]李克平.2010年上海世博会客流预测分析[J].交通与运输,2005(1):21-22.

[26]解放牛网.旅游信息[EB/OL].[2010-06-14].http://find.jfdaily.com/search.asp.

[27]上海市气象局.天气预报:本市天气预报[EB/OL].[2010 - 06 - 14].http://www.smb.gov.cn/SMBWeb/WeatherForecast/Forecast.aspx.

[28]吴兑.多种人体舒适度公式预报讨论[J].气象科技,2003(6):370-372.

[29]陶宁宁.世博五一门票售罄[N].东方早报,2010-04-08(6).

[30]李志强.概率论与数理统计教程[M].北京:科学出版社,2008:210-211.

猜你喜欢
散客世博客流量
十年磨剑,世博再出发
基于散客旅游供应链视角的旅游产品探讨
基于嵌入式系统的商场客流量统计算法
分析旅行社对散客的服务管理
伦理视域下城市散客旅游者行为特征研究——以南京市为例
基于AFC数据的城轨站间客流量分布预测
从客流量推算公交出行PA矩阵的方法
新建旅游项目客流量分析方法初探
难忘世博难说再见
给“世博”拍张照