基于网络搜索量的世园会客流量预测

2013-04-29 00:44姜东民崔丽敏管田超

中国管理信息化 2013年8期

姜东民崔丽敏管田超

[摘要]信息技术的飞速发展，网络已经深入到人们生活中的每个角落，各大搜索引擎记录了数以亿计的搜索关注和需求，隐含了大量的有价值的信息和数据。本文以世园会为例，充分挖掘网络搜索数据，揭示了网络搜索和世园会客流量之间存在的关系。以西安世园会为实例，建立回归模型，运用Eviews软件检验网络搜索数据和世园会客流量之间的相关性、协整性、因果关系等，验证模型的可用性，并用之进行青岛世园会客流量的预测。

[关键词]预测；网络搜索量；客流量；世园会；回归模型

doi：10.3969/j.issn.1673-0194.2013.08.023

[中图分类号]F201[文献标识码]A[文章编号]1673-0194（2013）08-0044-04

0 引言

世园会是建设国际化大都市的重要突破口，展示了国家经济、科学技术、农业园林艺术等方面的成就。世园会是世界各国展示花卉园林园艺精品、开展科技文化交流的盛会，也是各国人民相聚、相知、相互交流、增进友谊的平台。同时，我们也力求以世园会为契机，传递好中国政府推进科学发展、建设生态文明的执政理念，充分展示我国加强生态建设、再造秀美山川的巨大成就。对世园会客流量的准确预测有助于更好地为盛会召开做好准备服务实现此次盛会的价值，促进我国社会、经济、文化等各方面的全面发展。

对于客流量的预测，许多学者都提出了自己的模型，预测方法已有300多种，归纳起来大致分为定性预测和定量预测2类。常用的定性预测方法有头脑风暴法、专家调查法、主观概率法、相互影响分析法等；定量预测方法有指数平滑法、回归分析法、马尔可夫分析法、客流调查法、灰色系统法、神经网络法等。当然有时也会把多种方法结合起来运用以提高拟合度和准确度。然而，这些传统的预测方法需要依托于传统的数据，这些数据是由官方统计、定期发布的，虽然具有很高的可信度和一定的权威性，但是时效性差、难以查询、获取的成本太高。因此，本文采用了一种新的方法来获取数据：网络数据，同时运用最基本的方法进行分析，建立新的预测模型。

1 数据处理

随着信息技术的发展，互联网已经深入到人们的生活中，成为必不可少的一部分。人们早已习惯了出行或者购物之前上网查询相关的信息，这些查询信息所用的关键词可以被搜索引擎记录下来，并形成了系统的数据，为各个方面的应用提供数据支持。

1.1 网络数据的获取及关键词的选择

1.1.1 网络数据的获取方法

目前提供这种关键词搜索指数的主要有百度和谷歌，即百度指数（http：//index.baidu.com）和谷歌趋势（http：//www.google.com/trends/）。百度指数是用以反映关键词在过去30天内的网络曝光率及用户关注度，它能形象地反映该关键词每天的变化趋势。谷歌趋势（又名：Google Trends ）有2个功能：①查看关键词在Google的搜索次数及变化趋势，②查看网站流量（Google trends for websites）。

1.1.2 关键词的选取

对于关键词的选取，搜索引擎优化（SEO）会提供关键词优化工具得到相关联的关键词，另外还有一些是专门的关键词挖掘工具，比如百度推广、谷歌关键词工具（Google AdWords）、站长工具（http：//www.7c.com/keyword/）、爱站网（http：//www.aizhan.com/）。本文采用一种动态选择的方法：先根据经验找到一些基准关键词，然后运用上述工具找到相关联的关键词，去掉搜索量少的；以上一步剩余的关键词为基准关键词，用相关工具找到关联关键词，并进行筛选，如此进行循环，直到相关联的关键词出现大量重复。

1.2 网络数据的处理方法

互联网提供海量的数据，从这些数据中找到有用的信息需要经过数据挖掘和处理。本文运用最简单的数学模型得出良好的效果。本文需要进行协整性检验、因果关系检验，所以选择计量经济学观察（Eviews）来分析处理关键词的搜索量指数。

1.2.1 Eviews简介

Eviews是Econometrics Views的缩写，主要应用在经济学领域，可用于回归分析与预测（regression and forecasting）、时间序列（Time series）以及横截面数据（cross-sectional data ）分析。EViews提供单元根检验（用于单个序列的ADF，Phillips-Perron，KPSS，DFGLS，ERS 和 Ng-Perron，及用于面板数据（panel data）的Levin-Lin-Chu，Breitung， Im-Pesaran-Shin，Fisher和 Hadri），协整检验（带有MacKinnon-Haug-Michelis关键值和p值），因果关系检验，自相关和部分自相关函数，Q统计和互相关函数。与其他统计软件（如Excel、SAS、SPSS）相比，Eviews功能优势是回归分析与预测。

1.2.2 关键词搜索数据处理的具体步骤

1.2.2.1 相关性检验

把世园会的客流量叫做因变量，用Y来表示；各个关键词的搜索量叫做自变量，用Xi来表示。变量之间存在的不确定的数量关系称为相关关系，研究这种相关关系是统计分析中一项重要内容。相关系数是两个变量之间相关关系密切程度的一个指标，能够较为客观、准确地测量变量之间的这种相关关系，在本模型中把相关系数大的关键词列入到模型中。

1.2.2.2 平稳性检验

如果一个随机过程的均值和方差在时间过程上都是常数，并且在任何两时期的协方差值仅依赖于该两时期间的距离或滞后，而不依赖于计算这个协方差的实际时间，就称它为平稳的。将一个随机游走变量（即非平稳数据）对另一个随机游走变量进行回归可能导致荒谬的结果，证明两者之间的关系是不存在的。

有时候时间序列的高度相关仅仅是因为二者同时随时间有向上或向下变动的趋势，并没有真正的联系，这种情况就称为“伪回归”（Spurious Regression）。

1.2.2.3 建立回归方程并进行协整性检验

有时虽然两个变量都是随机游走的，但它们的某个线形组合却可能是平稳的，称这两个变量是协整的。

由于很多时间序列数据都是不平稳的，可能受某些共同因素的影响，从而在时间上表现出共同的趋势，即变量之间存在一种稳定的关系，因此某种线性组合可能是平稳的，即存在协整关系。

检验的方法：对于检验时间序列Xi和Y之间是否存在协整关系，首先用OLS建立回归方程并进行估计。然后，检验残差是否是平稳的，因为如果Xi和Y没有协整关系，任一线性组合都是非平稳的，残差也将是非平稳的。

1.2.2.4 模型的预测

进行完一系列的准备工作后，要做的是运用建好的模型进行预测，把预测的客流量和真实的客流量进行分析，比较其误差，最后进行模型的修正，取得较好的拟合度。

2 实证分析

2.1 数据来源

本文以西安世园会为研究对象，西安世园会是A2+B1级别，2011年4月28日开始到2011年10月22日结束，在开园期间设有专门人员统计每天的客流量发布在官方指定的媒介上，本文以此数据作为回归模型y=c+■βixi+ei中的因变量y，其中c为常数项，ei为回归方程的残差。自变量xi（各个关键词的搜索量）来源于谷歌趋势，以周为单位进行处理，并与因变量y在时间上一一对应。

2.2 关键词的选取

首先是按照经验找到一些基准关键词，然后以此为基础，运用前面介绍的关键词查找工具找到一系列的关键词。比如，有经验得到的基准关键词为西安，运用爱站网可以得到相关关键词西安天气、西安公交、西安旅游、西安吧、西安办证、西安事变、西安地铁等等。之后用谷歌趋势找出每个关键词的搜索量指数，去掉因为搜索量太少而无法形成搜索指数的关键词，进行初步的筛选，如表1所示。

关键词确定后画出各个关键词和客流量之间的关系图，初步判定关键词和客流量之间的相关关系，去掉相关性差的关键词，关键词和客流量的相关关系图如图1所示。

然后用Eviews计算出关键词和客流量之间的相关系数，结果如表2所示。

2.3 关键词序列的平稳性检验

为确保各关键词和客流量之间存在着回归关系，提高模型的准确度，需要对序列进行平稳性检验，运用Augmented Dickey-Fuller test（增项DF单位根检验）进行检验，判断是否平稳的标准是检验统计量大于临界值则拒绝原假设，即序列式不平稳；反之，序列式平稳。通过平稳性检验，得出各关键词组成的时间序列二阶差分在各个显著性水平下都是平稳的，结果如表3所示。

2.4 回归模型的建立和协整检验

根据以上分析，确定出可以用于模型建立的关键词，运用Eviews用最小二乘法建立回归模型，得出因变量系数、残差以及残差和真实数据之间的关系图，由于自变量较多、各自变量的系数也较大，具体的回归模型用图2显示；图3为所建模型与世园会真实客流量之间的拟合关系图。

由上可知，所建模型的拟合度是88%，具有较高的准确度，可以用于预测。

为了使模型更具有说服力，验证因变量和自变量之间具有长期稳定性，即协整性检验，具体方法是检验回归方程的残差是否平稳序列，如果是平稳序列则说明是具有长期稳定性；反之则没有，结果如表4所示。

由表4分析可知残差是平稳序列，所以存在协整关系。

2.5 模型预测

青岛世园会与西安世园会的相似之处：

（1）级别都是A2+B1。

（2）在第六次人口普查时，青岛常住人口871.51万，西安常住人口846.78万，常住人口数量基本持平。

（3）西安的景点共有20处，青岛的景点共有16处，在总数上接近。

（4）2011年西安GDP3 864.21亿元人民币，常住人口846万，人均GDP：45 676.24元人民币；青岛GDP5 666亿元，常住人口872万，人均GDP：64 977元人民币。

综上所述，西安和青岛都是旅游城市，人口数量，经济发展总量基本相当，世园会级别相同。因此，可以把上面建立的模型用于青岛世园会的客流量预测。具体的方法是：找到与西安世园会相类似的关键词，比如用青岛代替西安、栈桥代替兵马俑、青岛天气代替西安天气等，把这些与青岛有关的关键词的搜索量作为模型中相对应的自变量的数值，代入模型求值即可得出搜索量一定时青岛世园会的客流量。

3 结论

本文提出了一种基于网络搜索数据进行青岛世园会客流量预测模型，根据西安和青岛两个城市的诸多相似之处，通过使用西安世园会的数据进行实例验证，把建立好的模型用于青岛世园会的预测。该模型采用网络数据作为分析的依据，避免了传统数据的弊端，同时使用简单的回归模型，避免了灰色理论、神经网络等方法的繁琐的计算，取得了较高的拟合度和准确度。另外，该方法具有较高的时效性，能够更早地被相关的人员利用，提早为各项工作做好准备。

主要参考文献

[1]J Ginsberg，M H Mohebbi，R S Patel，etc. Detecting Influenza Epidemics Using Search Engine Query Data[J]. Nature，2009，457：1012-1014.

[2]刘颖，吕本富，彭赓.网络搜索数据对股票市场的预测能力：理论分析与实证检验[J].经济管理，2011（1）.

[3]袁庆玉，彭赓，刘颖，等.基于网络关键词搜索数据的汽车销售预测研究[J].管理学家：学术版，2011（1）.

[4]周子健.基于网络搜索量的上海世博会国际影响力研究[J].艺海，2011（5）.

[5]王小平，孙彩贤.基于多元回归模型的2010年上海世博会客流量预测分析[J].江汉大学学报，2010（2）.