陆利军,廖小靖
(1.湖南财政经济学院 人文与艺术学院,湖南 长沙 410205;2.联合国教科文组织国际自然与文化遗产空间技术中心(HIST)衡阳分中心,湖南 衡阳 421008)
旅游者行为预测一直是学术界和企业界关注的热点问题。单就旅游者行为数据的获取而言,在传统的预测研究中,学者们往往主要依赖访谈法、观察法、日志法和调查问卷等调查方法获取相关基础数据[1]。随着人类进入互联网时代,人类行为产生的数据痕迹为行为预测开辟了一个新的基础数据来源。研究证明,网络搜索、网页浏览和评论数据与诸多经济类、社会类行为存在很高的关联性,而利用上述网络行为数据进行经济与社会行为预测是切实可行的[2]。近年来,网络行为数据也被广泛用于测量旅游者行为[3,4]。
然而,互联网用户的多元性和异质性直接导致了网络行为数据的复杂和多维性。具体来说,在旅游者消费整个过程的不同步骤中,消费者往往倾向于使用不同的查询方式和选用不同的核心关键词来搜索他们在互联网上的兴趣点。换言之,在明确了利用网络行为数据进行经济与社会行为预测的可行性之后,如何选择有效的数据预处理方法,构建网络行为指数已然成为了研究者们关注的重要内容。因此,基于相对连贯的内在逻辑,将核心关键词合成为统一的旅游搜索指数,并选择适当的数据预处理方法,设计合理的预测流程对基于网络搜索、浏览和评论数据进行的信息分析和旅游者行为预测活动的性能至关重要。
从信息分析与预测活动的整体技术路径上看,初始关键词和核心关键词筛选、网络搜索指数合成,及预测分析模型构建是基于网络行为数据预测消费者行为的关键环节。
既有文献研究中,对于最终用于信息分析与预测的关键词的选择不尽相同。根据黄先开等学者的归纳总结,目前关键词选取的技术方法主要有3 种:技术取词法、直接取词法和范围取词 法[5]。其中,Ginsberg 等在其著名的“谷歌流感预测”研究中运用的是技术取词法[6]。然而,鉴于技术选词法对计算设备相对较高的要求,大多数研究主要运用已有分类表或关键词表和直接采用与对象相关的关键词的做法[7]。
在旅游者消费行为研究中,学者们主要采用的是直接取词法和范围取词法选择关键词。如,李晓炫等根据旅游消费者的信息需求,依据个人经验选择若干个关键词,通过直接加总方法合成搜索指数Index8[8]。魏瑾瑞等结合旅游者旅游信息搜寻行为的一般特征,从吃、住、行、游、购等五个方面选取初始关键词,继而利用百度指数依赖于语义挖掘技术获得拓展关键词,最后应用范围取值法对既有关键词进行再筛选,最后形成区域旅游指数[9]。
单就核心关键词的选择而言,研究者们往往都是凭借研究经验,从自己的研究目标出发做出选择。因此,尽管很多基于网络搜索的信息分析与预测研究都很好的证明了基于研究人员凭借经验选择的关键词与研究对象之间的强相关性,也可以有效预测研究对象的变化趋势。但是,这种相关性目前尚无理论基础作为支撑,缺乏对内在机制的揭示,难以令人信服。
根据孙毅等人的研究,网络搜索指数的合成方法可以大致归纳为直接合成法、相关性合成法和时差相关合成法三类[1]。其中,直接合成法的操作流程最为直接,研究者只需对选定的关键词的搜索量做简单加总,形成合成指数即可,且无关关键词数量多少[10]。相关性合成法是指以关键词与研究对象的相关性为参考指标,将相关性较高的关键词合成得到拟合度较高的搜索指数。时差相关合成法则认为,鉴于同期搜索和事后搜索的关键词对因变量不具备预测作用,关键词选择除了需要测算其与因变量之间的相关性之外,还应该引入“时差”维度对关键词进行筛选。如,在股票市场研究中,刘颖等使用时差相关合成法将与上证指数相关的百度搜索关键词合成为股民行动指数等三类先行指数[11],也取得较好的预测效果。
作为旅游消费者的一种主动选择,搜索关键词能够真实地反映旅游消费者的信息需求及兴趣点不足为奇。但是,值得关注的问题在于,单个关键词仅能够反映旅游消费者的单个关注侧面或者兴趣点,而衡量研究对象的消费行为总体趋势则需要由尽可能全面的关键词共同体现。构建一种具有科学性和可操作性的网络搜索指数合成方法至关重要。
综上所述,虽说这个新的、由机器数据驱动的研究领域着实取得了一定程度的突破,但总体而言,学术界并未形成一套完整的理论分析和概念框架,尚未就用于选择初始关键词的依据、核心关键词的筛选步骤和方法、最终解释关键词权重的赋予、反映旅游消费者行为趋势的网络搜索指数的合成步骤与方法,以及旅游消费者行为预测分析模型的构建达成共识。
因其具有的高水平交互性和定制性,互联网逐渐成为为旅游消费者行为研究提供基础数据来源的主要手段。然而,多数研究往往都是研究者们凭借自己的研究经验,从研究的具体目标出发进行关键词的选择。随着研究的不断深入,也有学者意识到了这种缺乏理论分析与概念框架支持的关键词选择的局限性。之后,学术界开始从理性选择等实证主义范式和解释主义、后现代主义等非实证主义范式出发为旅游消费者行为构建理论分析框架。其中,最具有代表性的研究成果是Mathieson 和Wall 于1982年提出的包括动机、信息搜集、决策和活动等四个方面内容的线性旅游行为模型[12]。基于该线性旅游行为模型,魏瑾瑞等[8]和孙烨[3]等均构建了相应的区域旅游指数。刘慧悦等则基于发生学范式,对网络旅游信息搜索行为的发生机制做出了类似描述,并在此基础上选取“九寨沟门票”和“九寨沟旅游攻略”等关键词,对旅游者网络信息需求与景区游客量之间的关系做出了系统分析[13]。
综上所述,无论是从宏观框架设计,还是从微观分析层面,现有关于旅游消费者行为的研究成果均已经有了一定的积累。但是,这些研究主要做的是静态的横切面研究,而现有的横切面研究可能无法捕捉到旅游消费者选择过程中偏好的动态变化。面对信息技术普遍应用等环境因素的变化,这些静态的研究显然难以对旅游者消费行为作出令人满意的解释。深入挖掘不同时间节点上旅游者消费时的考量因素,并在旅游行为动态模型构建过程中,充分考虑旅游者消费的体验性、空间性和当地消费性等系列特征,从而更加全面和深入解释旅游消费者行为的动态变化规律势在必行。因此,论文从理论解释框架构建、初始关键词选择、核心关键词筛选和搜索指数合成等问题出发,尝试提出一种网络行为数据的预处理方法,对探索网络行为数据与旅游消费者行为间的关联关系是具有普适性意义的。
选择域最早由Howard 等人于1969年提出[14],Woodside 等人首次将这一概念引入旅游决策研究领域[15]。该理论认为,和其他消费一样,旅游者消费的行为过程也是一个不断减少备选方案的漏斗式筛选过程。在此过程中,旅游者根据其偏好程度将备选项逐步分类,并按照类别归入不同的“域”中,从而缩小决策范围,直到做出最终决策[16]。鉴于网络行为数据支持下旅游者行为的复杂性、动态性和偶然性特征和选择域理论在解释旅游消费者行为动态变化方面具有的优势,论文尝试通过引入选择域理论,以深入挖掘不同时间节点上旅游者消费的影响因素,并在旅游行为动态模型的构建过程中,充分考虑旅游者消费的体验性、空间性和消费性等特征,从而更加全面和深入地解释旅游消费者行为的动态变化规律。
基于网络行为数据的旅游者消费是一个复杂,动态和偶然的行为过程[17]。旅游消费的每个章节都解决了旅游行为的一个方面,且每一个章节都可以进一步划分为个别的“剧集”,更为重要的问题在于,这些剧集与消费者行为本身的替代解决方案的评估息息相关。
如下图1所示,旅游选择域模型的关注点在于通过一系列选择域对备选目的地进行评估,选择域模型也大都是包含两个,或三个阶段的概念化模型,与此对应的是,从知觉域到初期域到后期域再到最终决策,每个行为步骤都可以通过互联网搜索中的特定查询来反映。一般来说,知觉域包含旅游消费者当前正在考虑的全部消费选择。由于旅游者所能够意识到的消费选择又是有限的,所以知觉域又只是全部机会域的一个组成部分。下一步,旅游消费者还需要通过对包含在考虑域内的目的地备选方案和特质进行评估和选择,最终作出决策。
图1 选择域视角的旅游者消费行为动态过程①1969年,Howard 提出选择域这一概念,并引入知觉域、非知觉域和激活域等类别来描述备选方案在选择过程中的变化情况。其中,知觉域意为消费者知道的所有消费选项,非知觉域意为消费者不知道的消费选项,而激活域意为消费者真正考虑购买的消费选项。后继研究将这一概念体系继续细化,并根据消费者个人喜好发展出不同的类型域,其中包括行动域(信息搜索范围),惰性域(非真正需要范围),乌托邦域(有意愿但是无法行动),模糊域(无明确表态)和拒绝域等相关概念。
上述基于选择域理论的旅游者消费行为分析模型通过描述消费者决策的“漏斗过程”着重阐释了旅游者在对目的地选择过程中所进行的信息搜索和选择评估过程。
其中,第一阶段为知觉域阶段,即在旅游者消费需求产生之后,旅游消费者能够有所知觉的所有相关旅游者消费品范围,旅游消费者在这一阶段的信息需求是对其有所知觉的旅游者消费品进行系统搜索,为其后期获得更加合理的消费方案储备尽可能充分的信息;
第二阶段为初期考虑域,即为旅游消费者在一定时期内可能会考虑的旅游者消费品范围,旅游消费者在这一阶段的信息搜索行为主要集中在查询其愿意且能够加以考虑并收集信息的旅游者消费品及其相关因素;
第三阶段为后期考虑域,即消费者即将采取有针对性行动的旅游者消费品,旅游消费者在这一阶段的信息需求是查询旅游消费者将有针对性采取行动的旅游者消费品及其相关要素;第四阶段为最终决策阶段,即消费者最终确定选择的旅游者消费品,旅游消费者在这一阶段的信息需求是即时查询与该旅游者消费品相关联的吃、住、行、游、购、娱等消费要素。
系统梳理既有文献中基于网络行为数据的预测方法的基础上,论文首先采用Pearson 和Spearman 等两种简单相关分析方法筛选出与旅游者消费行为具有高相关性的关键词;其次,采用时差相关分析方法筛选出对旅游者消费行为具有超前指示作用的关键词;再次,采用关键词集中度分析方法保留稳定性较高的关键词;最后,选择采用主成分分析法对经过上述步骤筛选出来的,相关性高、且具有领先性的关键词构建旅游网络搜索指数,将该指数作为预测模型的重要变量。基于系统合成法的旅游网络搜索指数构建整体流程如下图2所示:
图2 .旅游网络搜索指数系统合成法构建的整体流程
1.初始关键词的选择
基于网络行为数据的信息分析与预测和传统的信息分析与预测活动最大的不同在于其分析与预测是针对网络搜索行为展开的,而这种网络搜索行为是通过关键词的使用来表现的。关键词选择是基于网络行为数据的信息分析与预测的基础。论文的关键词选择步骤如下:
1)基于选择域理论视角,分析知觉域、初期域、后期域和最终决策等四个阶段中影响旅游消费者行为的主要因素,在此基础上明确初始关键词;2)通过百度指数需求图谱功能中的关键词推荐功能和站长工具的关键词挖掘服务获得扩展关键词;3)通过在网络搜索引擎中输入上一步骤中明确的3~5 个初始关键词,从互联网新闻、论坛和博客中收集宏观、中观和微观的文本。然后,论文使用中文分词工具对结果进行文本挖掘,并提取与研究相关的高频关键词列表;对上述关键词进行清洗、合并后形成的关键词列表便是研究对象。
2.关键词的初步筛选
1)相关测量:Pearson 与Spearman 方法
相关系数具体是指各个网络搜索关键词曲线与旅游者消费行为曲线之间的相似性。系数越大,两者间的相似性就越大。论文主要采用Pearson相关系数和Spearman 相关系测量各个网络搜索关键词与旅游者消费行为之间的相关性。其中,Pearson 相关系数的计算公式为:
式中:r为相关系数,为变量,分别为变量xi,yi的样本平均数。
鉴于论文的研究目标,论文将阈值设定为0.5。即,选择运用Pearson 与Spearman 方法测算出的相关度均大于0.5的关键词作为分析对象。
2)时差测量:时差相关分析
时差相关性是计算时间序列超前性、一致性或滞后关系的一种常用方法。论文主要采用时差相关分析方法来计算关键词的前导周期,选择最具预测性的关键词,公式如下:
式中:rl表示与l的互相关系数;yt表示t时点的旅游者消费行为,表示y的平均值;x表示关键词的搜索关注度,表示x的平均值;l是x的前导周期。
鉴于论文的研究目标,论文选择对因变量具有预先指示作用的关键词作为分析对象。
3)关键词的优化选择:稳定性检验
关键词的搜索量是一个随时间变化的数据。关键词集中度也是一个随时间变化的数值,并呈现出一定的波动。关键词集中度的计算公式如下:
式中:CRi,t表示关键词i在t时间的集中度,si,t表示i在t时间的搜索量,t时间的单位一般为天、周、月、季节和年。所有关键词在t时间的集中度之和为1。
鉴于论文的主要目的为探索基于旅游网络搜索指数的旅游者消费行为发展趋势变化,直接选择具有稳定特征的关键词,剔除具有突变特征的关键词。
4)数据预测效果的评估:MAPE 和RMSE方法
在预测研究中,预测效果评估方法最常用的包括MAPE 和RMSE 两种。计算公式如下:
式中:Yi表示预测值,Ai表示原值。
根据前述的初始关键词的选择、核心关键词的筛选和搜索指数的合成方法,论文以四川省阿坝州四姑娘山为研究对象,基于游客接待量数据与核心关键词网络行为数据对四姑娘山旅游客流量进行预测分析,以进一步验证系统合成法的有效性。
如李玮娜所言,选择域理论之所以受到旅游研究学界的广泛认可,其主要价值集中体现在如下两个方面:其一,旅游者的消费过程是一个全新的过程,旅游者在这个过程中需要收集信息,对备选方案进行评估;其二、这种消费行为带有某种风险,并意味着旅游者的高度参与水平。之所以选择四川省阿坝州四姑娘山作为实证研究对象,从很大程度上是因为四姑娘山的选择过程完全符合上述两个条件。
换言之,旅游者愿意,或者说必须花费更多的时间去慎重的考察与其旅游行为相关的一切影响因素,且采用更广泛的决策行为对比;此外,选择四姑娘山作为实证研究对象还得益于四姑娘山的智慧景区建设成果支撑。自2015年9月25日起,四姑娘山开始对外公开发布景区日度游客接待量数据(网站地址为:https://www.sgns.cn/news/number)。综上,论文从百度指数①因论文仅涉及国内游客量预测研究,根据Statcounter 中的搜索引擎市场占有率排行榜(中国)历史统计数据,百度搜索在2011.01-2018.09 的平均市场占有率达到了71.39%。因此,考虑覆盖面和网民使用率,论文选择使用百度搜索引擎提供的关键词百度指数及搜索引擎使用率作为基础统计数据。此外,有学者运用I网络=I百度/R百度使用率公式对关键词的百度搜索指数进行修正以弥补关键词的百度搜索指数因百度搜索使用率的不断变化而无法全面反映关键词的网络搜索变化趋势的不足,论文经过测算认为,百度使用率的变化对关键词的网络搜索变化趋势的影响并不大,故未对关键词的百度搜索指数进行修正。网站截选了从2015年10月1日到2018年9月30日共1 096 个周期。
1.初始关键词的选择
1)论文基于选择域理论视角,在既有文献的基础上分析知觉域、初期域、后期域和最终决策等阶段中影响旅游消费者行为的主要因素,并在此基础上明确初始关键词10 个。
2)以上述10 个初始关键词为基础,通过百度指数中的需求图谱功能中的关键词推荐功能获得扩展关键词200 个;通过站长工具的关键词挖掘服务获得扩展关键词200 个。
3)从主流旅游网站抓取游记数据和评论数据,然后使用中文分词工具对结果进行文本挖掘,并提取与研究相关的高频关键词。经过关键词列表整合、同义词合并、重复词去重,论文最终选择词频显示最高的前200 个关键词。数据来源分布如表1 所述。
表1 数据来源及其核心关键词分布表
4)将上述几个阶段获得的关键词进行清洗,主要包括合并同义关键词和移除重复关键词等两个步骤,经过数据清洗后剩余核心关键词309 个;
5)将上一步骤剩余的309 个关键词输入到百度指数中,以获得每个关键词的时间序列数据量。因为部分关键词的搜索频次太低,百度指数无法显示它们的搜索量,这样的关键词就是所谓的无效关键词。需要把它们从原来的集合中删除。
经过上述各个步骤处理,最终剩余的可用于下阶段分析的有效关键词的数量为115 个(表2)。
2.确定观测关键词
1)关键词相关度分析
本部分分别采用Pearson 与Spearman 方法对115 个关键词的搜索量变化趋势和四姑娘山旅游消费者数量日度数据进行相关性分析,以筛选出合适的观测关键词。依据公式(1)的Pearson 相关系数计算公式,得到115 个关键词与YTSVI的相关系数表,如表3所示。
表2 网络搜索关键词
依据Spearman 相关系数计算式,得到115个关键词与YTSVI的相关系数,如表4所示。
表3 采用Pearson 方法得到候选关键词与YTSVI 的相关系数(部分)†
表4 采用Spearman 方法得到候选关键词与YTSVI 的相关系数(部分)†
论文以0.5 为阈值,按照Pearson 与Spearman 相关分析结果,最终得到29 个关键词可以作为观测关键词。
2)时差相关分析
本部分采用公式(2)对上一步骤得出的29个关键词分别进行时差相关系数计算,得到29 个关键词与YTSVI的时差相关系数表,如表5所示。
从表5 可以看出,二郎山、景区、海拔和贡嘎雪山与四姑娘山等四个关键词与YTSVI之间不存在时差关系,其余25 个关键词与YTSVI均存在1期到21 期不等的领先特征。
3)关键词集中度分析
本部分采用公式(3)对上一步骤得出的25 个关键词分别进行关键词集中度计算,得到表4 中的25 个关键词的集中度变化率最大值与最小值的差异均小于1,表现较为稳定。基于相关性、时差相关和关键词集中度分析,论文认为,从预测旅游者消费行为发展趋势的角度来看,上述25 个具有预测特征的关键词可以最终确定为核心观测关键词。
3.合成旅游搜索指数(权重的赋予)
通过SPSS 软件,得到各因子的贡献率,累积贡献率和成分矩阵,如表6~7所示。
表5 29 个关键词的时差相关系数表(部分)
表6 核心关键词方差分解主成分提取表
表7 核心关键词成分矩阵
然后,以每个主成分所对应的特征值占所提取主成分总的特征值之和的比例作为权重计算主成分综合模型,即可得到综合主成分模型,如方程(6)所示。最后计算综合主成分值,绘制基于系统合成方法的旅游网络搜索指数。
式(6)中:
F1=0.603X2+0.667X12+0.647X16+0.610X22+ 0.716X28+0.587X34+0.826X39+0.605X63+0.613X66+ 0.632X68+0.768X69+0.536X107
F2=0.641X15+0.610X30+0.780X56+0.736X59+ 0.750X93+0.763X101
F3=0.687X20+0.768X60+0.578X112+0.883X114
F4=0.703X38+0.721X90+0.588X94
研究以既有文献中常用的AR 模型和BP 神经网络模型为基准模型,分别以采用直接合成法、相关性合成法获得的SVI-1 和SVI-2 等两组数据为参照,与采用系统合成法获得的TSVI 指数进行对比研究。借鉴Hulth、Ginsberg、Xu 等人的研究成果,研究采用交叉验证的方法探索网络搜搜数据与旅游消费者行为之间的相关性。
根据交叉验证模式的基本流程,选择2015年10月01日到2018年6月31日的数据作为测试数据集,用于分析预测模型的建立;以2018年7月1日到2018年9月30日的数据为验证数据集,用于验证分析预测模型的效果。
1.AR 时间序列模型检验
以四姑娘山日度旅游消费者数量为因变量,分别SVI-1、SVI-2 和TSVI 指数为自变量,构建AR 时间序列预测模型。
如下方程(7)~(9)所示预测结果如图3所示:
其中,μt=0.863 9μt-1-0.106 4μt-2+εtYt
其中,μt=0.847 3μt-1-0.207 9μt-2+0.122 2μt-3+εt
其中,μt=0.153 0μt-1+0.863 8μt-2-106 4μt-3+εt
图3 以SVI-1、SVI-2 和TSVI 指数为自变量,以四川省阿坝州四姑娘山日度旅游消费者数量为因变量,构建的AR 模型测算出的预测值和旅游消费者数量原值对比序列图(图3)。
图3 SVI-1、SVI-2 和TSVI 指数AR 模型预测值和旅游消费者数量原值序列对比
从上表8 中不难看出,相对于采用直接合成法、相关性合成法获得的SVI-1 和SVI-2 等两组数据,采用系统合成法获得的TSVI 指数构建的AR 预测模型测算出的预测值序列与原值最为接近;而相比之下,采用直接合成法、相关性合成法获得的SVI-1 和SVI-2 等两组数据构建的AR预测模型测算出的预测序列与原值之间的预测误差均较大。
2.BP 神经网络检验
以四川省阿坝州四姑娘山日度旅游消费者数量为因变量,SVI-1、SVI-2 和TSVI 指数为自变量,分别构建BP 神经网络模型。论文采用三层结构的神经网络,输入层为2 个神经元,隐藏层为25个,输出层为1 个神经元,学习率为0.001,迭代次数为1000 次。经过训练,获得预测结果如图4所示:
图4 以SVI-1、SVI-2 和TSVI 指数为自变量,以四姑娘山日度旅游消费者数量为因变量,分别构建的三个BP 神经网络模型测算出的预测值和旅游消费者数量原值对比序列图。从图4 中不难看出,相对于采用直接合成法、相关性合成法获得的SVI-1 和SVI-2 等两组数据,采用系统合成法获得的TSVI 指数在BP 神经网络预测模型中的表现最佳。
表8 SVI-1-AR、SVI-2-AR、TSVI-AR 时间序列模型参数 对比
图4 SVI-1、SVI-2 和TSVI 指数BP 神经网络模型预测值和旅游消费者数量原值序列对比
3.预测精度比较
为了评价预测精度,研究使用MAPE 和RMSE 方法对计算结果进行了检测,来比较哪种方法的预测精度更高。
如表9所示,在三组测试数据集合的6 个预测模型中,无论使用哪个预测模型,TSVI 的预测精度都显著优于SVI-1 与SVI-2。从某种程度上说,相对于直接合成法与相关性合成法,研究构建的旅游网络搜索指数系统合成法是一种更有效的网络行为数据预处理方法。
表9 模型预测效果MAPE、RMSE 评估结果
由于具有高水平交互性和定制性,互联网逐渐成为为旅游消费者行为提供信息来源的主要手段之一,学术界也因此对网络行为数据与旅游消费者行为之间关系的关注也与日俱增。研究主要对关键词筛选、搜索指数合成和预测模型选定等方面作出了有益探索。
基于网络行为数据的旅游者消费是一个充满了复杂性、动态性和偶然性的行为过程。针对这种充满复杂性的旅游者消费行为,研究构建了一个基于选择域理论的旅游者消费行为分析模型。在这一个不断减少备选方案的漏斗式筛选过程中,旅游者根据其偏好程度将备选项逐步分类,并按照类别归入不同的“域”中,从而缩小决策范围,直到做出最终决策。
基于选择域理论视角,研究提出一种网络行为数据的预处理方法。首先采用简单相关分析方法筛选出与旅游者消费行为具有高相关性的关键词;其次,采用时差相关分析方法筛选出对旅游者消费行为具有领先性的关键词;再次,采用集中度分析方法保留稳定性高的关键词;最后,采用主成分分析法构建旅游网络搜索指数,并将该指数作为预测模型的重要变量。
为了验证系统合成法的有效性,研究采用了交叉验证的方法。研究以既有文献中常用的AR模型和BP 神经网络模型为基准模型;分别以采用直接合成法、相关性合成法获得的SVI-1 和SVI-2 等两组数据为参照,与采用系统合成法获得的TSVI 指数进行对比。研究发现:TSVI 指数在AR 和BP 等预测模型中的表现均优于SVI-1和SVI-2。
总之,基于选择域理论视角,本研究提出一种网络行为数据的预处理方法,并以既有文献中常用的AR 时间序列和BP 神经网络为基准模型,以采用系统合成法获得的TSVI 指数与采用直接合成法、相关性合成法获得的SVI-1 和SVI-2 指数进行了系统对比研究,以验证系统合成法的有效性对探索网络行为数据与消费者行为之间关系是具有普适性意义的。但是,应该意识到的问题在于,在现实生活中,网络行为数据只是帮助旅游消费者作出消费选择的主要信息来源之一,而并非全部来自网络。文中所涉及到的所有数据均来自于网络,必然会遗漏许多有价值的信息。除此以外,初始关键词库和关键词的合成方法都会直接影响消费者行为预测的信度和效度。所以,进一步探索能够阐述网络行为数据和旅游者消费行为之间内在机制的理论解释框架;能够更加科学的选取核心关键词、更加系统的合成关键词搜索指数方法,从而构建更加具有普适性的旅游消费者行为解释模型还需要进行更为深入地研究。