(武汉大学 经济与管理学院,湖北 武汉430072)
旅游目的地选择一直是国内外关注的重点,直接关系到旅游者的出游决策和消费行为,是旅游消费行为研究中的重要组成部分[1]。在我国自驾游市场不断扩大的背景下,对自驾群体多目的地选择的研究很有必要。以往关于目的地选择特征的研究,大部分是从旅游者需求角度出发,一部分从目的地供给方进行相关研究。本文在以往研究的基础上,基于文本挖掘从目的地角度出发(包括目的地的景观资源差异和邻近程度等),结合SNA方法在大数据驱动下发现多目的地之间存在的关系,进而挖掘驱动自驾游群体目的地选择的因素。
伴随着社交网络的不断发展,越来越多的旅游者倾向于在社交网络平台上分享个人在目的地的旅游经历和体验。游记就是其中一种信息集聚的平台,对旅游研究具有极高的价值,而发表游记就是他们建构出游经历和强化旅游体验的过程[2]。自驾游客倾向于将自己定位为旅行者而不是游客,喜欢分享旅行体验[3]。自驾游游记包含着旅游者客观的出游信息,如出游选择的目的地和旅游活动等,记录了在目的地之间的旅游运动。目前国内关于UGC文本挖掘的相关研究主要包括目的地形象或意向、旅游活动体验感知、目的地偏好和目的地感知等[2,4-6];而在规划和管理目的地方面,社会网络分析可成为有用的工具[7]。旅游者在不同目的地之间流动,形成目的地吸引网络,网络关系背后则隐含着游客选择多目的地出游的信息。目的地背景下已有较多关于目的地选择的研究,但鲜有从网络分析视角来研究[8],因此本文以自驾游游记作为研究数据,采用社会网络分析法旨在分析网络关系背后的关系,探求自驾旅游者对目的地选择的驱动因素。
截至2017年7月,我国共有52个世界遗产地,覆盖了多个省份和地区。本文以我国世界遗产地为研究对象,基于自驾旅游者发布的游记建立遗产地目的地网络,发现不同目的地之间的关系。借助实证分析结果,以期获得两方面的机会:一是获取有利于我国世界遗产地发展的机会;二是挖掘有利于遗产地与周边景区或与遗产地之间合作与发展的机会,促进我国遗产地的保护和可持续发展。目的地网络关系研究虽然极具应用价值,但是已有研究仍然局限于个案,关于不同地区的多目的地网络关系还有待深入研究。因此,本文基于文本挖掘,从目的地角度入手,结合SNA法在数据驱动下发现多目的地之间存在的关系,分析自驾游群体对目的地选择的驱动因素。
目的地选择一直是学者们研究的热点,国外学者有从环境因素和个人特质因素方面进行研究[9],也有从目的地距离和价格方面进行研究[10]。国内学者卞显红从旅游费用与时间、旅游价格与消费者偏好等方面对目的地选择的影响因素进行了实证分析[11];许春晓等从人口统计特征与旅游者偏好特征两个变量组的视角探究了对目的地选择意向的影响[12]。从目的地供给的角度看,Crompton研究发现游客与目的地的距离越远,所能接触到目的地信息的机会就越少[13];许春晓等从旅游地特征认知(景区美誉度、邻近旅游地吸引力、目的地旅游经历和旅游产品偏好)变量组方面研究了对目的地选择意向的影响[12]。目前关于旅游者目的地选择影响因素的研究虽然较多,但大部分是从旅游者的需求和动机偏好方面进行的研究,目的地供给的角度的研究也多偏向于营销、产品服务等角度,而对目的地自身(资源和距离等因素)的关注比较少。此外,应用社会网络分析法研究大多只关注到网络关系属性,而忽略了地理空间特性[14]。因此,区别于以往的研究,本文从目的地视角来研究目的地选择的驱动影响因素。
自驾游旅游是指私人驾驶所拥有或租赁的汽车,从出发地到目的地从事与旅游相关活动的旅行[15]。国外关于自驾游的研究主要集中在自驾游市场调查和该群体行为特征这两个方面,而我国相关研究则侧重于自驾游客和供给方的区域和市场开发两个角度[16]。在自驾游群体行为特征方面,由于不受交通的制约,时间和旅游线路安排较灵活,倾向于前往更多的目的地旅游[17],而如目的地距离、可达性等可能会影响自驾游客对目的地选择的决策[18]。刘雅萍从自驾游游客的空间行为特征方面进行了探究,发现呈距离递减特征下的多目的地的不连续和不均匀分布[19];罗秋菊等利用网络游记对自驾旅游流的时空分布特征进行了研究,并提到目前学者们尚未重视该群体行为特征的差异[20]。此外,自驾游游客通常选择倾向于前往多个目的地的旅游,而不是特定的目的地[21],这对本文研究多目的地之间的网络关系很有帮助。
早期关于目的地网络的研究认为,目的地内有限的关系促进了有限的信息和资源流动[22]。在多目的地网络分析的应用方面,Shih提出了一种定量研究方法,并以我国台湾省南投地区的16个目的地为例,通过网络分析来研究自驾游目的地的网络特征[23];Liu Bing运用网络分析方法并结合问卷调查对新疆维吾尔自治区的多个景区网络进行了探索性应用,发现区域内的目的地景区接近度、等级接近度、游客量接近度和任期接近度对旅游景区网络产生的影响[8];罗秋菊等从旅游流角度探究了自驾游客流的空间网络特征[20];高苹等以河北省野三坡为例,建立旅游地空间网络,发现目的地网络结构存在着复杂性的特征[24]。此外,社会网络分析法在研究目的地旅游流网络结构特征和影响因素上也有所应用[14]。有研究认为,网络分析法非常适用于我们从多目的地的角度来研究目的地,因为每个目的地都会受到周边和其他目的地带来的影响[23]。以往关于目的地的网络研究采用的方法以问卷调查和访谈为主,主要研究的也是特定区域的目的地网络。
综上所述,由于目前关于目的地网络的研究仍存在着一些缺陷,本文选取自驾游群体作为研究对象,采用文本挖掘并结合SNA方法来探索目的地网络中的关系,并从目的地的角度来研究目的地选择的特征与驱动因素。
世界遗产地是具有稀缺性和突出景观价值的景观和文物古迹,以自然和文化景观为主,知名度较高,是人们回归自然和历史的重要出游目的地[25]。随着国内自驾游的蓬勃发展,选择自驾前往遗产地旅游的游客数量不断增加。选取世界遗产地作为案例地主要有以下原因:①我国世界遗产地的核心吸引物以自然和文化资源为主,对游客产生的吸引力较高,但目的地的选择上却存在差异;②我国遗产地绝大部分分布在不同的地区,等级相同且景观类型存在差异,这些有利于本文对不同地区的目的地整体网络进行研究;③本文通过对各遗产地建立内部整体网络和各遗产地之间的整体网络,发现了不同遗产地与周边景区或其他世界遗产地之间的关系,为过热遗产地的分流提供有价值的建议,促进我国遗产地的可持续发展。
本文对收集到的游记数据首先进行了文本内容分析,同时使用Python2.7软件进行了分词和词频处理,并对样本中的数据进行了描述性分析,挖掘自驾游群体的目的地选择特征;其次本文进行了网络分析,通过人工对选取的遗产地进行编码,并构建了遗产地网络,挖掘网络关系背后的信息。此外,通过中心度和块模型分析,进一步发现可能会影响目的地选择的因素。第三,本文使用Ucinet6.0软件进行了QAP回归分析,对网络分析的结果进行了验证。具体的数据分析流程见图1。
图1 技术路线
2018年3月10日的行业网站统计数据显示,旅游业网站Alexa综合排名前三名分别是蜂窝网、携程旅行网和去哪儿网。三个旅游网站的PageRank值都较高(PR,该值反映了一个网站的受欢迎程度)。因此,本文主要从这三个网络平台通过爬虫抓取游记,将“我国世界遗产地”+“自驾游”作为关键词进行搜索,如“泰山+自驾游”。数据采集的时间为2018年3月11日至3月18日,搜索了2008年1月至3月的数据,共计23975篇游记。
根据抓取的游记数据,对52个遗产地游记的筛选原则是:首先,通过数据预处理,人工剔除一些与本文研究不符的内容;其次,在剔除一部分无关样本后,另外去除了7个遗产地:周口店猿人遗址、明皇陵、高句丽、三江并流、元上都、澄江化石地和左江花山岩画(游记数量过少,对结果易产生误差)。
在对数据进行处理的过程中,筛选的原则是:①筛选的游记包含较完整的信息,如出游时间等信息;②抓取的数据主要是以驾驶小型汽车自驾出游为主的旅游者,与其他自驾游方式区分开来;③对抽取的数据进行数据清洗,去除一些介词、助词等无关联的词汇,人工剔除一些无用和错误的数据后,将搜集到的19600篇游记作为本文的研究样本,共计约4281万字。
首先,对高频词进行分析。通过对文本进行分词,本文使用Python2.7软件和结巴分词对文本进行处理。由于结巴分词在分词的粒度和去歧义方面要优于Rost工具,因此本文选择Python结巴分词库来进行处理。在对文本进行分词和词频统计后,由于游记数量较多,人工剔除一些连词、转折词、无法指代具体对象和无意义的动词和名词。此外,根据齐普夫第二定律[26]:
(1)
式中,T为高频词与低频词的分界阀值;I1为出现1次的低频词数量。
划分的高低频词的阀值约为150;在保留与各遗产地自驾游内容相关的名词和目的地地名后,共获得1068个词汇。此外,自驾游出现的频次为2100次,鉴于该词汇与所研究的内容重复,予以剔除。高频特征词分布符合长尾分布特征,频次大于100的高频词累计出现137329次,占比为80.3%,基本上代表了所有遗产地自驾游游记的主要内容。 由于自驾游群体不受旅游交通和线路的限制,他们的出游特征、偏好、关注的地方与一般旅游者有所区别[17]。参照以往研究的结果,自驾游客对目的地的感知包括目的地吸引物、交通设施、旅游活动、气候条件、风景等因素[27,28]。结合高频词统计的结果,特征词可归为旅游吸引物(遗产地)、外围吸引物(遗产地周边景区和空间地名)、交通设施(与自驾游配套的设施与服务)、旅游活动、旅游认知形象(目的的属性)和限制性条件六类。从表1可见,出现频率较高的吸引物和外围吸引物以热门目的地和所在城市为主;其次,交通设施受到了自驾游客的特别关注;旅游活动在一定程度上反映了自驾游群体在游览过程中的活动偏好;认知形象涉及对目的地属性的感知,与旅游者的旅游活动相关[29,30];最后,限制性条件如时间和距离,是自驾游群体特别关注的限制性因素。
表1 自驾游群体关注要素特征分类
根据统计的高频词,构建高频词共现矩阵。共同出现的高频特征词一定存在着某种关联,关联的强弱通过共现的频次来表示。此外,对共词矩阵分析的结果进行二值化处理,其中0代表两者没有关系,1代表两者存在关系。本文引入社会网络分析法,使用Ucinet6.0软件分析了不同实体之间的关系。在目的地系统中,关系(旅游活动不同组成部分之间的相互作用)是理解旅游现象的核心[31]。社会网络是由不
同的节点和边(线)所构成,节点的大小反映了该实体的影响程度大小,节点(关系相关者)与边(互动)共同反映实体之间的关系。本文对选取的45个世界遗产地进行了编码(表2),并构建了世界遗产地的目的地共现网络图谱和部分目的地的内部关系网络图谱(图2、图3)。由图2可见,在游客的感知中影响程度较大的世界遗产地为一些热门旅游地;同时一些次核心节点与核心目的地一起被感知,而另外一些处于网络边缘且联系较少的目的地,受距离或交通等因素的影响,未被自驾游群体所感知。与图2有所区别的是,各世界遗产地内部的网络结构图反映的信息更加详尽,图3即为选取的3个遗产地的共现网络。景点虽然是强烈的吸引节点,但是也会出现不连续和不均匀分布的状况[19]。W6黄龙与W9九寨沟之间的联系最密切,类似的遗产地还有如W1泰山与W10曲阜、W8武当山与W43神龙架等;与外围吸引物联系较密切的目的地类似的有W2莫高窟与鸣沙山、月牙泉等的联系最强。此外,在图3中我们可以看出自驾游群体在遗产地体验过程中比较关注的还有交通设施、限制性条件(门票、时间等)、风景区的景点景观,如W31少林寺,这与之前关于目的地感知的核心因素的研究存在着一定的差异[29]。鉴于之前的研究主要涉及对特定区域目的地网络的分析,因此本文不再对此进行详细描述。
表2 所选遗产地编码及类型
图2 世界遗产目的地关联共现网络图谱
目的地网络密度:网络密度分析是用来描述网络成员间关联的紧密程度,反映了整个网络的特征[22]。一个网络的密度越高,趋向于1,该网络结构中的成员联系越密切。本文选取了各世界遗产地前20个高频关键词构建共现网络图谱,网络密度趋近于1,各成员之间的联系较紧密。
目的地中心度分析:中心度是对个体权力的量化分析。一般的度量公式为[32]:
(2)
式中,ci为测量的中心度;ri,j为连接点i和点j的线的取值;cj为点j的中心度。
点的度数中心性衡量的是行动者对资源的控制程度,度数较高时,意味着具有较大的权力[32]。就本文而言,度数中心性越高,其掌握的资源就越多,说明该遗产地与其他多个目的地间存在着越强的关联关系。中介中心性较高的点往往是在结构洞位置,意味着该遗产地是其他目的地相互关联的纽带,作为中间者和旅游通道的能力较强。各遗产地在各自网络结构中的中心度测度结果见表3。根据中心度的结果,可将各遗产地归纳为五类遗产地(表4)。从表4可见,第一类遗产地(点度中心度较高的节点)在各自的网络中处于核心位置,具有较高的吸引力,对资源的控制程度较高,中介中心度数也较常高,此类遗产地是旅游核心地和重要的集散地,与其他部分遗产地和周边景区都有着紧密的联系;第二类遗产地仅次于第一类遗产地,该类目的地在各自网络中的地位较高,易成为自驾游群体的选择;第三类遗产地是重要的目的地和旅游通道;第四类世界遗产地是一般的旅游目的地,但作为旅游通道的能力较强;第五类遗产地的中心度数较低,与其他遗产地和周边目的地的联系较少,属于边缘目的地。
图3 部分世界遗产地内部网络共现图
表3 各遗产地点度中心性和中介中心性测度结果
块模型分析:本文引入块模型分析,进一步对遗产地网络结构中各目的地之间的关系进行探究。利用Ucinet 6.0软件中的CONCOR分析对矩阵进行分区,选取分割的最大深度为2。从图4可见,子群1是由泰山、长城和武夷山等14个遗产地构成,子群2由九寨沟和黄龙等6个遗产地构成,子群3由曲阜和平遥古城等19个遗产地组成,子群4由颐和园等6个遗产地组成。遗产地块模型的密度矩阵见表5。从表5可见,子群2内部互动最强,而子群3和子群4内部互动很少。此外,子群1和2之间的联系最为紧密,相反子群3和子群4较少;子群3与子群4的互动也较弱。这是因为子群3中的绝大部分遗产地与子群4内的部分遗产地距离较远,联系减弱。而子群2内部联系较强,是因为相邻的距离较近,与一些周边遗产地联系较紧密,但与边缘目的地的联系较少。根据块模型分析的结果,同一地区或不同地区目的地间的距离对遗产地之间的互动联系有影响,可能是目的地选择的影响因素。此外,本文发现各个子群所包含的遗产地的资源类型存在着差异,如自然资源、文化资源与文化景观资源。而子群内部互动较紧密,因此研究认为景观资源差异可能是自驾游群体在目的地选择过程中较关注的地方。
图4 世界遗产地网络块模型分析
表4 遗产地目的地网络特征
表5 世界遗产地块模型密度矩阵
鉴于以往学者对旅游景点网络做过的一些研究,本文结合上文对中心度和块模型分析的结果,引入QAP回归分析,构建模型为:
W=f(Vp,Dp,Tp,Lrd,Rlrd,Dp1,Idp)
(3)
式中,W为世界遗产地网络。以往研究已对Vp(游客量接近度)、Dp(等级接近度)、Rp(区域接近度)和Tp(任期接近度)5个变量进行了实证,由于本文研究的遗产地等级一致,且游客量接近度在文本数据中无法体现,因此本文对Rp和Tp进行了验证。此外,引入Lrd(景观资源差异度)、Rlrd(区域内景观资源差异度)、Dpl(目的地接近度)3个矩阵变量,并借助QAP分析法研究其是否会对因变量遗产地网络产生影响。景观资源差异度是指不同遗产地之间的景观资源类型的差异水平,本文按照遗产地的类型进行了区分;区域内的景观资源差异度是指位于同一地区的遗产地景观差异水平;目的地接近度则是指目的地地理位置之间的接近程度;任期接近度则是指两个目的地在同一年评定等级成功[8],本文是指世界遗产地在同一年申遗成功。
QAP分析是对“关系”之间的关系进行假设检验,用于分析一个矩阵的建立对另一个矩阵的影响。本文通过人工对5个变量构造矩阵进行了回归分析,通过2000次随机置换得到结果,见表6。调整后的R2为0.236,上述5个变量能解释世界遗产地网络矩阵关系变异的23.6%,说明增加了模型的解释力度。
从表6可见,景观资源差异度对世界遗产地网络具有正向影响,但不显著,说明自驾游群体在时间和距离等因素的共同作用下,不同地区的景观资源差异并未对他们的目的地选择产生显著影响。区域内景观资源差异度在10%的水平下为显著的正向影响,说明同一地区的目的地资源差异越明显,这些目的地越有可能成为自驾游客的选择地。目的地接近度和区域内的接近度都对遗产地网络产生了极其显著的影响,说明在出游过程中目的地之间的距离是影响自驾游选择的极其重要因素。此外,与前者相比,接近度对处在同一区域的世界遗产地影响更大。任期接近度对目的地网络产生的影响为正但不显著,这是因为本文所研究的目的地不局限于同一地区,与之前学者们研究的特定区域景点网络的结果不一致[8],原因是同一地区的世界遗产地同一年申报成功后有可能一起合作和宣传,如九寨沟和黄龙,对同一地区的目的地关系网络为显著的正向影响,但对不同地区的遗产地,同一年申报成功有可能被媒体共同宣传推广,受到距离的影响,两者之间的合作会减弱。
表6 QAP回归分析结果
与以往相关研究的最大不同之处是,本文选取的研究对象不局限于特定的区域,并对文本内容进行了定量研究尝试,得出以下3点结论:①基于对UGC进行的文本内容分析,本文发现自驾游客在目的地旅游体验过程中,关注或偏好的对象可概括为旅游吸引物、外围吸引物、交通设施、旅游情感形象、旅游活动和限制性条件6个感知维度,这与一般旅游者有所不同。②本文运用社会网络分析法,分别对构建的遗产地内部网络和整体网络进行了分析。根据测度的中心度结果,将其划分为5类目的地:旅游核心目的地、次核心目的地、重要目的地、一般目的地和边缘目的地。前3个目的地同时也是重要的旅游通道和中转地,尤其是第一类目的地与周边景区及其他部分遗产地的联系较高,在各自网络结构中的地位也很高,较容易成为自驾游客出游行程的选择地。③本文最后引入QAP分析对遗产地景观资源差异度、区域内景观差异度、目的地邻近度、区域内目的地接近度和任期接近度5个矩阵变量进行了研究,得到的结果与以往研究存在差异。研究发现,区域内景观差异度、目的地接近度和区域内目的地接近度对遗产地网络关系均产生了显著的正向驱动影响。但同时也发现,景观差异度和任期接近度对目的地网络的影响并不显著,且任期接近度得到的研究结果有别于以往研究,该差异存在的原因可能是,其他作者研究的是一个特定区域内的景点网络,而本文研究的对象是涵盖不同区域的目的地网络,受到不同区域目的地之间的距离等因素的共同作用影响。综上所述,对符合以上特征的目的地、邻近的目的地或周边景区可加强合作和联合营销,同一地区的目的地可突出差异的景观资源吸引旅游者。
目的地选择相关研究在目的地营销中的作用很突出,国内外学者目前的研究也较多,但主要是从需求方和目的地供给方进行研究。本文基于网络分析法,从目的地自身的角度如景观资源差异和邻近水平等方面进行了研究。在实践意义层面,本文对目的地内部网络和整体网络都进行了网络分析,挖掘出自驾游群体对目的地选择的特征与驱动因素,对DMOs的目的地营销和管理均具有重要的实践意义,并为遗产型的保护和可持续发展提供了发展建议。在理论贡献方面,目前很多研究受限于样本量和研究区域的范围,而本文在此方面有一定的突破,并在大数据驱动下引入SNA法对现有目的地网络研究进行了补充,丰富了有关目的地选择驱动影响因素的研究。
研究局限:首先,本文获取的二手数据受限于网络平台所提供的信息,如自驾游客的个人特征如个人信息、游览路线和停留时间等信息无法轻易采集得到;其次,游记中带有作者较强的主观成分,一些关键信息可能未体现并提取出来,这是未来研究中应注意的地方。本文虽然选取全国范围内的遗产地来进行研究,但由于自驾游本身的性质和国内带薪休假制度的不完善,部分旅游者在目的地选择上具有区域性特征,在未来研究中应着重关注这些问题。此外,对跨区域的不同等级的目的地网络未来还有待深入研究。
研究展望:未来研究可综合考虑人口统计特征等因素,从需求侧方面来对自驾游群体目的地选择的驱动影响进行研究;可结合游记中的图片进一步挖掘,配合游记文本数据进行更精准的研究;可结合大规模问卷调查或访谈,获取游客路线和停留时间等数据,进一步完善和促进目的地的规划,为建设自驾游营地或服务站点提供指导。