刘聪 杨阳 邓洋阳
摘要:旅游体验正替代自然禀赋成为旅游出行选择的主要考量因素。本文在分析传统旅游体验测量方法的基础上,研究提出一种基于数字足迹,通过数据采集、分句、筛选、抓取、汇总等过程实现半结构化到结构化数据转化的旅游体验测量方法。本研究以九寨沟景区为例,通过对比实验的方式,实证比较了该方法与传统人工分析方法的准确度。实验结果显示基于数字足迹的方法能够实现对游客旅游体验的准确测量。
关键词:数字足迹;旅游體验;测量方法
中图分类号:F59 文献标识码:A 文章编号:1008-4428(2019)09-0056-02
一、引言
改革开放以后,我国旅游业发展迅速,逐渐成为国民经济的重要支柱。悠久的历史文化和丰富的自然资源是当前旅游产业蓬勃发展的重要原因。初期依靠纯粹自然禀赋吸引的游客数量趋于稳定,我国的旅游业正进入新的发展阶段。旅游体验正替代传统的自然禀赋成为游客旅游出行选择的重要依据。提高旅游体验水平成为旅游产业进一步发展的核心内容。
旅游体验一词早在20世纪70年代就已经被提出。早期旅游体验被认为是人们对现代生活困窘的一种积极回应。也有学者将旅游体验定义为对旅游相关需求的满足程度。随着旅游体验被越来越重视,对旅游体验的量化成为当前的迫切需求。已有研究大多数是采用向游客发放调查问卷的方式,通过对调查结果的量化分析实现对游客旅游体验水平的间接测量。这种方式的测量结果对问卷设计有较高要求。设计的调查问卷是否客观和科学是保证测量结果准确性的关键。另外。问卷发放的规模也会影响测量结果的精确度。
数字足迹描述的是数字工具使用过程中直接或间接产生的反映主体生活信息的数字记录。游客的数字足迹为旅游体验的测量提供了新的数据来源。旅游体验被界定为对旅游相关需求的满足程度,而游客的数字足迹中存在反映需求满足情况的数字记录。网络点评是游客数字足迹的组成部分,是游客表达旅途感受的一种方式,也是游客主动释放出的关于旅游需求及满足情况的信息。
相较于问卷调查,网络点评这种游客主动表示出的需求信息更具有客观性和科学性。基于此,本文在分析网络点评特征的基础上,依托于当前数据采集、文本分析和数据处理技术,设计出一种旅游体验的测量方法,旨在为旅游体验的定量研究提供数据基础。
二、数据特征分析
(一)旅游点评重复率高,句式简单,结构近似
点评源自游客在过去某个时间段在特定空间的经历,而外部环境在短期的变化非常小,这就造成很多相同的点评内容。旅游点评的句子比较简单,单个用户的点评语句很多只有一条,并且单句的字数也比较少。点评语句大多是一些口语化的表达,简单精练,意在让浏览者直接理解所描述对象的状态或特征。单句结构通常采用名词在前,接形容词,两者中间可能存在副词。
(二)旅游点评对象具体,且范围有限
旅游点评意在直接让浏览者了解点评者的感受,所以语句表达都较为具体,对象非常明确,例如景色、天气。由于旅游点评还是依赖于现实世界,旅游空间的构成元素比较有限,并且游客的感官角度比较相似。所以点评的对象就非常具体和有限。
三、旅游体验测量方法
根据网络旅游点评的特征,研究设计出如下测量游客旅游体验水平的方法。
基于游客旅游点评与游客的关系,以及网络旅游点评的可得性,网络旅游点评非常适合作为测量游客旅游体验的数据来源。样本的获取可以采用两种方式,一种是与旅游点评网站沟通获得网站后台的原始数据。另一种是通过第三方工具从旅游点评的内容页面采集点评数据。该过程会形成一张包含所有旅游网络点评的表,每一行均为一条点评记录。
测量游客的旅游体验质量需要建立旅游体验质量评价指标体系。早期旅游体验评价指标体系的建立主要通过发放调查问卷的方式,而随着通信技术的发展,已有学者提出数据足迹作为游客旅游行为的信息载体,可以作为建立旅游体验的评价指标体系的数据来源,并建立了相应的旅游体验的评价指标体系。本研究沿用这一以网络点评数据为基础,采用扎根理论,通过多层编码的方式建立旅游体验的评价指标体系的方法。除此之外,研究还需要通过词频分析建立相应的数据字典,用于收集解释反映评价指标的各类词汇,包括名词、形容词和副词,并且为其分配了相应的权重。该建模过程会形成两张表,一个用于罗列不同评价指标所对应的名词集合,另一个用于描述不同名词、形容词和副词组合的分值。
网络旅游点评数据量非常庞大,并且存在部分单个用户多条点评短句,一条点评短句包括多个点评对象,长难句,词汇拼写错误、句法错误等情况。因此收集到的原始旅游网络点评数据无法直接用于分析。需要一个预处理过程。该过程包括两个步骤:第一步是分句,如果单个用户一次点评内容-包含多条点评语句,那么将其拆分为多条点评记录,并且如果拆解后的点评记录是并列句,那么将其拆分为多条简单句,直至所有点评记录都为单个简单句为止。第二步是筛选,依照数据字典,对分句后的短句逐条筛查,选出其中包含有数据字典中记载的明确评价对象的短句。游客的网络点评内容依赖于现实世界,表述的基本是存在的共性问题或感受,并且网络点评与写文章不一样,更多的是游客的口语化表述,重在简单直观的传递游客感受,因此具体的点评内容和句式结构都有非常高的重复率。相较于传统的抽样数据,已有的研究强调点评数据的全样本特征,即能够收集到全部的数据。但是,相对于全数据分析,筛选过程能够在大幅度减小测算难度的同时,还能保证测算结果的准确率。毕竟全数据分析中的难点集中在对复杂句型的分析,以及对个别词汇语义的识别,而这些只占极少的部分。该预处理过程会优化原始数据构成的表,形成只有一列,每行都只有一个简单句的新表。
虽然经过预处理后的数据变得比较规整。但是对于这类半结构化文本的量化分析依旧需要一个向结构化转变的过程。具体转化过程采用的是分批次抓取的方法,依照词频分析建立的词库。依次抓取简单句中的名词、副词和形容词。该抓取过程会让预处理后的表单,变更为表单包含四列数据的结构,第一列保留预处理后的简单句,第二列为从前面保留的简单句中抓取到的名词,第三列为抓取的副词,第四列为抓取的形容词。
整个数据的处理到这里就基本完成,剩下的就是对照数据字典和分值表单,计算每一条简单句对应的分值。该过程会在原有表单中开辟出新的一列,用于阐释该简单句的得分情况。最后。再对每个评价指标所对应的所有简单句的分值进行汇总。得出相应评价指标的得分,进而实现对游客旅游体验质量的测量。
四、实验分析
根据已有构建的旅游体验评价指标体系,本研究选择利用上述基于数字足迹的分析方法测算旅游体验的一级构成指标,即住宿体验水平。实验选取九寨沟景区作为游客旅游体验的目的地,其附近的酒店旅馆就成为制约游客住宿体验的最主要因素。通过对九寨沟周边酒店的网络点评内容的分析能够客观的测算出游客的住宿体验水平。
本研究通过数据采集工具从携程网采集了九寨沟附近几家酒店的用户点评数据,选择标准为点评记录超过500条。通过词频分析归纳出5个反映住宿体验的二级指标,分别是地理交通、外部环境、服务水平、酒店设施。并分别建立与这些二级指标相对应的词库,基本结构见表1。
采集到的原始点评数据无法直接用于分析,本研究对其进行了必要的分句和筛选处理。首先,将包含逗号、多个句号的点评记录提取出来,根据符号位置将其拆分为多条短句。重复上述过程,直至每行记录都是简单句为止。然后,将每条简单句与名词词库进行比照,剔除掉不包含高频名词的简单句。预处理过程见图1。
经过预处理的数据无法直接用于量化分析,本研究还利用抓取的方式将其转化为结构化数据。转化后的数据结构见表2.对照权重表,依次为每一条简单句打分,分值区间为0至5分,其中0分最差,5分最优。在此基础上,将所有简单句的分值加总,再平均。得到游客旅游体验的一级指标住宿体验的得分。最终,得到九寨沟游客旅游体验的一级指标住宿体验的得分为4.836分。
为了验证该方法的有效性,本研究同时还做了一组对比试验。利用随机抽样的方式,从样本中抽取出300条点评记录,采用人工分析的方式,对照权重表,依次计算出每条点评记录的分值,最后再进行汇总求平均值。这种方法得到的九寨沟游客旅游体验的一级指标住宿体验的得分为4.815分,两种方法的误差只有0.4%。比照结果表明基于数字足迹的旅游体验测量方法有很高的准确度。
五、研究结论
本研究在分析已有旅游体验测量方法和数字足迹特点的基础上。提出一种基于数字足迹的旅游体验测量方法。经过数据采集、预处理、抓取和评分等过程,将半结构化数据转化为结构化数据,实现对游客旅游体验评价指标的测量。本研究还以九寨沟为例,实证检验了该方法的測量结果,并通过对比实验的方式,比较了基于数字足迹的测量方法与传统的人工逐条分析方法的效果。实验结果显示新方法与人工方法的测量准确度相差无几,证明了基于数字足迹的旅游体验测量方法的有效性和准确性。