吴 俊,韩金珂
(浙江工商大学 旅游与城乡规划学院,浙江 杭州310018)
旅游地的意象(image)为旅游研究中的热点问题,研究对象聚焦于旅游者的感知特征。传统研究主要通过抽样问卷取得数据,但受限于样本量与研究者本身的认识局限,基于定量的实证数据很难得出旅游者的具体认知和情感评价[1]。近年来,随着互联网技术的飞速发展,旅游者围绕旅游地的内容生产活动空前活跃,网络评论的成本低、样本大、内容精炼、研究者“置身事外”等优势[2]为研究者提供了便捷、客观的数据采集渠道,利用网络文本分析技术研究目的地意象的成果逐渐丰富,情感分析也逐步受到重视。但大部分旅游意象研究仅应用内容分析法对旅游者的认知意象展开研究,较少在情感分析的视角下挖掘旅游意象的情感内涵,情感分析技术应用不够。针对这一现状,本文尝试引入基于词汇匹配技术的情感分析方法,加大情感意象的挖掘深度。
在众多类型的旅游地中,历史文化街区(简称历史街区)因其独特的社会、文化、美学及经济价值成为旅游者青睐的旅游目的地,目前历史街区的相关研究中,旅游者对于历史文化特区的文化认知与体验是研究者关注的重点。从旅游者感知视角,深入分析并认识历史文化街区在开发中所存在的过度商业化、文化体验不足、特色无法感知等问题具有重要的理论意义与应用价值。杭州清河坊历史文化特色街区(简称清河坊)为国字号特色街区、中国历史文化名街,是杭州悠久历史的缩影。本文将以清河坊为案例,收集大量旅游者网络评论数据,应用情感分析技术,通过构建情感词库、制定模型规则、判定情感倾向以及审议分析结果等步骤对入境旅游者和国内旅游者的情感意象展开分析与比较研究。
情感,作为人类主观的一种反映形式,伴随着人的日常生活并发挥重要作用[3]。就旅游而言,随着旅游体验的进行,旅游者的心理也会发生改变,并随之产生愉快、兴奋、悲伤、失望等积极或消极情感,这些情感是旅游经历的重要构成,也对旅游者满意度、忠诚等产生重要影响。
旅游者情感通常被划分为积极情感和消极情感两大类[3],继而被探讨其影响因素及可能产生的影响,如Price等通过实证研究表明旅游者在旅游活动中同时经历着积极与消极情感,这些情感对满意度都有重要影响[4]。Hosany等识别出快乐、惊奇、爱这三个突出的情感维度来构成旅游地的情感量表[5]。Ma等通过实证得出情感不仅由惊奇引发,还受新颖、目标一致、目标重要、目标兴趣、目标实现等评价性因素影响[6]。在对影响结果的探究上,根据经典的“认知—情感—行为”理论,情感作为认知和行为的中介要素,能正向影响游客满意度和口碑宣传等,很多研究通过情感评价的实证分析解释了旅游者认知及游后行为等问题,但也有研究者认为,旅游体验是旅游者情感综合累积而成的态度,这些因素必然存在着正相关关系,被证实的关联的理论意义并不大[7],需要发展质性的研究方法来评价旅游者情感。当前,旅游者情感研究的重点趋向于研究方法的创新。
在线内容分析法作为情感评价的常用方法之一,运用广泛[2],该法可以利用旅游者产生的海量线上数据捕捉旅游者的认知、偏好、愉悦度、满意度等信息;但传统的在线内容分析大多关注客观要素,如统计词频、根据研究的主题对信息分类、形成共现语义网络等,很难深入挖掘语义中的主观内涵,比如情感。如何科学地应用情感分析技术分析所收集的在线内容,已经成为情感评价研究中亟待解决的技术问题。
情感分析指利用自然语言处理、机器学习(包括朴素贝叶斯、支持向量机等)、词汇匹配等技术对文本的主观态度、情绪或观点进行语义定向或极性分析[7-8],主要分为两个步骤,一是从文本中提取带有情感倾向的特征词,二是创建情感评价技术模型,实现对文本整体情感的计量分析[9]。在不同情境下使用不同的技术模型,评价的工作量和准确度也有所差异:基于自然语言处理技术,通过人工或计算机对文本进行分词,以词汇类型和频度来判断文本的情感特征,此法需大量的人工介入,效率不高,因此在选择研究方法时,更倾向于机器学习和词汇匹配;基于机器学习的方法要求使用大量数据进行测试和训练,主要以网站上的评论评分作为学习语料的参照标准,这就有可能因为大众的“社交积极倾向”,使计算结果趋于正面[7]。此外,机器学习对于小样本并不适用;词汇匹配技术主要通过建立词库,借助计算机预先设置的计量模型,自动进行情感特征词的匹配与计算,来判别文本的情感特征。目前国内主流的词库有How Net(知网)词典[10-11]、C-LIWC(中文语言查询与字数统计)[12-13]2015、Senti-Word Net[1,14-15]等;基于词汇匹配技术构建的情感分析软件主要为LIWC,对情感词的处理逻辑为:通过分词和词性匹配功能来测量海量文本的情感,研究者可根据不同研究目的确立词库,借助软件内置的情感叠加逻辑,计算文本中蕴含的情感值和情感倾向等。
情感分析技术主要应用在商品评论、影评和舆情探测等领域,近年来在旅游领域也有了一定的发展。Dellarocas基于对英文旅游评论的情感分析,提出旅游者满意度对管理者的品牌建设、产品推广等有重要影响[16]。叶强等采用支持向量机算法对英文旅游评论进行情感分类,取得了较好的分类效果[17]。刘逸、覃国蓉等分别采用基于词汇匹配的方法分析了航空和酒店顾客、出境旅游者的情感倾向,并整理了适用于旅游领域的情感词典[1,18]。总的来说,情感分析技术已趋于成熟,在旅游领域也有一定的应用,但在目的地意象测评的应用还不够广泛。
目前,用情感评价判断旅游者满意度的研究成了一个新兴热点[1],不少研究中都有对情感评价的测算,但这些测算大部分依赖于Rost CM6、KH coder等分析软件[19-20](除了实证研究);这些分析软件的情绪叠加逻辑相当于一个黑箱,即文本输入与输出之间的过程为无从得知、不可定制的操作。依赖分析软件得出的情感数据,无法判断数据处理时是否考虑了语言表达中程度副词、否定词、转折词等虚词对于情感表达的影响,也无法得知各类型虚词怎样影响情感评价得分,容易误判文本的情感倾向,对情感强度的把握也不够准确。鉴此,本文拟从旅游者情感的视角切入,构建旅游目的地的情感意象分析框架,探究更适合此类研究的情感分析方法以及旅游者在网络评论中呈现的偏好和情感倾向。
本文以到访清河坊的旅游者为研究对象,使用基于词汇匹配的情感分析法对网络评论文本进行质性研究。具体地,主要通过构建待匹配的词汇库、设定情感值和情感倾向的计算方案以构建情感分析模型,并使用Python编程技术计算情感评价结果。为更深挖掘语义内的逻辑联系,根据计算结果分离出情感倾向为负面的评论,对其进行共现分析。
清河坊位于杭州老城区,以河坊街为中心,全长1 800 m,距西湖景区步行仅十分钟,有“国字号特色街区”“中国历史文化名街”等称号,是杭州悠久历史的缩影,为杭州百年老店的集聚地,包括18家中华老字号和13家省级老字号。清河坊以市井民俗、中医医药、餐饮小吃、民间手工艺、仿古建筑、茶文化为核心元素。2017年接待旅游者2 054万人,接待人数在杭州18条市级特色商业街区中排名前三,占比13.7%。在《瑰丽华东:中国省域自由行大数据系列报告之华东地区》①报告中,清河坊成为热度第三的杭州旅游目的地,仅位于西湖、西溪之后。清河坊的街区地位、历史沿革、发展现状、旅游热度、国际化程度等基本情况均为本研究的开展提供了有利条件。
在全国范围内,有诸多历史街区与清河坊有着相似业态与定位,如上海城隍庙、成都宽窄巷子、南京夫子庙等。我国的历史街区正遭遇着“千街一面”的同质化发展瓶颈[21]:千篇一律的建筑风格和“历史味道”,全国都可购买到的各类旅游纪念品和仿古工艺品,酒吧、餐馆、客栈等鳞次栉比。清河坊虽然有独特的文化与历史背景,但更多的还是历史街区的共性,从清河坊这一案例地着手,使用合适的技术手段挖掘其本身有别于其他街区的内涵和意义,以小见大,以期为我国历史街区提炼核心价值、提升国内和国际形象提供方法和思路。
2.3.1 文本抓取与外文翻译
在数据来源上,在综合比较各线上旅行商提供网络评论数据的样本量、文本结构、用户多样性及参考相关文献[1,20,22]中选取Trip Advisor和携程旅行作为评论数据来源,评论生成的日期集中在2016 年7 月1 日至2019年7月1日。通过网络爬虫工具,共攫取到评论数量为:外文40 955单词(包括英语、日语、西班牙语、意大利语、法语等17种语言,其中英语为主要语言,占71%),中文57 840字。经过筛选,忽略字数过少、没有意义的评论,且保证评论的可比性,最终保留外文评论402 条,中文评论401 条,总字数为98 795。考虑到外文语言种类繁多,研究分析时需要统一成同一语言。为了确保研究的客观性与一致性,研究将所收集的网络评论数据通过人工翻译成中文;为了保证翻译的准确性,研究组织旅游管理专业的博士研究生一名和硕士研究生两名,对译本多次讨论和修正。在翻译过程中强调保留名词、程度词、否定词、转折词,减少因翻译导致语料失真的问题,使文本翻译对分析结果的影响减到最小。最后,将翻译后的外文文本命名为“文本1”,将无须翻译的中文文本命名为“文本2”。
2.3.2 情感意象测评步骤
对于情感分析的测量模型,学界尚未有统一的定论,刘逸等基于大数据设置了情感分析的六类测评规则并经过单年度和多年度校验,最终得出一种与权威监测数据最为吻合的测评规则[7]。本文的情感分析模型主要参考刘逸等的研究结论[7],具体测评方案如下:
(1)情感词库构建。以How Net的中文情感词典为基础(包含积极情感词4 566个、消极情感词4 370个、程度级别词语189个),在情感词库中加入基于清河坊评论文本人工提取到的、词典未包含的积极情感词22个、消极情感词15个,程度级别词语已根据强烈程度被划分为五个倍数级别,否定词库和转折词词库的构建参考了刘逸等、邸鹏等的研究[7,23],分别包含30个和26个,其中转折词被分为两类(见表1)。
表1 转折词词库
(2)模型规则制定。以匹配到的情感词为基础,根据情感词前后的程度词、否定词、转折词的词性,乘以一定的系数,再将负面情感词乘以情感乘数后,计算每一条评论的情感得分。具体地,先赋予所有积极/消极情感词汇以1/-1的分值,作为情感得分的基础分;当情感词前后出现程度词时,按照其强烈程度,将情感得分乘以0.5/1.5/2/2.5/3(分别对应欠/稍/较/很/极其);当情感词前出现否定词时,奇数个否定则情感得分乘以-1,偶数个否定则情感得分不变;当情感词前出现转折词时,第一类转折词乘以-0.5,第二类转折词乘以2。
(3)情感倾向判定。设定情感乘数为4,即如果一条评论的积极得分不小于消极得分的4倍,则判定其为正面评论;如果积极得分不大于消极得分的2倍,则判定为负面评论;其余则为中性评论。
(4)研究模型建立。基于以上三步算法,使用Python语言建立模型并计算,部分代码如图1所示。
(5)分析结果审议。在研究过程中,组建研究小组审议文本分析结果,研究小组包含教授1名、副教授2名、博士生2名、硕士生4名,以保证研究结论的客观性。
图1 情感分析测量模型(部分)
基于本文的情感分析模型,最终得出:在402条入境旅游者评论中,有正面评论225条,中性评论56条,负面评论117条,另有4条评论没有情感词;在401条国内旅游者评论中,有正面评论215条,中性评论38条,负面评论133条,另有15条评论没有情感词。总体上,入境旅游者(文本1)相比于国内旅游者(文本2),对清河坊表达了更积极的情感,这可能是由于入境旅游者在中国的旅游经历相对较少、文化距离较大,对各旅游地的“同质化”现象感知较弱。表2为部分旅游者评论文本的情感值和情感倾向。
表2 旅游者评论文本的情感值和情感倾向(部分)
将本文基于清河坊专属词库的本文情感分析模型得出的情感评价结果,分别与基于原How Net词典、基于Rost CM6软件的情感评价结果作对比,结果如表3所示。对比显示,不管采用哪种分析方法,文本1的积极情感比例均高于文本2;基于原How Net词典的情感评价因缺少旅游方面的词库,在不添加清河坊专属词库、采用同种算法的情况下,与本文基于清河坊专属词库的本文情感分析模型得出的情感评价结果有较大偏差,其中文本1的积极情感比例的偏差值甚至超过了5%,主要是由于中性评论的情感倾向较为敏感,在丰富匹配词汇的情况下中性评论的情感倾向容易发生变化;而使用Rost CM6软件计算情感值,得到的结果中积极情感比例非常大,这可能是因为该软件是基于机器学习原理构建的,前文提到机器学习语料本身偏向乐观,导致软件的分析结果也过于乐观。而现有大量意象研究中的情感分析都是通过类似Rost CM6的软件直接分析处理的,这可能造成研究者对研究对象认知过于乐观的偏差,在提出解决方案时也就过于“温柔”了。本文使用的情感分析模型因其具有更高匹配的词汇、透明的语言算法,分析结果相对精确,更利于研究者客观地对意象研究对象展开研究。
表3 旅游者评论文本的情感评价结果对比(%)
为了反映评论文本中事物要素的关联及深层次的结构关系[24],本文应用Rost CM6软件获取了研究文本的共现语义网络图(图2),以探究词汇间的相关性,挖掘文本中更深层次的逻辑联系。通过对比旅游者评论的总体语义网络图发现,入境旅游者群体的语义网络图呈现以“商店”“街道”“纪念品”“中国”“地方”为主的多中心结构,向外分散组成不同的网络;相反,国内旅游者以核心高频词“杭州”为中心节点,与之直接相关联的要素有39个,其后的“清河坊”和“特色”直接相关联要素分别有15个和13个,中心化非常明显。表明国内旅游者感知比较集中,入境旅游者的感知则以不同的事物为中心,不同入境旅游者的关注点差异较大。
刘逸等基于其构建的情感分析模型对国内八个旅游目的地进行了情感评价,得出八个旅游目的地负面评论比例介于18.7%~25.5%之间[7]。相比之下,本文占29.1%~33.17%,负面评论比例较高,考虑到与前者数据来源、样本量、目的地范围、情感词库的差异后,本文仍认为旅游者尤其是国内旅游者对清河坊存在较高的负面情感。
图2 入境旅游者(左)、国内旅游者(右)总体评论语义网络图
图3 入境旅游者(左)、国内旅游者(右)负面评论语义网络图
为了更具体地追溯负面情感的来源,单独提取出情感倾向表现为负面的评论文本展开共现分析(图3),通过对共现语义网络图的解读及浏览原文本可总结出消极情感主要来自以下几个方面:(1)在每个城市都能找到类似的街区,如西安回民街、南京夫子庙等,这些街区在官方定位、功能上也许差异较大,但旅游者对这些街区的感知意象仍较为相似,街区差异化的特色没有被旅游者感知;(2)国内旅游者对于中式传统建筑较为熟悉,清河坊的部分建筑经过保护性修建,使部分旅游者感知为“仿造”建筑,同样,入境旅游者也因为街区原真性受破坏而表达消极情感;(3)由于电子商务的发展,各地的商品可以在网络上轻易购买,旅游者对纪念品的要求更加严苛,且大多数纪念品被感知为批量复制化的“义乌小商品”,旅游者因难以购买到有杭州特色的纪念品而产生消极情感;(4)部分入境旅游者感知清河坊为仅仅是购物的地方,旅游活动项目单一,且与店员、当地人、旅游者在语言交流上存在困难。
本文基于词汇匹配技术展开了深入的情感分析,主要归纳出四点结论。
第一,入境游客情感感知的去中心化特征较为明显。基于对入境与国内旅游者网络评论的共现分析发现,入境旅游者的感知较为分散,且关注内容上与国内旅游者有着明显差异。这个结论与刘逸等的研究结论[1]相反,后者得出中国出境旅游者主要关注的要素与国际旅游者相比,更为多样和分散。这说明游客在文化差异较大的旅游地情感认识有去中心化的特征,更能感受到多样化的旅游地特色。
第二,文化距离对旅游者情感感知有积极的促进作用。在分析中发现,由于国内旅游者熟悉国内历史与文化,对清河坊的建筑有“仿造”成分的认知负面,认为原真性被破坏,此外没有地方特色的手工艺品也容易被感知为流水线制造的“义乌小商品”。而入境旅游者对中国文化历史不熟悉,对历史街区中建筑、产品“同质化”现象感知较弱,所感知到情感意象反而更为积极。
第三,文化特色不鲜明为入境与国内旅游者的共同消极情感来源。研究发现二者的消极情感来源略有不同,但基本集中在街区差异化不足、建筑缺少原真、纪念品地域特色不足、旅游活动不丰富等文化特色感知问题,说明鲜明的文化特色对于旅游者的积极情感感知具有较大影响意义。
第四,基于词汇匹配技术的情感分析方法在本类型研究中有较大优势。情感分析技术应用较为广泛的是机器学习法和词汇匹配技术,但相比较基于词汇匹配技术的情感分析方法,机器学习法容易让人产生过度乐观的评价,且在小样本量的研究中并不适用。
在杭州加快推进城市国际化进程中,打造精准的国际旅游形象意义重大,特色历史街区作为旅游国际化战略的“新载体”,挖掘街区核心价值、提炼街区意象成为当务之急。基于到访清河坊特色街区旅游者感知的研究,本文认为清河坊亟须根据旅游者的情感特征,做好文化差异化和国际化更新的旅游形象提升工作,主要建议有以下四点。
第一,打造差异化的清河坊旅游体验。基于地方文化差异特征,可设计文化体验类的旅游项目与产品,帮助游客构建积极情感意象。比如以杭州传统中医中药元素为亮点,优化中药陈列展厅、中药手工作坊等,推出具有地方原真特色的文化创意体验,以避免游客产生“千街一面”的负面感知。应重视挖掘清河坊的南宋历史文化基因,与商品载体结合,让纪念品达到“深、精、特”,甚至可以在纪念品购买过程中增加体验要素,打造南宋旅游文化IP。
第二,针对入境旅游者偏好进行开发。入境旅游者对清河坊有较高的情感认同,在巩固传统国内旅游市场的基础上,应重点开发入境旅游者所偏爱的旅游资源、产品和活动。入境旅游者更容易感知到文化氛围和探索类的旅游活动,可以此为重点进行整合包装,也可以以此为街区国际化更新的主题,如举办更多有地方特色的街区节庆活动等增加入境旅游者的积极感知,丰富街区的体验要素,活化市井民俗、中医医药、餐饮小吃、民间手工艺、仿古建筑、茶文化等元素,优化特色文化的外在环境与氛围,同时减少降低语言不通等文化距离产生的障碍。
第三,强化区域旅游合作,与周边景点联合营销。旅游者对清河坊与南宋御街、清河坊与吴山广场、清河坊与西湖的关联性有较强的感知,同时整个历史街区的旅游业态较为单一,可针对周边特色旅游资源与活动等进行联合营销。
第四,在目的地意象研究领域使用数据挖掘手段时,建议更合理地选择情感分析方法。如果使用机器学习方法进行情感分析,应充分考虑因学习语料偏向乐观而导致的偏差;如果使用词汇匹配方法进行情感分析,应构建专用词库,而不是直接使用一般性词库。使用科学合理的方法挖掘数据,从评论中剖析到真实的情感,才能为旅游地的未来发展提供更加可靠的决策支持。
虽然本文在旅游情感意象认知研究方法和研究对象方面有一些创新,但仍存在一些不足。在研究对象上,“入境旅游者”仅为较笼统的概括,为国内旅游者之外的其他旅游者,没有对其细分,而来自不同地域的境外旅游者在文化背景上仍存在较大差异。在数据处理上,由于专属词库的设定、外文文本的翻译和处理等都具有一定主观性,本文已通过反复调整,尽量减少偏差,但偏差仍不可避免,未来可以探索更有效的数据处理方法。在情感分析模型构建上,本文参考的模型还需要更多的研究验证其信度,尤其是情感乘数的确定还需更加谨慎,面对不同类型的研究也可能需要不同的情感乘数,因此本文的模型构建还不够严谨。最后在工具使用上,本文仅使用了python语言和Rost CM6 软件,还可以尝试更多的数据挖掘软件和方法,甚至对音频、图片、视频等其他非结构化数据进行量化分析,还可以结合SPSS 等软件展开综合研究,以提高质性分析的信度,探索更深入的情感挖掘方法。
注释
①报告由中国旅游研究院和马蜂窝旅游网共同成立的“自由行大数据联合实验室”发布。