杨婉婷,李凌雁,李铭朴
(燕山大学经济管理学院,河北 秦皇岛 066004)
我国入境旅游高速发展,为外汇创收、提高对外开放度以及壮大旅游产业做出了重要贡献[1]。《“十四五”旅游业发展规划》提出要适时启动入境旅游促进行动,上海市作为中国国际化水平最高的城市,在疫情常态化背景下必将率先出现新一轮入境旅游热潮,因此如何应对激烈的竞争与建设更好的入境旅游目的地是上海市入境旅游未来发展必须要面对的课题。
入境旅游的相关研究主要集中在入境旅游流时空演变[2-4]、旅游目的地形象[5-9]和各项指标对入境旅游的影响因素分析[10]等,其中入境旅游目的地形象是入境旅游者决策的重要依据,旅游目的地形象即游客对某一旅游目的地的综合感知和评价[11],Baloglu等人[12]将旅游形象划分为认知形象、情感形象和整体形象,并提出“认知-情感”模型,该模型的提出使旅游目的地形象的解析角度从单一走向丰富,诸多学者对旅游目的地形象研究都建立在这一模型上[6,7,13-15]。由于图片比文本更能传达复杂的含义[16],近些年,学者逐渐开始根据图片内容[17-19]和图片附带元数据[20,21]挖掘旅游者对旅游目的地的认知和情感。
随着计算机深度学习技术的进步,卷积神经网络(convolutional neural networks,CNN)被越来越多地应用于图像处理中, Google Net和PReLU-Nets等各类高精度图像处理模型逐渐涌现[22,23]。Zhang等人[9]研究发现基于卷积神经网络的分类器Deepsentibank可以将图片内容输出为“名词+形容词”的形式,邓宁、范梦余等人[16,18]利用Deepsentibank对社交图片进行识别,分析出旅游者对旅游目的地的形象情感,可见卷积神经网络的强大功能为旅游研究提供了新的思路。
综上所述,图片大数据为旅游目的地形象的研究提供了数据支持,计算机深度学习技术为图片大数据的解析提供了方法支持。随着深度学习技术在旅游研究领域的渗透,越来越多的研究将该技术运用于解析旅游图片,但多数研究都集中于对图片内容的提取,分析拍摄者情感的研究还相对较少[24],当前关于旅游目的地形象的研究也较少从时空演变规律视角挖掘旅游目的地形象特征。数据来源较为单一,无法客观反映入境旅游状况。因此,本研究以国际都市上海为例,利用计算机深度学习技术和GIS技术对源自YFCC 100M数据库和Flickr API的图片大数据进行解读,再基于“认知-情感”模型分析上海市旅游目的地形象,以期为上海市入境旅游的发展提供建议。
本研究数据来自Flickr的影像数据库YFCC 100M及Flickr API,YFCC 100M包含了用户在2004—2014年发布的所有图片及元数据,该数据库数据量庞大且可用性强。利用Python3.9编写脚本,根据图片的经纬度信息在YFCC 100M数据库中爬取与上海相关的图片数据。由于YFCC 100M数据库的数据仅包含2004—2014年的图片数据,因此研究借助Flickr API获取的2015—2021年的图片数据,弥补了YFCC 100M数据库的空白,剔除来自中国境内的图片,最终共获得可用的图片及元数据25 115条。
卷积神经网络是识别图片内容的重要工具,其工作原理如图1所示,该神经网络在处理图片时先输入图片的像素数矩阵以达到对图片进行区域划分的作用,再利用卷积层对图片中每个划分好的区域进行卷积计算从而提取每个区域的主要特征,经过数次卷积与池化后,全连接层会将图片特征进行分类后再输出。
图1 卷积神经网络工作原理
Deepsentibank是利用超过100万张地理标记照片训练出的概念分类器,该分类器在识别图片时可生成由231个形容词和424个名词,每一对“形容词+名词”的词组被称为ANP(adjective noun pairs),该分类器可组合成2 089个ANP。Deepnsentibank解析图片流程如图2所示,一张图片会被解析为2 089个ANP,ANP对应数值越大,即该组ANP与图片内容相关程度越大。
图2 Deepsentibank解析图片流程
Hownet是知网于2007年发布的情感分析用词语集,该情感词典在融入学习模型方面具有较大优势,能较好地与Deepsentibank识别出的结果相互配合,因此研究利用Hownet情感词典与计算机深度学习的结果进行比对和筛选,仅保留ANP中的形容词与词典重叠的数据进行研究。
词频分析是一种用于文本挖掘的常用加权技术,研究将深度学习识别出的名词与动词进行分类与整理,根据分词出现频率高低及词频的年度变化和季度变化可以分析出旅游者的共性行为、旅游目的地形象的主要构成与旅游目的地形象的发展趋势。
GIS分析法是指利用地理信息系统对数据的地理属性进行分析的方法,研究借助软件ArcGIS10.7中的核密度分析与莫兰指数探索入境旅游者的认知与情感的空间分布特征,进而对旅游目的地形象时空演化过程进行分析。
研究基于“认知-情感”模型(表1),从时间和空间两个维度,分别对认知与情感两个变量进行研究[25]。利用Deepsentibank将图片内容转化为“形容词+名词”的形式,首先筛选出与图片内容相关程度最高ANP作为该图片内容,其次根据邓宁等人[16]的研究对名词进行划分,根据Hownet情感词典对形容词进行划分,最后利用ArcGIS10.7从年度与季度两个维度对认知形象与情感形象进行时空分析,从而整合出上海市的旅游目的地形象时空变化规律,以期为上海市总体形象的优化提供借鉴意义。
表1 “认知-情感”模型
研究从年度和季节两个角度建立时间序列,在年度方面,选取2005年、2012年和2019年三个截面对认知和情感进行年度分析,入境旅游者拍摄照片总量的年度变化如图3所示,照片数量呈逐年增加的特征。在季度方面,按照3—5月为春季,6—8月为夏季,9—11月为秋季,12—次年2月为冬季进行季度分析,入境旅游者拍摄照片数量的季度变化如图4所示,拍摄照片数量:秋季>春季>夏季>秋季,表明春秋两季是上海入境旅游的旺季,入境旅游者会在春季秋季拍摄更多照片。照片数量空间分布如图5所示,整体呈中心聚集四周分散的状态,黄浦区、徐汇区和虹口区等核心旅游功能区拍照数量最密集,其余各区拍照数量多的地点主要集中在该区著名景点,青浦区为朱家角古镇及佘山国家森林公园,松江区为松江唐经幢和醉白池等景区,浦东新区为东方明珠塔、陆家嘴及上海野生动物园等,崇明区为东平国家森林公园。
图3 上海市入境旅游者照片数量年度变化
图4 上海市入境旅游者照片数量季度变化
旅游者认知的时间变化可以说明旅游者在不同的时间节点的偏好,可以借助变化规律对旅游资源进行有针对性地开发与优化。根据先前学者对UGC图片中旅游形象的分类[6,18,21],将认知高频词分为自然景观、人工景观、物质文化和旅游设施四个类别,其中分别包含自然风光,城市风光,人物,动物,植物,美食,设施,建筑,艺术,节事共10个子类别(表2),并对数据中出现的同义词进行去重处理,提高数据处理效率,使得研究结果更加合理。
表2 认知高频次类别
研究将各类认知占总体认知的比例作为判断认知结构的变量,结果如图6、图7所示。由图6中照片数量的年度变化可知,自然风光、设施和其他占比下降,人物、节事、动物占比上升,其中自然风光占比锐减,人物占比激增,总体来看,表明入境旅游者以前关注自然景观多,现在更关注人物与文化。图7是照片数量的季节变化趋势,各类认知的季节变化趋势一致,其中人物认知的曲线波动最明显,即季节性最强,自然风光、动物、设施与其他次之,建筑、植物、美食、城市风光、艺术、节事与城市风光季节性较弱,表明入境旅游者的认知结构会随着年份变化而改变,季节变化对其影响较小。
图6 上海市入境旅游者照片数量年度变化 图7 不同认知的季节变化趋势
表3是各季节认知高频词前30项统计结果。由表3可知,每个季节排名前5的高频词基本相同,主要集中在face、dog、cat、food与city,表明人物、动物、美食与城市风光是上海市入境旅游者四季都格外关注的内容。除了各季节认知高频词的共性特征外,旅游者在春季拍摄的图片更多的记录了自然风光,同时“crowd”一词出现在了秋季认知高频词前30项中,而在其他三个季节未出现,表明拥挤的人群频繁地出现在旅游者秋季拍摄的照片中。认知词“night”的词频在夏季和秋季高于“morning”的词频,在春季与冬季则低于“morning”的词频,表明上海市入境游客在夏、秋两季更关注上海市的夜生活。
表3 上海市各季节认知高频词(前30项)
旅游者认知的空间分布可以说明不同认知的不同聚集形态,如图8所示,自然景观、人工景观、物质文化和旅游设施4类具有明确特征的认知都呈现核心旅游功能区聚集,其他区域相对分散的状态,其中自然景观类认知与物质文化类认知分布较为类似,旅游设施认知主要与人口密集的景点分布一致。结合表4中各项认知的莫兰指数可知物质文化与旅游设施这两类认知在空间上更为聚集,自然景观和人工景观在空间上的分布比物质文化与旅游设施更均衡。
表4 不同认知的空间聚集程度
图8 不同认知的空间分布
旅游者情感的时间变化可以说明旅游者在不同时间节点对旅游目的地的情感,根据刘逸等人[23]的研究,借助Hownet词典对高频词进行划分 ,同时参考范梦余等人[20]的研究,将情感高频词划分为正面情感词、负面情感词、中性情感词三种[20],为突出研究结果,主要选用正面情感与负面情感进行研究,其中正面情感用1表示,负面情感用-1表示。如图9所示,随着年份增长,正面情感和负面情感的占比基本持平,表明年度变化不会影响旅游者的总体情感结构。
图9 不同情感的占比年度变化 图10 不同情感的季节变化趋势
根据图10可知,旅游者情感结构未因季节变化产生较大波动。两种情感在不同季节同向变化,同时呈现正面情感>负面情感,表明入境旅游者情感结构受季节影响较小,表明入境旅游形象基本为正面,且入境旅游者中性情感最少,多数入境旅游者对上海市态度鲜明。
上海市各个季节多数为“awesome”“favorite”等正面情感词汇,表明旅游者对目的地的情感主要是积极情感(表5)。但在春季更容易出现类似“sleepy”“haunted”的负面情感,表明入境旅游者偶尔也会在春季感到困倦与忧心忡忡,夏季排名第一的情感为负面情感“hot”,表明旅游者在夏季的活动很大程度上受到了高温的影响,秋季是旅游者拍摄照片最多的季节且情感高频词中负面词语“crowd”排名靠前,表明拥挤现象在秋季频繁出现,“clean”在秋冬的频率低于其他两个季节,表明秋冬两季上海市的卫生质量有所下降。同时,冬季负面词在前30项情感高频词出现频率高于其他三个季节,表明旅游者在冬季更容易出现类似“unpleasant”的负面情感。
表5 上海市各季节情感高频词(前30项)
计算不同情感中不同认知的占比结果见表6,城市风光、美食、人物和设施4类认知形象占负面情感比例显著大于占总体情感的比例,即这4类认知形象是负面情感的高发区,表明入境旅游者对上海的城市风光兴趣低迷,文化差异性导致入境旅游者对人物与美食的负面情感占比偏高,设施方面仍有待提升。
表6 不同认知形象占不同情感形象比例
旅游者情感的空间变化如图11所示,与正面情感相比,负面情感聚集在核心旅游功能区,并呈带状向东西延伸,表明人流密集处更容易出现负面情感,而在嘉定区、宝山区、金山区和奉贤区少有聚集,表明旅游者在此处的旅游体验较好,因此负面情感出现频率低,同时结合词频分析可知“crowd”也是造成负面情感的重要原因。
图11 正面情感与负面情感空间分布
借助计算机深度学习技术对社交图片的内容及情感进行识别,基于认知与情感两个方面对上海市入境旅游目的地形象进行了探索研究,主要结论如下:上海市的自然景观与物质文化是入境旅游者最关注的认知形象,情感形象主要为正面情感。空间维度来看,游客足迹高密度区主要呈现出主城区聚集分布,其他行政区零星分布的形态;时间维度来看,时间的年度变化会影响入境旅游者的认知与空间分布,但年度的时间变化与季度变化对情感结构与空间分布影响较小。为此,建议:①上海市对外应塑造“海派风情,人文上海”的整体形象,同时根据人物认知占比的快速增长,上海市应更加注重挖掘具有中国人文特色的旅游产品。 ②对各区域形象进行精细化管理,上海西部的行政区应根据现有的古镇资源打造“郊外美景,田园风光”的旅游形象,利用悠久的历史文化与优美自然风光吸引旅游者。上海东部的行政区则应打造“休闲滨海,度假胜地”的旅游形象,将浦东的滨海森林公园、奉贤海湾旅游度假区和金山滨海休闲度假区串联成带,带动周边地区旅游业的发展。③主城区的热门景点应借助数据分析、交通管控和预约售票等方式进行合理的客流管控,非主城区大力开发人物、动物、自然风光资源,加大宣传力度,优化各区域间交通网络,充分利用周边区域的旅游资源分散主城区过多的客流,减少部分区域在旺季因“crowd”而产生的负面情感,实现各区域的均衡发展。
研究尝试利用计算机深度学习技术对社交图片大数据进行解析,也存在一定不足,计算机深度学习识别图片的结果可能存在一定误差,且Deepsentibank的输出结果具有一定局限性,对入境旅游者的情感与认知的诠释能力有限。研究仅选取了Flickr上的数据,因此数据来源缺乏多样性,在旅游目的地形象测量方法上还应结合如因子分析等更多结构性测量方法。在未来研究中应注重数据来源与分析方法的多样性,以便更准确反映旅游目的地形象。