邓 宁
(北京第二外国语学院 北京 100024)
旅游实证研究长期以来主要依靠问卷调查等方式提供数据支撑。然而,传统旅游研究方法存在以下几点局限:(1)数据获取的难度很大;(2)样本获取的公平性难以保证;(3)问卷结果的客观性不确定。随着社交网络的流行和Web2.0的兴起,基于用户生成内容的相关研究逐渐成为当前旅游研究的热门方向,同时也对旅游研究方法提出了新的要求。基于大数据的分析方法已逐渐应用于旅游研究中,这种研究方法可在更大的样本空间中对旅游者行为和目的地形象进行分析,其所涉及的数据不仅具有更好的完整性,同时也是游客真实行为与感受的客观反映,可以有效弥补传统研究方法的不足。
然而,利用大数据进行旅游研究本身对信息技术具有较高的依赖性。采用数据挖掘技术进行旅游研究需要借助于成熟工具,或者依赖于研究团队成员的技术背景。对于绝大多数缺乏专业计算机技术背景的普通旅游研究者而言,如何利用信息技术对海量数据进行高效、准确的处理和分析已经成为制约旅游研究方法发展的瓶颈。
图片是旅游研究领域非常重要的媒介,基于图片的目的地形象和游客行为研究也成为当前研究的热点,特别是随着以Facebook、Twitter、微信为代表的社交网络和以Instagram、Flickr为代表的图片分享网站的兴起,使得游客所发布的旅游图片成为目的地形象传播的重要载体,也为旅游研究提供了新的方法。目前基于社交图片的旅游研究主要集中在以下几个方面:(1)通过社交图片判断游客分布并分析目的地客流变化情况;(2)通过社交图片所携带的数字足迹分析游客旅游轨迹及行为;(3)通过分析游客发布于社交媒体上的图片,对比游客所感知的目的地形象与旅游目的地营销组织(Destination Marketing Organization,DMO)投射的形象之间的差异,以及由此衍生出对于目的地在线形象的探讨等。
本研究面向社交网络——Flickr所提供的图片元数据(metadata)集合YFCC 100M,设计并实现了一个利用社交图片元数据进行旅游研究的数据挖掘与分析平台——PMMS(Photo based Metadata Mining System)。PMMS 可以提供如下4种功能服务于基于图片的旅游研究:(1)目的地热点(Point of Interest, POI)分析;(2)游客历史对比分析;(3)游客轨迹分析;(4)基于图片的目的地形象感知分析。该平台旨在为不具备专业计算机技术背景的旅游研究者提供一个便捷、高效的图片元数据挖掘与分析工具,将大数据的研究方法与传统旅游研究方法相结合,降低由于缺乏相关学科背景所造成的技术门槛。本平台所提供的功能与目前旅游研究领域基于社交图片的相关研究方向高度一致,仅需通过简单的配置即可完成海量目的地图片元数据的分析与处理,降低了传统旅游研究者学习编程及数据处理等知识的时间成本。
基于图片的旅游研究由来已久,而图片数据的来源和研究方法随着时代的变化发生过几次明显的变革。早期的图片研究多采用“游客受雇拍摄法”(Visitor Employed Photography,VEP)和“游客自愿拍摄法”(Visitor Self-employed Photography,VSEP)进行图片收集,其中前者通过给拍摄者发放相机进行拍摄,后者则利用游客自带设备进行拍摄。VEP中拍摄者或多或少会受到研究者的外部影响并受限于拍摄器材数量而无法进行大规模数据采集;VSEP则更能体现基于游客自身视角的目的地感知。特别是随着数码图片和社交网络的普及与发展,利用社交图片及用户所产生的内容进行旅游图片研究逐渐成为主流。Stepchenkova S和Zhan F通过比较DMO与Flickr图片内容得到了秘鲁目的地形象在两种图片方面所体现的差异;Hunter W C则对比了多个搜索引擎(Naver、Google、Baidu)上关于首尔的图片,归纳出首尔在网络上的目的地在线形象(online image);Stepchenkova S还通过分析 658张由美国游客拍摄的Flickr图片及595张由韩国游客所拍摄的博客图片,对比了美、韩两国游客对俄罗斯旅游形象的感知差异。针对旅游目的地形象的图片研究多采用内容分析(content analysis)和符号分析(semiotic analysis)法,它们都是通过人工分析的方式对图片内容元素进行解构,其中内容分析多见于对图片显性内容进行分析,而符号分析则侧重于对图片隐性内容的获取。情感形象(affective image)作为图片所蕴含的隐性内容,也成为激发旅游动机的关键。Pan S、Lee J和 Tsai H属于为数不多的探讨旅游图片内容与情感形象之间关系的学者,其研究成果可用于目的地图片营销的内容推荐。
数码图片元数据中包含了图片拍摄地点GPS位置信息,作为旅游者的数字足迹(footprint)为众多旅游研究者所重视。Önder I、Koerbitz W和Hubmann-Haidvogel A以及 Vu H Q、Li G、Law R 等的研究都分别采用图片 GPS 数据分析了游客的行为特征以及目的地POI识别和分布情况。其中Vu H Q、Li G、Law R等根据中国内地游客在香港地区所拍摄图片的数字足迹分析了其在香港的游览行为、旅游热点区域(Area of Interests,AOI)以及AOI之间游客流向关系等,可以为目的地营销、交通规划等提供决策依据。杨敏和丁娟等人也采用数字足迹法分别分析了成都游客的时空特征和中国入境游客POI时空格局。利用图片数字足迹进行旅游研究有助于为区域旅游管理和规划等提供参考,亦有研究将POI信息作为游客线路决策的推荐依据。
综上所述,社交图片已成为近年来研究游客行为和目的地感知的重要载体。基于社交图片的旅游研究主要围绕4个方面:(1)目的地热点分析;(2)游客历史对比分析;(3)游客轨迹分析;(4)基于图片的目的地形象感知分析。本文所实现的PMMS支持的功能与以上研究方向高度契合,可作为一个通用的旅游大数据研究平台服务于普通旅游研究者。
表1 Flickr数据集中每张图片所含信息Tab. 1 Data ベelds for each photo in the Flickr dataset
Flickr是目前主流的图片分享平台,其于2015年7月开源了一个针对学术研究的图片集合——YFCC 100M,其中包括2004年至2014年间在Flickr上发布的超过1亿张图片的元数据(metadata),每条数据所包含的信息如表1所示。
YFCC 100M包括9 920万张图片和80万个视频文件的元数据信息,其中包含几个与旅游研究密切相关的信息:(1)图片标题(title)/标签(tag)/描述(description),其中标签分为两种,一种是由用户上传照片时定义的,一种是由相机、应用根据拍摄内容自动生成的对于图片内容的描述信息;(2)拍摄时间(taken time),其中99.6%的图片拍摄于2004年至2014年间;(3)地理位置(coordinates),总共有48 366 323张图片和103 506个视频具有地理位置信息,可以还原图片拍摄地点的坐标。
图1 PMMS 系统整体框架Fig. 1 PMMS whole architecture
(1)系统整体框架
PMMS总体架构如图1所示,PMMS对于图片元数据进行分析依照以下顺序进行。
数据清洗:根据所配置的地理边界及图片拍摄坐标,对目的地所涉及的图片元数据进行过滤。例如:以意大利古城罗马为例,其分析范围大致位于东经[12.3698,12.6173]、北纬[41.7929,41.8688]的矩形区域内,故通过数据清洗可以先得到一个与目标目的地相关的元数据集合。
② 分析功能配置:根据所研究的方向,在PMMS支持的4种分析功能中选择一种或几种进行系统配置。例如:输入数字“1”代表“POI分析”;数字“2”代表“游客历史对比分析”;数字“3”代表“游客轨迹分析”;数字“4”代表“基于图片的目的地形象感知分析”。
③ 输出结果:根据功能的不同输出不同形式的结果,其中POI分析、游客历史对比分析和游客轨迹分析最终以“拍摄坐标、拍摄时间”的形式给出一组符合要求的数据集合,该结果可以非常方便地采用任意第三方Arc GIS工具软件进行可视化呈现。而基于图片的目的地形象感知则通过分析元数据中“标签/标题/描述”和图片评论并提取高频词的方式分别得到目的地认知形象(cognitive image)和情感形象(affective image)。
(2)原型系统实现
PMMS采用程序设计语言Python 2.7进行开发,目前已经实现了一个满足上述4种基本功能的原型系统,该系统包含5个文件共计203行代码,已被上传到世界最大开源社区GitHub供旅游研究者免费使用。
在PMMS设计实现过程中还涉及以下几个工具组件:
① Flickr接口(Application Programming Interface,API):使用了由 Alexis Mignon开发的python版本Flickr API,主要用于获取指定图片的评论数据,并根据给定的照片序列号(photo ID)从Flickr下载原图内容。
②TextBlob:主流的英文语义分析工具,用于在目的地形象感知分析时对元数据中词频进行统计,以分析基于社交图片的目的地形象。
(3)PMMS各项基本功能的实现原理
①POI分析
在旅游目的地进行POI识别具有非常重要的研究意义,PMMS可通过提取数据图片元数据中的地理位置信息分析得出图片的拍摄地点,进而将游客较为集中的区域和拍摄地点视为旅游目的地的热点区域。大量旅游研究已经采用数字图片所携带的数字足迹信息对游客分布进行分析,并采用将坐标点通过Arc GIS工具进行可视化的方式对POI进行识别,本文使用目前流行的Arc GIS工具——Carto对罗马的图片位置数据进行可视化分析。
②游客历史对比分析
表2 2006—2014年3个不同时间区间游客人数变化情况分析Tab. 2 Tourist number and percentages in three time intervals from 2006 to 2014
对旅游目的地游客历史的对比分析,有助于了解目的地游客变化情况和未来发展趋势。笔者将时间分为2006年至2008年、2009年至2011年、2012年至2014年这3个区间,将数据集中满足地理范围条件的图片元数据按照拍摄时间分为3个集合,每个时间区间图片的数量及所占比例如表2所示。
③游客轨迹分析
图2 利用PMMS分析游客轨迹示意图Fig. 2 The illustration of analyzing tourists’ movement using PMMS
游客游览轨迹对于目的地线路规划及游客行为研究具有重要意义,PMMS可以通过分析图片元数据中的拍摄时间和位置坐标,得到该游客的游览轨迹。通过分析图片元数据中的3个关键信息——用户ID、拍摄地点和拍摄时间,计算得到单个游客的图片拍摄顺序及拍摄地点,具体分析步骤如图2所示。
④目的地形象感知分析
目的地形象感知分析一直是旅游研究中最为活跃的研究方向之一。对于目的地的感知形象根据其形成的顺序可以分为认知形象和情感形象,其中认知形象指旅游者对已知的特定旅游地的特性进行评估或了解,从而在内心生成的信念,而情感形象是人们对目的地各种属性所产生的情感反应。
图3 利用PMMS进行目的地形象感知分析示意图Fig. 3 Illustration of destination perception using PMMS
旅游图片作为游客对目的地感知最为直观的形象,具有重要的研究价值,基于社交图片的目的地形象感知分析已成为目的地形象研究的重要组成部分。以Flickr为例,其每条元数据记录中所包含的“标签/标题/描述”可以作为图片发布者对于图片内容的概况和描述,包含了拍摄者视角下的目的地认知形象;而Flickr中的图片评论则可视为读图者对于图片内容所表达的情感,亦可视为情感形象的体现。如图3所示,PMMS采用语义分析工具Textblob从游客发布图片的“标签/标题/描述”中过滤出出现频率较高(>100次)的名词以及图片评论中词频较高(>30次)且情感极性强烈(>0.1)的形容词分别构建认知形象和情感形象语料库。因此,利用PMMS分析YFCC 100M中的图片元数据及其评论可以作为目的地形象研究的重要手段。
本文以罗马为例,说明如何利用PMMS所提供的4个基本功能服务于基于图片的旅游研究。
选择罗马作为分析对象,意在表明PMMS的使用不受目的地选择的限制,是一种通用的目的地研究分析工具。笔者根据罗马城市边界,将分析区域限定在东经[12.3698,12.6173]、北纬[41.7929,41.8688]的矩形范围内,即图4矩形边框所示。
图4 罗马主要城区范围示意图Fig. 4 Illustration of the Rome region in this study
(1)POI分析
图5 基于图片拍摄坐标的罗马POI分布图Fig. 5 POI distribution in Rome based on Flickr photos
笔者将东经[12.3698,12.6173]、北纬[41.7929,41.8688]作为YFCC 100M数据集合进行数据清洗的地理范围。对YFCC 100M中2006—2014年的数据进行过滤,得到总计125 680条具有有效GPS坐标的图片元数据。随后,将这些元数据坐标导入Arc GIS 可视化工具Carto中,生成一幅基于图片拍摄坐标的POI热力图。如图5所示,每一个点均代表一张图片的拍摄地点,颜色越深的区域代表在此处拍摄图片数量越多,即可视为旅游人群集中的区域。从图中可以看出,城市中心区域、罗马古城遗址周边的梵蒂冈城(Vatican City)、坎皮特利(Campitelli)、皮尼亚(Pigna)和雷格拉(Regola)图片拍摄相对较为密集,也是罗马城游客主要参观游览的景点。
通过对图片数字足迹信息——GPS坐标进行可视化呈现,可以分析目的地在游客分布、POI分布等方面的特征,对于旅游研究具有重要的价值,也是旅游目的地人流时空分析的基础。
(2)游客历史对比分析
图6 2009—2011年与2012—2014年罗马基于图片坐标的游客情况比较Fig. 6 Tourist comparison from 2009 to 2011 and 2012 to 2014 based on Flickr photos of Rome
将2009—2011年和2012—2014年内的数据分别导入Arc GIS工具——Carto中进行可视化呈现,得到上述两个时间段内目的地游客分布的变化情况对比,如图6所示。从结果看出,2012—2014年期间图片数量明显减少,这与Flickr用户数量在此期间递减有关,但Tiburtina(图中方框地点)的游客数量从2012年至2014年却有明显的增长,这可能是与2011年罗马在此地扩建了火车站,使其成为游客中转的交通枢纽有关。
通过分析图片数字足迹和拍摄时间信息,可以方便地对目的地人流情况进行时间轴比较,有助于预测目的地客流情况随时间变化的趋势,也可对目的地规划和管理给出一定时间区间内的效果评估,具有极高的研究价值。
(3)游客轨迹分析
实际分析过程中,本文限定每个用户至少需要发布5张以上图片才进行轨迹分析,满足该条件的游客占比约为48.8%。根据游客拍摄图片的顺序及地点,最终得到每位游客的游览轨迹。本文随机选择了3位游客的游览线路进行分析,并通过Carto进行可视化,如图7所示,其中方框内的序号表示该游客游览的顺序。
图7 3名游客在罗马游览轨迹示意图Fig. 7 Movement of three tourists in Rome
通过图7可以得到3名游客不同的游览轨迹和游览顺序。其中,游客1在罗马游览期间居住于 Appio Claudio 酒店,先后游览了 Piazza di Campitelli、INGV、Parco della Caffarella 和 Teatro Studio Borgna 等地,最终以 Scuola di Recitazione Fondamenta和 Teatro Anベtrione两处的游览结束行程;游客 2 由 EUR Magliana出 发, 游 览 景 点 包 括 Castel Sant’ Angelo、Rione IV Campo Marzio、Colonna Palace 和 Museo Storicodei Bersaglieri;游客 3 游览路径为 Anguillara Tower Torre Anguillara、Colosseum、Vatican City 以及 Palazzo Massimo alle Terme。
PMMS也可用于对具有特定属性的游客群体进行游览轨迹的聚类分析,从而得到游客群体的旅游行为属性,对于游客行为研究具有重要价值。
(4)目的地形象感知
①认知形象分析:采用语义分析工具Textblob从游客发布图片的“标签/标题/描述”中取出出现频率较高(>100次)的名词,忽略某些无意义的词后(例如travel等),得到针对罗马的认知形象语料库。表3列出了排名前30位的高频词信息。根据表3中高频词还原图片元数据完整内容后得到,卡比托利欧广场、真理之口和梵蒂冈是排名前3的景点。在罗马游客眼中,罗马的建筑和人文景点是最能够代表罗马形象的,游客所拍照片多数位于这些地方。通过对排名前40的认知形象关键词进行分析可以发现,游客对于罗马形象的认知主要涵盖了建筑、人文、酒店、饮食和运动等多个方面。
表3 罗马图片元数据中的高频名词语料库Tab. 3 High frequency nouns in Rome related photos’ metadata
②情感形象分析:通过英文词频分析工具Textblob对Flickr中罗马相关图片的评论进行词频分析(词频>30次),并利用英文情感极性计算工具SentiWordNet对形容词的情感极性(极性>0.1)进行计算,最终得到一个关于罗马目的地情感形象的语料库,如表4所示。从结果分析可知,排在前5位的形容词分别是“伟大的”(great)、“美丽的”(beautiful)、“赞叹的”(wonderful)、“惊奇的”(amazing)和“很赞的”(awesome)。由此可知,读图者根据罗马社交图片呈现的认知形象所产生的情感形象以正面为主,以赞叹、褒奖的形容词作为图片评论的主要词语。
表4 罗马图片评论中的高频形容词语料库Tab. 4 High frequency adjectives in Rome related Flickr photos’ comments
值得指出的是,囿于篇幅所限,本文仅从UGC图片分析工具的角度探讨了利用大数据的方法进行目的地热点分析、游客历史对比分析、游客轨迹分析以及基于图片的目的地形象感知分析。上述均为较独立的研究方向,围绕各个问题所展开的深入探讨不在本文范围之内。
本文介绍了一个面向普通旅游研究者进行海量UGC图片数据分析的通用平台——PMMS,该平台根据目前旅游图片研究所涉及的主流研究方向,提供4种数据分析功能:(1)目的地热点分析;(2)游客历史对比分析;(3)游客轨迹分析;(4)基于图片的目的地形象感知分析。PMMS的主要贡献在于普通旅游研究者可利用其对目的地海量图片元数据及评论进行深入的挖掘与分析,省去了学习编程等计算机技术的成本,极大降低了在旅游研究中运用计算机技术进行数据挖掘的技术门槛,同时也为旅游研究者进行社交图片大数据分析提供了参考。本文以意大利首都罗马为例说明了如何利用PMMS进行相关旅游研究,验证了该平台在旅游研究中的实际价值。
PMMS的设计与实现目前仍然处于较为初级的阶段,后续研究工作希望从如下几个方面深入开展:首先,目前PMMS仅支持单一数据源YFCC 100M,未来希望能兼容更多图片数据集合;其次,PMMS目前仅支持基本的数据分析,在数据结构可视化方面仍然需要借助第三方Arc GIS工具,将来可以整合可视化工具令其功能更完整;最后,在为旅游研究配置的用户界面方面,希望PMMS将来更为友好,最终成为一个便捷、高效的图片数据分析系统。
[1]Vu H Q, Li G, Law R, et al. Exploring the travel behaviors of inbound tourists to Hong Kong using geotagged photos [J]. Tourism Management, 2015(46): 222~232.
[2]Andraz J M, Rodrigues P M M. Monitoring tourism ぼows and destination management:Empirical evidence for Portugal [J]. Tourism Management, 2016(56):1~7.
[3]Li Q, Huang Z, Christianson K. Visual attention toward tourism photographs with text:An eye-tracking study [J]. Tourism Management, 2016(54): 243~258.
[4]Zhang L, Lan C, Qi F, et al. Development pattern, classiベcation and evaluation of the tourism academic community in China in the last ten years : From the perspective of big data of articles of tourism academic journals [J]. Tourism Management, 2017(58):235~244.
[5]Stepchenkova S, Zhan F. Visual destination images of Peru : Comparative content analysis of DMO and user-generated photography [J]. Tourism Management, 2013(36):590~601.
[6]Pan S, Lee J, Tsai H. Travel photos : Motivations, image dimensions, and affective qualities of places [J]. Tourism Management, 2014(40):59~69.
[7]Hunter W C. The social construction of tourism online destination image : A comparative semiotic analysis of the visual representation of Seoul [J]. Tourism Management, 2016(54): 221~229.
[8]张珍珍, 李君轶. 旅游形象研究中问卷调查和网络文本数据的对比——以西安旅游形象感知研究为例 [J]. 旅游科学, 2014, 28 (6):73~81.
[9]ÖnderI, Koerbitz W, Hubmann-Haidvogel A. Tracing tourists by their digital footprints:The case of Austria[ J]. Journal of Travel Research, 2014, 55( 5):566~573.
[10]Thomee B, Shamma D A, Friedland G, et al. YFCC100M : The new data in multimedia research[ J]. Communications of the ACM, 2016, 59( 2):64~73.
[11]Stepchenkova S. Cultural differences in pictorial destination images : Russia through the camera lenses of american and korean tourists[ J]. Journal of Travel Research,2015, 54(6): 758~773.
[12]Song S G, Kim D Y. A pictorial analysis of destination images on pinterest: The case of Tokyo, Kyoto, and Osaka, Japan[ J]. Journal of Travel & Tourism Marketing,2016, 33( 5):687~701.
[13]Jenkins O. Photography and travel brochures: The circle of representation[ J].Tourism Geographies, 2003, 5( 3):305~328.
[14]杨敏, 李君轶, 杨利. 基于旅游数字足迹的城市入境游客时空行为研究——以成都市为例[ J]. 旅游科学, 2015( 3):59~68.
[15]丁娟, 李俊峰. 基于Web地理图片的中国入境游客POI空间格局[ J]. 经济地理,2015( 6):24~31.
[16]Van L O, Schockaert S, Dhoedt B. Georeferencing Flickr resources based on textual meta-data[ J]. Information Sciences, 2013(238): 52~74.
[17]Baloglu S, McCleary KW. A model of destination image formation[ J]. Annals of Tourism Research, 1999, 26( 4):868~897.
[18]Andreu L, Bigné J E, Cooper C. Projected and perceived image of Spain as a tourist destination for British travellers[ J]. Journal of Travel & Tourism Marketing, 2000, 9(4):47~67.
[19]Smith W W, Li X R, Pan B, et al. Tracking destination image across the trip experience with smartphone technology[ J]. Tourism Management, 2015(48):113~122.
[20]Anand P, Holbrook M B, Stephens D. The formation of affective judgments: The cognitive-affective model versus the independence hypothesis[ J]. Journal of Consumer Research, 1988, 15( 3):386~391.
[21]Chen J S, Uysal M. Market positioning analysis: A hybrid approach[ J]. Annals of Tourism Research, 2002, 29( 4):987~1003.
[22]Donaire J A, Camprubí R, Galí N. Tourist clusters from Flickr travel photography[ J].Tourism Management Perspectives, 2014(11):26~33.
[23]Loria S. TextBlob: Simpliベed Text Processing[ Z]. Secondary TextBlob: Simpliベed Text Processing, 2014.