杨策,李明阳
(南京林业大学,江苏 南京 210037)
旅游流作为旅游业发展的基础,是旅游系统连接客源地与目的地的神经中枢和纽带[1]。自旅游学科创建以来,一直是旅游学研究的热点之一。于旅游流而言,旅行活动的主体是旅行者,旅行客流是旅游流的核心,旅行信息的流动、能源的流动等都是旅游流的伴生物[2]。因此,以游客时空移动为主体的旅行客流成为国内外学者研究旅游流领域的核心要素。
目前,旅游流数据大部分来源于传统的历史统计资料,时间分辨率低,多为年度和月度,或是少量抽样调查,费时耗力;或是基于游记网站、微博签到、手机信令等,这些网络大数据的获取难度高、成本大[3-5]。学界对旅游流的波动性研究也是以低频长期的指标描述为主,对目的地的季节性关注较多,对高频短期的波动量化较少[6-7]。然而,现行下的游客受节假日影响,城市及景区的游客流量波动在日际尺度下具有明显的“假日效应”“特色效应”以及由特殊事故产生的“刹车效应”。这就要求旅游监管部门和企业在旅游需求分析的准确性和实效性上更加精准。因此,“假日”和“地方特色”效应期间的出游热潮,在日际尺度的分析更有价值[8]。但这部分研究数据的获得性受限更高,而携程旅行大数据监测平台,联合手机定位导航系统,具有数据规模大、获取难度低、时效性强的特点。在保证数据样本的完整性、充足性的前提下,使得旅游流在高分辨时间尺度上的研究成为可能。
旅游体验是旅游现象的内核,是游客时空分布机制形成的核心,对旅游体验的研究能够促成旅游机制共同体的形成[9]。然而,目前对游客体验的研究多采用网络问卷调查方式,研究方法以层次分析法、现象学分析法、符号学分析法等定量方法居多[10-11]。这些方法多是游客游览完成后经过深思熟虑后填写的,不能保证游客在旅游过程中的主观心理感受,对旅游体验的反馈缺乏及时性,同时对旅游目的地的认知形象和情感形象也有着较为严重的偏差[12]。而本研究基于深度学习模型对旅游目的地游客签到的文本内容和图片信息进行定量分析,能够有效地解决传统问卷调查定量分析方法中信息源、时效性、真实度等方面的局限以及对旅游目的地形象认知不清的问题[13]。
因此,以携程旅行上的游客紫金山国家森林公园签到数据作为旅游流的研究对象,应用时间分层法、季节性强度指数法、核密度分析法以及卷积神经网络(CNN)等方法,以达到如下研究目的:(1)探讨日际尺度和季节性特征下的城市森林公园游客时空分布趋势;(2)揭示城市森林公园旅游流时空变化的深层次原因;(3)构建减少城市森林公园游客分布不均对消费者和森林旅游业负面影响的游客调控建议。
紫金山国家森林公园,面积约31 km2,由明孝陵景区、中山陵景区、灵谷景区、头陀岭景区和其他景点五大部分组成,是南京市规模最大的综合性森林公园。选取该公园作为研究对象的原因有以下几点:(1)公园位于南京市中心城区,是典型的城市森林旅游胜地,受到人们的热衷,游客时空分布不均问题严峻,此类问题普遍存在于同类型的城市森林公园中,因此具有一定研究意义;(2)紫金山国家森林公园作为多元活动场所,自开园以来,游客量逐年增长,总体平均年客流量一直在1 000万人次上下波动;(3)研究区域的社交媒体评论数据样本量较大,满足样本选取条件,可为城市森林公园研究提供详尽、充分的基础数据。
携程旅行作为一款多功能开放性APP,其在旅游用途方面起到了巨大的作用,得到广大群众的支持和应用。游客在携程网上自由发布的签到评价数据,经过后端分类处理后可以向浏览者提供真实性、客观性、准确性、时效性更高的信息。本研究的数据借助网络爬虫(Python 3.7),通过携程旅行上开放的API接口(https://secm.ctrip.com /restapi/soa2/12530/json/viewCommentList)获取包括景区20个主要景点的游客数据,数据签到量为7 698条,游记式评论文本6 322条,图片3 152张。获取到的数据结构包括用户ID、签到时间(年/月/日/时)、文本内容、图片以及对景区的景色、趣味和性价比的打分等信息。
由于获取的数据类型较多,需根据不同的研究目的,对获取的数据进行分类、整合、加工。首先,以2018年1月1日-2020年12月31日为时间节点,利用Excel对获取的签到时间数据按照日际时间尺度进行整合,剔除出现的过大或过小的无效数据,并利用统计分析软件SPSS 24程序中替换缺失值的功能,通过临近点的线性趋势的替换方式对无效数据进行重新赋值。其次,利用Gooseeker 7.0(集搜客)对签到文本数据进行分词,并对其中出现的地名和驱动性偏好词语进行语义归纳及词频统计。最后,利用DeepSentiBank对签到图片按签到的景点进行解析,所得到的结果以“形容词+名词”形式呈现,其中名词是对图片内容的描述,形容词则反映了拍摄者对特定对象的情感倾向[14]。上述数据处理结果最终存储在Excel中,作为研究紫金山国家森林公园旅游流时空分布及驱动因素的基础数据。
1.3.1 时间分布特征分析 在时间上,通过签到频次指数分析紫金山国家森林公园内旅游流时间分布特征。具体计算公式如下:
(1)
式中:t为某一时间游客的签到频数;T为总的游客签到频数;F为游客签到比重。
此外,根据保继刚等提出的季节性强度指数计算紫金山国家森林公园旅游流季节强度指数,以进一步探讨分析旅游流季节性变化规律[15]。具体计算公式如下:
(2)
式中:G表示旅游流的季节性强度指数;xi表示各月份景区游客量占全年游客总量的比重。G值越大表示旅游流的时间变动越大,时间分布越不均匀,淡旺季差异越大;反之,G值越小越趋于零,则说明淡、旺季的差异越小,季节性也就越不明显。
1.3.2 空间分布特征分析 在空间上,采用核密度分析(Kernel Density)来推断紫金山国家森林公园内游客的集散特征。具体计算公式如下:
(3)
式中:f(x)是概率密度函数;k为核函数,也是空间权重函数;x-xi是估测点x到样本点xi的距离;n为样本数量,h是带宽,较小的h值可以使密度分布结果中出现较大幅度的变化。
1.3.3 卷积神经网络 卷积神经网络(Convolutional neural networks,CNN)是深度学习算法在图像处理领域的一个应用。具体技术路线如图2所示,将所得图片利用DeepSentiBank进行解析,得到不同景点游客拍摄图片的APN集合后,对APN进行文本分析,再依据不同图片来源的目的地形象进行关键词分类统计。
图1 基于DeepSentiBank图片目的地形象感知研究示意图Figure 1 Schematic diagram of research on destination image perception based on DeepSentiBank
依据携程旅行上紫金山国家森林公园内游客2018—2020年的日际签到频次数据,绘制了旅游流日内变化趋势图,并根据天气变化特点﹑地方特色、节假日等在图上描绘出突出节点,以便分析旅游流年内的总体变化特征和规律,见图2。
(a) 2020年旅游流签到频次日内变化
(b) 2019年旅游流签到频次日内变化
(c) 2018年旅游流签到频次日内变化图2 紫金山国家森林公园旅游流签到频次指数日内变化Figure 2 Intra-day change of check-in frequency index of tourist flow in Purple Mountain National Forest Park
由图2可知,在过去3年里,紫金山国家森林公园旅游流签到比重日内变化呈现出“多峰型”的分布特点。图中各峰值表现为十一黄金周、五一小长假、梅花节和赏萤期。在这4个时期,客流量迅速增加,游客签到比重保持在高位波动。其中,十一黄金周和五一小长假高位波动时期较短,日均签到比重均在1%以上且十一黄金周的日均签到比重最高达2.52%,而梅花节和观萤火虫节高位波动时间虽较长,日均签到比重却只达到0.5%以上。这种差异与假期天数、植物开花周期及昆虫的繁育期的长短密切相关。整体上看,公园内的游客流量呈现出“峰林潮汐”的时空变化趋势,节假日高峰、工作日低谷的重复结构形成了近3年来旅游客流的时间变化格局,表现为“周期性效应”“假日效应”及“刹车效应”等特征。
根据园区旅游客流“多高峰”的分布格局,以2019年为例,对园区旅游时段进行了淡、旺季的科学划分,总结其典型特征,并选取了典型日和典型月,见表1。
表1 紫金山国家森林公园淡、旺季时间分布及其典型特征Table 1 Typical temporal characteristics of peak and valley seasons in Purple Mountain National Forest Park in 2019
由表1可知,紫金山国家森林公园旅游流日内峰林结构主要由淡季、旺季以及淡、旺季交替3个阶段组成。12月上旬到2月底为公园的旅游淡季,由于气候不适宜,气温长期处于低温状态,致使这一期间游客量极少,其中以2月份的2.1-2.7的游客签到比重最少。3月上旬到4月下旬、5月上旬以及10月上旬为公园的旅游旺季,该时间段内气候适宜,或遇上梅花相继盛开时节,或遇上清明、五一、国庆等国家法定节假日,导致游客量迅速增加,其中以10月份的10.1-10.5的游客签到比重最多。5月中旬到7月中旬的紫金山景区为旅游淡季到旺季的过渡期,初始游客量虽处于低迷状态,但随着月季、玉兰等各色花团的绽放以及仲夏时期萤火虫繁育期季节的到来,游客量在这一时间段内呈现缓慢增长的趋势,其中7.13-7.20的游客签到比重增长的尤为明显。7月下旬到9月下旬、10月中旬到11月下旬时段是高峰到低谷的过渡期,导致游客减少的原因主要是气候由适宜转变为不适宜,气温处于持续高温或持续低温所致,其中10.16-10.22的游客签到比重下降尤为明显。但由于大、中、小学学生处于暑假期间、灵谷寺仲夏赏萤最佳观赏期或秋季赏红叶的适宜时段,该时段的游客量保持着稳定发展。
根据保继刚提出的季节性强度指数算法,计算紫金山国家森林公园游客签到各月比重及季节性强度指数,进一步分析紫金山国家森林公园旅游流季节性变化规律,见表2。
表2 紫金山国家森林公园游客签到各月比重及季节性强度指数Table 2 Monthly proportion and seasonal intensity index of visitors in Purple Mountain National Forest Park %
由表2可知,2018-2020年紫金山国家森林公园旅游客流量季节性指数均偏大,表明紫金山国家森林公园旅游流季节性分布差异比较明显,旅游流的淡、旺季分化问题较为突出。其中,2018-2019年间季节性强度指数从比较高的5.21下降至4.81,存在1个下降的趋势,说明紫金山国家森林公园旅游流的淡、旺季分布差异正逐渐转小,紫金山国家森林公园旅游流季节性指数变化比较稳定。但2020年季节性强度指数突然呈现大幅度的增加,联系到2020年新冠肺炎疫情对人们出游的巨大影响,导致各月份景区游客量占全年游客总量的比重增大或减小,致使季节性强度指数偏大。因此,2020年季节性强度指数的增大属于特殊情况。
基于2019年游客签到数据,选取梅花节(3.1-3.5)、五一(5.1-5.5)、赏萤期(6.16-6.20)和国庆(10.1-10.5)4个时间段内典型的日内游客签到频次,利用ArcGIS中的Kernel Density来推断紫金山国家森林公园内游客的集散特征,见图3。
(a) 梅花节游客集散分布特征
(b) 五一游客集散分布特征
(c) 赏萤期游客集散分布特征
(d) 国庆游客集散分布特征图3 不同时期下的旅游客流时空分布特征Figure 3 Spatial and temporal distribution characteristics of tourist flow under different periods
由图3-(a)可知,梅花节时段内的游客主要聚集在以梅花山为主要核心景点周围,以明孝陵、灵谷寺为次要核心景点附近;由图3-(b)可知,五一时段内,则以明孝陵、美龄宫为主要核心景点,以音乐台、灵谷寺、中山陵为次要核心景点;由图3-(c)可知,赏萤期时段内,游客以灵谷寺、明孝陵、美龄宫为聚集核心,并以此为主要核心向外逐级递减;由图3-(d)可知,国庆时段内游客时空分布以明孝陵为第1核心景点,以美龄宫、音乐台、灵谷寺、中山陵为次要核心景点。相比较而言,五一和国庆2个时间段内的游客集散密度椭圆空间范围比梅花节和赏萤期的大,且不同等级下的密度空间范围也各不一样。整体上看,紫金山国家森林公园的热门景点均分布在公园南部,次要核心景点位于明孝陵、灵谷寺、美龄宫三大热门景点1 000 m范围内。相反,公园北部既没有最受欢迎的景点,也没有次要的热门景点。紫金山国家森林公园旅游流呈现出“多核心”的空间分布趋势,且具有明显的等级差异特征。这意味着游客主要聚集在以孝陵、中山、灵谷等著名旅游景点为核心、半径约1 000 m的3个椭圆形空间内。
利用Gooseeker 7.0对签到文本进行分词分析,见图4。游客的签到文本内容直接反映了游客的出行动机。由于旅游流是游客根据自身动机而进行的一种有选择性的移动,影响其移动的驱动因子是有迹可循或突然产生的,如许多游客喜欢在夏季前往山区度假胜地,在遇到大风暴时逃离洪水泛滥的地区等,因此对游客空间分布驱动因素的分析可以从规律性因子和突发性因子2个方面进行划分[16-17]。同时参考前人关于游客时空分布驱动因素的研究成果,将规律性因子划分为季节性因子和基础条件因子,突发性因子划分为自然因子和人为因子[18-21]。其中,季节性因子是指气候条件的适宜性与资源结构的观赏性;基础条件因子是指旅游地的合理性、旅游者本身的感受以及交通的便捷性;自然因子和人为因子是指出行意愿受到人为灾害或自然灾害的阻碍而停滞下来的影响因素。将各分词结果按三级指标进行语义归纳和统计,见表3。
图4 基于Gooseeker 7.0的游客签到文本分词示意图Figure 4 Schematic diagram of visitor sign-in text splitting based on Gooseeker 7.0
表3 紫金山国家森林公园旅游者出行空间偏好影响因子Table 3 Influencing factors of tourists’ travel spatial preference in Purple Mountain National Forest Park
由图4可知,整体上,游客对紫金山国家森林公园的景色评价较高,体验满意度较强,同时游客对明孝陵、中山陵、美龄宫三大景点的出行意愿极为强烈,而音乐台、灵谷寺则在出行意愿中更为次之,表明对不同类型的景点,游客的偏好倾向具有明显的差异性。由表3可知,旅游者的旅游意愿受季节天气、植物物候、文化景区等级和基础设施条件的影响最大。适宜的气候、良好的交通条件、著名的文物古迹、多姿多彩的森林景观,都可以极大地促进人们的旅游意愿。相反,极热或极冷的天气条件、雨天和大雪天、COVID-19的爆发,都会大大降低人们的旅行意愿,导致游客数量急剧下降。
图像的感知一定程度上反映了游客对旅游目的地的认知形象和情感形象上的关注倾向。本研究从不同等级聚集度的景点中选取10个共400张图片,通过DeepSentiBank对游客签到图片数据进行目的地感知形象分析,得到紫金山森林公园目的地高频名词集合,见表4。同时参考Beerli、李雷雷提出的认知形象维度,将认知形象分为自然景观、动物景观、娱乐活动、文化艺术、人造建筑、食物和服务设施7个维度[22-23]。将分析结果与各自景点对应,以1和0来表示空间有、无此要素,累计各景点占各认知维度的比重,用作评价景点-认知维度之间的关注偏好度,见表5。
表4 紫金山国家森林公园目的地高频名词一览表(前24项)Table 4 List of high-frequency nouns of destination in Purple Mountain National Forest Park (top 24)
表5 紫金山国家森林公园认知形象匹配一览表Table 5 List of perceived image matching in Purple Mountain National Forest Park %
由表4可知,整体上,游客对紫金山国家森林公园的关注偏好主要是以植物、雕塑、建筑物、湖泊景观为主,其中植物景观受到游客的钟爱,且独占鳌头。人物这一元素为旅游者自身或其他旅游者,因而被剔除在游客认知之外。其次是山石、陵墓、寺庙等人文古迹景观,其后是雄伟壮观、气势磅礴的瀑布及憨态可掬、展翅高飞的白鸽景观。在游客认知偏好的第4个梯队中,有塔楼、亭台、休憩凳等休憩景观。以酒店、餐厅、观光车等旅游服务设施为主的照片占比最小,表明游客对旅游服务设施最不感兴趣。
由表5可知,游客对不同景点的关注倾向具有明显的差异,对梅花山、紫霞湖、中山植物园等景点的偏好主要聚焦于以植物、湖泊、山石、瀑布为代表的自然风光,对音乐台和灵谷寺这类常存动物迹象的景点,则以自然风光和建筑为背景的动物景观更感兴趣,如鸽子或萤火虫。而对于明孝陵、中山陵、航空烈士纪念馆等历史文化特色浓厚的景点,游客偏好不仅聚焦于自然风光和建筑特色,且对历史沿革、文化底蕴及艺术美感十分感兴趣。整体上,游客对紫金山国家森林公园所拍摄照片的元素主要集中于自然风光、特色建筑、历史遗迹。
本研究关于旅游者人地关系的阐述有利于对森林旅游形态与旅游者的群体流动特征及其影响因素加以了解和把握。主要贡献如下:(1)聚焦森林旅游地的发展,将旅游流呈现“周期性效应”“季节性效应”“假日效应”以及“刹车效应”等特征引入旅游研究,以日际尺度视角审视森林旅游地的空间结构,为旅游地的空间优化研究提供数据支持;(2)构建游客出行意愿的逻辑思路,挖掘森林空间格局与旅游者行为的相关效应,更为微观和全面地刻画森林物质空间和社会空间,协助人本视角的旅游规划应用;(3)基于大数据和深度学习的方法为精细尺度上的森林旅游行为测度提供技术路径,构建基于大数据的旅游者时空行为方法,为以人为本的旅游服务与管理提供了技术支撑。
从研究结果来看,本研究对森林公园旅游地的发展有如下启示:(1)采取科学的管理措施,协调淡、旺季的客流量。在旅游旺季,根据游客时间分布特征合理配置景区服务资源,如为游客提供各景点游客人数实时显示,增加导游缆车服务班次等,以引导旅游客流流向、提升游客的旅游体验感;在旅游淡季,要充分挖掘公园旅游特色,开发新的旅游产品,做到在不同季节里形成不同的旅游特色产品,从而达到协调淡、旺季客流量差异的目的。(2)结合森林公园资源优势,优化景观系统格局。结合森林公园游客空间分布格局及游客时空分布影响因素研究,对公园内客流空白或薄弱区域,应根据资源优势适当开发,统筹协调,优化森林公园旅游空间格局,在开发同时应注重山-城-林景观系统的秩序性和观赏性。例如,可以充分挖掘紫金山国家森林公园北面自然资源和人文资源,形成以航墓游览、水景游赏、林木欣赏、登山休闲为主题的新的旅游景点,避免游客过于聚集于景区南面,以达到改善人流拥堵,优化旅游空间分布的目的。
大数据分析可以为旅游管理者提供更深入的洞察,赋能文旅产业一线的规划、决策和业务发展,持续推进智慧文旅产业的可持续发展。旅游文本大数据挖掘技术,通过分析游客的行为,可以实现对旅游市场的实时监控。采用用户图片数据进行定量分析,通过获取个体主观的景观感知偏好。在GIS空间分析技术支撑下,将数据驱动方法与旅游领域知识相结合,可以更为直接地刻画游客的时空分布特征。但本研究在游客空间偏好分析及形成机制方面的研究,还不够深入。在后续研究中如何进一步从旅游偏好、空间行为动机、游客性别角度,对比分析不同个体属性的旅游流,以进一步揭示城市森林旅游流中各热门景点的吸引力差异研究,实现大数据的充分解读,为相应的森林公园提供更科学、合理的指导性意见。
以时空移动的游客为主体,以南京紫金山国家森林公园为研究区,通过爬取携程旅行上的游客签到信息,采用时间分层法、季节性强度指数法、核密度分析法对游客的分布特征进行时间和空间上的研究,并利用Gooseeker 7.0和DeepSentiBank对游客签到评论文本内容及图片进行语义上的分析和图像上的感知,以进一步挖掘游客对旅游目的地的形象认知和兴趣偏好,从而为我国城市森林公园旅游优化及营销策略制定提供科学依据。具体结论如下:(1)日际尺度下,紫金山国家森林公园旅游流呈现“周期性效应”“假日效应”以及“刹车效应”等特征,且不同时段下的旅游流淡、旺季具有明显的典型特征;3年来紫金山国家森林公园季节性强度指数均较大,表明其旅游流淡、旺季分化问题较为突出;(2)高峰期园区内的游客流呈现出“多核心”聚集的时空分布趋势,且具有明显的等级差异特征。同一时期游客的空间集散密度变化差异较大,不同时期的游客集散分布范围不同,且不同景点对游客分布存在不同的吸引力。整体上,游客更喜欢去公园南部的景点,主要和次要的热门景点都位于其中。此外,游客主要聚集在以孝陵、中山、灵谷等著名旅游景点为核心、半径约1 000 m的3个椭圆形空间内;(3)游客对紫金山森林公园的体验满意度较高,不同类型的景点游客的偏好倾向具有明显的差异性。整体上,旅游偏好受季节气候、植物物候、人文景区等级、基础设施条件影响最大,更喜欢到交通条件好、文物古迹多、森林景观多的景区。