钱升华 ,邵 波
(1.北京师范大学 人工智能学院,北京 100875;2.天津财经大学珠江学院 数据工程学院,天津 301811;3.天津市文化遗产保护中心,天津 300050)
自1970 年代Hunt 提出旅游形象概念[1]以后,旅游形象研究逐步受到学界关注. Kaynak 等[2]认为旅游形象是主观的,是游览者对旅游目的地的印象认识,Gunn[3]把旅游形象分为原始形象和诱导形象两种类型,Gartner[4]认为其由认知形象、情感形象和意动形象组成,Baloglu 等[5]继承Gartner 的观点,并将其发展为认知形象、情感形象和整体形象. 在此基础上,学者们对旅游形象感知问题进行了深入研究. Gallarza 等[6]认为形象感知的形成机制由静态过程和动态过程两种形态构成,Mayo[7]指出交通、气候和景色等因素对旅游形象感知具有重要影响,程金龙等[8]将影响旅游形象感知的因素分为目的地因素、游览者因素、信息因素和外部因素等,吴小根等[9]则在构建形象感知概念模型的基础上开展实证检验,发现游客因素、情境因素和感知刺激因素是影响形象感知形成的主要因素.
传统的游客感知数据主要依赖问卷调查、见面访谈、量表测算等途径获取,受制于数据采集覆盖面窄、样本数量少及问卷设计不全面等问题,研究结果很难真实客观地反映游客的形象感知情况. 不过,随着移动互联网技术的普及和自媒体应用的出现,大量与形象感知相关的用户生成内容(User Generated Content),UGC通过在线的方式被源源不断地创造出来,以其真实性、可靠性及直观性成为形塑和评定旅游目的地形象感知的主要数据源,被众多研究者所接受并采用[10]. Marine-Roig 等[11]基于游客线上评论分析了巴塞罗那的形象感知情况,Eran[12]利用Facebook 的评论对尼泊尔震后旅游形象感知进行了研究,张高军等[13]基于网络日志分析了华山旅游形象感知问题,王媛等[14]采用文本挖掘方法将文化古镇朱家角的旅游形象感知分为地理位置形象、旅游地类型形象和地方性形象,张文亭等[15]借助ROST Content 软件,对世界文化遗产福建永定土楼的网络游记和官网传播文本展开对比分析,并根据结果给出相关建议.
长城是我国现存规模最大的古代军事防御工程和最早列入世界文化遗产名录的文物古迹,以其上下两千年、纵横数万里的时空跨度,成为人类历史上宏伟壮丽的建筑奇迹和无与伦比的历史文化景观. 目前,国内对于长城文化遗产的研究主要集中在长城历史文化[16-18]、长城考古调查[19,20]、长城遗产保护[21-24]、长城文化景观[25,26]、长城旅游资源开发[27-29]等方面. 相较之下,对长城文化遗产的形象感知尤其是利用UGC 开展相关研究的成果较少[30,31],其研究的范围、深度和广度还有很大的提升空间. 作为中华民族的精神象征,参观游览长城是人们感知中华文化、抒发爱国情感和增强保护意识的重要实践活动和认知体验. 位于京津冀地区的明代蓟镇长城,是目前我国现存长城中保护状况完好、气势雄伟壮观、历史文化底蕴深厚的杰出代表,是古代长城建筑成就的集大成者,也是最受人们喜爱和关注的文化遗产旅游目的地之一. 在京津冀协同发展的时代背景下,利用UGC 数据研究社会公众对长城文化遗产的形象感知和情感分析,对于挖掘长城历史文化价值、提升保护管理利用水平、推动区域文旅融合发展具有十分重要的作用.
通过对京津冀明代蓟镇长城的考察,本研究选取了保护状况较好、历史景观价值较高且具有典型代表性的5 处长城文化遗产区作为研究对象,分别是位于北京的八达岭长城和慕田峪长城、天津的黄崖关长城、河北省的山海关长城和金山岭长城. 它们地理位置优越、文物级别高、开发开放早、社会关注度高,这为UGC数据的搜集整理带来了一定的便利性. 相关简要信息见表1.
表1 京津冀长城文化遗产简要信息
游客在参观游览完长城文化遗产后,大多会在各大旅游出行网站上进行在线点评,分享自己的旅行体验,由此形成大量的UGC 文本数据. 为此,本研究选取在线评论数量较多的携程旅行、美团等网站的UGC文本数据,使用Python 网络爬虫技术,对上述5 处长城文化遗产评论数据进行检索. 数据采集遵循以下原则:一是为保证数据的时效性,检索时间限定在2015 年1 月1 日至2020 年10 月10 日;二是剔除评论中文字过少、语义逻辑不清或与参观游览无关的评论;三是去除高度重合的评论. 经有效过滤筛选,共采集UGC数据9 931 条,其中八达岭长城3 010 条,慕田峪长城3 005 条,黄崖关长城787 条,山海关长城2 255 条,金山岭长城874 条.
1.3.1 数据预处理
对爬取后的文本数进行数据清洗,去除文本中的HTML 标签和大量空白字符等,以保证处理后的数据符合研究需要.
1.3.2 中文分词
使用Python 的Jieba 对文本进行分词处理. 由于现有的词库无法完全识别长城形象感知术语,因而构建了一个自定义长城形象感知词典,并基于“哈工大停用词词库”“百度停用词表”“四川大学机器学习智能实验室停用词库”集合表[32]构建自定义停用词词典,去除无关停用词以降低特征向量维度.
1.3.3 词频统计与分析
通过统计一定长度的语言材料中每个词出现的次数,使用共词分析、社会网络分析等文本分析方法研究词频统计结果,用于描述词汇规律,发现隐藏在文章中的信息[33].
1.3.4 语义网络分析
通过可视化的方式将各个词语之间的关联规则以语义网络图的形式展现出来,可清晰看出各元素之间的联系及文本的深层次结构. 本研究在Python 中计算评论文本的各个景点的共现矩阵的值,然后把共现矩阵转化为节点和边,最后把节点和表导入到Gephi 工具中,得到各个景点的语义网络分析图.
1.3.5 情感分析
使用Python 的SnowNLP 库对京津冀长城文化遗产的评论信息展开情感分析.
UGC 文本数据中的高频词反映了社会群体对空间高度映射中的细节特征,说明空间的具体形象[34]. 评论中的关键词出现的频率越高,表明给游客留下的印象就越深,感知度越强烈,也越能够反映游客对游览对象真实的认识和理解. 利用Python 程序对上述5 处研究对象的UGC 文本数据进行高频词提取统计,整理出了前100 个高频词(表2),并以此开展整体形象感知分析.
从表2 可以看出,“长城”一词出现频次最多,说明社会公众对游览对象的认知感极强,而紧随其后的“不错”“值得”以及“推荐”等高频词,显示游客对长城文化遗产的评价很高,而“景区”“景色”的出现表明了长城文化遗产当前的开发开放形式和景观情况,“爬”“缆车”等词的出现说明了社会公众体验长城文化遗产的主要旅游方式.
为了更直观地表达社会公众对京津冀长城文化遗产的整体形象感知,本研究将提取到的高频词汇总形成标签词云图(图 1). 与表 2 类似,由图 1 可见“长城”“景色”“爬”“不错”“值得”等词语在 UGC 文本数据中出现的频率最高,由此表明“长城”是游客参观旅游的核心载体,“景色”是吸引游客的重要方面,“爬”是游客体验长城自然和人文景观的主要方式,而“不错”“值得”等词则反映出游客对参观游览长城文化遗产的态度.
图1 京津冀长城文化遗产标签词云图
表2 京津冀长城文化遗产前100 个高频词
在对京津冀长城文化遗产整体形象分析的同时,本研究对5 个研究对象分别提取了高频词,形成共有高频词和相异高频词两大类别,并将之归纳整理为6 种类型展开探讨,见表3. 从表3 可以发现,在旅游吸引物方面,5 个研究对象中均出现了地理信息如“中国”“北京”、游览对象如“长城”“建筑”、景区环境和特点如“景色”“环境”“雄伟”“壮观”等,由此显示出游客对京津冀长城文化遗产核心资源的总体认知情况;在历史文化方面,主要聚焦在历史信息如“古代”“戚继光”和文物古迹如“城墙”“烽火台”两类,表明游客对长城文化遗产人文信息具有一定了解;在游览活动方面,共有高频词集中在游览时间如“小时”“下次”、出游人群如“孩子”“游客”和游览行为如“爬”“坐”等,表明游客的旅游活动具有多样性;在游览设施方面,主要体现在交通方面如“车”“停车场”“摆渡”等,表明游客主要依赖汽车之类的地面交通工具前往长城;在旅游服务方面,则集中在票务信息如“门票”“携程”和景区管理如“交通”“排队”等,表明游客比较关注购票信息和游览秩序;在游览评价方面,一系列的情感词语如“开心”“不错”和旅游体验如“推荐”“建议”等表明游客对长城文化遗产总体的评价是积极正面的.
表3 京津冀长城文化遗产5 个研究对象的相同高频词
此外,本研究还对5 个研究对象的相异高频词进行了梳理,分成6 个类型,见表4. 在旅游吸引物方面,除了地理信息差异外,区别主要集中在旅游景点和景观特色方面,其中黄崖关长城和山海关长城旅游景点较多,八达岭长城和金山岭长城的景观特色最为突出;在历史文化信息方面,山海关长城和金山岭长城的历史遗迹和人文信息较为丰富;在旅游活动方面,金山岭长城的“摄影”“拍摄”引人注目;在游览设施方面,慕田峪长城最为齐全;在旅游服务方面,主要涉及慕田峪长城和山海关长城的票务问题;在游览评价中,八达岭长城突出了游览体验而山海关长城更多体现在消费感受上.
表4 京津冀长城文化遗产5 个研究对象的相异高频词
语义网络主要反映高频词之间的内在关系,通过词语之间的出现频次与远近关系来判定彼此之间的联系程度. 从图2 可以发现,京津冀长城文化遗产中的语义网络呈现“核心—次核心—外围”的层级结构. 其中,最为核心的词为“长城”,由此延伸出“不错”“坐”“缆车”“景区”等一系列中心词形成核心聚类. 可见游客对长城文化遗产最为关注的是游览评价、游览方式、游览设施和游览环境等方面. 在次核心圈层,“北京”“山海关”“景色”“景点”“巴士”“走”“门票”“值得”“好玩”等高频词的出现,表明游客对地理信息、旅游景点、交通出行、游览方式、票务服务以及游览感受等方面的关注度较高. 而在外围圈层,出现的词语更多、内容更多元、联系也更稀疏,显示出游客对长城文化遗产形象感知具有多样性.
图2 京津冀长城文化遗产的语义网络结构
在对京津冀长城文化遗产总体语义网络结构分析的同时,本研究还对5 个研究对象各自的语义结构进行了研究,鉴于文章篇幅不再列图表示. 不过,与总体语义结构相比,5 个研究对象在核心词汇上表现出一定差异. 如八达岭长城的核心圈层高频词汇为“长城”,慕田峪长城的核心圈层高频词为“缆车”,黄崖关长城的核心圈层高频词为“黄崖关”,金山岭长城的核心圈层高频词为“金山岭”,山海关长城的核心圈层高频词为“天下第一关”. 这里面黄崖关长城、金山岭长城和山海关长城的核心圈层高频词均为本地名称,表明游客对其地理信息及游览对象的认知. 鉴于八达岭长城极高的知名度,使人们很容易将其等同于整个长城,所以就不难理解八达岭长城的核心高频词为“长城”了. 比较有意思的是,慕田峪长城的核心高频词是“缆车”,表明其自身所处地理位置比较险峻,乘坐缆车成为游客最为深刻的游览体验.
情感分析,又叫观点挖掘(opinion mining),是运用文本挖掘技术对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程[35,36]. 本研究使用Python 的SnowNLP 库对UGC 文本信息进行分析,并根据结果给予1~5 的赋分. 按照积极情绪、中性情绪和消极情绪的分类方法,本研究将得分在1~2 区间的划分为消极情绪,将得分在4~5 区间的划分为积极情绪,得分为3 的划分为中性情绪,并由此形成表5.
表5 基于文本挖掘的京津冀长城文化遗产情感分析
从表5 可以清晰地看出,在京津冀长城文化遗产的整体情绪感知中,积极情绪远高于消极情绪和中性情绪,说明游客对其情感评价总体是呈正面的. 通过游览长城文化遗产能够给参观游客带来良好的体验,并由此激发对我国悠久历史、壮丽山河的真挚热爱之情. 如“看到群山峻岭,很壮观,很漂亮,祖国的山河真好”“不到长城非好汉,上了长城感觉祖国大好河山真伟大!想到祖国的五千年历史想到祖国的不断变迁,要为祖国复兴之路添砖加瓦”等. 不过,在游览过程中,也有一些游客因为旅游服务、设施等问题而引发负面情绪,如“景区卫生较差,停车场收费虚高,景区外围小摊店主素质差”“景色一般,可玩性低,体验不佳”等,显然这些问题的存在对长城文化遗产的总体评价产生了一定的负面影响. 具体到个体方面,彼此之间也存在较大差异. 其中,积极情绪比例最高的是八达岭长城,依次是金山岭长城、慕田峪长城、黄崖关长城,对山海关长城的积极情绪比例最低. 与之相呼应的消极情绪比例最高的是山海关长城,最低的是八达岭长城. 比较有意思的是,中性情绪在整个情感分析中所占的比例大体相当,由此说明中性情绪在情感评价中不占据主流.
一般认为,情感分析的本质是传统的单标签分类问题[37]. 旅游网站除了让游客在线点评游览信息和表达情绪外,还让游客通过给星打分的方式表达自己旅行感受,从而给人以标签的形式来直观判断. 本研究将所有文本数据上的星级进行整理汇总,把五颗星和四颗星归为积极情绪,三颗星归为中性情绪,二颗星和一颗星归为消极情绪,形成表6. 与表5 类似,京津冀长城文化遗产的情绪感知中积极情绪依然远高于消极情绪和中性情绪. 不过值得注意的是,基于游客打分的情感分析中积极情绪比例整体高于基于文本评论的积极情绪,中性情绪和消极情绪比例低于基于文本评论的比例. 如在整体情感方面,积极情绪的比例比表5 高10.12%,消极情绪比表5 低9.11%,而中性情绪低1.01%. 5 个研究对象的情况也大致相同. 之所以出现这种情况,本研究推测与经过逻辑思维形成的文本评论相比,在线打分具有一定的随意性,加之评论者大都具有宽容心,所以打分只能大体反映游客的情绪感知,但其准确性上要低于文本评论的情绪感知. 此外,通过表6发现,积极情绪最高的是黄崖关长城,其次是八达岭长城、慕田峪长城和金山岭长城,对山海关长城的积极情绪比例最低. 而在消极情绪中,金山岭长城占比最高,依次是慕田峪长城、山海关长城、八达岭长城,最少的是黄崖关长城.
表6 基于游客打分的5 个研究对象的情感分析
综上研究,可以得出如下结论:1)京津冀长城文化遗产的整体形象感知突出表现在长城及风景环境等吸引物上,并由此延伸到与之相关的历史文化、旅游活动、游览设施、旅游服务和游览评价等方面;2)京津冀长城文化遗产的语义网络围绕“核心—次核心—外围”圈层结构构建出各个元素之间的远近关系;3)京津冀长城文化遗产整体情绪感知正面积极的评价远高于负面消极和中性评价,表明参观游览长城文化遗产能够获得良好体验;4)京津冀长城文化遗产总体形象感知较好,但5 个研究对象之间存在一定的差异性.
鉴于此,对京津冀长城文化遗产保护发展提出如下建议:1)加强长城文化遗产的保护传承与宣传阐释.习近平总书记指出,长城凝聚了中华民族自强不息的奋斗精神和众志成城、坚韧不屈的爱国情怀,已经成为中华民族的代表性符号和中华文明的重要象征. 要做好长城文化价值发掘和文物遗产传承保护工作,弘扬民族精神,为实现中华民族伟大复兴的中国梦凝聚起磅礴力量[38]. 京津冀长城文化遗产作为整个长城最具代表性的段落之一,在突出景观特色的同时也要在长城保护维修、长城精神宣传、长城文化传承方面下功夫,让更多的游客通过参观游览长城激发爱国主义情感、增强民族自信心和自豪感;2)做好补短板工作. 研究表明,游客对京津冀长城文化遗产的总体形象感知是积极的,但在旅游服务、游览设施以及消费体验等方面还存在一些不尽如人意的地方,应根据上述问题开展有针对性的改进和加强,不断提升京津冀长城文化遗产的游览体验;3)推进差异化定位与协同发展. 京津冀长城文化遗产的5 个研究对象尽管在景观形态上大致相同,但也存在不少差异性,因而有必要在京津冀协同发展的大框架下,建立京津冀长城文化遗产保护发展联盟,根据不同长城点段的特点,做好顶层设计和规划引导,突出5 处研究对象的资源禀赋和比较优势,开展统一但各具特色的品牌定位,不断推进长城文化旅游融合发展.