基于社交媒体数据的北京游客情感体验及时空特征研究

2022-11-03 12:46佟,孟
绿色科技 2022年19期
关键词:高频词语义景区

杨 佟,孟 斌

(北京联合大学 应用文理学院,北京 100101)

1 引言

情绪地理学是基于传统人文地理学分支学科对情绪与空间关系关注的基础上[1],逐渐发展而来的一门新兴的跨学科研究领域。国外对于情感地理问题的研究主要在以下方面:人类心理和生理健康[2]、地方感知[3]、地方依恋[4]、游客情感的时空特征及规律[5]、情感背景下的城市规划[6]等。情感计算是针对具体的文本内容进行处理、分析,将其分为正面、负面、中性等情感类型的过程[7]。进入21世纪之后,游客情感研究在方法论和机制探索上日渐成熟,而文本内容挖掘是情感分析的主要研究方向。早期的情感分析主要是基于文本数据,对词语语义的情感倾向进行计算和分析。之后有学者在情感词典的基础上,通过设计情感计算规则计算游客情感[8]。

近年来,越来越多的旅游者利用网络媒介获取旅游信息。同时,用户将自己的原创内容通过网络平台发布,“由用户产生的内容(user-generated content,UGC)”的概念逐渐兴起[9],一般指旅游者在社交媒体平台上通过发布旅游文字和照片、撰写攻略、分享旅游视频等方式留下的游览足迹。社交媒体数据因其获取省时省力、真实可靠,逐渐被应用于科学研究中。学者可以通过分析用户原创内容,从游客自身的角度研究游客的行为和情感特征,这为旅游研究拓展了新的方法和视角。在此背景下,许多国内外学者借助社交媒体数据率先开展了大数据时代下的旅游研究:利用地理标记照片分析中国入境旅游流时空分布特征[10,11];以旅游门户网站爬取的游记、评论为研究数据,分析游客对旅游目的地形象的感知[12,13];利用游客签到数据对文保单位的关联度进行定量测度[14];以UGC图片元数据研究旅游目的形象[15];融合气象数据和UGC文本数据分析游客情感与气候之间的相关关系[16];利用机器学习方法对文化资源密集区进行感知研究[17]。

综上,本文以北京市的16个市辖区作为案例地,借助新浪微博文本数据,研究北京游客的正负面情感特点和时空特征,以丰富地理学在情感研究的视角和方法,并为提升城市旅游服务和改善基础设施建设提供理论依据,并进一步拓宽社交媒体数据的应用领域。

2 研究区概况与数据源

2.1 研究区概况

北京是我国政治中心、文化中心、国际交流中心、科技创新中心。此外,北京拥有丰富旅游资源,其中对外开放的旅游景点达200多处,拥有文物古迹7309项,国家重点文物保护单位99处,市级文物保护单位326处。2019年,北京市接待游客总人数3.22亿人次,比2018年增长3.6%。其中,接待国内游客3.18亿人次,增长3.7%。这座城市作为中国形象和象征,一直受到国内外的高度关注。

2.2 数据源

新浪微博平台是当下中国最热门的社交媒体平台之一,依据新浪微博官方发布2020年微博用户发展报告显示,截至2020年9月份微博月活跃用户达5.11亿个,日活跃用户达到2.24亿个。利用新浪微博官方API,抓取时间为2019年的全北京市域内的微博数据,其中每条数据均包含文本内容、用户编号、经纬度、发布时间等字段,获取北京市2019年微博用户数据1175余万条,数据结构如表1所示。

表1 微博数据结构示例

3 研究方法

3.1 基于BERT模型的旅游行为分类与识别

BERT(Bidirectional Encoder Representation from Transformers)是由Google公司在自然语言处理(NLP)中的一项重大突破[18],该模型能够大幅提升文本识别的准确度。本文采用BERT模型,利用Python语言进行编译,对微博文本内容进行机器学习,提取与旅游相关微博文本。本研究中具体文本处理方法如下:首先,筛选出北京非本地用户微博数据共4206915条,随机选择20000条数据作为训练样本。针对每条文本,如果它与旅游活动有关,则手动标记为1,反之,则标记为0。第二,利用机器学习和BERT模型对20000条训练数据进行预处理,并验证分类精度,通过多次调整相应参数和迭代次数,得到训练好的文本分类模型,精度达到93%。第三,基于该分类模型,将所有的微博数据进行分类,最终识别出2019年北京游客旅游活动数据共247469条。最后,从旅游活动数据中随机挑选5000条进行了人工验证,平均准确率达到98.3%,验证了该模型具有良好的分类效果。

3.2 基于ROST Content Mining的文本分析

ROST Content Mining软件是武汉大学沈阳教授发明,用于挖掘文本内容的系统软件,该方法主要专门针对网络媒体上的信息内容,对文本资料进行分词处理、高频词统计,以及聚类、相关性、情感趋向、时序等分析,构建出社会网络、语义网络等[19]。本文主要利用ROST CM6软件,针对文本内容首先进行分词处理和高频词统计,并计算游客情感值,同时针对正负面情感的高频词构建语义网络。

3.3 局域Getis-Ord Gi*指数法

Getis-Ord Gi*统计是一个热点分析模型,通过z得分和p值可以看出高值或低值要素在空间上发生聚类的位置[20]。热点分析工具的目标就是识别出具有统计显著性的聚类区域。基本的逻辑是,按照一定邻域,重新抽样数据,根据本地数据均值相对于总体均值的偏离度,来判断空间分布的随机性是否成立。假设条件就是要素在空间分布上是随机独立分布的,那按照空间加权计算后的结果势必呈现出正态分布[21]。

4 结果分析

4.1 词频分析

词频统计结果如表2所示,“打卡”一词的频率最高,反映出打卡行为是游客的主要旅游行为之一。“故宫”“故宫博物院”“颐和园”“天安门广场”和“圆明园”等高频词反映出游客在北京旅游的主要目的地,多位于具有丰富文化和历史的5A景区。“吃”“走”“拍”和“逛”等高频动词说明游客旅游的主要旅游活动。“天气”“好热”等高频词可以看出游客对于天气的关注以及游客对天气炎热的抱怨。“烤鸭”“吃”等高频词可以看出游客对北京特色美食的关注。

表2 旅游行为相关微博高频词

4.2 游客情感值计算结果

本文对北京游客发送的网络文本进行情感分析,得到积极、中性、消极3种情感类型,并对积极情绪和消极情绪按程度划分为一般、中度、高度,结果如表3所示。积极情感微博数量为118035条,占比47.70%;中性情感微博数量为91371条,占比36.92%;消极情感微博数量38063条,占比15.38%。总体上看,积极情感的微博数量多,占比最高,消极情感的微博数量少,占比最低。在积极情感中,一般积极的情感占比最高,可见游客对北京的积极情感主要以轻度的积极情绪为主,高度积极的情感占比相对较少;在消极情感中,一般消极的情感占比最高,高度消极的情感占比最低,极少有极端的负面情绪。这表明绝大部分游客在北京旅游体验的满意度较高,大多为正面体验。

表3 游客情感分布情况

4.3 游客情感语义网络分析

通过ROST CM6软件分别对积极情绪和消极情绪的高频词进行语义网络分析,不同节点之间用直线和箭头表示连接关系。从积极情感语义网络结构图(图1)可以看出,“故宫”“博物院”“天安门”“风景”是图的核心节点,表明游客来京旅游的主要目的地。“历史”“文化”“街区”“天气”等节点属于次核心节点,表明游客在意旅游景区的历史文化,同时天气也是影响游客旅游体验好坏的因素之一。最外围的节点中“地铁”节点相对独立,可知游客对于交通设施配置的关注。此外,从“好看”“开心”“快乐”“美丽”“好吃”等节点反映了多数游客对于景点及地方美食的满意。由此可以得出游客的积极情感多表现为赞美、良好体验、文化丰富等。

图1 积极情感语义网络结构

从消极情感语义网络结构图(图2)可以看出,“小吃”“步行街”“地方”“公园”是图的核心节点,表面景区的属性和优势。“遗憾”“可惜”“下次”“再见”等节点反映出了游客消极情绪。从次核心节点“排队”“时间”

图2 消极情感语义网络结构

“小时”反映出游客对于景区排队时长问题的关注。然而,通过分析原始评论发现,人流量大、景区服务质量欠佳、较差的天气状况会让游客产生负面情感,例如:“人多的漫天遍野,火车站更是个大杂货铺令人窒息”“今天的景点总结,又贵又不好玩”“首站长城,鸟巢水立方,实在是太冷了”,由此可以得出游客的消极情感多表现为遗憾、疲惫、失望等。

4.4 游客情感时空热点分析

本文利用在上述情感值计算结果的基础上,利用Getis-Ord Gi*方法对游客情感值进行时空热点分析,得到游客情感冷、热点空间分布,如表4所示。情感热点区域主要分布在主城区,在五环内以及六环边缘均有分布,情感冷点区域主要分布六环以外以及郊区。这表明游客在北京旅游主要选择在主城区游览,少部分人选择到郊区旅游。造成这一现象的原因可能与旅游资源分布有关,因为北京大部分知名景区主要分布于主城区。

表4 情感时空热点分布区域

5 结论与建议

5.1 结论

本文以北京市的16个市辖区作为案例地,借助新浪微博数据,通过文本分析和空间分析等方法,分析北京游客旅游活动中情感变化的特点和时空规律,体现出以下特点:

高频词反映出游客在北京旅游的主要目的地,具有文化和历史的5A级景区成为游客来京的首选。“打卡”“吃”“走”“拍”和“逛”等高频词体现游客旅游的主要旅游活动。“天气”“好热”等高频词可以看出游客对于天气的关注以及游客对炎热天气的抱怨。“烤鸭”“好吃”等高频词可以看出游客对北京特色美食的关注。游客情感表达中存在明显的正面倾向,正面情感微博数量比负面情感微博数量多。游客的积极情感多表现为赞美、良好体验、文化丰富等。消极情感主要与人流量大、景区服务质量欠佳、较差的天气状况等因素有关。在游客情感值空间分布上,情感热点区域主要分布在主城区,在五环内以及六环边缘均有分布,情感冷点区域主要分布六环以外以及郊区。

5.2 发展建议

5.2.1 完善景区规划与管理

为进一步促进北京游客的积极情绪,在景区开发与管理中应当加强客流管理,以减少游客排队等候时间,以确保游客旅游体验质量。加强市场监管,严厉打击宰客行为,及时处理游客投诉。此外,加大景区基础设施建设,提高景区从业人员素质,为游客提供优质旅游服务。

5.2.2 强化景区特色优势

从语义网络分析中可以看出,游客对于北京许多景区展现的历史、文化内涵的满意。北京拥有大量传统文化,应该以文旅融合为突破口,充分挖掘北京中轴线文化、长城文化、红色文化等资源优势,丰富游客体验。此外,培育具有北京特色的旅游产品、旅游线路,打造北京城市旅游名片,不断丰富旅游产品和服务内容。

5.2.3 引入创新技术应用

景区可以利用数字化智慧平台、票务系统等,通过智能监控、分流管控、人员疏导等措施,实行限时限量、分流入园接待服务。新技术对可能出现的大客流能够采取远端分流限流、近端疏导等防聚举措,为游客提供放心舒适的游览环境。将大数据技术应用于旅游投诉的受理、处理,提高服务效率和服务水平,推动旅游景区高质量发展。

猜你喜欢
高频词语义景区
真实场景水下语义分割方法及数据集
30份政府工作报告中的高频词
省级两会上的高频词
云南发布一批公示 10家景区拟确定为国家4A级旅游景区
28份政府工作报告中的高频词
省级两会上的高频词
『摘牌』
“摘牌”
某景区留念
汉语依凭介词的语义范畴