基于网络文本数据的上海辰山植物园及月季园游客感知分析

2023-09-25 00:51翟宇佳贡若玉霍钧资
园林 2023年9期
关键词:词频植物园文本

翟宇佳 贡若玉 陈 静 霍钧资 张 欣

(同济大学建筑与城市规划学院,上海 200092)

现代植物园既包括最初的教育与保护功能,也承载着多种游憩活动,具备公园的属性。通过对网络文本数据的分析,探讨游客对上海辰山植物园和月季专类园的感知和满意度,并识别主要的游憩活动。研究方法包括词频分析、共现分析与社区挖掘,以及基于17个满意度因子的语义编码和内容分析。结果表明,辰山植物园及其月季园的游客主要关注自然景观、活动安排、服务设施、门票价格和园内交通等方面。通过对高频词进行社区挖掘分析,发现植物园的游客可以分为两大群体,即拍照打卡群体和休闲游憩群体。植物园的自然景观、活动安排和园内交通满意度较高,月季园的游憩设施满意度欠佳。通过对主要游憩活动的分析,发现知识类活动在自发性活动中占比较小。研究结论可为植物园的规划与管理提供参考。

网络文本数据;词频分析;社区挖掘;辰山植物园;月季园

1 研究背景与研究目的

植物园的起源可以追溯到16世纪的意大利帕多瓦植物园,最初的功能主要是医药研究及教育[1]。而现代植物园的功能更为复杂多样,包括科普教育、休闲游憩、公共娱乐等[2-3],同时也具备公园的属性[4]。研究表明,参观植物园有助于游客减轻心理压力[5],而植物园中的游憩娱乐场所往往比植物的科普教育更吸引人[6]。针对澳大利亚植物园的研究发现,植物园对不同人群有着不同的意义,游客主要以休闲游憩为主,志愿者组织教育活动,而管理者则希望更好地保护植物[7]。

了解游客对植物园的满意度和需求有助于提升植物园的环境品质,更好地满足游客的游赏需求。网络评价等文本大数据覆盖人群广、信息丰富,已大量应用到需求与满意度分析中[8],包括城市公园的研究[9],例如公园的形象感知[10]、拥挤度感知[11]和游憩资源[12]等。王志芳等[13]分析广州50个公园的评价数据,发现公园的正面评价主要集中在免费设施、环境和特色等方面,而管理服务水平有待提升。李林东等[14]利用成都公园使用评价数据,从5个维度,包括交通、美学、维护和安全、市场价值和保护与继承分析,发现游客对公园的美学、交通和保护继承较为关心。张瑞等[15]研究了辰山植物园2017年1月25日至2018年1月24日的评价文本,发现游客对辰山植物园的感知要素主要涉及动植物、情感体验活动、自然生态环境以及景区服务设施。此外,Catahan等[16]利用TripAdvisor网站的在线评论,对英国两个植物园2007年至2017年间582篇评论文本进行5级编码,发现游客均较为关注休闲、娱乐、产品和服务,但对科学研究、保育、展示及教育等核心功能的关注相对较少。

目前植物园领域的文本挖掘研究主要集中在建立植物标本库[17]、识别植物拉丁学名[18]以及分析物种特征和栖息地的关系[19]等方面,较少利用网络文本评价对植物园的游客感知进行分析并指导植物园改造。此外,现有研究对于植物园的关注往往集中在单个感知要素的识别,尚未探讨这些感知要素之间的关系。为弥补上述不足,本研究利用网络文本数据,分析游客对辰山植物园的感知和满意度,并识别了主要的游憩活动,旨在为植物园的改造提供基础依据。本研究的贡献包括:(1)识别了重要游客感知要素,如景观、游憩活动等,可为植物园的规划和设计提供实践指导;(2)测量了植物园各方面的满意度,可为植物园的改进和提升工作提供基础数据;(3)探索了共现分析和社区挖掘的文本分析技术在植物园领域的应用。

2 研究对象与方法

2.1 上海辰山植物园及月季园

辰山植物园位于上海市松江区,占地207 hm2,内设有海棠园、樱花园、月季园、水生植物园、华东树木园、展览温室等12个专类园。辰山植物园2019年游客接待量达100多万人次。辰山植物园的布局结构以“绿环”为规划核心,通过改造原有水体,形成了山体、沉园、中心区和水域等主题要素区域,并在“绿环”及环外区域建造了温室、科研中心、科普中心等设施。辰山植物园经常举办特色画展、广播音乐节、自然生活节和草地露营节等活动,深受上海市民喜爱。

植物园主要通过专类园和温室这两种方式来展现物种的多样性。专类园是游客观赏植物的主要场所,也是植物园进行科学研究和科普教育的重要阵地。其中,月季园作为蔷薇属的专类园,在国内外知名植物园中设立数量最多、最重要[20]。因此,本研究选择辰山植物园中的月季专类园作为代表性专类园进行分析。月季园占地6 000 m2,分为初见广场、相识园、相知园、相望角、寻觅园和相守园6个主题分区,共种植了500多个月季品种[21]。研究区内灌木品种主要有‘芭蕾舞女’(‘Ballerina’)、大马士革月季(Rosa damascena)、白重瓣玫瑰(Rosarugosa)等;藤本品种主要有‘怜悯’(‘Compassion’)、‘生之息’(‘Harquanne’)等;藤蔓有‘保罗·特兰森’(‘Paul Transon’);另外还有‘杂交茶香’(‘Hybrid Tea’)、‘微型攀爬者’(‘Mini climber’)等。

2.2 技术路线与数据来源

研究主要包括游客感知分析、满意度分析和主要游憩活动识别三个部分,分别在辰山植物园的整体层面和月季园层面展开(图1)。鉴于数据规模和现有技术,本研究选择大众点评平台的网络文本数据作为数据源。首先,爬取大众点评网上2019年关于辰山植物园的全部文本评价,共计4 352条。每篇评价文本都包含用户ID、评价分数、具体评价内容和日期等数据。剔除了明显复制粘贴官方、无意义、字数过少(少于20个字)或字数过多(多于500个字)的文本,计487条(占总数的11.19%)。剩下的3 865条文本用于最终的分析。主要的分析方法包括词频分析、语义编码、共现分析和社区挖掘等。在辰山植物园整体层面的分析中,每条评价文本作为一个分析单元,而针对月季园的分析中,将所有评论按照句号或感叹号为标志分割成单个句子,并提取包含“月季”两个字的句子作为新的数据集,分析单元为这些包含“月季”两个字的句子。所有评价总共有7 685个句子,其中941条句子包含了“月季”两个字,将这些句子纳入到月季园层面的分析。

图1 研究框图Fig.1 Research framework

2.3 分析方法

第一部分游客感知分析主要利用词频分析和社区挖掘两种方法。利用jieba方法对所有评论进行分词,命名实体确认、感情副词、感情形容词提取。筛选前60的词频,分析游客对辰山植物园和月季园的总体感知。共现分析指文献的特征项描述的信息共同出现的现象,本文考察了两个词同时出现在一句话中的频次,频次高代表这两个词的关联性大,也就是连接度高。基于连接度可将高频词划为不同社区,被划分到同一社区的词联系较大[22]。研究在辰山植物园和月季园层面,分别对前40与200个高频词进行共现分析,并依据模块度的计算公式(1),将高频词划分为不同社区。模块度越大,证明这一社区内的高频词联系越紧密。式中,2m代表无向图网络中的连边总数,δ(ci,cj)表示i和j必须位于同一社区内否则无意义,Aij代表节点i和j实际连接度,ki和kj代表i和j的节点度值[23]。分析中还考虑节点度、平均度与平均加权度等网络分析相关指标。节点的度是和该节点相关联的节点的个数;平均度是统计相同度的节点度数总和除以节点数;平均加权度首先对每个点对应的连接关系的权重求和得到加权度,再用加权度的总和除以节点数[24];图密度用实际联系数除以最大可能联系数,结果越大表示图中节点连接越紧密[25]。平均度、平均加权度以及图密度可从整体上反映评价的社区程度高低。

第二部分满意度分析,应用内容分析法计算游客对17个因子的满意度。对辰山植物园总体评论分层抽样,将评论按字数分为5类,包括20 ~100字、101~150字、151~200字、201~300字、301~500字,分别为1 165条、1 685条、520条、332条、163条。按各类评论所占比例,每类分别随机抽取151条、218条、67条、43条与21条游客评论,共500条评论纳入分析。月季园不抽样,共415条评论纳入分析。通过浏览高频词和代表性评价,初步掌握关注点,结合植物园规划设计主要内容,建立编码体系。共建立17个满意因子,包括植物、动物、等待时间、游览时间、时间访问点、组织性活动、自发性活动、儿童、老人、青年、餐饮娱乐、门票、园外交通、园内交通、服务设施、游憩设施和其他。应用Nvivo软件阅读每条评论,对其进行人工编辑,标注游客对上述17个因子是否满意,并计算最终的满意率与不满意率。

第三部分在辰山植物园总体层面与月季园层面,分别利用词频分析法识别植物园中的主要游憩活动。出现次数多的游憩活动代表是游客感兴趣、受欢迎的活动。

3 分析结果

3.1 游客感知分析

本研究对辰山植物园的所有评论以及月季园相关的评论进行了词频对比分析(图2)。在辰山植物园整体层面,发现游客特别关注景观方面的内容,包括樱花、月季、矿坑、温室等;在活动方面,拍照、帐篷和野餐等比较常见。游客也对服务设施、开放时间、门票价格和交通等方面比较关注。而在月季园层面,游客关注的景观主要包括月季、品种、矿坑和芍药等,同时游客对拍照、野餐和观赏等活动提及较多;在设施方面,游客对温室和餐厅提及较多。在月季园中,前60个高频词汇主要集中在月季的品种、主题和颜色,温室、矿坑等设施,拍照、散步等活动,五一、春天等重要活动节点(表1)。

表1 月季园2019年文本评价的前60个高频词汇Tab.1 The top 60 high-frequency words of the 2019 text review by Rose Garden

图2 辰山植物园和月季园词云图Fig.2 Word cloud maps of Chenshan Botanical Garden and Rose Garden

植物园春秋季为访问旺季,夏冬季为淡季。旺季评论数较多,淡季较少(图3)。在所有3 865条评论中,3-5月(春季)评价共1 783条(46.13%);6-8月(夏季)评价共679条(17.57%);9-11月(秋季)评价共1 047条(27.09%);12-翌年2月(冬季)评价共356条(9.21%)。总体上游客对辰山植物园较为满意,2 536人打5分(65.62%);1 088人打4分(28.15%);164人打3分(4.24%);38人打2分(0.98%);39人打1分(1.01%)。

图3 每月文本五档评分数量Fig.3 The number of ratings per month for five degrees of text

按季节分析游客评分与关注点,发现游客春季关注樱花、月季等植物和游览车、电瓶车、火车等园内交通;夏季关注点为黑天鹅、月季、仙人掌等动植物以及搭帐篷活动;秋季关注樱花、月季、仙人掌、睡莲等植物,对门票半价也比较关心;冬季关注点为樱花、仙人掌、兰花等植物(图4)。

图4 辰山植物园季相词云图Fig.4 Seasonal word cloud maps of Chenshan Botanical Garden

对前40与前200关键词共现分析与社区挖掘分析,首先构建关键词间的共现矩阵。当两个关键词位于一句话内,说明他们之间存在一定的关联,共现数加1,否则共现数为0。共现次数越多,则关键词的关系越紧密。圆圈代表关键词数量,圆圈越大词频越高;连线代表关键词的连接关系,连线越粗,共现次数越多(图5)。辰山植物园整体层面上,植物园和樱花、很大(面积)、推荐、温室、门票、打卡、正好等词汇联系相对紧密,植物园和半价、远联系相对不紧密。月季园层面上,月季和品种、展、植物、主题、颜色、荷花等景观联系紧密;月季和正好、五一、组织、导游、拍照、讲解等活动联系紧密;月季和一号、周边、矿坑、温室等地点联系紧密。月季和下午、人流、位置、儿童乐园等联系不紧密。

社区挖掘中,计算前40与前200高频词的联系指标(表2),以全面了解游客对植物园和月季园的整体看法类别和看法内容。辰山植物园前40词的社区共5个,前200词的社区共7个;月季园前40词的社区共3个,前200词的社区共6个。可见月季园前40的主题词更集中,即游客对月季园内景观和活动等项目的关注点较为一致。

表2 社区挖掘指标Tab.2 Community mining index

辰山植物园整体层面,矿坑和月季联系紧密,与樱花、温室和沙漠不在同一社区,说明游客游览矿坑时一般游览月季园(图5-a)。游览车与矿坑、温室、月季不在同一社区,说明游览车很少在这些专类园停留。

缩减关键词为40词后(图5-b),植物园、公交、地铁、游览车等交通工具,动物、主要景点位于社区1;樱花、郁金香、睡莲等自然景观和网红、拍照等活动位于社区2;矿坑、温室、热带植物、月季等专类园自然景观位于社区3;值得、不错、推荐等情绪词位于社区4;门票、电瓶车、贵等与价格相关的词汇位于社区5。这一结果提示植物园有两大游客群体,包括对樱花和郁金香感兴趣的拍照打卡群体,及对矿坑、月季、温室等感兴趣的休闲游憩群体。同时,游客普遍对辰山植物园较为满意,对价格比较敏感。

月季园层面,前200关键词社区挖掘中,月季、品种和展览划在一个社区(图5-c),表明游客对月季观赏很感兴趣,但在规划设计中,需要考虑引入更多的活动与吸引物。

筛选前40词频,发现月季、芍药、拍照、展、五一等自然景观,自然体验活动和时间访问点为社区1;春天、感觉、不错、天气等季节和相应情绪感受词为社区2;温室、热带、远、仙人掌、沙棘等词为社区3(图5-d)。正好在月季的社区内占据较大比重,重新查看评价,发现很多游客到达园内才了解月季花展,因此需要提高针对月季展的宣传度,并把握好五一这个时间节点;主题和各类活动(拍照、讲解、参观、游玩等)划分到同一社区,但对具体主题内容提及不多,说明月季园活动主题表达需提升。

3.2 满意度分析

对评价内容进行编码统计发现,游客对辰山植物园的自然景观(植物满意度为71.94%,动物满意度为92.54%)、活动安排(时间访问点满意度为73.33%,组织性活动满意度为90.11%,自发性活动满意度为93.75%)、园内交通(满意度为72.84%)、园外交通(满意度为67.31%)、游憩设施(满意度为65.12%)等方面较为满意。然而,游客对服务设施(满意度为46.03%)、餐饮娱乐(满意度为41.94%)、游览时间(满意度为50%)和等待时间(满意度为16.67%)较不满意(图6)。此外,游客还提出了一些其他方面的建议,主要集中在主题、解说、管理服务、信号、交通工具、门票类型、设施样式和布局等方面。对月季园游客对自然景观(植物、动物满意度分别为84.12%、100%)、活动安排(时间访问点、组织性活动、自发性活动满意度分别为87.07%、95.95%、96.61%)和园内交通(满意度为78.57%)等方面较为满意。游客对游览时间(满意度为33.33%)、游憩设施(满意度为44%)、服务设施(满意度为50%)和餐饮娱乐(满意度为46.15%)较不满意(图6)。此外,游客还提出了一些其他方面的建议,包括带孩子无法仔细阅读标识牌、矿坑景观桥在修缮期间无法参观,以及建议适当增加适合三岁左右宝宝的游乐设施。

图6 辰山植物园和月季园满意度分析Fig.6 Satisfaction analysis of Chenshan Botanical Garden and Rose Garden

除了17个满意度因子外,通过统计辰山植物园和月季园活动方面的其他建议,挖掘游客的潜在需求。辰山植物园其他需求主要集中在门票种类(推出年卡和宠物票)、管理服务(管理人员培训和解说)和桥的样式。月季园其他需求集中在月季种植的色彩安排、售卖防晒物品(帽子、伞)或提供遮阴设施。

3.3 主要游憩活动识别

辰山植物园访问时间点主要集中在3月底、4月和5月,其中国庆和清明节假日是重点访问时间,游客冬季访问辰山植物园的满意度欠佳。组织性活动主要为旅游节、音乐广播节、演出;自发性活动主要为拍照(包括婚纱外景拍摄)、野餐、帐篷、打卡、踢足球和剧本杀(图7)。

图7 活动安排词频对比Fig.7 Activity arrangement word frequency comparison

月季园访问时间点主要集中在3月到5月,其中五一假期、旅游节、母亲节等节日是重点访问时间。组织性活动主要为月季主题展和音乐广播节,也有游客提及了寻找丘比特活动。自发性活动主要集中在拍照、野餐、搭帐篷、打卡等方面,多位于草坪上,与辰山植物园总体自发性活动基本一致,但拍照占比相对更大,搭帐篷占比减少。知识科普在自发性活动中占比较小。

4 植物园规划设计建议

本文通过词频分析、满意度分析、共现分析和社区挖掘等方法,深入研究了游客对辰山植物园的总体感知、满意度和活动关注点,在此基础上对辰山植物园的建设提出了一系列具体的优化建议,如加强活动策划和提升园内交通等以促进植物园的建设和发展。这些建议具有一定的普适性。

4.1 增加知识科普和园艺疗愈等游憩项目

根据分析结果显示,游客对自发性活动较为满意,但组织性活动存在不足之处。为此,建议增设一些知识科普、园艺疗愈、游客体验和文化展示方面的活动。针对现有的自发性活动,主要以拍照为主,园方可以为游客提供具有特色造型的背景板,还可以举办摄影沙龙等活动。而对于剧本杀、无人机和婚纱摄影等自发性活动,园方可以开辟相应的场地,并提供相关物品的销售或租赁服务。此外,结合展览、科普、娱乐、文化和亲子等方向,可以开展各类互动活动,从视觉、听觉和触觉等感官入手,提供全方位的观赏体验。

4.2 突出文化主题,分时段突出不同专类园主题

根据分析结果显示,月季展的文化主题表现不够突显,而与五一假期的联系更为紧密。因此,建议在五一假期的重点活动中更多地将焦点放在月季园上。目前,月季园以爱情为主题,但游客对该主题的提及较少,这表明主题的塑造还有待提升。为了改善该情况,可以借鉴美国汉庭顿植物园蔷薇园的做法,以月季的进化之路为主线,布置展示月季从古代到现代的进化历程等内容,以提高展览的主题性和科普性。

4.3 丰富园内交通工具,降低等待时间

本研究发现游客对游览时间和等待时间较为不满。游览时间多为一天或半天,事实上半天很难逛完全园,游憩设施排队等待时间长。因此,建议增加游览车、小火车的数量,车票可线上售卖或将售票处安置在更显眼的地方;提高交通工具的丰富度,降低等待时间,如增加自行车租赁。

4.4 重视网络文本大数据在游客感知研究上的应用

根据分析结果,除了自然景观、园内外交通、游憩和服务设施等方面,还需要额外关注游客的其他需求。例如,提升园内餐饮丰富度、增加康体健身所需的游憩设施、改善月季园片区的植物色彩等。网络文本数据的广泛覆盖量可以直接反映游客的需求,有助于设计师和管理者高效、全面了解游客需求和体验。因此,这种方法值得在其他植物园中加强应用。未来的研究也需要进一步完善网络文本数据的清洗与分析方法,以更好地为规划设计和管理策划提供服务。

注:文中图表均由作者自绘。

猜你喜欢
词频植物园文本
植物园的“虎”明星
跟动物聊国家植物园
基于词频分析法的社区公园归属感营建要素研究
大暑傍晚的中山植物园
在808DA上文本显示的改善
基于doc2vec和TF-IDF的相似文本识别
文本之中·文本之外·文本之上——童话故事《坐井观天》的教学隐喻
词频,一部隐秘的历史
云存储中支持词频和用户喜好的密文模糊检索
以关键词词频法透视《大学图书馆学报》学术研究特色