基于领域词典的留园构成要素情感分析

2021-04-22 03:32刘文龙
科学技术与工程 2021年8期
关键词:留园词频关注度

刘文龙, 黄 维

(清华大学深圳国际研究生院,深圳 518000)

近年来,中外在风景园林这一传统学科的研究中逐步引入信息技术的量化思维、技术处理方法[1]。有部分研究运用大数据挖掘与自然语言处理技术对风景园林进行多景点系统分析,研究中较多基于地理分布的多景点横向评价对比为用户选择景点服务,如王少兵等[2]基于评论的景点推荐研究、杨鑫等[3]对民宿评论情感分析方法的研究。目前较为缺少对单一景点展开多维度的深入分析,为园林管理方有针对性提升服务的研究。同时,互联网多平台的景点评价数据量大、涵盖面广、时效性高,整合可深度挖掘游人对景点多维度的认识,对传统高定性分析提供一种用户视角的量化分析补充,也因此选用了较为成熟且稳定性高的基于领域词典的分析方法[4]。

现对单景点——留园的关注度进行分析,并对整体与基于构成要素的进行聚类的局部展开情感分析,重点是对基础自然语言处理的技术方法在园林应用领域的方法论展开实践应用研究。实验探究留园多要素间游人关注度情况,以及对各要素的情感评价倾向,并对极性为负面的展开相关联因素分析,补充了传统园林领域的分析中较少有实验案例运用网路评价数据及计算机技术对单景点用户评价进行分析,运用交叉学科的理论与方法为留园的游人评价调研、规划决策提供帮助,为园林领域其他景点亟需分要素精准优化提供分析思路。

1 分析方法

研究方法如图1所示。

图1 留园关注度与构成要素情感分析模式图Fig.1 The Liuyuan Garden attention model and sentiment analysis pattern diagram of component

(1)语料获取。Webscraper获取携程网与去哪儿网的公开数据作为分析语料数据,共计7 057条。

(2)对语料数据进行清洗,主要为基于园林专业特点进行去重、标记、降噪、对齐等。分析粒度为语句级,对文档内单独的语句,标记其情感极性,把句子区分为正面、中立和负面3类,并按分句与评论段落分别分析情感加权结果。分词使用了多个开源模块,结巴分词以及中科院计算所NLPIR为主,并进行停用词过滤,词性标注用HANLP的开源版本[5-6]。

(3)对留园整体评论展开词频分析(term frequency-inverse document frequency,TF-IDF),并根据词性进行分类筛,获取评论数据中关注度最高的序列。而后以语句颗粒度展开情感分析。情感分析(sentiment analysis)基于情感词典匹配,计算结果依赖于情感词典和每个情感词的权重。本文研究词典基于开源词典并结合园林领域常用专业词汇不断优化调整词条和权重整理得到[7]。

(4)对负面情感相关联因素进行挖掘,将上步骤的分词,以及词频筛选后的负面情感关联的筛选词,进行共词矩阵分析,形成共词网络,对负面情感来源挖掘分析。

(5)根据园林构成要素筛选相关的标签词库,构建基于园林构成要素(建筑、山石、植物、水体、空间组构、人文要素)的聚类,对单聚类数据进行情感分析并横向对比,挖掘留园各构成要素的游人认知与评价情况,为分要素精准提升提供方向。

2 数据来源

通过web scraper对旅游平台携程网与去哪儿网获取的留园评价数据进行获取,共收集7 057条评价数据,此2处平台为旅游信息与服务的头部平台,评价数据全面且评价质量较高。对数据进行清洗,进行去重、标记、降噪、对齐,去除1 494项,实际有效数据5 563条,形成留园评论分析语料库(corpus)。

3 结果分析与讨论

3.1 各要素的受关注度

对数据进行词性标注,通过词频分析的方法对留园评价数据中主要的要素进行顺序筛选,得到受关注度序列如图2和表1所示。

图2 留园各要素的受关注度词云图Fig.2 The word cloud map of the attention of each element of the garden

表1 各要素的受关注度词频分析表(部分)

如表1所示,通过评价数据展开的云图与数据分析可以直观看到,受关注度较高的前10位为建筑、假山、盆景、山水、庭园、太湖石、亭台楼阁、空间、花园,涵盖了留园构成要素的主要方面。但不可避免的同一类构成要素会多次出现,如假山与太湖石,后者是前者的主要构成材料。

为便于对同一要素评论情感进行分析,进行分要素划分与聚类处理。

3.2 留园按要素聚类

为便于对同一要素评论情感进行分析,进行分要素划分与聚类处理。对园林主要构成要素分为建筑、山石、植物、水体、空间组构、人文要素6大类[8-9]。并对每类基于园林专业知识进行人工匹配分类,检索标签词如表2所示。

表2 留园构成要素分类标签词

根据留园构成要素的标签词分类检索得到关于6项构成要素的相关评论数据数量,作为各要素评论关注度的参照,结果如图3所示。

图3 留园各构成要素受关注度图Fig.3 The attention degree of each component of the garden

(1)出乎意料,评论中6项构成要素中对于“山石”的关注度最高,建筑其次。空间组构的各构成元素“回廊、小径、小路、庭院”等也受到了较多的关注,结合词频分析可以发现冠云峰、太湖石、假山的出现次数贡献了主要的关注量,考虑假山相较于其他形态的空间营造较为独有,且冠云峰充分体现了太湖石“瘦、漏、透、皱”的特点,为江南四大奇石而著名,吸引力强烈[10]。

(2)日常中,园林学者对园林中人文艺术构成部分研究占有重要地位,如书法、典故、古韵、图案、评弹、雕刻等,而评论关注度中对此方面关注处于6个构成要素关注度的末位,与直观认知有所不同。

3.3 整体与园林构成要素的聚类情感分析

3.3.1 留园整体情感分析

对留园整体评价数据进行分词后对语句进行了切分,并进行情感分析,词汇的情感值公式为

s(w)=v(w)p(w)

(1)

式(1)中:s(w)表示词汇的情感值;v(w)表示词汇的情感强度;p(w)表示词汇的情感极性。遍历每条切分句中情感词之间的否定词和程度副词,并对其相应的权重值进行计算。每个语句情感倾向的情感值计算公式为

l(w)=n(w)a(w)s(w)m(w)

(2)

式(2)中:l(w)表示情感倾向的情感值,n(w) 表示否定词的权重值;s(w) 表示情感词汇的情感值,a(w)表示情感词前所有程度副词权重值的累加和;m(w) 表示情感词前否定词和程度副词间的相对位置。如果程度副词前有否定词修饰时,m(w) 赋值为 0. 5,反之m(w)赋值为 1,对切分语句情感极性正面记为1,按评论切分句子计算情感值,然后合并后进行加总处理,形成评论语句段落的情感值,情感值分布情况如表3所示[11-12]。

忽略段落按分句分值分布可以得到情感评价数据如表4所示。通过分析可得:

表3 留园整体评论分句情感数据

(1)正面评价占比69.930%,中性评价占比24.163%,负面评价仅为5.908%,游客对留园整体评价呈价是积极的。

(2)负面评价有一定误差,中文自然语言在使用中常使用多重否定与夸张,目前情感词典对复杂语句判断有一定难度,如游客评论中“嘈杂是不存在的”“好不美丽”。

对正面评价语句进行词频分析,得到结果如表5所示,并绘制可视化词云图,如图4所示。

游客正面评价中呈现了游客的意犹未尽,“再来”“流连忘返”的词频为前两位,综合评价词汇也可以归纳出留园美学及现观赏情况的一些特点,如“精湛”“秀美”“闹中取静”“细细品味”“干净”“麻雀虽小五脏俱全”“细腻”。

负面评价的词频分析结果如表6所示,可视化词云图如图5所示。

表4 留园整体评论情感数据

图4 留园正面情感词云图Fig.4 The positive emotion word cloud in Liuyuan Garden

表5 留园评论正面情感词频数据

其中通过分析结果可以直观得出负面评论核心的有拥挤、嘈杂、不好玩。

对照词频文本数据可以得到:

(1)节假日、周末留园较为拥挤,游客体验受到影响。可通过节假日预约、限流等方式控制一定的游览人数,保证游客体验。

(2)人流量因素造成部分游客感觉到嘈杂。

(3)部分游客感觉不好玩,对评论段落定位挖掘其原因,一方面为留园观赏行为占据主导,较少有互动式、参与式的游玩项目,该部分可加强;另一方面留园营造中讲求“虽由人作宛自天开”,形态上主要以自然景观面貌呈现,蕴含的文化典故、山石植物欣赏基础需要一定的积累铺垫,对此可增加对园林了解较少游客的讲解,通过生动的图像、影像等方式让游人了解园林之美。

对照表6可得,负面情感标签词汇中形容词占据多数,如一般、不对、不行。具体关联的负面情感成因未能体现。因此对负面词频频率较高的词汇进一步展开共词矩阵分析,形成共词复杂网络探究负面情绪的主要原因。对几个比较典型且共词网络频率高的标签词单独展开,分析结果可得。

表6 留园评论负面情感词频数据

图5 留园负面情感词云图Fig.5 Liuyuan Garden negative word cloud

(1)出乎意料的,拙政园在各标签词共词网络中出现频繁,游人在对留园进行评价时较多的倾向于将留园与同为四大名园的拙政园进行比较。狮子林也较多作为一同比较的对象。

(2)“小”“人多”“拥挤”“讲解”“雨”“不行”是几个标签词出现较多的共性标签词汇,对照可以说明用户的“一般”“差”的评论点集中在上述标签词的方面。

3.3.2 园林构成要素的聚类情感分析

根据标签词对各要素相关句子进行检索并单独归类为数据集,而后对单个构成要素进行情感评价分析,分句情感极性相加的值大于1为正面,小于-1为负面,0为中性。各构成要素的游人评论情感评价结果如图6所示。

对留园各要素情感评价横向对比分析,如表7与图7所示,可以得到:

图6 留园各要素的情感分析百分比图Fig.6 Percentage analysis of sentiment analysis of various elements of the Liuyuan Garden

表7 留园各要素的情感分析百分比数据

图7 留园各要素的情感分析横向对比Fig.7 Horizontal comparison of sentiment analysis of various elements of the Liuyuan Garden

(1)整体上留园6项主要构成要素游人评论正面情感为主,平均正面情感为78.3%,接近80%。其次各要素情感评价有明显波动,既留园中构成要素的评价具有不均衡性。

(2)山石正面情感占比相对较低,为66%,中性评价占比较高为27%,但负面评价并非最高,为7%。前文关注度分析中山石排列为首位,但评价相对较弱。较多的关注度与评论体量的增大使得不同的游人情感倾向多样性得到体现,该结果为按要素精准提升与优化园林提供方向参照。

(3)人文相关部分涵盖面较广,正面情感占比81%,同时负面在各要素中未最高,占比9%。可以看出人文部分评价的多元性,既游人情感中喜欢的非常喜欢,不喜欢的也会态度鲜明,即人文部分正负面评论具有明确的独立性。

4 结论

通过横向的留园各构成要素的游人评论情感分析,可以清晰地查找出整体情感倾向中不足的短板部分,如山石部分正面情感占比66%相对较低,人文部分负面情感占比9%相对较高,为进一步精准优化提升提供参照。同时,结合共词网络分析,可以对比出负面情感的问题方向,有针对性地继续展开深入分析。

此外,基于互联网与计算机技术的评论大数据挖掘与分析对园林领域用户视角的优化研究起到很好的方法论补充,传统园林学科与信息技术的结合具有趋势性。

也为传统风景园林领域以定性为主的研究提供一种基于用户的量化分析方法,推进园林管理方分园林要素提升与优化的相关研究。

猜你喜欢
留园词频关注度
留园:亭台廊榭,秋色迷宫
词汇习得中的词频效应研究
汉语阅读中词频与注视时间、跳读的关系
苏州园林的空间叙事与抒情研究
苏州留园的营造与修复研究
雄安新区媒体关注度
全国两会媒体关注度
暴力老妈
浅析社会大众对留守儿童的关注度
词频,一部隐秘的历史