基于网络话语的青秀山风景意象评价

2020-07-14 08:17:22王薇薇沈守云廖秋林陈翠怡
中南林业科技大学学报 2020年6期
关键词:词频景点风景

王薇薇,沈守云,廖秋林,陈翠怡,孙 瑶

(中南林业科技大学 a.风景园林学院;b.湖南省自然保护地风景资源大数据工程技术研究中心,湖南 长沙 410004)

风景是人们生活、休闲、娱乐的重要组成部分,也是生态环境建设、旅游经济发展的重要资源。针对风景资源评价的研究起源于20世纪下半叶,目前已成为具有大量文献基础的研究领域,并在风景资源保护、建设与管理中发挥着重要的作用[1]。

传统的风景评价理论包括专家学派、心理物理学派、认知学派、经验学派[2]。在认知学派中,凯文·林奇的城市意象开启了设计领域环境感知探索的新篇章。林奇认为,意象是观察者按照自己的意愿对环境进行选择、组织并赋予相应的意义。城市意象研究以地图描绘为主,文字描绘为辅的方法开展,依此总结的空间认知基本要素(路径、地标、边界、街区、节点)已得到普遍认可[3]。历经半个多世纪的发展,城市意象的研究为环境建设提供了重要理论依据,也被学者积极拓展至风景园林研究领域。部分学者将城市意象与原型理论、场所理论相互结合开展园林构成要素的量化评估[4],但由于风景园林在尺度、构成要素方面与城市存在着较大差异,风景领域的意象研究仍需深入探讨。

随着互联网以及智能终端的普及,风景资源评价朝着数据获取方式更加多源、即时、客观、精细、智能的方向前行。国内外相关学者开始应用包括定位数据、网络话语、地理标签、兴趣点等网络众包数据进行行为规律、环境意象与审美的评价研究。附有地理标签的图片以及短文本数据具有较强的时效性与精准性,借助这些数据将风景特征量化并可视化成为偏好地图能辅助更准确地进行风景评估,但由于无文字说明或者文字过于简短,在环境意象评估上具有局限性[5-8]。相比之下,纯文本网络话语内容丰富,对于分析大众的审美情绪、公众意象具有较高的敏感性。旅游领域利用网络共享的博客、微博、发帖、推文、产品评论等话语分析游客的旅游目的地形象[9-11],由于这些研究重视目的地旅游资源、旅游设施和旅游服务[12],对于风景审美本身的审视较为简单。风景园林领域针对网络话语开展的风景评价研究处于起步阶段,一些学者开始利用文本话语进行女性对公园的感知评价[13]、公园的使用满意度评价[14]、环境空气质量评价[15]、以及使用公园的情绪评价[16],采用的研究方法以词频分析、社会网络分析、情感分析为主。总体上看,网络话语的丰富资源尚未在风景评估中得到充分利用,相关的研究方法与理论也在探索之中。

对于意象的传统研究借助问卷与访谈采取自上而下的形式调查,调查样本受到限制。自由多样的网络数据则为自下而上的研究提供了丰富的数据来源。以文本为基础的网络话语有助于研究人员更加直接的理解大众风景审美。本研究以青秀山风景名胜区网络话语为研究对象,利用Python 语言及相关技术手段,通过词频分析、共现分析提取大众对青秀山风景形态感知以及风景形象的认知,总结大众风景意象偏向及特征,为进一步的话语情感分析奠定基础。

1 研究区域概况与研究内容

青秀山风景名胜区位于南宁青秀区,规划总面积13.54 km2,其中已建成核心景区面积6.43 km2。作为南宁的“绿肺”,青秀山在生态、经济、社会环境建设中肩负起越来越重要的职责,成为政府、行业界和民众共同珍视的“绿色明珠”。针对青秀山的大众风景感知研究对景区建设具有实际的指导意义。

本文以青秀山网络评论、游记为研究对象,借助计算机语言开展风景意象评价。在此,风景意象是指风景主体对风景客体的感知和认知理解,包含了两方面的内容:“象”——对风景的形态的感知与识别,即风景的实体表征;“意”——对风景形象的认知与构建,即风景在人们心中的特点与意义。依据大众风景意象进行研究:1)大众对于包括风景要素及景点在内的风景形态敏感度评价;2)景区、景点以及要素的风景形象认知及其认知网络评价。

2 研究方法与技术

2.1 数据获取与数据清洗

利用Scrapy 爬虫框架爬取并筛选出2009年 1月—2018年8月携程旅游网、去哪儿网、驴妈妈旅游网、百度旅游、新浪博客5 个网站中的青秀山评论5 436 条、游记745 篇。通过Python 中的第三方库(Openpyxl)、内置函数(set())以及正则表达式完成对数据的清洗整理。运用开源框架Jieba 分词进行中文分词,并通过LTP 语言云平台的接口包pyltpa 进行词性标注,得到包括名词、形容词、动词以及量词在内的词汇20 239 个,词频共计97 464 次。

2.2 数据分析

首先,基于词频进行风景形态敏感度分析,并引入热力指数来衡量风景感知热度。

热力指数计算公式为:H=SS/TS。

计算以样本的项目总频次(TS)为分母,特定项目频次(SS)为分子,得出某个特定项目在总样本中出现的概率。热力指数单位为10 分制(H10)。

然后,运用二元语言模型(Bigram)进行精确匹配,得出句子中的词语的共现,并统计两个目标词语之间共现次数,分析大众话语中对于不同风景的形象认知及其特点。

2.3 数据可视化处理

利用Python 调用可视化工具,将风景形态感知评价、风景形象认知评价以话语云、话语网络的方式进行可视化处理。

话语云:基于词频分析以视觉凸显的形式将文本中的核心词通过可视化图像表示出来,形成风景敏感度话语云、风景形象认知话语云。

话语网络:借鉴社会网络分析图论法,基于共现分析将话语要素作为网络中的节点,要素之间的关联以线条连接,通过要素的空间结构图展示话语网络内容与特征。

3 结果与分析

3.1 青秀山风景形态感知评价

3.1.1 风景形态话语云

在风景形态的描绘中,风景要素词汇共计185个,景点词汇共计70 个。依据风景要素与景点词频分别绘制要素及景点话语云(图1~2)。风景要素话语云表明,自然型风景要素在形态感知中敏感度较高,感知内容较丰富。高敏感风景要素包括:“空气”“青山岭”“植物”“苏铁林” “树木”“花卉”“桃花”“兰花”;景点话语云表明,人文型景点与自然型景点在形态感知中敏感度较高。高敏感景点包括:“龙象塔”“观音禅寺”“天池”“友谊长廊”“环山秀坪” “苏铁园”“桃花岛”“兰园”。

图2 景点感知话语云Fig.2 Discourse cloud about general view spot perception

3.1.2 风景形态感知词频特征

以风景要素及景点高频特征词排序为自变量,词频为因变量,用Excel 进行曲线估计,选择指数函数和幂函数模型进行拟合。结果显示,风景要素感知词频符合幂函数分布,模拟方程判定系数为R2=0.942 9,建立方程为y=397 8x-1.434;景点感知词频符合指数函数分布,指数函数模拟方程判定系数为R2=0.991 2,建立方程为y=620.31e-0.087x(图3~4)。

大众对风景形态感知的词频呈现“长尾”分布特征,“头部”词汇反映出大众对风景要素、景点感知的共同倾向,“长尾”部分的感知则离散度较大,感知内容因人而异。风景要素词频分布符合巴莱特定律(Pareto’s principle),即20%的风景要素(词汇)在大众感知中占据了80%的意象空间(词频)。景点的感知词频离散度稍高,其分布接近巴莱特定律,呈现出30/80 特征,即30%的景点(词汇)在大众感知中占据了80%的意象空间(词频)。

依据巴莱特定律,占意象感知80%的核心风景要素及景点代表大部分评价者的风景意象。青秀山核心景观要素为占总要素20%的前35 个高频要素,累计词频占比80.27%;核心景点为占总景点30%的前18 个高频景点,累计词频占比80.35%。核心风景要素与景点类型分布表明,在风景要素感知中自然型风景要素的敏感度较高,而景点感知自然型景点及人文型景点敏感度较为均衡(表1)。核心风景要素、核心景点的热力指数分布显示,景点词汇感知热度的离散性度大于景观要素词汇的感知热度,其中高热(H10>0.5)风景要素5 个,景点6 个;中热(0.5>H10>0.1)风景要素14 个,景点12 个;低热(0.1>H10)风景要素16 个,景点0 个(表2)。高热风景要素总体热力指数略低于高热景点,单项热力指数分布离散性更大,而高热景点的热力指数更加明显的集中于排名靠前的“龙象塔”与“观音禅寺”(表3~4)。

图3 风景要素词频长尾结构Fig.3 Long tail structure diagram about the word frequency of scenic elements

图4 景点词频长尾结构Fig.4 Long tail structure diagram about the word frequency of scenic spots

表1 核心风景要素及景点类型统计Table 1 Category statistics of core scenic elements & scenic spots

表2 核心风景要素及景点热力等级统计Table 2 Thermal rating statistical of core scenic elements & scenic spots

表3 核心风景要素高热词汇Table 3 High thermal vocabulary of core scenic elements

表4 核心景点高热词汇Table 4 High thermal vocabulary of core scenic spots

3.2 青秀山风景形象认知评价

3.2.1 总体风景形象话语云

由共现分析得到与青秀山关联的总体形象词汇共计93 个,词性以形容词为主,同时包含少量名词。总体形象话语云表明,“风景优美”代表了大部分评价者对青秀山的印象;“面积很大”说明大众对形象认知停留在浅层次的的物理空间理解;“不错”“值得”“方便”“著名”“便宜”表明风景的价值评判在大众形象认知中占据了较为重要的空间;其他词汇涵盖了对自然特色、交通与服务质量的认知;人文风景特色在形象认知中表达较弱(图5)。

青秀山总体形象词频较低,其中公认的“风景优美”仅共现119 次,其它词汇共现频率为50以下。热力指数在高热、中热、地热词汇中逐级递减,高热词汇中的热力指数分布离散度也较大(表5~6)。

图5 青秀山总体形象话语云Fig.5 Discourse cloud about overall image of mount Qingxiu

表5 青秀山总体形象词汇热力统计Table 5 Thermal rating statistics of overall image on mount Qingxiu

表6 青秀山总体形象高热词汇Table 6 High thermal vocabulary of overall image on mount Qingxiu

3.2.2 青秀山风景形象认知话语网络

受网络图清晰度影响,难以依据20/80 定律进行认知网络图分析,经反复试验确定以高频前10的景点、风景要素为核心抓取共现特征词,并选取共现频数前50%的词组构建话语网络图。由共现分析得到风景要素及景点认知词组1 334 对,共现频次共计4 240 次。选取共现频次前50.1%的共现词组共计68 对构建风景形象认知网络图。风景形象认知网络图中,红色圆形节点代表核心景点与景观要素,蓝色圆形节点表示与之共现的特征词、其他景点及风景要素,节点之间连线表示关联性;节点大小表示词汇出现的频率,连线粗细表示共现词组的共现频次,即两者之间的关联强弱(图6)。

图6 风景形象认知网络Fig.6 Cognitive network about landscape image

大众对青秀山风景要素及景点的形象认知呈多中心结构,形成了不同的网络组团。处于网络中心的组团为:植物组团、空气组团、树木组团,组团之间关联度较高。其中植物组团内部网络丰富度最高,表明大众对植物的认知较为深刻。树木与空气组团内部网络结构相对简单。位于次中心的组团为:兰花、桃花、兰园、桃花岛组团,组团之间关联较多,组团内部网络结构丰富度中等。位于边缘的组团为:瑶池-天池、建筑、凤凰岭组团,组团之间关联度最低,组团内部网络结构丰富度较低。由共现频率可知,高热与中热认知词组总计7 组,涵盖了包括气候、植物、地形、水体在内的自然要素及景点认知,其中“空气” “植物”得到了广泛认可;低热认知词组共61 组,少量人文型及复合型景点或要素出现在低热认知词组中(表7~8)。总体而言,大众对于风景要素的认知丰富程度大于对于景点的认知,自然型要素与景点的认知较为集中,人文型与复合型要素与景点的认知较为分散。

表7 青秀山风景特征共现词组热力等级统计Table 7 Thermal rating statistics of co-occurrence words for landscape features on mount Qingxiu

表8 青秀山风景特征高热及中热共现词组Table 8 High & medium thermal of score co-occurrence words for landscape features on mount Qingxiu

4 讨论与结论

4.1 讨 论

1)本研究搜集并筛选2009—2018年青秀山网络话语样本6 181 条,相对传统调查方式获取的样本数量更大,但由于手机、电脑等智能终端使用人群多为中青年,不利于老年人、儿童的数据收集,部分网站基本信息的缺失也局限了不同人群的对比分析。

2)网络话语最大程度降低了专家在研究过程的主观影响,评价结果证实了该方法在风景意象评价上的客观性。从方法上看,网络话语作为大众体验风景之后的自发评价,与刘祎绯等学者利用实验设备记录观察者观察行为的现场试验的方法类似,属于较为客观的体验记录。为明确评价者是否会因社交友好倾向在网络中发布更积极的评价,今后可将现场试验与话语评价进行相互结合并对比验证。从结果上看,话语的大众风景意象评价印证了相关研究:风景形象认知中对于“空气清新”的普遍认同证明了人对风景的感知属于全方位的体验[18],嗅觉对于风景偏好产生了不可忽视的影响[19-20];“值得”“价格”的形象认知则证明了经济因素对于风景评价的影响[21]。

3)网络话语的丰富性为研究从多维角度开展提供了可能。由于包涵了时空信息、语义信息、情感信息、关联信息等内容[22],话语分析在分析风景意象上比照片、签到、短文本等数据更加直接、丰富。本研究通过词频分析(热力指数)、共现分析等分析方法,以及话语云、话语网络的可视化途径,在语言的基础上开展多维分析,但分析局限于文字本身。Dunkel 在研究中借助照片的地理标签将词汇云与地图结合的方式将文字与空间相互结合,拓展出更加立体的分析方法[6]。

4)在评价技术上,基于Python 编程语言及其相关技术的运用较为高效,但仍存在改进空间。风景形态感知提取采用计算机语言进行词频统计,需要增加人工分类判读,智能性有待提升;网络分析中应用二元语言模型提取双词共现进行网络分析,准确性高但全面性不足,仅能提取临近词语。刘逸等学者在研究中运用的ROST-CM 文本分析软件具有集合词频分析、网络分析、情感分析等于一体的功能[23],这一软件使用较为便捷,今后可开展不同评价技术之间的对比分析以确定最有效的技术。

在未来的研究中应进一步分析话语的情感特征、社会文化特征,加强时间、地域、代际、性别、职业差异、话语的传播特征研究,获取更加具体的风景主体与风景客体之间的关联,提高计算机自然语言处理的精准度、智能化,同时增强软文广告语、虚假评论的鉴别力。

4.2 结 论

1)风景话语证明大众风景意象在具备离散性的同时呈现趋同性,可用于分析评价者的风景意象偏向,同时发掘具有潜在价值的风景资源。青秀山风景要素形态感知符合巴莱特定律(Pareto's principle),即20%的词汇占据了80%的词频,景点感知评价则接近该定律,30%的词汇占据了80%的词频。

2)网络话语较为客观的反映出大众风景意象,对景区管理建设提供了指导。一方面,自然型风景得到了大众的普遍认可,人文型风景是青秀山有待发展的优势资源:青秀山植物型要素、植物型景点、文化型景点感知度较高,其热力指数分别为7.188、3.519、3.252;大众对于自然风景要素的认知较为丰富和深刻,植物、空气、树木组团占据了风景要素及景点形象认知网络核心位置。景区应在加强植物资源的保护、利用与开发同时提升景区文化资源的利用。另一方面,大众倾向于从直觉与价值评判层面进行风景形象认知:“风景优美”“值得”“面积很大”在总体形象认知评价中形成了普遍共识,热力指数分别为1.964、0.792、0.693;“空气-好”“空气-清新”在要素及景点认知中最强烈,热力指数分别为0.961、0.479。景区应在注重大众审美直觉需求的基础上,提升大众审美,朝着审美情趣更高、更注重文化内涵的方向引导。

3)话语评价方法具有较高的灵活性及敏感性,符合网络话语自由丰富的特点。Python 编程语言及其相关技术较为智能高效,能搜集时间跨度较大的文本内容并进行评价分析,降低了研究的时间、人力及物力成本。

网络话语具有自由性、丰富性的特点,客观地反映出大众风景意象;话语评价方法及技术灵敏度、准确性、效率较高,客观地总结了评价内容。虽然存在一定的局限,但在解决版权问题并保护隐私的前提之下,网络话语分析为大众参与风景资源建设提供更广阔的渠道,为进一步应用于风景话语情绪分析及其他相关评价研究奠定了基础。

猜你喜欢
词频景点风景
基于词频分析法的社区公园归属感营建要素研究
园林科技(2021年3期)2022-01-19 03:17:48
打卡名校景点——那些必去朝圣的大学景点
眺望心中最美的风景
现代妇女(2018年6期)2018-06-10 15:38:26
不可错过的绝美风景
英格兰十大怪异景点
海外星云(2016年7期)2016-12-01 04:18:07
随手一画就是风景
没有景点 只是生活
Coco薇(2015年11期)2015-11-09 13:19:52
景点个股表现
词频,一部隐秘的历史
云存储中支持词频和用户喜好的密文模糊检索