基于随机森林的风景体验影响因子判断方法
——以张家界国家森林公园为例

2022-04-27 02:30彭佳玉中南林业科技大学风景园林学院硕士研究生
建筑与文化 2022年4期
关键词:贝叶斯排序风景

文/彭佳玉 中南林业科技大学风景园林学院 硕士研究生

沈守云 中南林业科技大学风景园林学院 教 授

廖秋林 中南林业科技大学风景园林学院 副教授(通讯作者)

王薇薇 中南林业科技大学风景园林学院 讲 师

引言

目前的风景体验研究面临着许多挑战,许多学者尝试用不同的方法解决风景体验评价的问题。第一类是使用基于传统的调查研究方法,如通过问卷调查法[1]、半结构化访谈法[2]、观察法[3]、结构方程模型[4]等方法研究影响大众风景体验的因素。此类方法依据研究目的预先设定评价指标,通过专家打分对指标权重赋值,构建评价指标体系,得出评价结果。由于评价指标的选择和指标权重的赋值具有一定的主观性,且数据采集的时间过于集中、数据样本量少,会导致结果出现一定的偏差,构建的评价体系不具有迁移性,使之在风景体验评价的应用中具有局限性。而随着互联网技术的发展和移动终端的普及,在线社交媒体迅速发展,越来越多的人通过社交媒体记录风景游览过程中的风景体验,从而产生了大量风景体验数据,这为广泛开展大众的风景体验评价研究带来了机会。基于此,很多学者开始使用基于机器学习的方法,如采用朴素贝叶斯(Naive Bayes)[5]、长短时记忆神经网络(LSTM)[6]、ROST CM6[7]、二元语言模型(Bigram)[8]等方法,根据用户生成内容提取风景体验影响因子,结合情感分析,获得大众的风景体验评价。此类方法虽然较为全面地考虑了评价指标选择不受人为主观的影响,解决了数据采集的时间过于集中等问题,提取出了影响风景体验的相关因子,但因没有量化计算风景体验影响因子的重要值,未能解决风景体验影响因子的重要性判断问题。

针对上述方法的局限和未能解决的问题,我们尝试采用基于随机森林的方法展开研究,将风景体验的因子进行提取和重要性排序,并与朴素贝叶斯进行比较。朴素贝叶斯是经典的分类模型,算法简单,在数据集较大的时候也能保持一定的稳定性。随机森林已广泛运用在医学、信息管理、生态学等领域,随机森林的学习过程快,处理大量数据依旧能保持高效,相比于朴素贝叶斯基于先验条件输出判断结果,随机森林可以在数据缺少的情况下仍维持一定的准确度,给出合理的判断。因此选用以上两种方法作对比研究,通过对两种方法的比较,探讨随机森林在风景体验影响因子判断研究上的可行性,为风景体验影响因子的判断方法提供一种新的方法。

1 研究区域概况与研究方法

1.1 研究区域概况

张家界国家森林公园位于湖南省西北部张家界市境内,北纬29°31′,东经110°4′,面积约130 平方公里,地处武陵山脉东段,是武陵源山脉的重要组成部分[9]。地形地貌由西北向东南倾斜,东连索溪峪,北部与天子山相邻,有着独特的砂岩峰林地貌;该区域气候属北亚热带季风性湿润气候,动植物资源丰富,森林覆盖率达98%。公园内包含金鞭溪、袁家界、黄石寨等多个知名景点,以独特的地形地貌、婉转曲折的水景、云海、日出等自然奇观,给大众以视觉、嗅觉、听觉等多方面、深层次的风景体验,是研究风景体验的绝佳场地。

1.2 数据来源

利用Python 语言的Scrapy 框架,采集携程和去哪儿网站上张家界国家森林公园2015 年3月12 日至2020 年8 月19 日的共5179 多条数据,其中来自去哪儿网的有1453 条数据,携程网的评论数据为3729 条,删除与研究无关的数据,得到3924 条有效评论。对收集到的评论数据进行预处理,利用Python 的第三方库工具文本进行分词、词性标注及词频统计,得到研究对象的高频词排序,根据高频词内容提取风景体验影响因子,选取影响因子后进行人工特征标注。

1.3 风景体验影响因子的判断方法

1.3.1 基于随机森林的判断方法

随机森林是由多个决策树分类器组成的分类器集合,是一种重要的基于套袋(Bagging)的集成学习方法。随机森林用于分类问题时,选取多个决策数模型组合成集成分类器,模型之间不存在依赖关系,彼此独立并利用相同的数据搭建多个独立的决策树分类模型,通过少数服从多数的投票方法决定分类结果[10],在对数据进行分类的同时,还可以给出每个变量的重要性评分,评估每个变量对分类的贡献。随机森林的算法步骤如下:

(1)影响因子的分类方法。利用Bootstrap对原始训练集中有放回的重复随机抽取k 个样本,经过k 轮训练,得到k 个决策树模型,将生成的多棵决策树模型组成分类器集合{h1(x)、h2(x),..,hk(x)},对影响因子进行积极、消极和中性的分类,最终的分类结果采用多数投票数法。最终的决策结果计算方式如下:

其中,H(x)表示组合的分类模型,X 为选取的影响因子,hi 是单个的决策树模型,i 表示分类器的序号,Y 是影响因子的判断结果(积极、消极、中性),I(·)为示性函数,avmax 表示结果的平均值。

(2)影响因子的重要值计算方法。随机森林模型中,选用基尼不纯度平均减小值(Mean Decrease Gini)作为衡量特征重要性的指标。基尼不纯度计算每个变量对分类树每个节点上观测值的异质性的影响,从而比较变量的重要性。计算方式如下:

其中,D 为评论数据的样本集合,pk是样本集合D 中第k 类样本所占的比例(k=1,2,...,|Y|)。在本文k 的取值为k=(积极、中性、消极),Gini_index(D,a)是影响因子a 的重要值,值越大说明影响因子Dv 越重要,是数据集D 被a 划分为V 个分支节点,第v 个分支节点包含了D 所有在属性a 上取值为av 的样本。

1.3.2 基于朴素贝叶斯的判断方法

朴素贝叶斯是基于贝叶斯定理和特征条件独立假设的分类方法。具体来说,对于给定的训练数据,首先基于特征条件独立假设学习输入以及输出的联合概率分布;然后基于此模型,对给定的输入特征,利用贝叶斯定理求出后验概率最大的输出类别[11]。

(1)影响因子的分类方法。由于朴素贝叶斯是基于属性条件独立性假设,则:

其中,d 为属性的数目,即选取的影响因子的数量。xi 为X 在第i 个属性上的取值。P(x)表示事件x 发生的概率,由于分母对于所有类别为常数,则只需将P(x|yi)最大化即可。

(2)影响因子的重要值计算方法。朴素贝叶斯模型中,选用条件熵作为衡量特征重要性的指标。计算公式如下:

以上式子中,H(X)表示某一影响因子的熵,Y 的取值为积极、中性、消极,H(Y|X)表示在某一影响因子X 出现时,Y 的取值期望值,H(Y|X)越大,说明该影响因子的重要性越大。

1.4 风景体验影响因子判断的模型构建

本实验通过R 语言实现模型构建。运用上文所提及的影响因子的提取方法,提取了15个风景体验影响因子,如表1 所示。风景本体体验影响因子包括:植物、空气、地形地貌、天气、水体、动物、民俗文化共计7 个因子;风景环境体验影响因子包括:人流量、服务态度、标识服务、价格、卫生、内部交通、游览设施、管理,共计8 个因子。对选取的影响因子,进行人工标注,评论中出现标注为1,未出现标注为0,再通过人工对评论集进行风景体验的类别判断,即上文所提及的类别Y,消极、中性、积极分别标注为0、1、2。随机将原始数据集的一半划分为训练数据,得到1956 条训练数据,剩下的为测试集数据。将标注好的训练数据输入模型,反复运行直到达到一个稳定值。

表1 风景体验影响因子属性表(表格来源:作者自绘)

2 结果与分析

2.1 风景体验总体评价结果

本研究对象采集的有效评论数据为3924条,经人工标注,得到风景体验是积极评价的评论数量为2961 条,占总评论数的75.5%,消极评价的评论数量为725 条,所占比例为18.5%,中性评价的评论数为238 条,所占比例为6%。随机森林的AUC 值为0.80,朴素贝叶斯模型的AUC 值为0.79,准确度分别为80%和79%。由积极风景体验的评论数占比可知游客对公园的风景体验为积极体验,但消极体验的评价比例也比较重。

2.2 风景本体体验影响因子排序结果

风景本体体验影响因子的重要性排序如表2 所示。两种方法对风景本体影响因子的判断结果基本一致。在随机森林的方法中,通过基尼指数(Gini Index)对影响因子进行重要性排序,地形地貌的重要值最高13.15,其次为天气13.14,空气重要值为10.02,高于动物的重要值4.28,地形地貌让大众的印象最深刻,说明公园的奇特地貌得到了广泛的认可。天气对大众的风景体验影响也很重要,由于大众对天气的评价差异性较大,如有些游客喜欢雾天,但一部分游客认为雾天影响观景,因此并不能确定天气对风景体验的效果是积极影响还是消极影响。民俗文化的重要值0.50,重要性最低,说明在风景本体体验中,大众对风景的人文体验感不高,对自然风景的体验感更高,景区今后要加强人文景观的建设。

表2 风景本体体验影响因子排序对比(表格来源:作者自绘)

2.3 风景环境影响因子排序结果

如表3 所示,两种方法对价格、人流量、卫生的重要性排序一致,其他影响因子的重要性排序结果略有差异。管理在随机森林方法的重要性排序为第三,朴素贝叶斯方法则将管理排在第四位。服务态度在随机森林方法的排序结果中为第四位,而在朴素贝叶斯方法的重要性排序中为第六位。游览设施在随机森林方法和朴素贝叶斯方法的重要性排序分别为第五和第三,标识服务的排序分别为第六和第七。这种差异有可能是两种算法基于不同的特征重要性计算方法导致的,且大部分游客对风景环境体验是消极评价,会造成评价结果的误差。

表3 风景环境体验影响因子排序对比(表格来源:作者自绘)

结合评论文本“态度差”“标识不清晰”“排队”以及“贵”“服务”等高频词分析,大众对价格、人流量、管理、服务态度、标识服务、内部交通为消极评价。大众对游览设施的评价没有明显偏向积极或者消极。在随机森林的方法中,价格在整体的风景体验影响因子重要性排序中占首位,重要值为48.78,人流量和管理的重要值为31.20和23.23,这三项风景环境影响因子的重要值高于风景本体影响因子的重要值,说明风景环境的体验感和公园的管理服务会极大地影响大众对风景体验的评价。

3 讨论与结论

3.1 采用随机森林的方法可以实现对风景体验的评价和影响因子的排序

本文基于随机森林算法提出风景体验影响因子的判断方法,并以张家界国家森林公园为例进行了验证,分析结果与已有研究的结果基本一致[12,13],说明本方法判断结果基本正确。相比较于Kun Kim 等[14]运用文本挖掘和共现分析,只能给出定性的判断,不能定量计算影响因子的重要值;Lars Brabyn等[15]运用GIS 对指定空间范围内的风景体验进行研究,使用范围局限大。随机森林的判断方法可以减少个人在研究中的主观干扰,通过网络用户生成内容和词频分析提取影响因子,从大众的角度对风景体验进行较为客观的记录,灵活性更强,随机森林算法根据风景体验影响因子的重要性排序,可以满足更多情况下的研究需求,景区可以优先解决对大众风景体验影响更大的因素,使工作更有针对性,建设成效更符合大众的需求。

3.2 以管理和服务为导向的风景规划设计启示

风景体验影响因子判断结果表明,大部分大众对公园的整体风景体验是积极的,但消极的评价所占比例仍接近两成。风景本体体验影响因子中的空气、植物、水体等与大众的风景体验呈正相关,对大众的风景体验产生积极影响;风景环境体验影响因子中的价格、管理、人流量、服务态度等与风景体验呈负相关,对大众的风景体验产生消极影响,且在整体的影响因子中排序靠前(价格、管理、人流量都处于整体的前三),产生的消极影响较大,这一结果表明公园的管理、服务、基础设施阻碍公众开展体验风景活动,给公园造成了负面影响,降低了公众的风景体验度。公园应当努力提升管理和服务水平,使得公众可以不被风景外部环境干扰,获得完整的风景体验,增强公众的体验感。

猜你喜欢
贝叶斯排序风景
作者简介
基于贝叶斯定理的证据推理研究
基于贝叶斯解释回应被告人讲述的故事
恐怖排序
节日排序
眺望心中最美的风景
租赁房地产的多主体贝叶斯博弈研究
租赁房地产的多主体贝叶斯博弈研究
不可错过的绝美风景
随手一画就是风景