基于随机森林算法的张家界生态旅游适宜性评价研究

2021-09-27 03:14郑群明龚熊波梁莉莉袁慧芳
湖南师范大学自然科学学报 2021年4期
关键词:生态旅游算法评价

杨 波,黄 钦,郑群明,龚熊波,梁莉莉,王 敏,陈 颖,袁慧芳

(湖南师范大学,a 地理科学学院,地理空间大数据挖掘与应用湖南省重点实验室;b 旅游学院,中国 长沙 410081)

随着公众环境保护意识的提升,追求人与自然和谐共生的生态旅游模式成为当前旅游研究的热点。在“生态文明”建设背景下,准确把握适宜的开发尺度,实现生态效益与经济效益相融合,区域保护与适度开发相平衡,持续发展与永续利用相协调是生态旅游研究关注的重点问题。科学构建生态旅游适宜性评价指标体系,综合各个因子的贡献率对生态敏感区的旅游开发适宜性进行科学合理评价,对于建设生态旅游景区、落实“两山理论”、丰富评价方法有着重要的现实与理论意义。

生态旅游适宜性评价是在生态旅游环境和生态旅游资源评价的基础上,对特定地域是否适合开展生态旅游活动进行判断、做出决策,从而为生态旅游规划的功能分区与旅游项目选址提供科学理论依据, 为实现生态旅游业的可持续发展奠定基础[1]。国外学者关于生态旅游适宜性评价的研究起步较早,其评价模型最早由美国风景园林规划师McHarg于1969年在其著作Designwithnature[2]中首次提出。国内生态旅游适宜性评价是伴随着生态保护意识的觉醒和旅游开发需求的增长而逐步发展起来的。随着游客消费需求和旅游市场的转变,其在评价方法、内容、尺度、体系和区域上也潜在地发生变化。在评价方法上,其主要发展趋势由以定性为主的主观经验评价逐渐向以定性和定量相结合的评价方向转变,并在实践中不断丰富和完善。在评价尺度上,由以省域、市域单元为主逐渐过渡到县域、村域、景区景点细化单元[3]。随着空间分析技术及其相关理论的发展,国内外关于生态旅游适宜性评价方法也在不断丰富和完善。诸如德尔菲法[4]、模糊综合分析法[5]、层次分析法[6]、RS与GIS技术[7]、SWOT分析法[8]、神经网络[9]、因子加权叠加法[10]、灰色聚类评价模型[11]、最大信息熵模型[12]、模糊层次分析法[13]等方法被广泛应用。

虽然学术界对生态旅游开发适宜性进行了较为深入的研究,但仍然存在不足之处。首先,在构建指标体系和确定因子权重时尚无法避免人为因素的介入,或多或少引入了专家打分[14],这在很大程度上增加了评价结果的主观性。前者受不同评价人员不同评价目标的影响,导致所构建的指标体系不具有普适性;后者受限于评价人员专业背景的差异,在权重赋值时出现偏差。其次,绝大多数现有的评价方法往往忽略了评价因子之间可能存在的复杂线性关系,未对此进行验证分析,导致评价结果中相关因子权重占比隐性叠加[15]。基于此,生态旅游适宜性评价研究亟需摆脱固有方法的缺陷,并尝试从新方法上取得突破。

近年来,随着计算机技术和信息科学理论的不断发展和完善,机器学习方法进入广大研究人员视野,为解决上述问题提供重大机遇。机器学习是基于计算机资源、利用统计学理论和方法在大型数据集中发现少量已知样本所形成的模式或规律(模型训练),运用该模式或规律构造模型来预测大量未知数据集(模型应用)的自动化或半自动化过程[16]。作为机器学习诸多算法之一,随机森林算法RF(Random Forest)能够通过对小规模已知样本的训练学习实现大规模未知数据的高精度分类与评价[15],其对噪声和异常值具有较高的容忍度且不容易出现过拟合,在解决分类与回归问题中表现优异,在众多科研领域已经得到推广和应用。将随机森林算法与GIS技术相结合,利用现有数据集在客观计算权重、进行空间分析方面有独特优势。基于此,本文以张家界市为研究区,运用随机森林算法对其生态旅游适宜性开展实证研究,划分不同适宜程度的开发区域,并针对不同分区深入分析其影响因素,以实现生态旅游适宜性的客观定量评价,以期为张家界市生态环境保护、旅游资源开发、生态旅游布局、国土空间规划、区域可持续发展提供技术服务支持,从而为生态文明建设的理论思考和制度创新提供重要依据[14]。

1 研究区概况

图1 张家界市地理分布图 Fig. 1 Geographical distribution map of Zhangjiajie city

张家界市位于湖南省西北部武陵山脉腹地(图1),地处洞庭湖沉降区与云贵高原隆起结合部,属亚热带季风性湿润气候,雨量丰沛(年平均降水量约1 400 mm),气候温和(年平均气温约16.6 ℃),地理位置介于东经109°40′~111°20′,北纬28°52′~29°48′之间。其地层复杂多样;地势西北高,沿澧水向东南倾斜;地形以山地为主,约占总面积的76%;境内河溪纵横、山川广布、动植物资源丰富。张家界市下辖2区(永定区、武陵源区)2县(慈利县、桑植县),总面积9 653 km2,常住人口约154.9万人(2019年)。张家界市因旅游而兴,是中国最重要的旅游城市之一,现已发展成为世界著名旅游胜地。其中武陵源风景名胜区拥有世所罕见的石英砂岩峰林地貌,是我国首批世界自然遗产、地质公园、5A级旅游景区,风景游览区面积达264.6 km2。2019年,全市接待国内游客7 912.3万人次,入境游客137.0万人次,创造旅游总收入905.6亿元。

2 数据来源及研究方法

2.1 数据来源

本研究所需数据来源如下:(1)生态旅游景点POI数据来源于国家地理信息公共服务平台(https://service.tianditu.gov.cn/#/)并结合百度地图API爬取相关POI并经过清洗筛选处理得到;(2)DEM数据来源于地理空间数据云(http://www.gscloud.cn/sources/?cdataid=302&pdataid=10),空间分辨率为30 m;(3)人口数据来源于WorldPop全球高分辨率人口计划项目数据集(www.worldpop.org),空间分辨率为3弧度(在赤道处约为100 m);(4)路网数据来源于OSM(www.openstreetmap.org),通过叠加在线天地图筛选得到;(5)河流水系数据来源于全国地理信息资源目录服务系统(https://www.webmap.cn/main.do?method=index)1∶25万全国基础地理数据库;(6)生态系统服务价值数据(生物多样性、美学景观)来源于中国科学院地理科学与资源研究所资源环境科学与数据中心的中国陆地生态系统服务价值空间分布数据集[17];(7)遥感数据来源于地理空间数据云(http://www.gscloud.cn/home)Landsat 8 OLI_TIRS 数据,用以计算NDVI(归一化植被指数);(8)气温和降水数据来源于中国科学院地理科学与资源研究所资源环境科学与数据中心(http://www.resdc.cn/)中国1980年以来逐年年降水量和年平均气温空间插值数据集。

2.2 研究方法

2.2.1 理论分析 随机森林模型是一种基于决策树用于分类和回归的机器学习算法,由Breiman[18]于2001年提出,其本质是一种装袋集成算法(Bagging),利用bootsrap重抽样方法从原始样本中抽取多个样本,对每个bootsrap样本进行决策树建模得到每个基评估器,然后对基评估器的预测结果进行平均或用多数表决(投票)原则来决定集成评估器的结果。式(1)表示随机森林组合分类模型:

(1)

式中:H(X)表示模型最终分类结果,I(·)为示性函数,hi(Xi)为单棵决策树分类器,Y为输出变量。作为一种非线性建模工具,随机森林算法不仅可以很好地处理非线性、非高斯问题,而且在学习过程中不容易出现过拟合,在模型预测和回归过程中具有较好的准确性、泛化性和鲁棒性[19]。在数据处理和建模过程中,不需要对样本数据进行归一化、标准化等过多的预处理工作,不仅具有参数调整少、运算效率高、分类(或回归)准确率高等优点,而且能够度量各个特征在分类(或回归)中的重要性,从而避免了人为因素的介入赋予因子权重,增加了评价结果的客观性。

机器学习算法中提供了一系列模型优化策略,贯穿于数据处理、模型选择、结果预测等过程之中。如为避免数据过拟合,在建模过程中加入数据划分、交叉验证等方法提高模型泛化能力。又如为保证评价结果的稳定性,引入惩罚因子平衡模型训练复杂度,使评价结果不易受特征维度剧烈变化的影响。再如为寻求最适宜模型,动态调整特征维度以寻找评分最高的最适宜模型,分析各个特征对建模的贡献率。作为一种有监督学习方法,随机森林算法评价结果的可靠性直接受到样本数据的影响,模型训练基于已知数据样本特性展开,基于评价目标科学选取,基于评价因子合理定义,样本选择对最终评价结果产生直接影响。本研究的随机森林模型基于Python中的scikit-learn库(https://pypi.org/project/scikit-learn/)开发。随机抽取70%的数据用于训练,剩下30%的数据用于验证,最后通过交叉验证、参数调优选择最佳模型。

2.2.2 指标体系 由于不同领域学者对生态旅游的不同理解会导致其不同的指标取向,所以指标选取不可能面面俱到。基于此,本文综合了不同学者对生态旅游学术定义的共性:以自然资源为基础,有较强环境承载力,兼顾环境保护与可持续发展,对区域经济社会发展有积极影响。通过以上分析,本文认为区域生态适宜性影响因素应包括以下4个方面:地形地貌、自然环境、社会经济和资源禀赋。在指标选取中,应坚持科学性、客观性、系统性和实用性原则,尽量以少量指标表征生态旅游适宜性的4方面影响因素。此外,由于张家界市自然条件和社会经济发展状况的特殊性,许多数据获取困难,所以指标体系不宜太过庞大。综合以上分析,构建张家界市生态旅游适宜性评价指标体系如表1所示。

表1 张家界生态旅游适宜性评价指标体系

2.2.3 数据处理 为方便数据分析,需要对数据进行预处理,所有数据预处理过程基于ArcGIS 10.6软件并结合Python编程工具处理得到。首先需要利用张家界市行政边界数据将原始数据进行裁剪或掩膜,以划分为大小相同的矢量或栅格;其次,将经过初步处理后的数据进行投影转换,将地理坐标系转换为投影坐标系,以便创建渔网、计算河流和路网密度等;最后,将各个因子统一为100 m空间分辨率的栅格,通过掩膜提取相同大小的行列,以便数据导入Python运用随机森林模型进行训练。以下是对部分因子具体计算过程的补充:

(1)河网密度:其计算公式如下

Dw=Li/Ai,i=1,2,3,…,n,

(1)

式中:Dw为河网密度,Li为区域i中干支流总长度,Ai为区域i所占面积。河网密度指数可以有效表示流域内河网的疏密程度及水流切割程度。

(2)路网密度:路网密度是指区域内不同等级道路加权长度总和与该区域面积之比,是评价交通状况的重要指标之一[20]。由于不同等级道路对区域交通通达性的贡献不同,所以本研究采用路网加权密度模型来计算路网密度,其计算公式为

式中:Dr为路网密度,ρj为j类型道路所占权重,Lij为区域i中j类型道路总长度,Ai为区域i所占面积,m为道路类型总数。根据道路的不同等级以及不同交通方式对区域人力物流流通影响能力的差别,结合专家意见,采用综合评价方法对各类型道路赋予相应权重(如表2)。

表2 不同类型道路权重

(3)植被覆盖:植被覆盖率是衡量生态旅游潜力的重要指标之一,归一化植被指数(NDVI)可以有效反映地表植被覆盖状况。NDVI是遥感影像中近红外波段与红光波段的反射率值之差与其两者之和的比值,是反映植被覆盖的重要参数之一[21]。其计算公式为

NDVI=(NIR-R)/(NIR+R),

(3)

式中:NIR为近红外波段的反射率值,R为红光波段的反射率值。

(4)地势起伏度:地势起伏度是以DEM数据为手段分析地形起伏特征的宏观指标,是指某一区域内最高点高程与最低点高程之间的差值。其计算公式为

Hi=Hmax-Hmin,

(4)

式中:Hi为邻域范围内的高差,Hmax为邻域范围内所有像元的最大值,Hmin为邻域范围内所有像元的最小值。本研究选取矩形作为分析窗口,采用窗口分析法(3×3窗口)提取地势起伏度。

(5)湿度指数:缨帽变换中所得到的湿度分量可以有效反映地表土壤和植被含水状况,从而把握区域整体土壤植被水环境空间分布情况,是生态环境质量评价的重要指示因子[22]。Landsat 8的湿度指数WI为

WIlandsat 8=0.151 1b1+0.197 3b2+0.328 3b3+0.340 7b4-0.711 7b5-0.455 9b6,

式中:b1为蓝光波段;b2为绿光波段;b3为红光波段;b4为近红外波段;b5为短波红外波段1;b6为短波红外波段2。

3 结果分析

3.1 精度评价

混淆矩阵又称为可能性表格或是错误矩阵,是二分类问题的多维衡量指标,是模式识别领域中一种常用的表达形式,描绘了样本数据的真实属性与识别结果类型之间的关系,是评价分类器性能的一种常用方法[23],用来呈现算法性能的可视化效果,在样本不平衡时尤其有用。ROC(Receiver Operating Characteristic Curve,受试者工作特征曲线)是基于非阈值依赖判断模型精度,即以预测结果的每一个值作为可能的判断阈值,由此计算得到相应的敏感度和特异度。然后以1-特异度(即假阳性率)为横坐标,敏感度(即真阳性率或召回率)为纵坐标绘制ROC曲线,其与横坐标围成的封闭几何图形的面积即为AUC(Area Under ROC Curve)值,取值范围为[0,1],其值大小表征模型的准确度,数值越大说明模型准确度越高[24]。本文采用混淆矩阵(如图2)与ROC曲线(如图3)来评估模型性能。

当阈值较小时,敏感度指标很高。随着阈值的增加,敏感度逐渐下降,即漏检逐步增多,而误杀缓慢减少。当阈值趋于中间范围时,模型评估指标各有优缺点,当阈值等于0.5 时,敏感度偏高,但是误杀的样本个数较多。当阈值等于0.6时,敏感度有所下降,F1 measure达到最大值。表明在该阈值下,捕捉少数类(正类)的需求与尽量不误伤多数类(负类)需求达到平衡,模型达到较好状态。

智能制造不是简单的自动化,而是制造业借助信息技术和互联网,让机器、生产流程和产品变得智能化、人性化。智能制造战略不是工业自动化发展的必然产物,需要引导和支持工业自动化和信息通信技术深度有机融合;实施智能制造战略支撑因素的缺失,将延缓制造业向智能制造升级。

表3 不同阈值下的随机森林模型评估指标

为进一步确定最佳阈值,评估模型性能,基于混淆矩阵分析结果(图2),运用ROC曲线和AUC值评估模型在尽量捕获少数类的同时误伤多数类的变化情况,如图3。

经过模型检验,通过ROC图像可以判断该模型达到预期效果,整体表现良好,AUC值高达0.99,模型在该训练数据下表现优秀。通过索引最佳阈值点的位置得出最佳分类概率阈值为0.66,即在此概率阈值以上的点均为正类(生态旅游景点),在此概率值以下的点均为负类(非生态旅游景点)。此点下的假阳性率(1-特异度)为0.025,真阳性率(敏感度)为0.981。在该阈值下,模型达到最佳状态,既能够捕捉出少数类(正类),又能够尽量不误伤多数类(负类),模型整体精确性和对少数类的捕捉得到可靠保证。

注:图中黑色圆点代表最佳阈值点。 图3 ROC曲线拟合结果及AUC值Fig. 3 ROC curve fitting results and AUC value

3.2 驱动因素分析

通过训练模型返回的特征重要性排序结果(如图4)分析发现,影响张家界生态旅游适宜性的特征(因子)主要为路网密度、多年平均气温和多年平均降水,其中,路网密度与多年平均气温对模型的贡献率最为接近,也最为重要。一方面,张家界独特的气候条件得天独厚,气候温和,雨量充沛,由于海拔较高,植被覆盖旺盛,成为重要的旅游避暑胜地。另一方面,交通问题是影响生态旅游发展的重要因素,发达的交通系统会给旅游目的地带来充足客源,所以在进行生态旅游资源开发时应兼顾生态保护与资源开发,在保护的前提下合理布局交通要道。此外,生物多样性、NDVI、美学景观价值等因素对模型的贡献率也较大,土地利用、距离最近河流距离等特征对模型的贡献率相对较小,其他特征对模型的贡献相对均衡。这与生态旅游的自身特点高度相关,丰富的动植物资源、高价值的美学景观以及高覆盖度的植被生态等是发展生态旅游的重要前提,这些潜在的旅游资源在空间上相互组合,成为发展生态旅游的物质基础。所以发展生态旅游需立足于当地的生态旅游资源,结合自身特点在保护的前提下适度开发。通过以上特征重要性分析可以发现生态旅游与自然环境和资源禀赋关系密切,在社会经济条件中交通因素至关重要,考虑到特征维度,尽量以少量指标表征生态旅游适宜性因子指标体系,可以选择考虑利用排序靠前的特征拟合模型,从而降低特征维度和时间复杂度。

3.3 结果分析

图4 随机森林分类结果Fig. 4 Random forest classification results

根据随机森林训练模型预测结果,得到各个格网适宜开展生态旅游的概率,概率值的大小代表开展生态旅游适宜性的高低,其取值范围在0~1之间,其值越高代表越适宜开展生态旅游 (图4)。根据类内差异最小,类间差异最大原则,通过不断迭代计算分级,使得数据级内变异最小,级间变异最大[25]。在ArcGIS 10.6平台中对其采用自然断点法进行分类,得出适宜性概率临界值,并结合实地情况划分为4个不同程度的生态旅游适宜开展区:高度适宜发展区、适度适宜发展区、边际适宜发展区、不适宜发展区[26]。

生态旅游高度适宜发展区,其适宜性概率介于0.73~1.00之间,面积为2 143.86 km2,占区域总面积的22.21%,主要分布于武陵源区中部,永定区南部,慈利县中部、西南部、西北部;桑植县北部、西北部、东北部及东南部地区。这些区域大多处于核心景区范围内,植被覆盖率高,生态环境承载力强,生物多样性丰富,自然生态景观完整,生态旅游资源丰富。有武陵源风景名胜区、天门山国家森林公园、黄龙洞旅游区、红砂溪原生态旅游观光园、宝峰湖风景区、八大公山自然保护区等品味极高的旅游资源,这些资源集中分布于省道干线附近,形成以公路为轴线的生态旅游带。这些区域的旅游知名度高,接待能力强,景点分布集中,交通及基础设施相对完善,加之适宜的气候,使其成为高度适宜发展区域。除此类知名景点外,在桑植县东北部、东南部,慈利县中部、西北部及西南部地区虽没有核心景点分布其中,但由于其独特的地貌景观、丰富的动植物资源、原始的生态环境、相对便捷的交通,加之其距离知名景区较近,在空间分布上符合地理学第一定律,具有潜在丰富的生态旅游资源,因而均被划为高度适宜发展区。未来发展生态旅游,可以优先考虑这些区域,并结合已有景区各自的特点和优势,在保护的基础上将其融入其中,发展成为更大的区域生态旅游综合体。

生态旅游边际适宜发展区,其适宜性概率介于0.43~0.58之间,面积为3 009.99 km2,占区域总面积的31.18%。主要分布于桑植县东南部,永定区中北部和东南部,慈利县大部分区域,与不适宜发展区相间分布。该区域地表较为破碎,可依托的居民点数量少且分散,无主要生态旅游景点分布,地貌景观特征不够典型,海拔较低,气温较高,降水较少,坡度相对较大,植被覆盖度相对较低,加之交通基础设施不够完善,美学价值不够特别突出,生物多样性相对较低。该区发展生态旅游应坚持“保护优先”的原则,始终将生态环境保护放在第一位。在少数生态环境承载力强,具有资源特色的地区,选择性地开展生态旅游。

生态旅游不适宜发展区,其适宜性概率介于0.10~0.43之间,面积为1 132.67 km2,占区域总面积的11.74%,其分布特征与边际适宜发展区类似且与其相间分布。该区域不仅包括一些城镇区域还包括生态敏感脆弱地区。在城市内部或距离城镇较近的地区,其生态旅游资源匮乏,且受人类活动影响大,故不适宜发展生态旅游。在一些生态敏感脆弱地区如张家界大鲵自然保护区,饮用水源保护区,永久基本农田等区域内,不适宜发展生态旅游,应以保护为主,保持原有的自然生态环境。上述因素共同决定了该地区不适宜开展生态旅游活动,在今后生态旅游发展过程中,应实施分区规划、分区发展、分区保护,使生态旅游更加健康、科学、持续发展。

4 结论与讨论

4.1 结论

本文将GIS技术与机器学习算法相结合,利用随机森林算法对张家界市生态旅游适宜性进行实证研究,经过特征选择、交叉验证、模型优化、精度检验、模型预测等步骤,得出如下结论:

图5 生态旅游适宜性评价指标权重Fig. 5 Ecotourism suitability evaluation index weight

(1)经过特征选择和因子重要性分析,影响张家界市生态旅游适宜性的因子主要是路网密度、多年平均气温;此外,多年平均降雨量、生物多样性、NDVI、美学景观价值等因子也有重要贡献;距河网距离、湿度等因子贡献相对较少;其他因子对模型的贡献率如图5所示。

(2)模型优化后的测试精度高达94.20%,预测结果反映出张家界市适宜性旅游景点的规模较大,该算法的鲁棒性较强,在模型泛化和精度检验上表现良好。

(3)从生态旅游POI的空间分布与数量上看,其空间分布符合张家界市现有生态旅游空间格局特征,说明随机森林模型很好地拟合了其空间分布形态特征。

综上所述,基于随机森林算法的机器学习方法能够较好地支撑生态敏感区的旅游适宜性评价工作,具备较强的理论支撑,分类预测精度高,评价结果稳定可靠,能够为优化生态旅游景区空间规划提供科学依据。

4.2 讨论

机器学习算法可以有效克服传统生态旅游适宜性评价研究中因子选取、权重设置、因子间复杂线性关系的干扰,在应用可行性、客观性、准确性上相较于传统方法有巨大优势,避免了因过多引入专家打分而使得评价结果缺乏客观性的窘境。由于随机森林是一种有监督学习算法,所以分类模型的性能很大程度上依赖于训练样本的选择,在应用该算法时需要提高训练样本精度。

本研究也存在一些不足之处:由于数据获取困难,缺乏永久基本农田、自然保护区、生态保护红线、饮用水源保护区等生态敏感区域数据,使得模型分类预测时出现一定的偏差。今后对于该问题的研究可以考虑加入此类数据,通过对预测结果进行掩膜,可以将此类生态敏感区域划为禁止开发区域,更好地权衡保护与开发尺度,使研究成果更好地服务于生态旅游资源开发与生态环境保护。此外,目前在生态旅游适宜性评价研究中多种机器学习方法间的对比研究尚未涉及,基于机器学习算法的适宜性评价研究还有待深入。未来对于生态旅游适宜性评价研究可以考虑在传统研究方法的基础上,结合机器学习算法的优势,综合诸多分类算法(支持向量机、决策树、逻辑回归、朴素贝叶斯、K-近邻算法、人工神经网络等)进行对比分析。同时,基于适宜性评价结果开展后续的土地利用布局优化与景区规划也是未来研究方向之一。

猜你喜欢
生态旅游算法评价
哪种算法简便
SBR改性沥青的稳定性评价
中药治疗室性早搏系统评价再评价
生态旅游管理的现状和发展策略分析
推动武陵山片区民族文化生态旅游脱贫
Travellng thg World Full—time for Rree
进位加法的两种算法
生态旅游产业可持续发展探讨
青海玉树藏族自治州生态旅游资源评价
一种改进的整周模糊度去相关算法