基于随机森林算法的海南岛水资源承载力自动评价方法

2023-11-07 04:50:50杨博雄顾煜烨李社蕾汪舜敏张开存
海南热带海洋学院学报 2023年5期
关键词:基尼海南岛淡水

杨博雄,顾煜烨,李社蕾,,周 波,,汪舜敏,,张开存

(三亚学院a.信息与智能工程学院;b.三亚学院陈国良院士团队创新中心,海南 三亚 572022)

0 引言

随着人口快速增长和城市建设进程加快,自然资源的大规模开发利用和工程建设对生态环境的破坏导致资源供需矛盾越来越严重,尤其是水资源[1-2]。为了研究水资源对区域经济发展的影响,中国新疆水资源软科学研究小组首次提出了水资源承载力(Water resources carrying capacity,WRCC)的概念[3]。目前,大多数研究侧重于淡水资源、社会和经济的协调发展,并将WRCC 概念与可持续发展理论相结合。通过研究一个城市的WRCC 可以确定维持和管理社会经济的淡水资源规模[4],研究结果对城市可持续发展具有重要意义。

1 当前问题

WRCC是指在给定的经济水平和技术条件下,水资源能够使特定研究区域的人口、社会经济和生态环境相互兼容的最大可持续发展规模[5]。目前存在多种综合评价WRCC 的方法,如TOPSIS(Technique for order preference by similarity to an ideal solution)综合评价模型[6]、投影跟踪模型[7]、组合权重法[8]、灰色关联法[9]等。然而,这些方法由于缺乏对不同要素之间耦合关系的系统分析,很难客观描述WRCC的真实情况[10]。

大多数WRCC模型是根据特定条件或特定流域建立,由于各种背景具有很强的可变性,无法全面准确地理解WRCC 的概念和影响因素,因此,难以建立一个通用的WRCC 描述模型。同时,WRCC 模型指标体系中定性指标的量化研究不够充分,也没有系统有效的方法对定性指标进行量化,导致模型的可操作性和实用性不足。

2 解决思路

通过对WRCC深度解读,分析WRCC的主要影响因素,结合淡水资源、经济、社会、生态环境、地理等特点,重新构建WRCC 评估指标体系,并改进WRCC 的分类模型。通过模型对数据的学习来进行评价,从而更加客观公正地评价结果,并使得该方法具有一定的普适性。

本研究重新确定了反映城市WRCC的17个评价指标(表1),具体如下:

表1 WRCC细化评价指标

1)淡水资源指标:B1、B2、B3、B4、B10、B11,评价内容涵盖产水模数、降水能力、人均淡水占有量、分布状况和淡水供应能力以及开发利用程度;

2)社会经济方面的指标:B5、B12、B13、B14、B15、B16,评价内容涵盖单位土地面积的人口压力、城市化程度和区域经济发展水平等;

3)生态环境指标:B6、B7、B8、B9、B17,评价内容涵盖森林覆盖率、城市污水处理率、地表淡水达标率、生态系统淡水利用率等。

由于WRCC 的区域特征,全球尚未形成一个共同的阈值范式。根据国际水资源安全标准和其他学者的研究经验[11-13],以及WRCC指数的分级阈值,本研究将其分为5个等级(表2),具体如下:

表2 WRCC综合评价指标体系与评价标准

Ⅰ级(优质):水资源丰富,承载能力充足;

Ⅱ级(良好):水资源协调,具有很大的开发潜力;

Ⅲ级(正常):水资源较为合理,能够维持基本的服务功能;

Ⅳ级(预警):水资源处于报警状态,只能部分维持功能;

Ⅴ级(严重):水资源严重短缺,难以提供生态承载和社会服务功能。

3 机器学习模型

基于分类回归树CART 的随机森林算法是一种决策树集成学习(Ensemble learning,EL)方法,具有精度高、不易过拟合和训练速度快等优点[14-15]。同时,它对默认值不敏感,并且具有良好的鲁棒性,在回归问题的应用中取得了良好的效果,因此广泛应用于模式识别、科学决策和考虑变量连续性的综合评价。本研究采用基于CART的RF算法来自动学习历史数据,并给出分类结果。

3.1 基尼指数[Gini coefficient,记作Gini(P)]

RF 算法使用“基尼指数”来选择划分属性,基尼指数越小,则数据集的纯度越高。假设有数据集D,D有k个分类,概率P的基尼指数Gini(P)定义为

其中:K为总的类别个数;Pk为第k个类别的概率。从式(1)中可以看出,基尼指数的含义是从不同类别的数据集中随机抽取两个样本的概率。

根据特征A是否采用某个可能的值“A”,将训练数据集D分为和(且)。在特征A的条件下,集合D的基尼指数定义为

其中:Gini(D,A)为特征经过A分割后集合D的基尼指数;Gini(D)为集合D的基尼指数。从式(2)可以看出,基尼指数值越大,样本集合的不确定性也越大。

基尼指数增益ΔGini(A)的计算公式为

其中:Gini(D,A)为在特征A的条件下集合D的基尼指数;Gini(D)为集合D的基尼指数。

3.2 CART决策树的生成

CART决策树的生成方法如下:

1)将节点下的训练数据集设置为D,并计算训练数据集所有特征对的基尼指数。

2)训练集中每个特征的每个可能值都被视为一个可能的数据分段节点。根据分割点,数据分为两部分。计算两个数据集的其余特征,并将结果作为对象的基尼指数之和。

3)在计算所有分区情况的基尼指数后,选择分区特征和最小化基尼指数的特征值。

4)重复上述步骤,直到特征使用完成或满足停止条件。

5)最后生成CART决策树。

3.3 基于Bagging的随机森林集成算法设计

单一分类器大多只适合于某种特定类型的数据,很难保证分类性能始终最优。因此,采用投票方法从这些分类器的结果中选择最优的模型,以获得更好的分类器模型。

Bagging 集成算法是投票式算法。首先使用Bootstrap 产生不同的训练数据集,然后再分别基于这些训练数据集得到多个基础分类器,最后通过对基础分类器的分类结果进行组合,得到一个相对更优的预测模型。具体如下:

1)首先输入训练数据集:D={(x1,y1),(x2,y2),…,(xn,yn)},其中(x,y)表示一组训练数据对;

2)定义弱分类器的迭代次数为T:对于t=1,2,…,T,使用Bootstrap 重采样方法[16]对训练集随机采样t次,共M次,得到包含M个样本的采样集;

3)第t个决策树模型(x)通过采样集进行训练。从特征变量中随机选择M个特征,并选择一个最优特征来划分决策树的左右子树,最后确定弱势学习者投票最多的模式为最终选择。

4 实验验证

4.1 实验区域

海南岛四面环海,有独立的淡水资源供应体系(图1)。岛上淡水的主要来源是降水和地下水[17]。淡水资源集中,流域面积小,相对脆弱。夏、秋两季的热带风暴和台风为海南岛带来了丰富的淡水蒸汽资源。本研究以海南岛(不含三沙市)WRCC评价为例,对所提方法和模型进行实验验证。

图1 海南岛淡水系资源分布

4.2 实验数据

根据海南省行政区域划分,本研究对各地区的淡水资源现状进行评价。原始数据来自2006—2021 年的《中国统计年鉴》《水资源公报》和《水利发展统计公报》,部分指标数据是根据各地区统计数据计算而来(表3)。

表3 海南岛水资源承载力评价指标数据

4.3 基于CART随机森林算法的评价模型设计

采用基于CART 算法的RF 分类方法评价WRCC 的关键是根据WRCC 评价指标体系对训练样本进行标注,基本过程如下:

1)根据评价标准,随机产生2 000个样本,采用TOPSIS综合评价法对样本的WRCC 进行评价。对于样本的预期输出,WRCC等级分别表示为Ⅰ、Ⅱ、Ⅲ、Ⅳ和Ⅴ。

2)采用Bootstrap重采样法从2 000组样本中选取1 800组作为训练样本,其余200组为独立验证样本;17个指标数据作为输入向量,5个等级作为输出向量,并通过RF函数进行训练。

3)在机器学习中,泛化误差是用来衡量未知数据模型精度的指标。选择的主要参数为子树数n(Estimators)[18]和所选特征的最大数目nmax_f(Max_features)[19],并通过最大精度得分排序法选择最合适的参数。当子树的数目n(Estimators)为791,所选特征的最大数目nmax_f为5 时,准确度得分最大,因此n和nmax_f确定为最佳参数。

4)以研究区域WRCC 指数的原始数据作为输入变量,对训练好的模型进行替换和拟合,输出各区域WRCC的分级值。

5)在机器学习的分类任务中,通常采用准确率fa(Accuracy)、精确率fP(Precision)、召回率fr(Recall)、精确率与召回率的调和平均数fF1-S(F1-Score)等指标来评估分类效果。

5 结果分析

5.1 算法可行性分析

基于CART 随机森林算法的评价模型,采用准确率fa、精确率fP、召回率fr、精确率与召回率的调和平均数fF1-S等指标来评估分类效果,其数值越接近1,模型越稳定,结果如表4所示。

表4 模型评价结果

从表4的评价结果可以看出,测试样本的准确率fa、召回率fr与调和平均数fF1-S的宏平均值和加权平均值都达到了0.98表明,该算法是可靠的,可以用于目标样本的预测。

5.2 评价结果分析

采用基于CART 的RF 算法预测2017—2020 年海南岛18 个城市的WRCC 等级。首先,导入ArcGIS 10.6 进行空间可视化(图2),采用海南岛地图为底图(见图1),然后以柱状图形式显示2017—2020 年不同年份、不同市县的WRCC值(图3)。同时,统计4年内不同WRCC等级的市县数量(图4)。

图2 海南岛2017—2020年WRCC的空间分布

图3 海南岛市县2017—2020年WRCC等级

图4 海南岛2017—2020年WRCC城市等级统计

从图2 可知,海南岛WRCC 水平具有一定的空间集聚性。通过对比观察2017 年至2020 年海南岛WRCC 的空间分布图可以看出,五指山、琼中和临高的WRCC 处于良好水平(Ⅱ)。这表明,该地区的淡水保护能力与经济社会发展相结合,淡水资源开发潜力巨大。五指山和琼中位于海南岛中部,是海南岛的生态核心区,自然生态环境良好,主要河流的发源地在此汇聚,淡水资源丰富。目前,该地区人口分布稀疏,工业发展滞后,水资源的需求压力较小,淡水资源充足。因此,这两个城市的WRCC等级较高。

从图3可以看出,海口、三亚、文昌和儋州的WRCC 长期处于一般水平(III),表明区域淡水资源基本能够支撑经济社会发展,但承载能力较弱。为了保持经济的可持续发展,必须有效地解决淡水短缺问题,特别是对于水资源承载力较低的城市。

从图4 可以看出,海南岛WRCC 良(Ⅱ)级市县数量从2017 年的9 个下降到2020 年的5 个,呈下降趋势。除澄迈、琼海的水资源承载力有所增加,定安、屯昌的水资源承载力有所下降外,其他市县的承载力水平呈现波动性特征。

6 结论

本研究根据WRCC 特点建立包含17 个单项指标的细化评估体系,采用基于CART 的随机森林机器学习算法构建评估模型,经过有效性检验和敏感性分析的结果表明,该模型充分体现了海南岛水资源综合系统的本质,结论如下:

1)基于CART 的随机森林分类模型结构简单,能够通过不同要素之间的耦合关系来客观描述WRCC的真实情况,拟合精度高。通过机器学习方法自动建立评估模型,该模型能从历史数据中较好地拟合WRCC指标数据与相应等级值之间的规律,具有较强的理论依据。

2)海南岛作为一个独立岛屿,其淡水资源丰富,具有得天独厚的地理优势和资源环境优势。但从实验结果可以看出,近年来(以2017—2020年为例),海南省大部分市县的WRCC处于III级状态,表明目前这些市县的水资源能够维持基本的服务功能,但是从长远来看,需要对城市的水资源承载力引起高度重视,避免下滑。部分市县的WRCC有下降趋势表明,城市发展对水资源承载力带来一定的影响,水资源处于报警状态,只能部分维持功能。

猜你喜欢
基尼海南岛淡水
不简单!一口普通的淡水虾塘,他们竟能做到亩产2000多斤,获利3万多/亩
当代水产(2022年3期)2022-04-26 14:27:24
Wimbledon Tennis
鲸豚趣多多之它们爱淡水
跳到海里喝淡水
学生天地(2020年25期)2020-06-01 02:16:28
卷入选战的布基尼
环球人物(2017年7期)2017-04-17 10:12:29
强制“脱衫”
环球时报(2016-08-25)2016-08-25 06:36:24
当冷盐水遇见温淡水
是海南省还是海南岛?
关于海南岛战役作战方针的考察
军事历史(1994年6期)1994-08-15 08:56:38
回忆海南岛渡海登陆战役
军事历史(1987年2期)1987-08-20 06:10:48