基于随机森林-投影寻踪法的生物滞留系统多目标评价方法

2022-08-30 06:21程麒铭唐颖辉袁绍春
水资源与水工程学报 2022年4期
关键词:投影介质生物

程麒铭, 陈 垚, 2, 刘 臻,2, 唐颖辉, 袁绍春,2

(1.重庆交通大学 河海学院, 重庆 400074; 2.重庆交通大学 环境水利工程重庆市工程实验室, 重庆 400074)

1 研究背景

生物滞留系统是海绵城市建设的主要技术措施之一,其可通过植物吸收、填料过滤和微生物降解等多种作用实现对径流量的削减和污染物的控制[1-2],植物与介质土均是组成生物滞留系统的重要部分[3],可直接影响生物滞留系统的运行性能。因此,植物和介质土的筛选是生物滞留系统设计和运行的重要考量部分[4]。由于不同植物和介质土对生物滞留系统除污能力和水力性能的改善效果不尽相同,使得评价指标数据样本之间存在高度非线性关系,且原始实验数据通常具有较高的维度。研究结果表明[5],高维度、非线性数据样本的数值分析容易造成维数灾难,导致计算工作量成倍增加。目前,国内外均未形成统一的评价方法,通常采用层次分析法、模糊综合评价法等[6],但此类方法存在评价结果主观性较强,且模型假设和概化对评价结果影响较大的问题[7]。

为寻求更客观、高效的多目标综合评价方法,研究者们尝试采用神经网络模型(如Elman神经网络[8]、模糊神经网络[9]和BP神经网络[10])的机器学习功能实现对水体水质的多目标评价,但结果显示评价具有偶然性而导致结果可信度不高。而采用贝叶斯模型[11]、基于改进萤火虫算法的投影寻踪模型[12-13]等统计学模型,则易发生“弃真”和“取伪”的错误[14]。同时,上述方法还存在典型的维数灾害问题,导致计算量呈指数增长,甚至造成计算机无法运行。闫佰忠等[15]采用随机森林模型的机器学习功能对安阳市8个地下水监测点的水质检测数据进行处理,证实基于随机森林模型的水质评价模型能够准确评价水质的同时,拥有更高训练效率与稳定性。但该方法主要基于模型的分类原理,并未达到降低数据维度的目的,导致计算工作量较大。而基于特征选择功能的随机森林模型可达到数据降维的目的,在保证数据分析结果准确性的同时大幅提高计算速度。为此,本文采用随机森林(random forest,RF)模型对不同植物、介质土下的水力性能和污染物去除率等原始数据进行特征筛选以降低数据维度,构建基于投影寻踪(projection pursuit,PP)模型的多目标综合评价模型(RF-PP),并通过遗传算法(genetic algorithm,GA)和粒子群算法(particle swarm optimization,PSO)对RF-PP模型进行求解,最后将评价结果与传统评价方法进行对比分析,以验证本文方法的准确性,从而提出一种适合生物滞留系统多目标评价的方法。

2 数据来源与研究方法

2.1 数据来源

表1 本研究所采用的原始数据情况

2.2 模型原理

(1)随机森林特征选择。随机森林(RF)算法属于机器学习算法的一种,最早由美国统计学家Leo Breiman提出,其可通过袋外数据误差估计(out of bag error estimation)衡量每个数据特征对模型拟合效果的重要性,从而实现研究数据的特征选择[18],具体步骤详见文献[19]、[20]。

(2)投影寻踪模型。投影寻踪(PP)法是对采集到的样本数据进行高维处理和分析的新型统计学方法[21],该方法采用计算机对低维空间进行分析,以描述高维空间的数据信息,通过对高维空间的数据再整合,并将数据引入低维子空间进行降维处理,得到指标量远小于样本数据量的投影指标,从而寻找出高维样本数据的整体特征[22-23]。在投影寻踪模型中,投影方向代表不同的高维数据结构或特征,其中最佳投影方向最能体现高维数据的结构特征,而求解最佳投影方向就是对投影指标函数进行最大化寻优,具体方法详见文献[24]。本研究首先利用RF算法对原始数据进行降维后利用PP方法进行模型构建,最终建立生物滞留系统多目标评价RF-PP模型。

2.3 模型求解

由于不同评价指标具有不同的量纲和取值范围,为消除奇异样本数据导致的不良影响,通常需要采用归一化方法(如最大最小归一化、Z-score归一化、非线性归一化等)对原始数据样本进行处理。根据生物滞留系统运行性能越大越优的目标,应采用最大最小归一化法:

(1)

由于投影寻踪模型属于非线性优化问题,通常可采用鱼群算法、粒子群算法、萤火虫算法、遗传算法等群体智能算法求解这类多极值点的复杂优化问题[25-26]。其中,遗传算法(GA)是受生物界进化规律启发,从初始群体中随机选择个体,将该个体作为父级生成下一代子级,通过一系列的交叉、变异等重复步骤后,对获得的样本进行适应性验证,最终演化为模型最优解,已广泛应用于各领域中求解有约束或无约束的非线性优化问题[27-28]。粒子群算法(PSO)是受鸟群捕食行为的启发,将鸟群作为一个粒子群,将每只鸟作为一个粒子,根据各粒子自身所处的位置,将寻找食物的路径分享给群体,通过比较路径距离而不断改变路径,最终获得最优路径即模型最优解[29-31]。为了避免单一算法造成的偶然性结果,本研究采用GA和PSO两类算法求解构建的生物滞留系统多目标评价RF-PP模型,并对多目标评价结果进行优劣排序。

3 结果分析与讨论

3.1 随机森林法结果分析

根据随机森林原理编写Python程序,运行后得到A、B两组数据中相关指标重要性程度的得分情况如图1所示,两组数据指标各自的相关系数如图2所示。

图1 A、B两组数据相关指标的重要程度得分值

图2 A、B两组数据指标各自的相关系数

3.2 投影寻踪法结果分析

利用MATLAB遗传算法工具箱函数,并改写PSO工具箱函数分别运行GA算法和PSO算法以求解本研究构建的RF-PP模型的优化问题[32],从而得到各指标的最优投影系数a=a(a1,a2,…,am),如图3所示。投影系数a越大,则表明该系数对应指标对评价结果的权重越大。

图3 A、B两组数据指标的最优投影系数

表2 A、B两组数据指标的方差

将GA和PSO两种方法求得的最优投影系数分别代入投影寻踪模型中,可分别得到A组和B组不同实验对象的投影值,如图4所示。A、B两组数据不同评价方法的评价结果分别见表3、4。

图4 A、B两组实验数据投影寻踪模型结果

表3 A组数据不同评价方法的评价结果

表4 B组数据不同评价方法的评价结果

根据本研究算法得到的结果,植物与介质土单独实验时,可以采用风车草作为生物滞留系统的植物,采用RST2作为生物滞留系统的介质土;但由于植物与介质土可能存在耦合效应,因此,对于生物滞留系统中植物与介质土的最优组合仍需进一步通过实验进行验证。

4 结 论

(1)针对生物滞留系统多目标评价问题的复杂性,提出了RF-PP模型,且通过对原始数据采用随机森林进行特征筛选降维后,在一定程度上提升了模型求解速度;但受实验数据样本数所限,RF-PP模型尚不能体现出在避免维数灾难上的优势。同时利用鲁棒性高、求解速度快、参数不敏感的GA与PSO算法确定的权重指标,可有效避免传统求解方法参数难以确定、易陷入局部最优解等问题,进而得到更加合理的指标权重,实现方案优劣排序。

(2)植物评价结果表明,风车草为生物滞留系统的最佳植物,且评价结果与层次分析模型和BP神经网络模型方法相似;介质土评价结果表明,RST2(9.8%壤砂土+88.2%细砂+2.0%蛭石)为生物滞留系统的最佳介质土配置方案,且评价结果与传统投影寻踪法相似。本研究利用GA和PSO算法求解RF-PP模型具有一定的可行性和适用性,可为生物滞留系统多目标评价研究提供一定的参考和借鉴。

(3)本研究得出的最佳植物与最佳介质土组合后可能存在耦合效应,未来可进一步通过植物与介质土组合实验研究,选取更佳的组合方式。

猜你喜欢
投影介质生物
线切割绝缘介质收纳系统的改进设计
生物多样性
重介质旋流器选煤技术在我国的创新发展与应用
信息交流介质的演化与选择偏好
全息? 全息投影? 傻傻分不清楚
生物多样性
上上生物
基于最大相关熵的簇稀疏仿射投影算法
第12话 完美生物
找投影