基于随机森林的可再生能源利用效率评价方法

2022-12-06 09:05蔡玲毕克刚梁卜元王晗
微型电脑应用 2022年11期
关键词:子集利用效率分类器

蔡玲,毕克刚,梁卜元,王晗

(昆明市节能监察支队,云南,昆明 650031)

0 引言

可再生能源的利用效率评价是当前全球经济发展过程中面临的重大挑战,可再生能源的发展不仅要满足当前社会的发展需求,同时还要及时解决其带来的一系列环境污染问题[1],全面加强能源的可利用效率和经济效益,最终达到提升经济总体竞争力的目的。所以,合理利用可再生能源同时对其进行高精确的利用效率评估是确保各个国家可持续发展的重要途径[2]。

现阶段,国内外相关专家针对该方面的内容展开了大量的研究,例如闻旻等[3]分别从经济性以及可靠性等角度出发,综合分析电网的特性,组建了一个能源利用率评价体系。通过模糊综合评价法对各个评价指标进行模糊变换,根据反熵权法确定不同的指标权重,进而通过评价矩阵进行综合评价。

以上方法虽然现阶段取得了较为满意的研究成果,但是由于未能采用随机森林算法对可再生资源进行分类,导致可再生资源利用评估结果准确性偏低。为此,提出了一种基于随机森林的可再生能源利用效率评价方法。

1 方法

1.1 基于随机森林的可再生资源分类

随机森林是一种集成算法,主要通过Bagging抽样和特征子集划分2个步骤实现[4]。设定随机森林中的集成分类器通过一组相对基础的决策树分类器构成{h(X,θk)},则各个随机向量系列θk均是随机分布,k代表基础决策树的总数。当给出自变量X情况下,各个基分类器根据投票的方式获取最终的分类结果,经过k轮的迭代训练后,获取如下的分类模型序列:

{h(X)}={h1(X),h2(X),…,hk(X)}

(1)

通过分类模型序列构建分类模型系统,而系统获取的分类结果是以投票结果为准,其中票数最多的即为最终的分类结果,其中随机森林分类决策结果为

(2)

式中,H(x)代表随机森林的最终分类结果,hi(x)代表各个基础决策树的预测结果,Y代表实际分类目标,I(·)代表线性函数。

在随机森林算法中主要通过以下的概念进行定义。

(1) 泛化误差值越小证明模型的预测能力越好,也就是分类器的性能越好;反之越差,具体的表达式为

PE*=PX,Y(mg(X,Y)<0)

(3)

式中,mg(X,Y)代表分类器集合将样本分对的平均票数和其分错为其他类平均票数之差。

(2) 假设单一分类树的分类强度越大,则最终获取的整体随机森林模型的分类性能就越好,以下给出具体的表达式:

s=EX,Y(mg(X,Y))

(4)

随机森林模型是一种集成算法,主要将决策树作为基分类器,通过多个基分类器合成一个强大的分类器,其中随机森林模型的集成投票过程如图1所示。

图1 随机森林的集成投票

进行可利用资源特征筛选前期需要进行相关特征的相关性度量,通过特征的相关性度量筛选不相关的特征[5]。关键是获取一个衡量特征相关性的度量指标,对比信息熵主要是刻画特征和特征之间相关性程度的常用度量,即:

(5)

式中,IG(x,y)代表信息增益,具体的表达式为

IG(x,y)=H(x)-H(x|y)

(6)

式中,H(y)代表信息熵,H(x|y)代表条件熵,对应的计算式为:

(7)

基于特征重要性的特征选取主要是通过特征对分类的重要性程度选取合适的特征子集[6],确定各个特征的重要性,具体的操作流程如下。

通过特征重要性度量将特征重要性按照从高到低的顺序进行排列,然后对特征从后向前开始搜索,在每次迭代的过程中在特征集中剔除一个重要性较低的特征,逐次进行迭代,并且计算每次迭代的分类精度,选取分类精度最高迭代次数对应的特征作为最终的特征选取结果[7]。针对可再生能源,优先采取欠采样方法对其再次进行特征选择,通常情况下根据对负类样本多轮抽样处理,然后和正类样本组建多个全新的样本子集,进而获取多个特征子集,通过这些子集筛选出全新的特征子集,具体的操作流程如图2所示。

图2 可再生资源特征选择流程图

优先通过有放回的Bagging抽样方式在负类样本中抽取负类样本子集和正类样本组建多个全新的样本子集,针对新形成的多个样本子集分别通过相关度特征集合以及重要性特征选择获取多个特征子集,将选取的特征子集组合形成一个分类效果较好的特征子集[8]。在数据集中随机选取一个样本为T的测试样本,根据决策树的预测结果能够获取一个T×(M+2)的矩阵,设定第M+2列代表测试样本的真实分类结果,则通过第i棵决策树的可信度计算式为

AccEnsemble

(8)

在上述分析的基础上,结合随机森林分类模型进行加权重组,进而实现可再生能源分类:

(9)

式中,RC表示输入属性的随机线性组合,TC表示随机输入选择形成的随机森林。

1.2 可再生能源利用效率评价

针对可再生能源利用系统而言,设定输入系统部分主要通过能量进行计算,输出系统部分不仅可以通过热力学进行定义,也可以根据经济意义[9-10]。其中,可再生能源利用系统的效率主要通过式(10)进行计算:

(10)

式中,φ代表可再生能源利用系统的效率,Ex代表输入系统的可用能量,P代表系统的输出[11-12]。设定qi代表第i个系统所消耗的能源量占整个系统的比重,同时将式(10)转换为以下的形式:

(11)

由式(11)设定φ0代表系统基期的可再生能源利用效率,φn代表系统第n期可再生资源的利用效率,则有:

(12)

结合因素分解思想可知,可再生能源利用效率变化Δφ主要是由2个部分组成,分别为效率影响份额φφeff和结构影响份额φqeff,则对应的计算式为

(13)

效率因素以及结构因素变化对可再生能源利用效率变化的相对影响率能够表示为

(14)

由于研究对象是一般化的可再生能源利用系统,所以能够适用于任何系统。因此,以下结合火用分析方法组建可再生能源利用效率评价模型:

(15)

通过式(15)组建的评价模型能够有效实现可再生能源利用效率评价。

2 仿真实验

为了验证所提基于随机森林的可再生能源利用效率评价方法的综合有效性,在Windows 7,Intel Core i7处理器,主频3环境下进行实验测试。由于可再生能源利用效率具有一定的动态性,需要在设定的周期内对其变化趋势进行研究。

表1 不同可再生能源发电工程详情

为了确保数据的完整性和可靠性,以下采取3种不同的方法对可再生能源利用效率进行评价,具体实验数据如图3所示。

(a) 本文所提方法的可再生能源利用效率评价结果

分析图3中的实验数据可知,由于可再生能源利用效率的真实值是固定的,但是由于采取的评价方法不同,导致各个方法获取的可再生能源利用效率评价结果也存在一定的差异性。但是相比另外2种方法,所提方法的评价结果更准确,主要是因为其引入随机森林算法对可再生资源进行分类,在分类的基础上进行可再生资源利用效率评价,能够有效提高评价结果的准确性。

分析表2中的实验数据可知,在不同层级的因素中,相比另外2种方法,本文所提方法能够获取更高精度的评价结果。主要原因在于本文方法通过特征选择算法对可再生资源进行数据欠采样,将特征的重要性程度和相关度作为标准对特征进行筛选,删除冗余特征,形成全新的特征子空间,同时经过具体的实验数据分析,全面验证本文所提方法进行可再生资源分类的重要性。

表2 不同方法在各个测试指标下的可再生能源利用效率评价结果

3 总结

进行可再生能源利用效率评价是当前研究的热点话题,提出一种基于随机森林的可再生能源利用效率评价方法。仿真实验结果表明,本文所提方法能够获取更加精准的评价结果,同时通过评价结果可有效给出各个区域的可持续发展建议。后续将进一步对所提方法进行完善,并且全面分析可再生能源可持续发展的重要性以及作用。

猜你喜欢
子集利用效率分类器
拓扑空间中紧致子集的性质研究
关于奇数阶二元子集的分离序列
避免肥料流失 提高利用效率
完全二部图K6,n(6≤n≤38)的点可区别E-全染色
基于差异性测度的遥感自适应分类器选择
基于实例的强分类器快速集成方法
每一次爱情都只是爱情的子集
基于层次化分类器的遥感图像飞机目标检测
一种基于置换的组合分类器剪枝方法
不同白菜品种对锌的响应及锌利用效率研究