基于深度神经网络的电力工程数据聚类模型设计

2022-11-18 14:01杨文生叶宝玉周文奇师潇然宦晓超
电子设计工程 2022年22期
关键词:高维聚类电力工程

杨文生,叶宝玉,周文奇,师潇然,宦晓超

(1.内蒙古电力经济技术研究院,内蒙古 呼和浩特 010090;2.内蒙古电力(集团)有限责任公司,内蒙古呼和浩特 010090)

近年来,随着大数据、云计算等技术的发展,数据分析模型在电力工程数据的应用中发挥着重要作用。通过对电力工程数据采用聚类、分类、回归等模型进行处理,可以有效提取其中蕴含的各类信息,从而结合电力工程建设的实际个性化特点,实现对其造价分析[1]、评审、控制[2]、建设监督[3]等方面的一系列应用,为电力工程建设提供科学的数据依据与客观的评价标准,提高工程效益,促进精益化、集约化管理。

在电力工程的一系列数据分析模型中,聚类分析是一项重要而基础的模型[4]。基于聚类模型,可以对大量数据的潜在规律进行挖掘,或从无规律的原始数据中提取信息,为进一步的数据分析提供基础。为了构建有效的电力工程数据聚类模型,文献[5]采用粒子群算法对聚类模型的数据噪声处理能力进行提升,提高模型的拟合精度;为解决聚类过程中的数据缺失问题,文献[6]提出了基于密度聚类算法的数据模型,提高了针对数据完整度较低情况下的聚类处理能力;文献[7]提出了基于DBSCAN 聚类算法的数据分析模型,实现对缺失数据的快速查找与形态分析。

然而随着数据采集技术的发展,数据采集范围不断扩展,电力工程数据的维度也随之提高[8],导致数据集的规模日趋庞大[9]。传统聚类模型受“维数灾难”问题的影响,难以实现高维电力工程数据的有效分析处理。为此,基于深度神经网络技术提出了一种电力工程数据聚类模型。该模型应用深度受限玻尔兹曼机神经网络,将原始的高维电力工程数据映射到低维空间,在保留原始数据信息的同时,有效提高了聚类模型的处理能力。

1 聚类模型设计

电力工程数据的聚类是指按照电力工程数据集合中每条数据的特征,例如电力工程的电压等级、容量、建设面积、地理信息等维度的信息,将具备相近特征的数据划分为一个集合的过程。给定一个电力工程数据集X,其包含n条数据,通过设计合理的聚类模型,对输入输出进行计算,将X划分为c个子集合,使相同子集合的数据包含相近的特征[10]。

为解决高维电力工程数据的聚类问题,该文利用深度神经网络技术设计了一种电力工程数据聚类模型,该模型的主要步骤如下:

1)数据预处理:对高维电力工程数据进行预处理,对于非数字化特征,通过规则转化为数字化特征,并将所有的特征转化到[0,1]范围内,从而实现数据的标准化与归一化;

2)深度神经网络计算:应用深度受限玻尔兹曼机神经网络进行无监督学习,从而将原始高维的电力工程数据特征转化为低维数据特征;

3)模糊聚类:在转化后的低维数据集上,应用模糊聚类算法对数据集进行迭代计算,从而得到新数据集上的聚类结果;

4)输出聚类结果:因为在应用深度神经网络的过程中,数据样本未发生变化,因此根据在低维空间上得到的聚类结果,即可直接得到原始数据的聚类结果。模型的流程图,如图1 所示。

2 深度神经网络

为解决高维电力工程数据聚类过程中面临的“维数灾难”问题,需要对高维数据进行降维处理。在降维过程中,需要尽可能多地保留原始数据中包含的信息。因此需要在降维时对数据进行非线性转化,通过非线性映射保留数据中的原始信息,并转化为低维数据。

为满足以上要求,在建立聚类模型的过程中,使用深度受限玻尔兹曼机神经网络对原始数据进行无监督学习,从而将原始高维数据转化为低维数据。

深度受限玻尔兹曼机[11]是一种基于随机理论的深度神经网络,由多层受限玻尔兹曼机构成。通过增加神经网络的层数,使神经网络中包含了大量的神经单元、参数,从而可以用来近似表达任意的复杂非线性映射,通过对数据集的学习来记忆这一映射关系[12]。

深度受限玻尔兹曼机在训练的过程中,需要进行数据的输入和输出运算,才能得到高维数据与低维数据的映射关系。为此,在建立模型的过程中,需要构建神经网络优化的目标函数进行迭代学习和优化。目标函数优化的过程中,达到高维数据与低维数据之间的结构和关系尽可能相似的目的。为此,引入条件概率的概念,通过对高维数据和低维数据条件概率的计算,对数据之间的结构和关系进行衡量。从而在高维数据和低维数据的非线性转换过程中,保持原始数据中的信息。

在引入条件概率进行的计算时,为了测量各个数据之间的相似性,使用高斯分布来进行测量。通过高斯分布的计算,数据之间的欧式距离转换成为了概率分布。两个数据样本之间的条件概率可以通过式(1)计算得到:

其中,||·||为数据之间的欧式距离,σ为标准差。

通过以上由高斯分布计算得到的条件概率可知,经过高维数据和低维数据的非线性转换后,原本在高维数据中相似的数据之间,转化为低维数据后其相互之间的距离也应该更近;而原本在高维数据中不相似的数据之间,转化为低维数据后其相互之间的距离也应该较大。此时,原始数据中的信息得到了保留。

深度受限玻尔兹曼机在训练的过程中,以高维数据与低维数据之间的相似程度最大为训练目标,不断进行迭代学习。通过大量的神经单元和参数实现了复杂的非线性映射,从而将原始高维数据转化为低维数据并保留数据中的信息。

深度神经网络的训练流程图,如图2 所示。

3 模糊聚类算法

经过深度神经网络的非线性映射,实现了原始高维数据到低维数据的转化,并保留数据中的信息。在低维数据中应用模糊聚类算法,可以得到有效的聚类结果。

模糊聚类算法是一种应用广泛的迭代计算数据聚类算法[13]。在该算法中,引入了模糊理论中的隶属度函数,从而使得一个数据样本可以同时从属于几个不同的聚类,并通过隶属度对属于各个聚类的程度进行衡量[14]。与K 均值聚类算法相比,模糊聚类算法通过引入隶属度函数,将聚类迭代计算过程中的目标函数和约束条件的取值范围转变为连续数值。从而简化了迭代计算的过程,使聚类的总体流程更加简便、快捷。

对于一个给定的数据集,模糊聚类算法的目标函数如式(2)所示:

其中,U为各条数据对于各个聚类的隶属度矩阵,V为各个聚类中心位置的集合,m为模糊加权指数,||·||为欧式距离。

以上模糊聚类的目标函数为有约束条件的优化问题。为了便于迭代求解,引入拉格朗日乘子可以快速地将上述有约束优化问题转换为无约束优化问题。这样一来,模糊聚类算法就可以采用牛顿迭代法进行不断地迭代计算,逐渐实现目标函数的最小化。当停止对目标函数的迭代计算时,此时得到的结果为数据样本隶属于各个聚类的程度。通过选取隶属度最高的聚类为该数据样本的聚类,从而得到低维数据的聚类结果。由于在应用深度神经网络进行非线性转换时,只对单条数据样本之间的各个特征值进行了非线性转换,而并未进行数据样本之间的转换,故数据样本之间的关系未发生变化。因此根据在低维空间上得到的聚类结果,即可直接得到原始数据的聚类结果。

4 模型仿真

为了验证以上基于深度神经网络的电力工程数据聚类模型的有效性,该文基于某省2010-2020 年间积累的电力输、配电等工程历史数据进行了模型仿真。历史整体数据总共包含10 073 个数据样本,每个数据样本包括电压等级、设备配置情况、土地面积、建筑面积、建筑工程、主辅生产工程、地理信息等类别的共计232 个技术参数。

仿真环境采用Intel Core i7 CPU,内存为16 GB,Windows 10 操作系统,Python 编程语言的台式计算机进行搭建。

为了衡量聚类模型的有效性,与采用K 均值聚类[15]、模糊聚类、线性降维聚类[16(]PCA-K 均值)的模型进行对比。采用聚类有效性指标对结果进行衡量,该指标的计算过程中,通过对实际样本所属的实际类别与聚类结果之间的相似程度进行计算,从而确定聚类的质量。其计算公式如式(3)所示:

其中,n为所需衡量的样本数量,yi为数据样本实际所隶属的类别标签,ci为聚类模型得到的计算结果,map(·)为将聚类结果转换为样本所隶属类别的映射函数,δ(·) 为示性函数。当yi=map(ci) 时,δ(yi,map(ci))取值为1;否则,其值为0。

因为深度神经网络、K 均值聚类算法模型等在建模过程中均包含一定的随机性,为了避免随机因素对仿真结果的影响,每个聚类模型均进行30 次仿真验证,并对仿真结果的平均值、标准差进行统计分析。对比结果,如表1 所示。

表1 总体数据集聚类结果对比

为了进一步验证算法的鲁棒性,该文对包含10 073 个数据样本的历史整体数据进行了有放回采样。每次采样的数据集中包括了80%的数据样本,重复采样20次,共生成了20个新的数据集。在这20个新数据集上,应用该文模型、K 均值聚类、模糊聚类、线性降维聚类再次进行了仿真。其中,每个聚类模型在每个数据集上均进行了30 次仿真验证,并对每个模型的仿真结果平均值、标准差进行了统计分析。对比结果如表2 所示。

表2 20个新数据集聚类结果对比

由该结果可见,与K 均值聚类、模糊聚类、线性降维聚类(PCA-K 均值)等聚类模型相比,该文所提出的深度神经网络的电力工程数据聚类模型具有更高的聚类有效性和鲁棒性。

通过对结果分析可得,高维的电力工程数据在聚类过程中,K 均值聚类、模糊聚类等模型无法提取有效的信息,得到的聚类结果基本不具备参考价值。这是因为高维数据在聚类过程中出现了“维数灾难”问题而造成的。而采用线性降维对数据进行处理后,可以略微提高聚类结果的有效性。但由于高维数据中的原始信息在线性转换的过程中产生了缺失,导致聚类结果的有效性较低。而通过该文提出的基于深度受限玻尔兹曼机神经网络的聚类模型,先将高维的原始电力工程数据进行非线性化处理,然后再映射到低维空间,从而在保留原始数据信息的同时有效提高聚类模型的处理能力,进而得到了较为理想的聚类结果。

5 结束语

该文针对高维电力工程数据难以实现有效聚类分析的问题,设计了基于深度神经网络的电力工程数据聚类模型。通过对实际电力工程数据的聚类模型搭建和仿真,得出了以下结论:

1)在高维电力工程数据的聚类分析过程中,因为“维数灾难”问题的影响,传统的聚类模型无法实现有效的聚类分析;

2)通过采用深度神经网络模型,可以有效地将高维原始电力工程数据进行非线性化处理,实现数据的降维并在降维后仍保留原始数据中蕴含的信息,从而大幅度提高聚类结果的有效性。

下一步,将应用深度神经网络对电力工程数据聚类分析进行更大范围的数据分析模型设计,实现对高维电力工程数据更为有效的分类、造价预测、通用造价分析等应用,挖掘更多高维数据对电力工程的价值。

猜你喜欢
高维聚类电力工程
试论电力工程管理模式的创新与应用
一种傅里叶域海量数据高速谱聚类方法
基于相关子空间的高维离群数据检测算法
解析电力工程技术管理的难点和对策
BIM系统在电力工程中的应用
一种改进K-means聚类的近邻传播最大最小距离算法
电力工程的施工进度与安全管理浅探
AR-Grams:一种应用于网络舆情热点发现的文本聚类方法
基于深度学习的高维稀疏数据组合推荐算法
高维洲作品欣赏