国家电投集团内蒙古能源有限公司 高建民
由于火电机组设备的状态数据来源广泛,经常会出现数据统计口径不同、数据录入员输入错误等问题,又因为缺少检测机构而造成间歇性的数据异常,这些异常数据会直接影响到电力数据传输的准确性。为能够准确整理这些电力数据,电力中心大多采用聚类分析的方法对这些火电机组设备的状态数据进行整理和分析,从中判断出异常数据。目前已有很多火电机组设备的状态异常数据的检测方法,如基于统计的火电机组设备状态数据检测、基于近邻模型的火电机组设备状态数据检测等,但这些方法大多准确性很低,在检测异常值的过程中经常出错。
为得到具备高准确性的检测方法,本文提出了基于密度峰值聚类的火电机组设备状态检修技术改进方法。首先需基于密度峰值聚类算法计算两个样本点的基础参数,并根据这两个参数进行火电机组设备状态数据的类间距离进行优化。通过样本点与聚类中心的距离集合构建决策图,有了决策图后,就能直接计算密度峰值聚类算法的无标签归类,以此判断故障数据并应用于火电机组设备状态检修技术中。最后设计实验,验证本文算法的准确性与优越性。
密度峰值聚类算法是一种新的基于数据挖掘的密度聚类方法,该算法的中心思想在于对中心聚类点的描述[1]。在该算法中通常可寻找一些本身就具备相当大的目的的样本点,这些样本点与聚类中心相对距离较远,位置上对聚类中心呈包围状。样本点通常具备密度和距离两种特征值,密度通常作为特征点的基本特征,距离则表示该组数据的特征点与聚类中心间的联系紧密度。因此,通过优化火电机组设备状态数据的类间距离,形成检修的决策图,完成聚类中心在样本点中的选择,其特征离散属性与连续属性的定义式如下所示:
其中,i表示特征离散的样本点,j表示特征连续的样本点;χ表示样本点离散分布的分布规律;dij表示样本点i到j之间的距离;dc表示两个样本点间的截断距离[2]。当数据集集中于样本点即理想密度切割时,可通过将样本i与局部密度间的距离获取类间密度的最大样本式(3),此时的类间密度最大样本即为最大距离,则该样本点就会被自动识别为聚类中心。因此,对于数据集的所有样本点,均可通过(ρi,δi)的坐标设置二维平面图,这个二维平面图又可称为决策图[3]。
在决策图中有着诸多样本点与聚类中心之间的关联信息,通过决策图就能直接找到最优的火电机组设备状态数据类间距离。在利用决策图进行计算时需额外考虑变量γi,通过ρi和δi能得到一个综合性的变量信息,其表达式为式(4),式中i属于整个样本集。且根据定义式,γi的值越大则该样本点越有可能成为聚类中心。当该点成为聚类中心后,其他样本点则自动成为具备最优类间距离的类簇点。通过该方法对原始的密度峰值聚类算法进行一定的优化,得到了一个能够容纳极大体量、空间结构也相对复杂的算法结构。
得到基本的算法结构后,就需集中计算密度峰值聚类算法的无标签归类,将该算法的几种情况分别用数据表达出来[4]。在这个算法中主要有两种思想为基础:一是聚类中心与周围的样本点相对密度较低,二是聚类中心与其他相对密度较高的样本点距离较大。基于此,每个样本点进行无标签归类前提是得到公式(1)和公式(3)的基础参数。当该聚类中心所在的空间z被曲线和高维数据点填充满后,就能够构造出一个相对简单的二维空间。
此时为推导出样本点的标签归类,可对火电机组设备的状态数据即理想样本采样,设样本为S,样本点i与样本点j之间的间隔为z,对多个间隔进行排序,同时将这些间隔构建为一个样本点集K={n1,n2,n3,…,nn-1}。同时,还需要将这些样本集K中的数据进行统计,取出上限和下限以及平均数和众数。按照标准火电机组设备的状态数据分组复制,求出其标准参数[5]。
综上所述,此时将最大密度的火电机组设备状态的标准值划分到其他标签中,并求出区分标准,即密度峰值聚类算法的标准参数与划分依据,通过这些数据可直接带入到火电机组设备故障检测中,得到其检修的改进技术。
利用上文中推导出的密度峰值聚类算法进行火电机组设备状态故障数据检测,需尽量排除聚类簇的影响,也不能使检测结果受到聚类中心周边样本点个数的影响,因此密度峰值聚类算法的检测精度十分依赖于dc的数值[6]。在考虑样本类间密度和距离的前提下,将整个数据集的局部特征和数据异常的规则判断明确地表示出来,就能得到较为理想的结果。首先需构造一个原始的样本集,并计算该样本集的聚类中心与其他样本点间的欧式距离d(xi,xj)。将所有距离结果按照升序排列容纳进一个数据集,此时第n个距离结果可表示为Nn(xi)。可通过距离结果的集合计算样本点之间的局部密度,此时的距离近邻公式可表示为:N(xi)={j∈X|d(xi,xj)≤d(xiN(xi))}(5),式中N(xi)表示样本点与聚类中心距离的集合,j表示某一样本点,X表示样本点的样本集。这时可计算火电机组设备状态检修的两个参数并确定其中的异常值。
在计算机中设计算法时,需要首先根据公式(1)和公式(3)计算两个基础参数,并求出样本集中各样本点的欧式距离,此时可集中进行归一化处理。然后将所有样本点与聚类中心的位置信息集结为一个集合,并根据局部距离因子是否小于1判断是否需要计算相对密度[7]。若小于1,则可直接将样本点的相对密度赋值为0;若大于1,则需要根据公式(3)计算相对密度。得到故障样本点之间的相对密度之后,就能够根据公式(5)距离近邻公式得到样本点的相对距离,并以此绘制样本空间的决策图,并通过决策图直接判断异常点的位置信息。
本实验通过对比分析,验证上文中设计的基于密度峰值聚类的火电机组设备状态检修改进技术是否能够更好地进行火电机组设备故障点的检测,与其他传统检测算法相比是否更具备优越性。
本实验通过python软件实现仿真设计,先后在该仿真软件上运行本文基于密度峰值聚类改进算法、基于统计的火电机组设备状态数据检测算法、基于近邻模型的火电机组设备状态数据检测算法。通过这三种算法在运行过程中的对比,得到其算法准确度的优劣比较,验证本文的研究目的是否实现。实验中的数据来源于某电力公司的一台火电机组设备,每0.5h采样一次,测得其所有有功功率,即每日采集样本48个。如此一月后将所有样本整合,得到正常的样本点1023个、异常样本点417个。在其中抽取20个样本点,其中正常样本点15个、异常样本点5个,分散在仿真软件的程序中。
通过计算火电机组设备状态的数据情况,验证该样本点是否为异常样本,计算公式为:其中表示经过归一化处理后的火电机组设备状态的数据负荷值,取值区间为[0,1];i表示该火电机组模型中的样本点个数,该实验中取20;Pi表示单次计算该火电机组模型的电力数据波动值。对标准化后的数据利用上文所述三种算法进行异常值检测,对比实验结果的准确性,判断三种算法的优越性。
表1 实验结果
当负荷值大于0.3340时检测结果为异常,否则为正常,因此得到如表1所示的三种算法的检测结果。由实验结果可知,本文设计的基于密度峰值聚类的火电机组设备状态检修改进技术在20个样本点中均没有错误发生,而其他两种传统算法均产生了检测结果的错误,正确率均为90%。由此可知,本文的算法改进所得到的检测结果均与标准数据相吻合,没有错检或漏检的情况发生,确实能够解决传统算法检测准确性低的问题。然而密度峰值聚类改进算法还存在一定的局限性,虽然在数据的准确度上有所提高,但是却在一定程度上降低了运算效率,接下来可以根据这方面进行一定的研究。