薛盛炜,李 川,李英娜
(1.昆明理工大学 信息工程与自动化学院,云南 昆明 650500;2.云南省计算机技术应用重点实验室,云南 昆明 650500)
随着人工智能的不断发展,运用人工智能+变压器油中溶解气体分析(dissolved gas analysis,DGA)对变压器进行故障诊断与识别,取得了一定的成果[1-3]。在现有的人工智能技术条件下,变压器故障诊断模型有人工神经网络[4-5]、支持向量机、极限学习机以及聚类[6-10]等算法,将上述人工智能方法与DGA数据相融合,可有效提高故障诊断与识别的准确率,但同时面临计算复杂以及部分算法容易陷入局部最优值的问题。此外,以灰色系统、证据理论为基础进行的变压器故障识别研究也取得了一定的进展[11-13]。在上述方法中,模糊C均值聚类(fuzzy C-means,FCM)分析方法在模型建立阶段无需样本数据的先验知识,其工作原理是根据样本数据在空间维度上的聚集进行分类,在变压器故障诊断中取得了较好的效果[14-16]。但是,应用传统模糊C均值聚类方法分析DGA数据时,会对所有数据赋予相同的权重,忽视不同故障类型对应特征气体的特异性,出现数据等趋势划分,造成聚类结果失准以及聚类中心代表性下降的问题[17]。
本文通过对油浸式变压器的DGA数据进行点密度加权处理,优化FCM算法的输入数据,提高聚类准确性,期望获得较为准确以及代表性较强的聚类中心数据与故障数据标准谱。同时,采用改进的主成分分析(principal component analysis,PCA)方法建立主成分模型,最大程度简化与保留数据信息,以待测数据与主成分间欧氏距离为判据进行故障识别。本文方法减轻了变压器吊装检查以及人工巡检的成本与压力,与传统的油浸式变压器故障识别方法相比,具有明显的优势。
在中国油浸式变压器故障诊断相关国家标准以及学者的相关研究中,通过DGA数据能够识别与判断的油浸式变压器故障主要分为6种,当变压器出现故障时,设备绝缘油中会产生以H2、CH4、C2H6、C2H4和C2H2这5种气体为主的特征气体。同时,根据《变压器油中溶解气体分析和判断导则》可知:故障类型与特征气体间具有对应关系,这对判断与识别油浸式变压器内部故障具有重要意义。
图1 改进的FCM算法流程图
根据对油浸式变压器故障DGA数据的分析可知:同类型故障发生时,各特征气体DGA在数据表现上具有相似性,同时FCM聚类算法的目的也是将最相似的数据划分为一类。因此,根据油浸式变压器不同故障类型下DGA样本数据的相似性,可以利用FCM对其故障数据进行聚类分析。
针对等趋势划分的缺陷,本文采用点密度加权方式对数据进行处理[18]。点密度的定义为:
(1)
dij=‖xi-xj‖,
(2)
其中:dij为任意两个样本之间的欧氏距离;N为样本数。同时,DGA样本数据的权值为:
(3)
其中:加权系数wi所代表的信息为某一DGA样本数据本身对聚类的影响程度。聚类时中隶属度uij与聚类中心vi的迭代公式如下:
(4)
(5)
其中:m为模糊化程度参数,一般选取2。
改进的FCM算法流程图如图1所示。
主成分分析方法是通过将高维数据投影,进行数据特征抽取、降维的一种方法,在传统主成分分析中,为消除量纲等的影响,常以标准化方法进行数据预处理。但标准化处理会忽视数据间的差异信息,而在分析过程中造成一定的影响[19]。
本文采用对原始DGA数据施加惯性系数的优化方式产生一级优化数据,以经过二级优化的DGA数据协方差替代传统主成分分析方法的相关系数矩阵[20]。
对油浸式变压器油中DGA数据集进行主成分分析时,对DGA数据处理优化的步骤如下:
(Ⅰ)设X={x1,x2,x3,...,xp},p为油中DGA数据的特征气体个数,本文中p的值为5。
(Ⅱ)设ω={ω1,ω2,ω3,...,ωp}为对DGA数据施加的惯性系数,
(6)
(7)
通过以上步骤对样本赋惯性系数进行数据处理。将最终处理后的DGA数据即二级优化数据应用在主成分分析方法中,具体步骤如下:
(Ⅰ)对经过二级优化的DGA数据矩阵求取协方差矩阵,协方差矩阵为:
(8)
图2 改进的PCA方法的流程图
(Ⅱ)根据公式|λI-V|=0计算协方差矩阵的特征根以及特征向量,得到p个特征值,对应p个特征向量,为U=(u1,u2,...,up),其中,ui=(ui1,ui2,...,uip)。
(Ⅲ)根据协方差矩阵的特征值计算主成分的方差贡献率α和累计方差贡献率β,其中:
(9)
(10)
为了满足在实际应用时精度的要求,本文以累计方差贡献率大于或等于0.85的原则,对主成分的个数n进行选取。
(Ⅳ)通过选取的n个主成分组成的因子载荷矩阵求得主成分的表达式:
(11)
上述改进的PCA方法的流程图如图2所示。
利用点密度加权改进的FCM算法,对从云南省昆明市变压器厂收集到的165组DGA数据进行聚类,聚类结果与利用传统FCM对DGA数据集进行聚类得到的结果进行对比。经过数据加权处理以及映射至高维空间后的聚类算法,对故障类型的识别和划分准确率更高。两次聚类结果的对比情况见表1。由表1可知:相比于传统FCM算法,本文所采用的方法对故障判别的平均正确率提升9.6%。采用改进FCM算法处理DGA数据集,最终聚类中心的DGA数值见表2,即可将此处聚类中心数据作标准故障数据谱。
表1 传统FCM算法与本文方法聚类结果对比
表2 聚类中心的DGA数值
表2为对165组数据进行点密度加权处理后聚类划分的聚类中心数值。表2中每个序号所在行代表聚类中心对应的5种特征气体含量的确定值。根据《变压器油中溶解气体分析和判断导则》中改良的三比值法对其进行了三比值编码,依据编码结果与《变压器油中溶解气体分析和判断导则》中的编码-故障类型表进行对应,得出各聚类中心所代表的变压器故障类型。同时,通过每条数据对应的变压器工况记录的查询,再次确认每条数据真实情况下的故障类型。
利用本文所述的主成分分析方法,得到的第一主成分方差贡献率有所提升,且累计方差贡献率更加突出,降维效果明显。
通过计算DGA数据的主成分与待测DGA样本数据之间的欧氏距离,作为故障类型识别与判断的判据。两者间欧氏距离越小,代表两者所具有的故障类型越相似。
分别采用传统PCA方法与本文所述的PCA方法处理20组DGA数据,结果对比如表3所示。
表3 两种PCA方法处理DGA数据的结果对比
由表3可知:利用本文所述的主成分分析方法,得到的第一主成分方差贡献率有所提升,说明其包含的信息更为全面。在主成分的累计方差贡献率方面,与传统方法相比,使用改进方法得到的第一累计方差贡献率更突出,更有效地综合了指标信息。从所有指标来看,当以累计方差贡献率大于0.85为要求进行筛选时,传统方法第三主成分累计方差贡献率为0.824 8,与要求的数值有较大差距,说明其不能满足降维要求。而本文方法累计贡献率为0.875 6,超出要求的数值,总体降维效果更为明显,可以用较少的指标反映原始指标的大部分信息,降低了分析的复杂度,达到了主成分分析简化指标维数的主要目的。
本文利用改进FCM算法对165组DGA数据进行聚类,得到7个聚类中心对应的DGA数据。将这7个聚类中心作为代表油浸式变压器7类故障的标准谱,通过实际检查的方式对照,确定各聚类中心代表的故障类型。
(Ⅰ)利用已知为高温过热故障类型的油浸式变压器DGA数据作为待测样本,其DGA数据如下:H2含量为15.5 μL/L、CH4含量为68.6 μL/L、C2H6含量为32.9 μL/L、C2H4含量为1 007.6 μL/L、C2H2含量为4.8 μL/L。
通过得到的故障数据标准谱与已知故障类型DGA数据构造样本初始矩阵X,其中,x1、x2、...、x7为不同故障类型DGA数据下的标准数据,x8为待测样本数据。
对初始矩阵赋予综合权重后求取特征值λ与特征向量矩阵a,其中:
λ=[1.909 4 0.539 3 0.256 3 0.014 2 0.000 0];
根据公式计算求得累计方差贡献率矩阵:
M=[0.702 2 0.900 5 0.994 8 1.000 0 1.000 0]。
在实际问题中,当累计方差贡献率大于0.85时,已经可以保证主成分具有足够的精度。因此,可确定其主成分个数为3。
相应选取特征向量为a1~a3,则主成分为:
计算待测DGA样本与其他主成分之间的欧氏距离dij:
dij=[d1d2d3d4d5d6d7]=[1.40 1.01 0.84 1.41 1.31 1.21 0.79]。
通过对比可知:d7=0.79最小,因此,可认为待测样本的DGA数据所对应的故障类型为高温过热故障,此结论与已知结论相符。
(Ⅱ)利用已知为低能放电故障类型的油浸式变压器DGA数据作为待测样本,其DGA数据如下:H2含量为30.0 μL/L、CH4含量为7.4 μL/L、C2H6含量为8.5 μL/L、C2H4含量为1.8 μL/L、C2H2含量为19 μL/L。经过与上述实例验证的相同步骤,得到此处待测样本DGA数据与其他主成分之间的欧氏距离为:
dij=[d1d2d3d4d5d6d7]=[1.53 1.10 0.64 1.84 1.48 1.64 0.83]。
通过对比可知:d3=0.64最小,因此,可认为待测样本的DGA数据所对应的故障类型为低能放电,此结论与已知结论相符。
(1)采用点密度加权方式对传统FCM算法进行改进优化,克服了传统FCM算法中对所有样本数据赋予相同权重造成等势划分的影响。实例验证表明:本文所采用的方法在对油浸式变压器DGA数据进行故障类型划分时,相较于传统FCM算法,平均准确率提升了9.6%。
(2)通过二级优化方式对主成分分析方法进行了优化,在应用中降维效果较传统方式有所改善。以欧氏距离为判据对油浸式变压器故障进行识别,计算结果与实际故障类型一致,且相对传统故障识别方法较为简便与高效。