龙玉江,卫 薇,舒 彧
(贵州电网有限责任公司信息中心,贵州 贵阳 550003)
近些年来,大数据、物联网以及云计算等数字技术的出现,促进了第四次工业革命的更进一步发展,同时也更好地提高了信息数据的收集、储存以及共享的效率,使生产方式以及经济形态发生了整体上的变化,在这样的背景下,数字经济也成为了我国实现高质量发展的最主要动力之一[1]。
为满足和适应社会化、个性化、服务化、智能化、绿色化等制造发展的需求和趋势,世界各国相继提出了各自国家层面的制造发展战略,这些制造发展战略的共同目标之一就是要实现制造的物理世界和信息世界的互联互通和智能化操作,进而实现智能制造[2]。而运用数字孪生技术对输变电系统建立相应的数字化模型,通过多维虚拟模型和融合数据双驱动,将物理对象的数据和虚拟模型进行动态的交互,实现对物理对象的监控、仿真、预测等实际功能,并在一定程度上做到物理对象和虚拟模型的共生。
输变电设备是用于电力系统中输送和变换电能的设备,它们的应用场景主要包括以下几个方面:
(1)电网输电:输变电设备在电网中的主要作用是将发电厂产生的电能输送到各个地方的用户。输电线路需要经过多个变电站进行电压变换和分配[3]。
(2)城市供电:城市供电主要包括对大型工业、商业和住宅区的供电,输变电设备在城市供电中扮演着重要的角色。城市中的变电站通常会根据不同区域的需求进行电压变换和分配。
(3)新能源接入:随着可再生能源的逐渐发展,输变电设备在新能源接入中也发挥着越来越重要的作用。例如,太阳能和风能发电站需要输变电设备将电能送入电网。
当一个地区的输变电设备负责管理和运行的输配电网规模较大时,需要采集大量的数据来实时监控电力系统的运行状态和故障情况[4]。在这种情况下,数据采集和传输的可靠性和准确性对于保证电力系统的稳定运行和可靠性至关重要。例如,一个大型的城市可能有数百个变电站和千余个配电站,每个站点都需要安装传感器和通信装置来采集数据,以便进行实时监控和控制。然而,由于地形、气候等环境因素以及设备的运行状况不可避免地会出现一些问题[5],这些问题可能导致数据采集和传输的中断或错误,从而导致采集的数据含有大量的缺失值以及异常数据等,进而影响电力系统的稳定运行。
对于异常数据目前常采取删除操作,使得该采样时间点数据缺失。数据缺失破坏了在线监测数据时间序列的连续性,一定程度上改变了其数据特征及变化趋势,甚至出现关键的极值点及跃变点缺失的情况。传统的三比值法或者神经网络、支持向量机、灰色系统理论等各种智能诊断分析技术均会因数据缺失而无法对设备状态进行评价或者因评估依据不符合实际情况,难以对设备状态进行准确评价,无法充分发挥在线监测系统的作用[6]。
在缺失数据恢复领域,很多相关的算法已经被提出[7]。Stoica 和Li Jian 提出了一种基于最小二乘法的迭代自适应缺失数据恢复方法(Missing-data Iterative Adaptive Approach,MIAA)[8]。该方法使用迭代算法估计信号的频域表达和协方差矩阵来重构出缺失点的值。MIAA 方法特别适用于含有较多低频分量的信号,但是当信号含有较多高频分量时,其处理效果并不理想。Stanković 的研究团队提出了几种基于压缩感知(Compressed Sensing,CS)技术的凸优化缺失点重构方法[9]。这些方法可以有效地处理高频分量,但是仍然存在不足:这些方法都是基于极其简单的仿真信号,而实测信号的形式往往要复杂得多,如大量跳变点或频域内不稀疏等[10]。
本文采用一种基于遗传算法的缺失数据重构算法。该方法首先对变换域随机赋值,然后通过实现稀疏域中系数向量最小化达到缺失点恢复的效果。
遗传算法的基本思想在于通过对生物进化过程中遗传选择、基因变异、适者生存等法则的量化和模拟,来达到寻求问题最优解的目的。
(1)算法原理
遗传算法不同于其他求解最优解的算法,该算法可以自行检索、获取和指导优化的搜索空间,进而自适应地调整搜索方向。该算法通过概率化的策略直接对结构对象进行寻优操作,突破了其他方法在建立数学模型过程中由于特定函数的设置所带来的求导和对函数连续性的局限性[11],最终达到寻求问题最优解的目的。
(2)实现步骤
首先,对算法进行参数初始化。预先设定遗传代数阈值,将随机产生的种群作为问题的初代解,并对种群中的个体进行编码。
其次,进行适应度计算:对种群中个体的适应度进行计算,并将该指标作为后续测评个体优劣等级的主要标准。
接着,以上述过程中计算所得适应度的计算结果为依据,对子代繁衍过程的父体与母体进行选择,以此不断淘汰适应度低的个体。
最后,复制选出的父体与母体基因,通过交叉、变异等算子产生出子代。
重复上述适应度计算、选择、交叉、变异的过程,直至迭代次数达到遗传代数上限或设定解的阈值,程序结束。
遗传算法算法原理如图1 所示。
图1 遗传算法流程框图
值得注意的是,对种群中个体进行编码的方式有很多种,较常用的是二进制编码方法,现在使用非二进制编码的也逐渐增多。而适应度函数(fitness function)又称为适应值函数,可以用来评价一个染色体的好坏。
(3)算法特点
遗传算法突破了其他方法对目标函数求导和函数连续性限制的局限性,在不断迭代更新的过程中,保留了每代的优秀基因,也增加了变异后基因的多样性,从而提高了找到最优解的概率。遗传算法的鲁棒性、容错性相对较强,减小了陷入局部最优解的风险,但是该算法的实时性较差并且计算速度相对较慢,对于维数较高的问题很难处理和优化。
在现有样本定义的约束下,稀疏信号重构可以考虑为对稀疏域中系数向量的最小化。假设一个长度为M的系数信号x(n),有MA个可用的样本,即在随机位置上有M-MA个缺失样本。用x表示由所有信号[12]样本组成的向量。假设信号在变换域内是稀疏的[13],而信号变换由变换矩阵Ψ定义,X=[X(0),X(1),…,X(M-1)]由X=Ψx计算的变换系数组成。假设可用样本的位置为n,则存在以下包含关系:
用Xcs表示在随机位置上由可用样本组成的向量。则可用样本经过变换后得到的测量向量ycs可表示为:
其中,Φ表示一个随机测量矩阵,Acs是将变换矩阵的逆去除缺失样本位置所对应元素形成的矩阵。基于压缩感知的重构算法试图找到一组丢失样本值使得系数向量的稀疏度最优,这可表述为以下优化问题:
应用遗传算法可以求解优化上述问题。在文献[11]和文献[14]中给出了详细的GA 概述和实现细节。用染色体来代表缺失样本值,保持可用样本的值不变,随机改变缺失样本值来获取最优的适应度函数值,即最小化稀疏度度量,此时适应度值最小,缺失位置点的值也得到了恢复。
该算法设置可以简单地描述如下。首先,假设一个包含90 个个体的初始种群。将其分为3 个亚种群,每个亚种群包含30 个个体。缺失样本的集合通过双精度编码形成初代染色体。每个染色体的初始值需要在可用样本集中的最小值和最大值定义的范围内均匀分布并随机选择。然后,对采取以下步骤迭代500 次:每个个体的适应度计算为所分析信号的变换向量的L1-范数[15],其缺失样本值等于个体的染色体。可用的样本保持不变。对于观察到的一代中的每个个体,计算以下形式的信号的变换系数:
其中,Y为信号y(n)的变换系数向量;||Y||1表示向量Y的L1-范数;h(n)为染色体值,即缺失样本的可能值,代表GA 群体中的个体。通过选择函数为下一代选择亲代,在经过交叉、变异产生子代,将亲代和子代的适应度值排序挑选出新的亲代,单次迭代结束。当迭代次数至500 次,算法停止输出最优解。
在实验验证过程中,分别选取不同数目的正弦工频信号的叠加信号以拟合实测数据。以下4 组实验中,均设置信号长度为128,缺失样本数为80,即有37.5%的信号样本可用。通过随机缺失数据点的方式以拟合实测数据没有明显的周期性而且在变换域中稀疏度不一定满足要求、容易出现一些跳变点的特性。在实验过程中,设置信号的稀疏度为8,遗传算法迭代500 次,初始种群大小为90 个染色体,种群每个染色体都是服从均匀分布的,每次交叉和变异产生的新染色体组和初代染色体组放在一起进行排序选取适应度值(L1-范数)最低的染色体组作为本次进化的优胜者,然后进行下一次迭代。
在实验1 中,设计了一个单频正弦信号y1(n),其解析表达式如下:
500 次迭代后会得到最好的信号重建结果。重建结果如图2 所示,从图2 可以看出,经过数据重构缺失样本点处的值得到了很好的恢复。另外在实验过程中,采用均方根误差(MSE)对重建效果进行评估,均方误差是反映估计量与被估计量之间差异程度的一种度量,其公式如式(7)所示,其中,M为信号长度,x(n) 为原始信号,xrec(n)为重建信号,为便于衡量和比较,采用分贝值作为评估结果。各采样点误差如图3 所示。可以看出各采样点重构误差都很小,经过计算,实验1 中重建MSE 为-4.836 9 dB,满足设计误差需求。
图2 信号重建结果
图3 重构误差1
在实验2 中,设计了一个二分量的叠加信号y2(n),其各分量x2(n)、x3(n)及y2(n)解析表达式如下:
500 次迭代后会得到最好的信号重建结果。重建结果如图4 所示,从图4 可以看出,经过多次迭代后数据重构缺失样本点处的值得到了很好的恢复。各采样点误差如图5 所示,可以看出各采样点重构误差都很小,按照式(7)获得的重建MSE 为-11.31 dB,满足设计误差需求。
图4 信号重建结果2
图5 重构误差2
在实验3 中,设计了一个四分量的叠加信号y3(n),其各分量x3(n)、x4(n)、x5(n)、x6(n) 及y3(n) 解析表达式如下:
500 次迭代后会得到最好的信号重建结果。重建结果如图6 所示,从图6 可以看出,经过多次迭代后数据重构缺失样本点处的值得到了很好的恢复。各采样点误差如图7 所示,可以看出各采样点重构误差都很小,按照式(7)获得的重建MSE 为-7.784 7 dB,满足设计误差需求。
图6 信号重建结果3
图7 重构误差3
在实验4 中,利用前文所述的6 个分量信号进行叠加,得到信号y4(n),其解析表达式如下:
500 次迭代后会得到信号重建结果,其结果如图8 所示,从图8 可以看出,经过多次迭代后数据重构缺失样本点处的值得到了很好的恢复。各采样点误差如图9 所示,各样本点的重构误差较小,按照式(7)获得的重建MSE 为-22.06 dB,满足设计误差需求。
图8 信号重建结果4
图9 重构误差4
本文针对输变电设备在数据传输方面的数据缺失问题,提出了一种基于遗传算法和压缩感知的数据补全方法,通过遗传算法选择进化的个体,即选出与适应度函数匹配度最高的染色体来模拟进化的自然过程,最小化稀疏度度量,从而恢复缺失数据。同时用例子对本文提出的方法进行了验证,通过原始数据与补全数据数据质量的对比,重建均方误差满足设计误差需求,实验效果良好,验证了该数据补全方法的有效性与准确性。