徐 琳 张克铭 郑 钦 路亚俊 樊 想
(中能融合智慧科技有限公司,北京 100013)
随着“双碳”目标的提出,政府对能源监管的要求日益加强,为此各城市陆续开始建设能源数据中心,以实现对城市能源的监管[1]。城市能源数据中心逐步接入了能源行业海量数据,能源数据质量评估与修复工作更加重要[2-4]。但因能源采集设备故障、数据传输通道故障等,能源行业结构化数据质量依然偏低。
许多学者对能源行业结构化数据质量评估与修复做了大量研究。王跃晟等[5]提出了一种基于Shapelets 的能源数据评估与修复方法,采用能源时间特征矩阵对能源数据进行分析。张凯等[6]提出了一种基于K-means 聚类的能源数据修复方法,采用异常特征K-means 聚类和神经网络对能源数据进行分析。俞娜燕等[7]提出了一种基于高斯过程回归的能源数据评估方法,针对高斯过程评估数据质量问题,通过粒子滤波方法对能源数据进行修复。徐飞阳等[8]中,提出了一种基于同步相量的能源数据评估修复方法,对能源数据缺失的产生机理进行分析与错误校准。由此可见,能源数据分析与修复方法多样。但上述方法仅对单类数据进行修复与评估,不能满足能源数据中心多源异构的海量能源数据评估与修复的需求。
针对能源行业结构化数据质量低、异常数据修复困难的问题,本研究提出了一种能源行业结构化数据质量评估与修复方法。该方法采用Strong-Wang 框架搭建能源行业结构化数据质量评估维度,并引入数据质量改进全生命周期的概念对能源行业结构化数据进行评估与修复。
本研究所述的能源行业结构化数据质量评估研究框架主要包括构建数据质量评估框架、构建数据质量评估标准和数据质量全生命周期管理三部分内容。
能源行业结构化数据质量的维度是指能源行业中结构化数据可观测的特性。Strong-Wang 框架是国际上通用的数据质量评估维度框架,通过内在的数据质量、场景数据质量、表达数据质量、访问数据质量来描述质量的评估得分[9-10]。因此,本研究采用Strong-Wang框架构建能源行业结构化数据质量评估架构。根据Strong-Wang 框架规则,能源行业结构化数据质量规则类型分为单个数据、多行数据、多列数据、多业务数据四类监测规则。数据质量评估框架如图1 所示。由图1 可知,能源行业结构化数据完整性检测为空值检测和逻辑检测;能源行业结构化数据准确性检查为范围约束;能源行业结构化数据有效性检测为格式检查;能源行业结构化数据及时性检查为数据采集及时检查;能源行业结构化数据一致检查为一致约束、外键约束和关联约束;能源行业结构化数据唯一检查为主键约束检查。
图1 能源行业数据质量评估框架
能源行业结构化数据评估规则集合La表示为式(1)。
式中:na为能源行业结构化数据评估规则数量;la1、la2、lana为不同能源行业结构化数据评估规则。
元数据是指描述能源行业结构化数据并为其提供数据质量评估资源的信息数据。元数据可识别能源行业结构化数据的资源,并对其进行质量评价与管理能源行业结构化数据在使用过程中产生的变化,从而实现能源行业结构化数据质量评估资源的有效查找、发现和一体化管理等功能。因此,本研究采用元数据构建数据质量评估标准。
层次分析法(Analytic Hierarchy Process, AHP)是一种能源行业数据结构层次分析方法,该方法将与能源行业结构化数据分析决策相关的数据设定为总体目标,并将总体目标分解成不同的层级。在每个能源行业结构化数据子层级上,将评价标准分解为不同的层次结构,并采用求解能源行业结构化数据矩阵的方法,对每个层级进行定性分析和定量分析,再通过每个层级上增加不同的权重,汇总形成能源行业结构化数据整体的定性分析与定量分析结果[11-13]。
根据表2 构建能源行业结构化数据判断矩阵B,表示为式(2)。
式中:m、n分别为能源行业结构化数据质量评估判断矩阵的纵、横维度;b11、b12、…、b1n为能源行业结构化数据横维度的比较结果;bm1、bm2…、bmn为能源行业结构化数据纵维度的比较结果。
计算能源行业结构化数据判断矩阵各行的向量平方根,并进行归一化处理,得到能源行业结构化数据评价权重W,表示为式(3)。
式中:nd为能源行业结构化数据指标权重的数量;wi为不同能源行业结构化数据评估指标权重。
能源行业结构化数据质量评估一致性监测ka表示为式(4)。
式中:ne为能源行业结构化数据一致性的唯一非零特征根值;δmax为能源行业结构化数据判断矩阵的最大特征根。
戴明环方法是一种数据质量全生命周期管理方法,该方法通过“计划-执行-检查-处理”四个阶段对能源行业结构化数据的质量进行管理[14-16]。
线性插值方法是一种能源行业结构化数据修复方法,该方法将缺失数据邻近已知正常数据用插值方法连接,然后对插值的曲线进行计算,从而获得异常数据的预估值[17]。该方法具有速度快、效率高的特点,因此,本研究采用线性插值方法对能源行业结构化数据进行修复。
异常数据修复值ja满足式(5)。
式中:js和jb分别为异常数据前后邻近的已知正常数据值;a为异常数据点;s和b分别为异常数据前后邻近的已知正常数据点。
为验证文中所提能源行业结构化数据质量评估的有效性,在我国某城市能源数据中心进行实际应用。该区域的能源数据包括电、水、气、热、煤和油数据,接入的数据单位为32.5万户。文中能源行业结构化数据质量评估与修复工具采用python 开发,程序部署在城市能源中心机房,服务器采用的中央处理器为英特尔至强E2200,服务器数量为4台,运行的主频为2.8 GHz,服务器内存为128 GB,服务器硬盘为64 TB,服务器的操作系统为Linux。与文中方法进行对照试验的是云网融合数据质量评估方法[18]。
3.2.1 能源行业结构化数据质量评估准确率分析。选择能源行业结构化数据为1万、2万、5万、8 万、10 万、15 万、20 万条,分别采用文中所提层次分析法与云网融合的能源中心数据质量评估方法比较数据质量评估准确率,其数据质量评估准确率结果见表1。
表1 能源行业结构化数据质量评估准确率
由表1 可知,文中所提层次分析法平均能源行业结构化数据质量评估准确率为99.67%,层次分析方法对能源行业结构化数据按层级进行分解,并进行评估,评估的准确率高于云网融合方法评估准确率94.78%。因此,文中所提层次分析法数据质量评估准确率更高。
3.2.2 能源行业结构化数据修复准确率。选择能源行业结构化异常数据为1 000、2 000、3 000、5 000、8 000、10 000 条,分别采用文中所提戴明环方法与云网融合的能源中心数据质量修复方法比较数据修复准确率,能源行业结构化数据修复准确率如图2所示。
图2 能源行业结构化数据修复准确率
由图2 可知,文中所提戴明环方法平均能源行业结构化数据修复准确率为98.57%,云网融合方法的平均能源行业结构化数据修复准确率为94.13%。因此,文中所提方法平均能源行业结构化数据修复准确率高于云网融合方法。
本研究针对能源行业结构化数据质量低、异常数据修复困难等问题,提出了一种能源行业结构化数据质量评估与修复方法。该方法通过Strong-Wang 框架和元数据建立了数据质量框架与评估标准,实现了能源行业结构化数据的生命周期评估与修复,提高了能源行业结构化数据的管理水平。
下一步将结合碳排放计量分析数据,对该评估与修复方法做进一步研究。