李冰若,钟 彬
(1.国网上海市电力公司市北供电公司,上海 200122;2.国网上海市电力公司,上海 200122)
随着当前智能化信息时代的发展,打破了数字符号的界限,社会高度信息化,数据作为一种记录符号,逐渐形成由语句、位置等多源数据构成的大数据模式,且数据量规模呈指数级增长[1]。这虽然推动了数据的自动化与智能化进程,但却使数据之间的逻辑关系越来越复杂。在大数据时代中,数据是制定决策的重要参考依据,数据质量对决策的最终效用起着至关重要的作用[2]。
海量数据内掺杂的问题数据不断降低数据质量,使之演变为各个领域亟待解决的问题,研发出适用于不同领域的数据质量控制技术。例如:王娟等[3]与周琦等[4]分别就政府开放数据与全球地理信息数据,应用演化博弈理论与分布式并行处理技术,准确且有效地控制数据质量。随着可持续发展战略目标的提出与落实,在社会生产生活中占据着核心地位的电力行业,亟需向智能化、信息化以及节能化方向转型。除大数据时代本身给电力行业带来的海量数据外,庞大的电网覆盖规模与用户量也加剧了数据量,为保证数据质量增加了巨大的难度。因此,面向电力统计大数据,设计可视化的质量控制方法。可视化技术因大数据时代兴起,在数据质量控制方面具有一定的应用价值,有助于保障所用数据准确可靠、实时有效。
假设电力统计大数据集合是{G1,G2,…,GM},其中,M表示数据量,各数据对应的先验概率集合与离散概率函数集合分别是{q1,q2,…,qM}、{f1(y),f2(y),…,fM(y)},采用贝叶斯公式,解得电力数据Gj的后验概率p(Gj):
(1)
式中:j=1,2,…,M;qj、fj(y)分别为数据Gj的先验概率与离散概率函数。
选取N个数据样本,得到下列对应观测数据的矩阵形式:
(2)
该矩阵中,元素g*表示数据样本的观测结果。
采用下列计算公式求解出各观测数据的总均值向量:
(3)
推导出各数据样本的均值向量概率运算式,如下所示:
(4)
式中:j=1,2,…,N。
由此得出任意数据样本的类内离差矩阵元素计算公式,如下所示:
(5)
采用下列形式解得所有数据样本的总类内离差矩阵元素:
(6)
引入数据变量gh,建立其对应的类内离差矩阵与总类内离差矩阵,分别如下所示:
(7)
(8)
若方程组(9)成立,则为达成质量控制目标而引入数据变量gh的实现形式如式(10)所示:
(9)
(10)
若控制数据质量时需去除数据变量gh,则其实现形式如下所示:
(11)
大数据时代让电力统计数据演变成了更复杂、更具层次性的高维数据结构,以往的单向数据可视化表现形式无法满足此类数据结构的可视化需求。基于电力统计大数据质量控制算法,结合地理信息系统技术与Web端口[5-6],构建出由Web端口连接地理信息系统中各组成部分的平台,实现电力统计大数据质量的可视化交互控制。平台的基本架构如图1所示。
图1 可视化实现平台架构图
视觉通道作为实现可视化的主要环节,也是控制数据标识的一种表现模式。不同的视觉通道用于呈现不同的统计大数据。根据可视化的数据标识性质,可将其分为定性、定量、分组等三种,各类数据标识的具体属性与应用的视觉通道如表1所示。
表1 电力统计大数据类别
在地理信息系统技术与Web端口构成的可视化实现平台上,融入B/S架构[7],组建出由设计工具模块、组件设计模块以及表现模块组成的可视化实现单元,如图2所示。
图2 可视化实现单元架构图
在可视化交互控制平台上,建立卷积神经网络结构,有效处理与连通可视化单元各模块之间的逻辑关系,减小可视化控制过程中产生的数据误差。
神经网络的前两层分别是数据特征的提取层与展示层,在输入层提取数据子块后,形成一组适用于电力统计大数据结构的高维数据向量;第三层网络为非线性映射层,用于获取高维数据向量的映射向量;第四层网络是重构层,利用求和与加权平均等运算法则[8-9],得到经过控制的数据块,在输出层输出最终的控制结果。
假设除输入层与输出层外的网络层分别是U1、U2、U3、U4,各层均含有m个网络节点,分别是x1,x2,…,xm,网络层对应的可学习权值与偏置分别为a1m、a2m、a3m、a4m以及b1、b2、b3、b4,则该卷积神经网络结构的界定公式如下所示:
(12)
若各卷积层均含有n个大小为Xi(i=1,2,3,4)的卷积核,则通过下列计算公式求解出神经网络结构的运算复杂度:
(13)
为缩短网络训练时长,提升质量控制精准度,在网络的非线性映射层前后,分别添加特征缩小网络层与扩展层,构建出六层结构的卷积神经网络。
各网络层的具体设计内容如下所述:
(1)提取层与展示层:卷积运算网络层的卷积核与提取到的数据子块,并转化为高维数据特征向量。由于Sigmoid非线性激活函数[10]能够在负数部分存在多个可学习参数,故将其作为两个网络层的激活函数,以防止节点在学习时不被激活,使网络参数作用都得到最大程度发挥。提取层与展示层的计算表达式分别如下所示:
U1=Sigmoid×a1m(x1+x2+…+xm)+b1
(14)
U2=Sigmoid×a2m(x1+x2+…+xm)+b2
(15)
(2)缩小层:因前两层得到的高维数据向量维度过大,会大幅增加非线性映射的运算开销,故添设缩小层。利用1×1×1卷积核缩小展示层的输出特征,降低映射复杂度[11-12]。该层的卷积核数量需小于n,由计算表达式(14)、式(15),推导出如下的缩小层U′求解公式:
(16)
(3)非线性映射层:为确保在少量参数下也能感知域大小,避免过拟合,界定各网络层的输入通道个数相同并呈卷积叠加。则非线性映射层的计算形式为下列等式:
U3=Sigmoid×a3m(x1+x2+…+xm)+b3
(17)
(4)扩展层:该层是缩小层的逆操作阶段,若直接采用降低后的数据维度进行处理,极有可能形成控制误差。故通过扩展层提高数据维度,利用1×1×1卷积核通过下式完成该网络层的逻辑处理:
(18)
(5)重构层:作为卷积神经网络的最后一层,重构层卷积核的主要作用是组合数据特征、平均滤波、得到输出数据。网络输出结果的推演表达式如下:
U4=Sigmoid×a4m(x1+x2+…+xm)+b4
(19)
可视化单元利用开发工具调用设计的组件与控件后,经过卷积神经网络逐层的逻辑处理与连通,通过表现模块将输出结果呈现给用户。
基于控制方法的研究目标,分别从控制后数据的准确性、实时性、一致性以及完整性四个方面,综合评价可视化控制统计大数据质量的有效性与优越性。各指数类评估指标的数值越大,数据质量越好,控制效果越理想,具体内容如下所述:
(1)准确性(accuracy):该指标用于判定数据控制结果是否存在异常状况。假设总数据量有Sz个,若控制过程中产生Sl个错误数据,则准确性评估指标的计算公式如下所示:
(20)
式中:r为修正因子。
(2)实时性(timeliness):该指标根据数据控制的延时时长与数据量,判定方法时效性。若有St个数据被延时控制,完成电力数据控制的所需小时数为t,则实时性评估指标式如下:
(21)
(3)一致性(consistence):该指标描述各电力数据间的逻辑关联强度。当不符合外键、等值依赖、逻辑、等值一致、存在一致等约束条件的数据量分别是Sk1、Sk2、Sk3、Sk4、Sk5时,一致性评估指标由下列表达式解得:
(22)
(4)完整性(integrity):该指标反映控制后是否有缺失字段信息的电力统计数据。若缺失信息的数据量是Sd个,则完整性评估指标的求解式如下所示:
(23)
因时间限制,仅从某市的统计年鉴数据中,选取某一天中12个时段的电能价格、总产值、电力能耗等三种电力统计大数据作为实验对象。为减小数据自身所带来的负面影响,设定因变量为电能价格,自变量为总产值与电力能耗,采用最小二乘估计法与数据回归分析法,去除高相关度与无法解释因变量的数据元素。基于处理后的统计数据建立可视化控制仿真模型,模拟本文方法对电能价格、总产值以及电力能耗等三类统计数据质量的控制情况。在无异常情况的初始数据中,各添加5个问题数据,以检验方法控制性能。各数据质量控制的仿真结果如图3所示。
图3 不同统计数据的质量控制示意图
通过对比控制方法应用前后的数据值走势情况可以看出,本文方法基于设计的贝叶斯统计大数据质量控制算法,在B/S架构上结合地理信息系统技术与Web端口,可视化交互控制了统计数据,利用含有六层结构的卷积神经网络,有效处理与连通了可视化单元各模块之间的关系逻辑,使各类别包含的大部分问题数据均得以有效去除。
就控制后电能价格、总产值、电力能耗等数据的准确性、实时性、一致性以及完整性等指标值,更客观、更全面地评价演化博弈论、并行处理以及本文方法的数据质量控制能力。各方法指标实验结果对比情况如图4所示。
图4 各方法评估指标比对图
从三种方法的指标值比对结果可以看出,本文方法的各指标值均处于较高水平。这说明该方法在网络的非线性映射层前后,分别添加特征缩小网络层与扩展层,通过六层卷积神经网络结构的可视化控制,减小了数据误差,故较演化博弈论与并行处理的数据质量控制方法,赋予数据更高的准确性、一致性、完整性以及实时性,进一步提升了数据质量。
日新月异的信息技术大力推动着社会上各个领域的信息化建设进程,尤其是电力行业的智慧电网建设中,不断涌现出了大量的智能信息管控系统,在实现自动化管理的同时,节省电力运维成本。大数据时代的数据产生源头较多且结构多样,大规模的数据传输、存储处理,极易发生数据错误、缺失、冗余等问题,令数据质量降低甚至失效,影响科学、精准地制定用电决策。因此,针对电力统计大数据,提出数据质量的可视化控制方法,及时发现数据问题并予以改善。为更精准地把控电力运行状态,增长电力企业的经济效益,存在以下几个方面有待改进:应根据电力统计大数据属性,建立针对性控制条件,提升可视化控制的综合性;需采用机器学习等错误数据修复技术,更理想地处理问题数据,增加数据质量;应尝试采用超高清可视分析技术,强化用户的可视化控制体验感。