简润敏
广州理工学院,广东 广州 510540
互联网时代下,人与物都在交互地产生海量数据。数据点呈类型多、体量大、产生快等特性,传统的技术已经无法承载现有的数据量[1]。物联网、云计算等技术的发展,海量数据处理和储存技术迎来新的发展契机,在处理庞大的数据量发挥着重要的作用[2]。
随着电力系统数据的优化配置,电力数据的类型、数量呈现指数增长,尤其伴随着电力大数据时代的来临,如何在量化、繁琐的电网数据中梳理、分析有价值的数据成为目前研究的重要方向[3]。目前多元信息融合技术在电网数据中发挥着重要的作用,数据融合可以将有关联的数据融合在一起,对多种类型数据源进行整理、分析、提炼[4]。基于大数据技术实现电网多源数据的融合已经成为电网系统不可或缺的技术之一。
电力数据根据数据类型一般可以分为结构化和非结构化数据。随着电力系统数据获取源的增多,非结构化数据的基数也逐渐庞大,而由于电力系统数据的非结构数据源(视频、图形)在传统的数据库中难以储存,造成非结构和结构数据之间无法融合[5]。
根据目前的电力系统数据源的分布情况来看,非结构数据源在电力系统的日常运行、管理中将占据较大比例,甚至所占份额会超过电力系统的结构数据源。考虑结构化数据和非结构化数据之间的差异性无法实现关联匹配。为进一步降低结构化数据和非结构化数据之间的差异性,基于异构数据对发电侧、输变电侧、用电侧三方面进行分类管理[6]。
①发电侧:供电最前端所产生的信息化数据,用于分析目前设备的运行状态和故障提示等;②输变电侧:主要源于相量测量装置。随着检测电的增多,数据采集量也呈现指数增长趋势,一般数源是类似于图像和视频信息等非结构化数据;③用电侧:主要源于用户终端数据的智能监测设备,具有采集数据量大、类型多等特性。以往的数据处理系统简单、仅仅对特定的数据进行定向获取,且软件和硬件的相关设备老化、设备功能性故障,造成大量的数据无法被采集;随之电力系统数据的升级优化、硬件配置的完善应用、升级,每时每刻所产生的数据、信息都会被保存且上传到数据中心进行计算分析。
从现有的电力数据采集系统来看,电网配电过程中采集量不断增加,不仅需要对配电过程进行管理还需要完成各个检测点的数据、信息的收集。采集的数据源不仅包括传统的结构化数据如功率、电压等,还包括检测点的图形、地理信息、气象数据、图形资料等非结构化数据。
为进一步提高电力系统的运行可靠性、稳定性,获取稳定数据并从中获取有价值信息是当前电力研究的重要方向。
数据融合技术的发展是金融、军工领域的新兴技术产业,通过算法融合设计、数据点定点获取、计算,实现对检测范围区域模型构建完成数据点的精准获取。具体的数据融合流程如图1所示。
图1 融合示意图
数据融合可以在电力系统采集点区域预测目前该检测点数据的冗余性,根据预警数值大小分配对应的电网带宽资源克服了随着检测点数据的增多造成数据拥塞,延迟等现象。当数据采集硬件系统发生故障,可以在较短的时间内根据反馈的数据融合信息,明确数据故障点。基于数据融合技术优势提高系统处理能效,增强系统数据的稳定性和可靠性[7]。
具体如图2所示为多源数据融合基本结构,数据融合是将X的n个分块信息经过数值变化,根据融合级别的高低依次归纳为数据层、特征层和决策层[1]。
图2 多源数据融合基本结构
数据融合应用最为普遍的一种融合技术,通过采用数值方法对所检测的数据源信息进行特征值计算,分析目前数据源的特征信息属性,获得准确的数据值。
特征层融合通过对采集点的数据源信息进行特征量提取、融合,基于数据融合反馈值进行关联、融合通过区域模型构建来完成数据特征值的计算;决策层则基于所得数值进一步完成数据精准计算和模型范围重构,一般需要基于模型算法,对算法进行分类、推理分析等。
电力系统融合架构设计如图3所示。在数据层中有传感测量模块,主要采集环境变量,依赖于网络线路对数据点进行传输并保存至融合中心层;此外系统构架还兼容了NoSQL、HDFS等工具的数据管理工具,能进一步对数据进行提炼、保存、分析;尤其是利用Map Reduce工具对数据进行精准的分析、预处理和应用实现各个功能模块的兼容,增强系统的并发性和稳定性[2]。
图3 电力大数据融合架构
电力系统采集的数据源种类繁多且结构化趋势明显,大部分的电气量仍需要借助多个观测点的数据特征值进行定量分析才能得出最准确的数据;通过数据融合技术完成数据精准计算和模型范围重构获取不同区域集合点的数据信息。
3.2.1 数据预处理
电力系统数据量多、基数庞大且数据之间的关联性较低,所采集的结构化数据和非结构化数冗余度高,因此对所采集的数据进行预处理一般主要包括清洗数据、数据归一和数据压缩。清洗数据主要剔除缺失、失效以及冗余等数据;数据归一主要对数据统一归化便于数据融合;数据压缩在保证数据完整性稳定性的前提下对数据进行压缩,进一步提高数据的计算效率。
图4 电力系统信息融合结构图
3.2.2 数据级融合
电力系统中的数据来源于采集终端设备装置,按照设备种类依次获取不同的数据量,在数据融合计算时需对数据进行关联分析。基于物理模型、算法进行数据级别的融合得到准确的结果。如图5所示采集数据依次分为电气量、过程量以及状态量,通过三者之间的数据耦合形成同类二维关系,基于同类二维关系数据融合、计算最终实现跨类二维关系。
图5 二维关联数据的形成
电力系统数据源于采集终端数据,通过传感技术、储存技术实现信息数据融合的目的。随着监测技术手段的不断发展和对设备运行规律的把控,这一级别的融合会更加准确全面。
3.2.3 信息级融合
大部分的数据级的融合只是数理计算,对数据挖掘应用则需要通过信息级融合可以对数据进行深加工,如采用数据集中工具、管理工具以及储存工具构建物理模型完成电力数据信息级融合。
基于Hadoop平台数据管理人员根据电力数据的基本属性,构建不同电力系统采集终端的数据源。一方面以数据挖掘、XML为核心技术实现电力采集数据的归一化、标准化;另一方面采用模型范围数据重构实现对数据的精准计算和监测如运行数据、后台访问记录数据等,为电力系统的稳定提高可靠的运行环境,实现对电力大数据的高效处理,从而有效解决电力系统运行数据过程中的数据孤岛等问题。
电力系统大数据融合系统基于数据发布、系统反馈以及运行维护三大运行体系通过系统功能之间的反馈、协同应用。基于服务应用对电力大数据进多源异构数据融合,对数据源挖掘应用,提升数据处理质量和效率和系统的运行稳定性。
目前多元信息融合技术在电网数据中发挥着重要的作用,数据融合可以将有关联的数据融合在一起,对多种类型数据源进行整理、分析、提炼、分析,通过对采集点的数据源信息进行特征量提取、融合,基于数据融合反馈值进行关联、融合通过区域模型构建来完成数据特征值的计算;决策层则基于所得数值进一步完成数据精准计算和模型范围重构。通过基于Web Service 构建服务数据体系、构建通信协议完成数据的预处理;电力系统采集点区域预测目前该检测点数据的冗余性,根据预警数值大小分配对应的电网带宽资源克服了随着检测点数据的增多造成数据拥塞,延迟等现象,信息数据交互层基于融合系统、XML技术对异构数据进行格式标准转化逐步增强系统的并发性和稳定性,提高系统的运行效率;数据融合应用基于模型数据、人工智能应用实现对电力大数据的融合,包括人机交互、智能算法应用、神经网络电力模型;通过网络协议,将各个采集点的电力大数据耦合在一起,实现数据之间稳定有序,交互应用的协同管理,实现电力大数据的融合与共享。
如图6所示,在相关数据源数据大小下,分别对数据融合处理时间、传统数据处理时间的运行效率进行分析,从图中可以看出在15GB大小以内数据融合处理时间、传统数据处理时间基本差别不大,但当数据量大于15GB时数据融合处理计算框架快速计算随着数据量增大处理时间增长趋于线性,与传统算法比较而言更适合于大数据的处理。
图6 不同数据组下处理效率的比较
随着电力系统数据的优化配置,电力数据的类型、数量呈现指数增长,目前多元信息融合技术在电网数据中发挥着重要的作用,数据融合可以将有关联的数据融合在一起,对多种类型的数据源进行整理、分析、提炼。
基于大数据技术实现电网多源数据的融合已经成为电网系统不可或缺的技术之一。为保障电力系统数据稳定、高效地运行,本文针对电力数据中的融合模块进行结构设计,采用传统数据处理模型和电力大数据融合处理模型对比分析,结果表明融合处理计算框架快速计算随着数据量增大处理时间增长趋于线性。