郑志杰,梁 荣,綦陆杰,王延朔,王耀雷
(1.国网山东省电力公司经济技术研究院,济南 250021;2.天津大学智能电网教育部重点实验室,天津 300072)
融合型配电网是指电力物联网、智能电网两网融合建设,并借助人工智能与大数据技术等手段,实现能源流、数据流、业务流“三流合一”的现代能源网络。随着通信技术、计算机技术及数字化控制技术的迅猛发展,人类社会已进入大数据和人工智能时代,配用电数据量开始由TB级向PB级发展[1-2]。鉴于此,设计融合型配电网大数据处理平台,旨在加强电网公司跨业务、跨平台的数据分析和处理能力,为新形势下融合型配电网协同规划与评价提供全面的数据分析平台,提升大数据价值挖掘的准确性和实时性。
目前国外学者针对面向电力物联网与智能电网两网融合的数据感知、处理与应用方面已有深入研究。美国纽约电力公司推出了边缘终端物联网监测系统,对辖区数千楼宇能量管理系统EMS(energy management system)的实时需求响应能源数据进行全面监管;德国电力公司推出电力物联网云平台Mind Sphere,利用轻量级数据管理架构,对电力运营全环节实现了实时的大数据分析与处理;日本电力投入Digital Grid项目,旨在实现智能电网的全景信息感知[3]。国内融合型配电网大数据处理平台的研究发展较晚。国家电网公司于2019年明确提出建设“三型两网”目标以来,着力推进融合型配电网的智能化与数字化建设,并试运行了多个分布式的配网大数据信息处理系统。当前智能电网大数据处理与应用在负荷预测、发电计划调度、分布式发电预测、设备状态检测、故障信息诊断与用电行为分析等方面均已有成效[3-5],一定程度上实现了电网与用户在能源信息层面的感知交互,但海量配用电大数据的激增性与异构性使得大数据处理平台面临着诸多新的问题。例如,传统的单业务系统模型不适用于数据融合的趋势,各系统之间的大数据存取交互难以协同,多源异构海量数据的信息壁垒仍然存在[5];大数据平台云资源的垂直配置方式,不能充分利用智能边缘设备的可分解性,进而带来了巨大的建设运维成本[6];物联网与智能电网横向拼接的建设思路不能从根本上实现配用电大数据价值链条的贯通。因此,建立融合型配电网大数据处理平台的云边多主体分布式架构,实现高效协同的大数据存取交互,对数据处理与分析环境进行态势利导,从而真正实现融合型配电网大数据的精细化调控与智能化应用,是今后两网融合数据处理平台的研究趋势。
针对上述问题,本文首先提出大数据处理与应用平台的软件定义总体架构,其次分析了融合型配用电大数据的自适应存取交互方式,然后阐述了基于聚类集体优化的平台云资源配置关键技术,最后对融合型配电网大数据处理平台的研究应用情况进行总结与展望,为两网融合建设与发展提供参考。
融合型配电网信息化平台从两网融合的业务需求出发,服务于融合型配电网的协同规划与综合评价功能,着力于建设智能终端设备协同、数据高效交互处理、云端主站统一分析、计算与调度的软件定义网络SDN(software-defined network)架构,实现融合型配电网信息化平台的灵活控制与高效决策。该架构统筹考虑终端布点、数据的采集交互、云资源的合理配置等。总体架构如图1所示。
图1 融合型配电网大数据处理应用平台总体架构Fig.1 Overall architecture of big data processing and application platform for fusion-type distribution network
从融合型配电网信息化平台功能模块差异化的角度划分,该体系架构主要包括3部分关键功能模块,分别为软件定义终端接入、云边协同计算引擎和分布式多主体协作。
(1)软件定义接入终端主要包括2部分子模块:①边缘侧,主要针对配电变压器、光伏、风电、可调储能单元、多类型电动汽车、多类型电力用户及智能电表等单元接入智能终端,通过外部访问接口与虚拟化技术对终端的可控制部分进行软件编程,根据云边协同计算架构,边缘终端网络进行资源虚拟化后,将采集到的物理设备状态信息按预设方法进行处理或上载,其上行带宽可由云端动态适配,云存储平台执行数据管理职能的同时,统筹数据传输服务约束条件,并对路由流量及链路负载率进行监控;②平台侧,主要进行统筹的监管与服务,包括环境监控、实时报表生成、通信网络定义、多场景下用户权限管理、算法初始化条件预置等。就云边协同计算整体架构而言,底层边缘网络进行资源与数据虚拟化操作,云端主站负责在通信安全、规范传输的条件下对终端设备及其服务对象进行一定程度的数字孪生,在此基础上提供规划、运行与评价的信息化服务。
(2)云边协同计算引擎主要包括4部分子模块:①物理层采用启发式算法对终端传感器与网关进行合理配置与部署,数据采集与聚类可在智能边缘终端处理,经过多任务学习的有损压缩算法将数据上传到传输层;②传输层采用Top-k支配算法对传输数据的不确定性进行处理,考虑海量数据的多源异构性特征,基于即时解码网络编码INDC(instantly decodable network coding)的设备到设备D2D(device-to-device)通信技术进行数据传输[6];③模型层采用融合型配电网统一建模方法与数据融合技术,采用虚拟化技术与非关系型数据库技术对数据资源进行统一建模;④决策层利用融合型配电网经验知识库与多功能嵌入式系统等工具来调度底层数据资源池,对环境量、电气量、状态量等结构化数据和文本信息、视频信息等非结构化数据执行计算与监管。
(3)分布式多主体协作主要包括2部分子模块:①分布式多区域潮流计算采用基于多智能体系统MAS(multi-agent system)的分布式潮流计算方法[7],将潮流计算功能扩展为双层架构,上层进行总体规划区域的划分,并根据下层传递的信息执行调度计划,下层执行核心潮流算法,不同的主体之间利用一致性算法原理进行状态转移和递归迭代,最终实现双层架构协同计算的目的;②分布式多智能体并行机制利用非正交多址接入系统PDMAS(pattern division multiple access system)技术进行多主体集群计算[8],能够在不增加系统计算负载的情况下扩大计算容量,对MAS的统一控制与协同作业提供了高效的计算方式。此外,将5G传输技术结合到应用中,加快数据的传输与交互,优化分布式多主体协作的通信质量。
电力大数据具有多源性、异构性、海量性,这使得其交互处理长期以来面临着诸多挑战。为实现基于人工智能与大数据的融合型配电网的多元定制化用户服务,需要对大数据在传输层与模型层进行高速高效的数据处理。智能电力大数据按数据结构不同可分为结构化数据、非结构化数据;按数据来源不同又可分为电网内部数据和电网外部数据,分类如表1所示。
表1 电力大数据组成Tab.1 Composition of power big data
对于庞杂的智能电力大数据存取管理,采用虚拟化资源处理、动态自适应元数据处理、NoSQL多维数据管理的分布式存取架构。
虚拟化资源处理VRP(virtualization resource processing)是一种不受物理架构、地理状态等实际限制的计算机资源管理技术[9]。本文采取VRP技术构建主从逻辑集群的资源管理架构,即将数据源服务器、磁盘序列、个人电脑等利用虚拟机技术进行集群模拟,并搭建虚拟局域专用网络进行分区分段管理。调度架构示意如图2所示。
图2 虚拟化资源处理架构Fig.2 Architecture of VRP
首先,在电力企业、分布式发电管理群组、用户等主体单位安装虚拟机应用,将电力企业主站平台设定为Master属性节点,将电力企业其他应用平台及用户侧相关的设备资源设定为Slave属性节点;按照管理数据类型的不同,例如将电网内部数据按照数据采集与监视控制系统SCADA(supervisory control and data acquisition)、地理信息系统GIS(geographic information system)、EMS、95598、用电信息采集系统和营销调度系统分区,电网外部数据按照政府单位用电信息、医疗用电信息、工商用电信息、普通电力用户信息、分布式源荷EMS信息和气象环境监控信息分区,初始化虚拟网络参数。
然后,在电力企业内部数据与外部数据之间采用网络层地址的信息交通网虚拟化技术;内部数据分区之间网络采用IP广播组虚拟化,每个分区内部采用MAC地址或者交换端口号;外部数据分区之间网络采用IP广播组或者网络层地址进行虚拟化,每个分区内部采用MAC地址或者交换端口号。
最后,设计双层数据调度架构。上层架构为Master层,主要为融合型配电网大数据平台云端主站,包括:①外部接口模块提供与模块外部数据的查询与交换功能,将数据处理请求映射为控制计算模块可处理的请求;②控制计算模块对整个系统资源状态进行检测,负责海量多源异构数据的协同互动,接收外部接口模块的请求并向调度分配模块下达指令,并将资源内存空间等状态反馈回外部接口模块;③调度分配模块对数据资源池进行调度分配管理,直接与Slave层各节点进行信息交互,并将调度结果实时反馈回控制计算模块。下层架构为主站平台以外的其他数据终端组成的Slave层,负责接收Master层的调度指令。虚拟化资源实际调度时,负责电网内部数据的Slave节点按各自的权重顺序依次执行指令,而负责电网外部数据的Slave节点则按响应速度顺序执行指令。
为消除底层数据库数据多源异构性对数据管理的不利影响,形成标准化的数据管理库,采用动态自适应的中间件技术对元数据处理。融合型配电网大数据平台进行数据预处理后,将其归一化为XML格式并转到各元数据库。元数据分类为资源元数据和服务元数据两类,资源元数据说明数据结构及其信息;服务元数据说明数据服务和需求,并解释如何通过资源子元数据或服务子元数据映射到该服务元数据。中间件则根据元数据分类结果,对元数据进行筛选、关联、合并、排序等操作,将其存储于对应的数据库中。
基于动态自适应的中间件技术,采用自上而下的3层分布式架构,包括数据外部访问接口、多元数据查询引擎和元数据管理查询引擎。其中元数据管理引擎又包含服务元数据管理模块、资源元数据管理模块及元数据存储与检索模块。元数据动态自适应中间件处理总体架构如图3所示,其具体过程如下。
图3 动态自适应元数据处理架构Fig.3 Architecture of dynamic adaptive metadata processing
首先,进行系统参数初始化、元数据属性初始化。每个资源元数据对应1个XML表,并用1个属性字典来存储元数据不同属性键值对,每个属性字段包括属性标识ID、属性名称NAME、数据类型DTYPE、数据边界DBOUND、信息描述DNOTE,其结构如图4所示。服务元数据属性的初始化过程与资源元数据初始化过程类似,并在其基础上增加对数据来源DSORC和属性来源ASORC的描述,这是因为服务元数据不仅可以直接定义而来,也可由其他元数据映射而来。
图4 资源元数据结构Fig.4 Structure of resource metadata
然后,根据不同的数据源调用需求、数据服务需求对资源元数据、服务元数据进行调用或修改。当数据源变更时,需要修改对应资源元数据的属性,并可能在此过程中影响该资源元数据映射的服务元数据。因此,在数据源发生变化的场景下,中间件先会按照预设的算法处理资源元数据,之后将受影响的服务元数据信息通过数据外部访问接口反馈至系统中来处理。当数据需求发生变更时,只需要对相应的服务元数据进行直接修改即可,这种修改操作不会影响系统其他元数据的调用访问,并且实时生效。
在元数据库的逻辑架构完成后,需要对元数据映射的实际多维数据进行分布式管理。NoSQL数据库技术是一种不提供数据库原子性、一致性、独立性与持久性的非关系型分布式数据库技术[10],其简化了关系型数据库技术的数据模型,弱化了元数据与实际应用数据的一致性,无需检查所有资源节点即可确认操作,具有简单、高效、灵活和扩展性强等优点。
NoSQL多维数据管理的流程是在Master层设置Meta Storage进程对实际电网外部数据与电网内部数据进行存储处理;Slave层依次根据电网内/外部数据划分和对应业务属性进行分区标号,并设Slice Storage进程对要存储的实际数据按照一定规格(例如128 MB)进行切片存储。各步存储工作进行时,先查询实际数据对应的元数据XML数据表,若对应业务属性的XML表剩余足够的内存空间执行命令,则顺序执行;若存在内存缺额,则以就近原则对XML表续存后执行命令。
为实现从现有智能电网架构向融合型配电网的大数据处理架构演化,需要从主站云建设关键技术层面细化建设方案。云主站作为大数据集成处理中心,时刻运行着海量多源异构数据负载,包括机器学习、网络搜索、SQL查询、流媒体转换等不同类型的服务。这些多元应用程序的内部架构与数据维度都有所不同,且云环境的动态特征对多维数据产生噪声干扰,进一步恶化了计算资源的异质性。如何为不同类型的计算负载搜索到最优的云资源配置,对大数据处理平台降低计算成本、提高效率至关重要。
搜索最佳配置的目的是降低工作负载的运行成本,但由此产生了搜索成本。传统云资源配置往往采用单体优化模式来搜索每种计算负荷的最优配置。与集体优化模式相比,尽管其运行成本较低,但大幅提高了搜索成本,导致整体成本较高。针对以上问题,本文技术路线是首先使用聚类算法将初始工作负载聚类;然后采用深度强化学习方法,寻找集群工作负载的最佳配置;最后,当新的计算负载请求到达时,获取其所属类的最佳配置作为最终配置,并根据新的工作负载资源池重新聚类与寻优,保证云配置系统的动态自适应。整体架构示意如图5所示。
图5 云资源优化配置架构Fig.5 Architecture of optimal allocation of cloud resource
优化资源配置过程共包含5个模块:①负载池负责存储聚类所需的初始工作负载,以及随系统运行所传入的新工作负载;②负载聚类器负责根据负载特征将工作负载分组到不同的聚类集群中;③集体优化配置选择器采用深度强化学习网络来预测每类工作负载的最佳配置;④查询表负责将工作负载集群与其最佳云资源配置方式建立映射关系,以便于新负载配置查询;⑤云环境为工作负载聚类和集体优化配置选择器提供了硬件基础与操作配置。
基于分叉k-means聚类算法对工作负载资源池进行聚类,可以避免传统k-means算法易陷入局部最优的缺陷,聚类流程如下。
步骤1将资源池的所有工作负载描述为数据特征点,并初始化聚类为1个簇。
步骤2分别计算各簇的误差平方和SSE(sum of square error)。
步骤3对所有簇分别进行二分操作,并计算每个父簇对应的2个子簇的总SSE。
步骤4仅保留二分前后SSE差值最大的簇二分结果。
步骤5判断当前簇的组数是否满足设定参数k,若满足,则聚类结束;否则,返回步骤2。
当新的工作负载请求到达时,根据其数据特征将其划分到现有聚类簇中。随着运行时间的推移,资源池中保存的负载量增加到设定的参数阈值,重新运行聚类算法进行初始簇的划分;或者设定聚类算法的重新运行周期,使系统每隔一定时间便重新聚类一次。实际运行中可根据操作环境的特点选取重新运行策略。
深度Q-network即DQN(deep Q-network)模型方法遵循强化学习的模型设置,并使用深度学习来提高算法的能力[11]。基于DQN深度强化学习方法设计云资源最佳配置策略模块,以工作负载特征状态出发,寻求计算运行时间最短的最佳配置策略。同一簇的工作负载具有类似的特征,因此同一簇的工作负载的评估结果可以是其他工作负载的学习历史,进而DQN模型就可以作为聚类工作负载上的集体优化器运行。
由于Q函数包括关联了当前状态与后续状态的两种回报,具有明显的不确定性,因此采用基于ε-greedy策略和Q函数选择的两阶段选择策略:第1阶段设定表示随机选择概率的适应性参数ε,且ε具有较高的初始值,即初始阶段系统使用随机选择策略;随着训练次数的增加,Q-learning模型的预测效果将基于大量的训练样本变得突出,此时ε随之渐渐变小,系统进入基于Q函数选择的第2阶段。
采用的经验样本为
式中:Et为经验样本集;st、st+1分别为经验回放前后工作负载的特征;at为在阶段t选择的虚拟机配置,并经由策略函数进行选择;rt为评估st、st+1中工作负载运行时间的函数;分别为st、st+1中的工作负载的运行时间,当大于时,表示at能够降低工作负载的运行时间。最佳配置策略选择流程如图6所示。
图6 基于DQN的配置策略优化流程Fig.6 Optimization process of DQN-based allocation strategy
所设计的云资源配置模块类似集体优化器,其比单体优化器成本更低、速度更快。但是同时也存在两个问题:①集体工作负载的最佳配置适合大多数工作负载,但可能是其他工作负载的次优配置;②当工作量较小时,集体优化器的成本更高。
为了解决第1个问题,本平台使用大数据指标信息作为聚类工作负载的数据特征,并为每个聚类簇运行集体优化,以找到属于该簇的最佳配置,降低了优选的配置策略是次优配置的概率。针对第2个问题,当工作负载较少时,将新传入的工作负载直接划分到现有簇中,此过程可视为单体优化器优化过程,但其搜索成本与集体优化器一样低。综上,最佳配置选择器能以更低的成本优化任意数量的工作负载。
本文提出的融合型配电网大数据处理平台架构方案已在山东省国网经研院大数据试验平台得到应用,实际试验区接入智能边缘终端330个,数据采样周期为0.25 h。该大数据处理平台使得试验区融合型电力大数据的采集速度提升37%,上传云端数据量减少45.2%,云端主站运行与维护成本降低34.7%。平台从应用层面上实现了融合型配电网即插即用终端状态与网络运行工况的全面监测,为试验区的规划运行、维护检修和业务扩展提供了专业高效的数据分析工具,满足了对多源异构融合型大数据服务的适应性需求。研究成果有助于推进国家电网公司节能服务体系建设、拓展新型能源服务业务,可为全行业和更多市场主体发展创造更多更大的机遇,为电力物联网与智能配电网融合建设提供更多技术探索和经验积累。