赵小凡,杜舒明,梁雪青
摘 要:电网数据中台建设和实践探索的目的是夯实电网数据应用基础,提升数据应用的质量以及服务水平,借助技术手段,采集、分析数据,弥补数据系统存在的漏洞。文章围绕电网数据中台数据质量展开探索,提出数据质量校验的实践方案,为政府科学决策、电网建设与质量服务效能提升、资源共享与数据精准分析等方面提供参考。
关键词:电网数据;数据质量;数据校验
中图分类号:C39 文献标识码:A 文章编号:1674-1064(2021)12-0-03
DOI:10.12310/j.issn.1674-1064.2021.12.018
電网质量保障要确保电力调度系统中各类运行数据正常传输,依靠技术手段和平台建设,解决数据采集、数据传输、外界因素的影响和网络传输速度延迟等问题,保障数据运行中不会因为上述不正常因素造成传输中断,造成源数据异常和错误,影响和干扰数据调度综合数系统中数据运行的正确性与及时性。因此,需要可靠的数据质量校验方法,保障各类数据质量以及系统运行稳定。
1 电网企业数据平台和系统功能优化的背景
结合国家电网企业相关数据分析,接入智能电表等各类终端5.4亿台,采集数据日增量超过60 TB,车联网接入充电桩超过28万个,电商平台注册用户2.25亿,在线采集全国约4.71亿用户的用电信息,线上缴费率超过50%。电网企业信息化系统建设为业务进展和企业经营提供支持,保障电网运行稳定和数据传输畅通无阻,为电力用户提供优质的服务,实现各级业务展开和部门及时沟通,并以信息化手段全方位监测电力系统。
虽然借助技术手段处理电力系统数据以及业务开展有很大的优势,但是也存在一些不足之处:一是电力业务上仍是“部门级”,各业务系统围绕各自部门的业务单独运用,造成业务流程断点,形成数据壁垒;二是技术上信息化资产和能力未能积累,电力系统中的业务服务能力和数据共享与处理能力都相对薄弱,建设成本投入较大;三是管理和服务理念上有待强化。
从现阶段各部门系统数据的实际应用看,各部门仍未充分发挥数据在业务运行、工作效率等方面的作用和价值,要完整采集所有数据信息,实现数据信息的实时共享,挖掘数据信息的作用价值,确保数据信息在各部门业务运行中的价值最大化。针对这一现状,首要任务是要采集与整合数据资源,加强数据资源的实时共享与对外合作程度,全面优化改进中台系统。数据中台能够将系统的前台与后台有效衔接,通过加强数据的建模、数据信息的聚合,创建多元化的系统平台,更好地支撑前台与后台的运作。
数据中台与企业部门业务活动联系密切,在企业业务运作中发挥至关重要的优势作用。一方面,通过建立完整的数据模型实现了数据信息的准确出入,最大限度地避免了多个数据源数据信息重复归集的现象产生,提升了系统处理和分析数据的运行质量和效率;另一方面,节省系统数据处理时间和成本,通过提高处理运行效率,减少数据信息重复滥用现象。
2 数据应用系统功能分析
2.1 数据校验与修复
数据校验功能要立足于长期业务工作,并对其各项业务数据经过系统分析总结而成。国家电网经过数据中台建设可以在综合数据调度平台运行中及时发现和解决各种问题,根据企业业务的实际需求应用系统对数据分析,经过数据校验与修复建立数据规则库,利用数据规则库确定问题解决的路径,通过一系列规则建立推理过程[1]。
数据校验与修复的具体操作方案可以通过同步与采集组件从外系统接入模型设备信息和各类运行数据,然后校验数据。如果校验结果显示数据问题,就会自动根据相应的规则进行修复,再将修复的结果录入数据库,反映至人机界面,便于用户判断及操作。
2.2 缺失数据处理
数据平台采集数据会出现数据缺失的情况,对后续数据分析和处理造成很大的影响,要尽可能弥补统计领域和数据库领域数据缺失造成的损失。
统计领域中处理缺失数据的方法主要有单一填补法和多重填补法。单一填补法是对缺失的数据构造单一替代数据进行填补,填补方式通常有平均值或中间数填补法、回归填补法、最大期望填补法、hot deck填补法等。其中,hot deck填补法采用与缺失数值最相似的观测变应量值作为填充值,但其无法准确反映原有数据的情况,因为相似性填补方式会造成数据集的不确定性,产生数据偏差[2]。多重填补法是通过应用多个数据值进行填补,其优势在于通过对缺失数据分布情况的模拟保持变量之间的关系,通过采集完整数据集,利用系统规则获得相应的结果,填补方式通常有趋势得分法等。
2.3 异常数据检测
数据出现异常情况主要由两种原因造成:一是数据的固有变异性;二是度量或执行错误。
检测与校验数据异常问题的方法要通过数据审计,深入挖掘数据质量。第一,数据概化,采用数据统计方式概化描述数据分布,并自动获取数据的分布特点以及相关情况。第二,围绕个别数据质量问题以及异常情况进一步挖掘和分析,可以将数据按照距离细化为不同的数据层,按照每一数据层统计数据特征,结合定义的距离算出每个数据节点与中心的距离,以此作为判断数据异常的依据。第三,采用数据统计发现数据异常情况,这种方法大体依靠数据挖掘算法,通过数据算法准确辨别数据异常情况,挖掘数据价值,在此基础上采用决策树算法进行数据模拟,通过数据算法发现数据偏差[3]。
2.4 逻辑错误检测
数据编辑修正研究的核心内容在于运用自动化方法,寻找并解决与业务逻辑运行相违背的数据错误,对此,要充分考虑到电力调度范围内各项数据的不同特点,针对不同数据的不同特征实现具体化、差异化应用,最大程度地反映数据逻辑错误。
对于这一方式的数据错误检测思路,主要是以相关领域的知识原理为应用基础,建立起相应的规则体系,借助自动化设备、技术,实现各项数据的自动化处理,这种自动化处理结果主要通过严谨的数学模型,体现各项数据的实际变量,同时依据相应的数据编辑修正规则有针对性地做出最小的改动,以达到规则要求的实际效果。
2.5 不一致数据处理
电力调度范围内常会出现多个独立数据源相互重叠。数据内容相互重复的现象,造成数据不一致、不统一的情况,而多几个数据源数据内容的集成清晰成为当前最重要的内容,如何从数据不一致情况中提炼出最精确的数据结果是集成清晰工作面临的一大难题。当前主要通过排序、融合和依据规则的方式,进行不一致数据处理,系统平台将不一致数据自动识别为上下独立性冲突和依赖性冲突。独立性冲突受到外部环境随意性因素的影响而导致出现数据不一致情况,因而常需要通过人为干预和固定的方式进行处理。依赖性冲突多受到系统内部不同数据源之间的差异、重叠等因素的影响,针对这种情况常通过转换系统内部学习规则,运用相关知识原理加强系统学习的方式,解决数据不一致问题。
除此之外,要评估各项数据值依据不同的指标参数,注重评估值的完整性,依据各项数据值的线性组合序列确定唯一可信的数据值。
3 质量校验方法实践分析
3.1 数据校验索引的构建
基于关联规则电网不安全大数据下获取的不安全数据,要针对这类不安全数据利用电网大数据技术进行质量校验研究,对于计算出的诱发度,以增量式校验方法全面校验诱发因子,确定增量数据记录结果。
随着电网企业业务数据的增多,数据质量校验涉及的数据为结构化数据,所有数据都会如实记录在HBase表中,要及时更新数据,校验数据库中的历史数据及增量数据,结合数据规则完成相应处理。对增量式校验要保障在电网大数据诱发计算结果全部录入并储存到基准表。电网每天会产生1万左右的数据量,为提高数据质量,要对比电网大数据,对照基准表每条数据记录,经过数据索引,检索两张表中是否同时存在某一待比对字段值,其对应的记录是否一致,完成对电网数据记录和数据校验。
此外,要结合数据校验规则,设计快速数据索引表。要结合数据校验的索引构建,建立快速索引和存储机制,提高数据校验的计算速度,提高数据质量校验效果。
3.2 数据中台设计的总体思路
建设数据中台要围绕需求导向,结合电力企业的业务及数据分析应用的需求,设立数据校验统一标准,建设数据模型,实现数据接入转换和整合贯通,突破数据壁垒,建立健全电网企业数据质量把控与服务管理体系,打造电网建设、电力产业以及金融经济等各个模块的数据互通共联,实现数据接入、传输及整合,提升数据应用的服务效能。
第一,打造电力企业数据共享的管理体系要融合人员、组织、客户、供应商等各项数据,建立多维度管理内容。
第二,围绕企业大数据应用,要积极开发数据化产品,利用企业内外数据支撑数据管理体系和数据分析应用的构建,提高数据服务能力,推动企业数据运营和系统服务水平,利用各种数据分析和校验方法挖掘其价值。
第三,要建立企业内外管理一体化,集政府决策、社会服务、领导决策等内容的精细化管理,实现内外互通,支撑企业内部决策与管理,并对外为社会提供服务,积淀具有高价值的数据服务空间。
第四,构建数据中台,要充分借助现代信息技术和通信技术,让电力系统各环节数据实现人机交互,提升数据采集、获取信息、灵活应用等能力,建立统一化的数据中台,打造一网通办、实时数据更新的一套业务流程。
总体来说,为全面加强数据中台系统信息化建设,要从以下几个方面入手,注重数据信息外部价值与内部价值的有机结合。
首先,要充分明确中台系统建设理念,从数据内外部环节结合的方向考虑并改进,打破内外部数据壁垒,实现数据信息内外部环境的交互作用;制定统一的数据标准版,实现数据信息出入口径的统一,为后续数据信息的处理分析以及价值挖掘夯实基础;重视数据信息的资产化功能,通过对数据进行收集整合并形成系统建模,促使数据信息形成可通用的信息资产。促进中台数据信息与企业业务之间的联系,通过为企业决策提供更精确的数据分析结果,全面体现数据信息的作用和价值;优化数据的智能化程度,充分利用算法等技术提高数据信息的智能化服务水平,为系统前台、后台提供更全面的需求。
其次,注重数据信息功能作用的重点建设。一是指数据的接入,注重数据收集转换、复制迁移等功能的提取,将不同独立数据源有序接入中台系统。二是指数据的管理与存储、计算,依据相应的数据标准和要求,结合中台系统提供的多个数据源,对各项数据实行差异化具体分析与存储,运用AI算法进行数据的分析处理。三是数据建模要提取中台系统内部数据集,借助建模工具建立相应的数据模型,包括证据整合模型、分析应用模型等。
最后,中台系统数据信息的服务功能包括数据信息的自动化识别记录以及数据智能化监控功能,只有明确系统优化改进的建设理念与建设功能,才能确保系统设计方案制定的完整性和可行性。
3.3 数据校验与修复的架构
数据平台建设主要用于完成对系统数据调度、对外网多元业务数据的采集与質量校对、对历史数据与新的数据的整合融通,实现统一化、系统化的数据模型构建,完成调度整合数据的发布与共享,通过信息技术和通信技术展现不同阶段业务信息,为调度信息化提供数据支持和参考依据。
对于综合性数据平台建设的逻辑结构可以划分为基础服务层、数据整合层、模型层等。基础服务层主要包含统一任务调度服务、电网社会模型服务、通用数据访问服务、权限管控服务。数据整合层主要包含数据整合、设备同步、加工处理、管理监控、数据维护、数据校验、迁移重载、共享发布。数据模型层主要包含电网设备对象模型和整合数据模型。通过在其综合数据平台的数据处理层进行数据校验,平台能够以最快的速度识别、记录、校验和修复,及时发现数据异常问题。
4 结语
电网运行和每天涉及的业务量会产生大量数据,要通过数据系统支持完成数据质量校验事务,通过分析不同数据完成业务和工作调度。
在电网信息化建设和运行管理与服务中,涉及内容和影响因素较多,因此,要通过信息技术等手段和平台建设完成对数据的精确测量和分析,通过综合评价方法系统评估。同时,要围绕需求导向,以数据质量为切入点,建立系统化管理体系。
参考文献
[1] 谷泓杰,黄丽丽,王佳妮.电网综合数据质量评价系统及其软件实现[J].电工技术,2021(10):122-124,128.
[2] 冷俊.大力推进数字化转型 打造高质量发展新引擎[N].国家电网报,2021-04-01(003).
[3] 梅傲琪,张锐,周立德.以数据质量为核心的电网调度数据治理应用研究[J].机电信息,2020(33):14-15.