夏翔,吴臻,方建亮,王春芸,郑建锋
(1.国网浙江省电力公司,杭州310007;2.国网衢州供电公司,浙江衢州324000)
◆营销与服务◆
居民用户用电数据质量管控技术研究
夏翔1,吴臻2,方建亮1,王春芸2,郑建锋2
(1.国网浙江省电力公司,杭州310007;2.国网衢州供电公司,浙江衢州324000)
电力产业是我国的基础产业,提高电力用户的满意度、建设坚强智能电网是电力企业的目标,而保证合格的电压质量是其重要工作之一。如果电压过低,不仅会使得家用电器不能正常工作,降低变压器等设备的使用寿命,同时也会加大设备和线路的损耗,给工农业生产和人民生活带来很大的困难和损失,严重降低了低电压用户对电网企业的满意度。为解决低电压给用户带来的问题,从2015年起,国家电网公司就实施了针对于低电压问题的举措:在“十三五”期间仅电网建设和改造的投资已超过2万亿元,解决用户低电压问题超过520万户。预计2020年基本可以实现用户无低电压问题,从而保证用户的正常用电[1]。
低电压治理的关键在于数据诊断。目前,国内学者和电力从业人员对低电压问题的成因以及特点的研究已经有了一些经验和成果,但仅仅是通过对少量数据以及简单的图表进行分析得出的结论,而缺乏对海量数据的分析。究其原因是农村多采用窄带载波I型集中器,由于带宽有限,采集相对困难;城区多采用II型集中器,虽然采集相对方便,然而低电压出现概率较小,造成采集效果不好。根据统计,I型集中器采集成功率仅为13%左右,II型集中器为50%左右。低电压数据不仅难以采集,而且通常由于设备老化落后等原因导致在采集过程中伴随着大量的数据丢失,使得电网企业难以对低电压用户数据进行有效的分析。想要获取全面准确的数据,最经济有效的途径是采用数据质量治理方法,改善数据可用性,提升诊断的精度。文献[2]通过对大数据时代下电力行业的分析,提出采用预防和治理,自动和手工相结合的方式来保证电网系统的数据质量;文献[3]指出了智能电网中数据质量存在的多方面问题,系统分析了常用的数据质量的相关控制方法,并总结了智能电网数据质量的控制过程,同时展望了未来智能电网数据质量控制的发展方向。文献[4]从广东电网数据质量的现状和实际需求出发,提出了一种高效的数据质量管理方法,并分析了该方法的数据质量检查、数据质量问题控制和数据质量问题预防等方面的实施情况。以上研究虽然对电力行业中的数据质量进行了探讨和展望,并取得了一定的成果,然而针对低压用户数据质量的研究相对比较少。建立有效的电网低电压数据质量管控模型,是优化低电压电网投资方案、明确低电压电网投资方向、提高电网低电压治理的重要举措。
为解决低电压用户数据质量问题,本文对低压用户数据质量管控技术进行了研究。低压用户数据质量管控技术大致分为以下4个步骤:①进行正确性、唯一性校验和完整性校验,保证无重复录入数据以及数据是完整正确的;②从准确性校验方面选择合适方法评估数据;③若数据未通过评估,则采用不同的修正方法来修正治理数据;④若评估通过后则进行数据质量管理效能分析。数据质量管控技术流程图如图1所示。
图1 数据质量管控技术流程图
1.1 数据质量维度表
通常情况下,数据有三大固有属性:自治性、真实性和完备性,即数据的绝对质量。除此之外,在数据使用、存储以及传输过程中产生的质量为过程质量。研究者和业内人士采用若干组维度和属性直观的衡量数据质量,以便进行更深入的分析和评估[5]。本文基于数据的业务属性和固有属性,多维度的定义电网业务指标数据,作出的数据质量维度表如表1所示。
表1 数据质量维度表
1.2 数据质量管控技术
数据质量和业务过程这两者在很大程度上决定了电网企业信息系统处理信息的质量。由于目前数据采集现状是“进来的是垃圾,出去的也是垃圾”,所以加强数据采集的监管刻不容缓,不然会严重影响整个系统的数据质量。与此同时,由于数据在使用的过程中用户能够和其直接交互,极易造成二次污染。因此数据质量管控人员应该严格控制数据源头,将控制贯穿于整个过程。电网企业一般从正确性、唯一性、完整性以及准确性这4方面严格管控数据质量。
1.2.1 数据的正确性校验
(1)数据类型:根据数据的使用习惯以及业务类型,合理设定数据单位、精度、类型等,并且对数据进行合理的格式转换。只有规范了数据类型,才可以区分出与所需类型不符合的数据,进而判断指标数据是否正确。
(2)数据值域:根据指标数据的业务属性以及固有属性,定义数据的取值范围,系统可以根据定义判断指标数据是否正确。需要说明的是,数据值域和数据单位紧密关联,例如:在电流中A和kA之间相差1 000倍。
(3)数据变化率:指的是通过分析数据得出它的变化规律,然后根据得出的规律判断数据是否正确。
(4)数据表达形式:指的是根据数据格式规范来判断数据是否正确,例如:采集日期的格式应该是“YYYY-MM-DD”。
1.2.2 数据的唯一性校验
数据的唯一性指的是在同一个数据表中不能存在2个相同的带有某种标识型的数据,即数据库的相关操作要保证数据的唯一性。具体做法是在采集数据存于数据库之前,可以针对数据库的某些字段设置唯一约束,从而在数据库层保证数据的唯一性。
1.2.3 数据的完整性校验
采集到的数据极有可能存在数据项缺失或者人为造成的数据项漏填的现象,不完整的数据会造成后续数据传输和使用上的困难,因此需要从数据库控制和人工补充2个方面来保证数据的完整性。
1.2.4 数据的准确性校验
数据的准确性指的是保证数据的实际值和准确值一致,具体的方法主要有4种。
(1)阈值标定法。阈值也叫做临界值,代表数据的有效取值范围。这个方法首先应该给出数据的取值范围,然后判断数据是否处于取值范围之间,从而判断数据是否准确。一般情况下,有2种方法确定数据的阈值:第一种是通过技术人员和业内研究人员的专业确定;第二种是分析历史数据和相关联数据,分析和总结数据值的分布情况,最后得到数据的阈值。
(2)线性回归填充法。这个方法的使用需要基于大量的观察数据,利用线性回归方程式,也就是数理统计方法建立因变量与自变量之间的线性回归关系,从而建立出一个函数表达式。它的基本理念是通过自变量的回归关系来预测Y的缺失数据,根据这个理念可以得出第k个缺失项的填充值为
如果每个变量之间有明显的回归关系,就可以说明利用回归模型所得出的估计值和真实值很接近,但是搭建和分析一个回归模型要花费很多的时间,需要填充很多重要变量的缺失值才能够更好的评价此模型。
(3)历史数据估算法。电网业务数据具有纵向关联的特性,所以在对数据估算时可以采用历史数据估算法。不同的指标数据因子可能在一段时间内出现不同的变化趋势,例如:某个时间段电流值、某个时间段功率值等。然而这些指标以几天为测量时间单位则不会出现很大的波动,所以可以把某个时间段的平均值作为填充值。根据“本年本月止表底抄表电量”随着时间的推移呈增加的趋势,计算出它的平均增幅,然后用平均增幅和最近一个月的数据来估算问题数据。
(4)人工经验值法。相关领域的技术人员有着丰富的经验和专业的技术水平,他们很容易发现数据的问题,然后对错误数据进行校正,但是采用此方法需要很多的专业人员,并且工作量大,耗时多,仅适合于关键数据的准确性校验。
本文以居民用户低电压数据为例进行仿真,实验数据来自智能电能表的实时采集,选取某地2016年5月16日到6月12日的数据作为低电压分析的源数据,结合前文中列举的低电压管控技术,在采集回来的所有数据中选择用户的有功功率、A/B/C相电压、A/B/C相电流,筛选得到当日的低电压数据。动态实时的电气功率数据采样间隔为1 h,采集时间从8:00~20:00,包括用户侧电压、电流、功率因数等。
2.1 数据预处理
首先从正确性、唯一性、完整性3个方面对数据进行预处理使其符合相应的业务需求。比如:对数据表中重复数据的处理、删除不需要的影响因素、对科学计数法表示的数据转换为文本表示等,以完成数据的初级处理。例如:5月份采集到的源数据中一共有134个用户,总记录是14 229条。经过整理去重,有效数据是1 455条。6月份一共有179个用户,总记录是11 183条,整理去重后有效数据是2 529条。之后采用修正方法(阈值中值填充法、线性回归填充法、历史数据估算法)进一步修正已有数据,并从准确性校验方面重新评估数据。最后对评估通过的数据做数据质量管理效能分析,从而选择最优的数据修正方法。本文使用PL/SQL工具将查询结果导出为CSV格式,使用Origin软件作图。
2.2 数据质量管理效能分析
通过之前的分析可知,只是修正问题数据是远远不够的,如果修正过后的数据有很多的偏差,那么会在一定程度上影响系统的精确度,因此同时也要保证修正方法的正确性。本文为了验证每个修正方法(阈值中值填充法、线性回归填充法、历史数据估算法)是否正确,从数据库中随机选择了一组数据来验证。具体方法是:从数据库中随机找出一组确认为正确的数据,然后利用修正方法对其修正,接着对比准确值和修正值,计算数据的偏差率,用D1~Dn表示指标数据线,那么数据偏差率的计算公式为
在随机选取的这组数据中,因为数据量很大,不能全部展示出来,因此这里仅仅展示部分数据,以下是利用不同的修正方法计算偏差率的结果值。
2.2.1 阈值中值填充法
采用阈值中值填充法得出的计算结果如表2所示。
表2 阈值中值填充法结果
得出的所有偏差率,其分布如图2所示。
图2 阈值中值偏差分布图
2.2.2 线性回归填充法
采用线性回归填充法得出的计算结果如表3所示。
得出的所有偏差率,其分布如图3所示。
2.2.3 历史数据估算法
采用历史数据估算法得出的计算结果如表4。得出的所有偏差率,其分布如图4所示。
表3 线性回归填充法结果
图3 线性回归填充偏差分布图
表4 历史数据估算法结果
图4 历史数据估算偏差分布图
通过图2-图4形可以知道,阈值中值填充法的误差率达到50%,效果很差;线性回归填充和历史数据估算方法填充效果较为理想,数据偏差率稳定在20%之内,并且相对集中,所以采用这2种方法得出的修正值来代替临时值,对整体的计算效果没有多大影响。对此原因进行深入分析,由于阈值是由技术人员和专业人士所制定,阈值范围是所有合理数据的分布区间,所以在极端的情况下才适合采用阈值中值来替代计算,但这并不是最佳选择。历史数据估算法和线性回归填充法这2种方法虽然有良好的问题数据修复能力,但它要求具有很高的计算数据准确性,如果参与的计算数据准确性不能保证,那么它们在很大程度上会影响计算结果的准确性,同时即便这2种方法的准确性很高,但是却做不到完全精确。在短时间内经常填充数据不会造成有很大影响,但从长期来看,一旦被填充的数据越来越多,就会严重影响低电压用户数据质量,因此应将数据修正方法和及时的数据更新相结合,才能使得低压用户数据质量得到保证。
本文分析和研究了低压用户数据质量管控技术,提出了一些完善有效的数据质量评估和校验的方法,同时设计和分析了数据质量管控流程,最后通过案例仿真以及图表展示,对阈值中值填充、线性回归填充和历史数据填充这3种方法下的数据质量应用效果进行了分析。其中阈值填充效果相对较差,只能作为极端情况下的权宜之计;历史数据估算法和线性回归填充法有较好的对问题数据的修复能力,能把误差稳定在20%左右,在短期内可以作为丢失数据的临时值。虽然使用历史数据估算法和线性回归填充法填充的数据可以在一定时间内作为丢失数据的替代值,但只有将数据修正和数据的及时更新相结合,才能保证低压用户的数据质量。经过测试,本文所提数据质量管控技术具有较高的可用性和良好的准确率,可以满足电力企业对于低电压数据质量管控的需求。D
[1]本刊编辑部.国家能源局发布配电网建设改造行动计划[J].农村电气化,2015(11):11-13.
[2]江国富.基于Hadoop的电网资产系统数据质量管理平台的设计与实现[D].广州:华南理工大学,2014.
[3]黄慧,朱齐亮.智能电网数据质量控制的发展分析与展望[J].科技信息,2012(7):92-93.
[4]江疆,黄剑文,杨秋勇.基于广东电网大数据的数据质量管理方法[J].现代计算机(专业版),2016(7):88-91.
[5]党芳芳.电网企业业务数据质量管控技术的研究[D].北京:华北电力大学,2014.
[6]宗群龙.低压电力线窄带载波通信路由设计[D].长沙:湖南大学,2010.
[7]段成.电网投资效益后评价理论及决策支持系统的研究[D].北京:华北电力大学,2012.
[8]林听光.电信经营分析系统中的数据质量管理[D].北京:北京邮电大学,2007.
[9]曾鸣.电力企业计划管理及其技术支持系统[M].北京:中国电力出版社,2001.
[10]胡红晓.缺失值处理方法比较研究[J].商场现代化, 2007(12):34-36.
[11]刘孚智.佛山电网发展战略研究[D].广州:华南理工大学,2003.
Research on quality management and control technology of electricity data for residents
XIA Xiang1,WU Zhen2,FANG Jian⁃liang1,WANG Chun⁃yun2,ZHENG Jian⁃feng2
(1.State Grid Zhejiang Electric Power Company,Hangzhou 310007,China; 2.State Grid Quzhou Power Supply Company,Quzhou 324000,China)
为了满足低压用户对电能质量的要求,电网企业必须对采集的相关电能数据分析诊断并据此做出决策。鉴于数据质量管控技术在低压用户治理中的重大作用,首先提出了一套针对于电网企业的数据质量管控流程,采用多种校验方法来保证数据的合理性,其中校验方法包括正确性校验、唯一性校验、完整性校验和准确性校验。为了保证数据分析结果无误,对问题数据加以修正。最后,通过算例仿真验证了数据质量管控技术的应用效果。
低电压;数据质量;管控技术;校验方法
In order to meet the requirements of low voltage users on the power quality,the grid enterprise must analyze and diagnose the relevant power data and make the decision accordingly.In view of the importance of techology for data quality control on low⁃voltage user management,this paper first proposes a set of data quality control pro⁃cedures for power grid enterprises,and uses several check⁃up algo⁃rithms to ensure rationality of data,including the correctness verifica⁃tion,uniqueness verification,integrity verification and accuracy verifi⁃cation.Problematic data has been amendeod in order to ensure the cor⁃rectness of data analysis results,.Finally,a simulated example is given toverifyapplicationeffectsofdataqualitycontroltechnology.
low voltage;data quality;control technique;veri⁃fication method
1009-1831(2017)02-0039-04
10.3969/j.issn.1009-1831.2017.02.010
F407.61;TP274
C
2017-01-15
夏翔(1974),男,河南永城人,硕士,高级工程师,研究方向为电网信息化研究和管理。