胡航海,刘海涛,安东升,朱承治,杜 斌
(1.国家电网公司,北京110000;2.北京中电普华信息技术有限公司,北京110000;3.国网浙江省电力公司,南京210024)
早在20世纪60年代,为了有效描述数据集,Jack Mayers提出了Metadata一词的概念。这个概念最初的剔除是指一种能够有效描述资料的方式,后来随着信息的存储、发布、传播等技术和手段的不断发展,信息具有了更大的分散性、变动性和多元性,关于Metadata的讨论也再度引起了更多人的关注。而“元数据”这种称呼是众多中文译名中被使用最广泛的一个。与最开始被剔除时对元数据概念的解释相比,如今关于元数据概念的界定,无论是内容还是数量都有了很大的变化。
元数据与传统图书馆编目录的不同之处在于它除了具有描述功能外,还具有控制、管理信息资源的能力。元数据是适用于描述任何网络数据和资源,促进网络信息资源组织和获取的数据。
国内的研究学者中,张晓林[1]认为,元数据是描述信息资源等对象的数据,用于识别资源、评价资源、追踪资源在使用过程中的变化,实现信息的有效发现、查找、组织和管理;李郎达[2]引用了国际图联(IFLA)对元数据的定义:元数据就是描述资料的资料,可用来协助对网络电子资源的辨识、描述、指示其位置的任何资料等。
随着我国经济社会快速发展,各级统计部门对统计数据科学性、准确性和及时性的要求不断增加,并且呈多样化趋势,统计任务将变得越来越艰巨,越来越复杂。为此,统计部门正在对现有体系做调整,改变过去从基层、企业至县、市、省、国家逐级上报的情况,对数据直报方式的探索,在工作理念、工作方法上进一步创新,以适应新形势发展的要求。
本文针对电网运营销售过程中的供、售、购、用电业务,立足于元数据的思想,研究基于明细数据的设备类指标统计算法,建立基础单位供、售、购、用电业务计算关系模型,研究电力统计大数据中的数据挖掘技术,以便能更大限度地挖掘数据中潜在的价值,服务于业务分析及市场预测,为决策提供指导。
基于全面梳理各类明细设备包括输变电设备、配电设备和发电设备等的设备属性信息,研究各类设备的特殊数据处理关系,建立元数据仓库。数据源包括含多电压等级变电站、多家资产变压器、跨区线路、线路条数汇总规则、换流站统计规则等,明确各类设备的填报单位、管理单位及统计单位,明确数据责任,研究数据权限控制机制,确定数据逐级负责制,实现统计数据逐级加锁。
同时,加强总部集中权限控制,实现逐级解锁数据修改,保证设备明细数据来源唯一,真实有效。梳理并确定设备(变电站、变电设备、输电设备)相关属性描述,建立元数据仓库。
变电站的统计过程中,经常出现变电站含有多个电压等级、多家资产变压器,导致对变电站的统计出现失真。根据特殊业务关系,研究合理有效的设备统计模型,重点在规范变电站与变压器两种设备的属性,做到不重不漏。如变压器的台数和容量属性,只作为变压器的属性进行描述,变电站不做此两种属性的统计。设备统计模型中根据变电站与变压器的关系进行计算,以获取变电站的容量和变压器台数之和。
跨区线路在统计过程中,根据所跨越区域范围,归属多个统计单位分别统计,在上级单位基于下级单位报送的数据进行汇总时经常发生线路条数难以正确计算的情况。根据这一特殊业务统计关系,研究合理有效的线路统计模型。引入项目、子项目管理机制,整条线路作为母线路由上级单位维护,县公司在整条线路下维护本区域线路数据作为子线路;子线路作为母线路的一部分,用于县公司数据汇总,子线路长度之和等于母线路长度;每条子线路都记录条数,母线路的条数单独记录,分县、市、省汇总时只需汇总相应层级的线路,即可得到相应的汇总数据,这样统计的结果可保证每个层级数据统计的完整性。
梳理生产、投资、能耗、农网、一套表等统计业务元数据及单位元数据,明确省、市、县(全资分公司、市本部、客服中心)等各级统计单位信息及其信息变更流程,建立统计单位名录库;依据以上研究建立统一的统计指标体系,明确各类单位的统计指标及数据责任,实现县(区)单位负责基础数据管理,地市、省、总部负责各层级网损、单位之间联络关口等数据维护管理;并研究基层各单位类型间互售关系,建立自下而上的计算规则;实现由基础数据进行按需汇总。
深入研究基层供电单位信息及行政区域信息,研究各单位间供、售、购电业务关系及供电区域与行政区域间关系,制定出基于基层单位基础明细的供、售、购、用电等业务元数据,计算出市、省、总部各层级汇总数据的计算关系模型。
地区数据要统计地区内各种企业性质单位的供、售、用、购电数据,包含地方电力企业的数据。
基层单位根据资产等情况被赋予不同的属性,电力统计业务中对供电相关数据要求区分不同口径,各层级单位间计算关系复杂。必须深入研究实际业务关系,制定出合理的供电业务计算关系模型(如图1)。
图1中红框内为地区口径业务关系,其中:
A1、A2为本部、全资子公司及控股公司对全资分公司的输入电量;A3为全资分公司间的输入/输出电量;A4为全资分公司从全资子公司及控股公司的购电量;B1、B2、B4为客服中心与全资分公司对全资子公司及控股公司的趸售电量;B3为全资子公司及控股公司之间的互售电量;C1、C2、C3、C4为全资分公司、全资子公司、控股公司对代管公司的趸售电量;C5 为代管公司间的互售电量;D1、D2、D3、D4 为全资分公司对地方电力企业(含外地区)、地方电厂(含外地区)的购电量;E1、F1为全资分公司对地方电力企业(含外地区)的趸售电量;G1为地方电力企业间的输入/输出电量。
地区供电量计算公式:
Y(地区口径)=主网网损+本部(开展售电业务)+∑全资分公司地区供电量+∑全资子公司、控股公司地区供电量+∑代管公司地区供电量+∑地方电力企业(作为统计单位)-∑B-∑C-A4-D1-E1。
式中∑B、∑C、A4、D1、E1 为计算双份的供电量,故需要减去。
售电业务主要是发生在各供电单位之间的电量交换(分公司之间的除外),对于统计报送单位已经在供电单位中完成维护,对于地方电力公司、孤立电网的非统计报送单位,由所在区县或地市公司代为统计维护。
图2 售电业务计算关系
图2为售电量统计范围。其中,A1为本部对全资分公司1的输入电量,A2为本部对全资分公司2的输入电量,A3为全资分公司1、2间的输入输出电量,A4为全资子公司、控股公司趸售给全资分公司的电量;B1、B2、B4为全资分公司、客服中心趸售给全资子公司、控股公司的电量,B3为全资子公司间、控股公司间、全资子公司和控股公司之间的趸售电量;C1为客服中心售给代管公司1的电量,C2为客服中心售给代管公司2的电量,C3为全资分公司售电代管公司的电量,C4为全资子公司、控股公司售给代管公司的电量。
含代管口径的计算公式:
含代管口径=∑分公司售电量+∑子公司售电量+∑控股公司售电量+∑代管公司售电量-互供互售电量(分、子、控)-售代管公司售电量(包括代管公司互售)
注:互供互售电量、售代管公司售电量分别在以下两个指标中扣除:
(a)售电量合计
(b)趸售电量
地区用电数据统计的数据为基层单位所在地区的行业用电情况等指标,包括该地区自备电厂的、孤立地区的用电情况。
县公司用电模型:由直供用电220kV级以上、直供用电110kV及以下、直供线损、地方电力公司、地方电厂和孤网构成。
市公司用电模型:统计范围内所有县级分公司的地区其他+县级子公司、控股公司、代管和地方电力公司的用电数据。
省公司用电模型:统计范围内所有市级分公司的地区其他+市级子公司、控股公司、代管的全口径。
县公司用电业务计算:
本部=网损+地方电厂+地方电力公司;
客服中心=市辖区用电量+直供县域220kV及以上+县C区域内110kV及以下电量+线损;
全资分公司=直供用电220kV及以上+直供用电110kV及以下+直供线损+地方电厂+地方电力公司;
全资子公司/控股公司=直供用电110kV及以下+直供线损+地方电厂+地方电力公司;
代管公司/地方电力公司=直供用电35kV及以下+直供线损+地方电厂+地方电力公司;
市公司全口径=本部+客服中心+全资分公司+全资子公司/控股公司+代管公司/地方电力公司。
表1 购电业务关系表
购电在县公司中主要体现在购电、趸售月报当中,购电业务按照购售电单位可以分为购电厂、购电网、购地方电力公司三种。其中,购电厂是指从电厂购电,根据购电类型可以分为自购和代购,自购即由县公司直接和电厂发生财务结算,代购则是由上级单位负责与电厂发生结算,县公司本身与电厂无财务关系;购电网则是指从国网系统内其他单位购电,国网系统中,存在分公司、子公司、控股公司、代管公司,除分公司之间电量交换属输入输出外,其相互之间发生电量交换的情况均属于购电趸售关系;购地方电力公司一般指购本地区孤立电网。除此之外购电业务还可以根据购电电压等级区分。
购电量是衡量一个单位购电多少的数据,相应的本单位既可以作为购电方,也可以作为趸售方。
市公司购电厂电量由县公司购电趸售电量报表形成购电量月报。表内含有所购电量的电厂明细。县公司内,首先维护好购电趸售月报后,相应的供电生产调度情况表内的购电趸售数据从此表取得。
购电网取别于购电厂电量在于,购电网的电量来源于其他电力公司。期来源与购电厂数据一致。也需要先维护县公司购电趸售月报,供电生产调度表内获取到购电趸售数据后,上报到市公司。市公司将数据汇总到购电量月报中。
购地方电力公司比较特殊,它所购电的对象不属于国家电网管理。以这种方式购来的电量在用电报表中的地区全口径统计而不在电网口径中统计。期数据源获取方式均与购电厂和购电网一致。
以MD电力有限公司MDA市公司2015年8月供电数据为例。其中,除MDB供电分公司为全资分公司外,其他县公司均为全资子公司。当月MDA市公司供电量为159 418万千瓦时,其中,MDA1县公司10 393万千瓦时、MDA2县公司10 407万千瓦时、MDA3县公司4 844万千瓦时、MDA4县公司6 364万千瓦时、MDA5县公司3 557万千瓦时、MDA6县公司12 577万千瓦时、MDB供电分公司4 311万千瓦时、MDC供电公司3 442万千瓦时、MDD供电公司4 028万千瓦时、MDE有限公司1 237万千瓦时,MDA市公司直供98 258万千瓦时。以上各种企业性质的县级供电公司供电量本月求和为159 418万千瓦时。由此可验证上述模型算法正确可行。
以MT电力公司为例,MT分公司MTA直属电厂上网电量1 093万千瓦时,MT分公司趸售给子公司、控股公司266万千瓦时,子公司控股公司趸售给代管公司128万千瓦时。
由上述可得:
∑分公司售电量=1093万千瓦时;∑子公司售电量+∑控股公司售电量=266万千瓦时;互供互售电量(分、子、控)=266万千瓦时;售代管公司售电量=128万千瓦时;∑代管公司售电量=128万千瓦时。
根据售电业务计算关系公式:
含代管口径=∑分公司售电量+∑子公司售电量+∑控股公司售电量+∑代管公司售电量-互供互售电量(分、子、控)-售代管公司售电量=1093+266+128-266-128=1093万千瓦时。由此可验证上述模型算法正确可行。
1.以JSA市公司2015年10月全口径用电数据为例。JSA市公司无客服中心,有市公司本部,其他下级单位均为全资分公司。
其中当月全口径用电数据分别为:本部75 490万千瓦时、栖霞JSA1公司289 265万千瓦时、溧水JSA2公司13 939万千瓦时、高淳JSA3公司6 923万千瓦时。求和可得385 617万千瓦时。当月JSA市公司全口径用电量为385 617万千瓦时,由此可得计算模型实用可行。
2.以JSB市公司2015年1月全口径用电数据为例。JSB供电公司本部2015年1月地区全口径口径用电量合计47 079万千瓦时,JSB1市供电公司2015年1月地区全口径口径用电量合计33 973万千瓦时,JSB2供电公司2015年1月地区全口径口径用电量合计47 336万千瓦时,JSB3市供电公司2015年1月地区全口径口径用电量合计53 301万千瓦时,JSB4供电公司2015年1月地区全口径口径用电量合计25 044万千瓦时。经模型计算得到JSB市公司全市其他口径用电量合计206 733万千瓦时,与原系统中数据一致,且全口径数据为直供口径用电量和其他口径用电量合计之和,符合业务,模型算法正确。
3.以JSC市供电公司2015年10月的用电数据为例。JSC下辖无客服中心,其他县级供电企业包括本部的企业性质均为全资分公司。全资分公司的用电量分别为:JSC1供电公司全口径用电量合计47 838万千瓦时,JSC2供电公司全口径用电量合计54 729万千瓦时,JSC3营业部全口径用电量合计46 944万千瓦时,JSC园区营业部全口径用电量合计85 714万千瓦时,JSC4全口径用电量合计136 169万千瓦时,JSC5全口径用电量合计240 037万千瓦时,JSC6全口径用电量合计157 984万千瓦时,JSC7全口径用电量合计190 826万千瓦时,JSC8全口径用电量合计74 605万千瓦时。JSC本部全口径用电量合计25 001万千瓦时。市公司直供用电当月值为1 059 847万千瓦时。由模型计算得到JSC市公司内县级供电企业用电量合计为1 059 847万千瓦时。与原系统中数据一致,经验证,模型算法正确。
表2 购电业务关系表
以JSD市为例,说明购电业务关系,如表2所示。
JSD市A供电公司经过35千伏线路从A电厂进行购电,属于代购类型,购电量为100万千瓦时,不存在趸售电量;JSD市B供电公司经过35千伏线路从B电厂进行购电,属于代购类型,购电量为300万千瓦时,不存在趸售电量;JSD市C供电公司经过10千伏线路从E供电公司进行购电,属于自购类型,购电量为1 000万千瓦时,趸售电量为270万千瓦时;JSD市D供电公司经过35千伏线路从F地方电力企业进行购电,属于代购类型,购电量为200万千瓦时,趸售电量为120万千瓦时。
在基于元数据理论的基础上,全面梳理了电力统计各业务中指标间的计算关系、勾稽关系和依赖关系,研究制定了各指标及指标间的完整性、合理性、强制性的数据校验关系,以期加强源头数据采集质量和总部集中权限控制力。通过研究数据权限控制机制,建立起数据逐级审核负责制,实现统计数据逐级加锁,实现逐级解锁数据修改,保证数据真实性。
研究了基于明细数据的统计算法。梳理电厂基本属性及各类信息,补充缺少项、确定必填项,统一规范标准,确定了基于明细数据的设备类指标统计算法;梳理了各类明细设备包括输变电设备、配电设备和发电设备等的设备属性信息,研究了各类设备的特殊数据处理关系,确定了基于明细数据的设备类指标统计算法。
全面梳理生产、投资、能耗、农网、一套表等统计业务元数据及单位元数据,明确省、市、县(市本部、客服中心、市辖供电区、县级供电企业、地方电力公司)等各级统计单位信息及其信息变更流程。研究基层各单位类型间互售关系,建立自下而上的计算规则,实现由基础数据进行按需汇总。深入研究基层供电单位信息及行政区域信息,研究各单位间供、售、购电业务关系及供电区域与行政区域间关系,制定出基于基层单位基础明细的供、售、购、用电等业务元数据的计算市、省、总部各层级汇总数据的计算关系模型。
此外,有待进一步研究大数据中大体量、有噪声、分布式存储情况下的数据挖掘技术,并研究大数据生态环境中的统计分析模型的建模方法,以便更大限度地挖掘数据中潜在的价值,服务于业务分析及市场预测,为决策提供指导。
参考文献:
[1]张晓林.元数据研究与应用[M].北京:北京图书馆出版社,2002.
[2]李郎达.Metadata 初探[J].情报科学,2001,19(6):605.
[3]安弟.电力行业统计分析系统设计[J].科技展望,2015,(3):69.
[4]陈力娟.浅谈元数据及其应用[J].中国统计,2006,(11):43-44.
[5]李晓东.电力企业数据中心数据管控的研究与应用[J].电力信息化,2012,(8).
[6]王颖.企业统计数据质量影响因素研究[D].杭州:浙江大学,2006.
[7]陈苏,柏文阳,徐洁磐.一种新的数据质量模型的研究[J].计算机应用研究,2005,(7):52-54.