冯涛,刘广东,王强
(1.都城伟业集团有限公司,北京 100020;2.国网山西省电力公司,山西 太原 030000)
风电设备可靠性指标数据治理方法研究
冯涛1,刘广东1,王强2
(1.都城伟业集团有限公司,北京 100020;2.国网山西省电力公司,山西 太原 030000)
本文首先对企业风电设备可靠性指标数据进行现状分析。然后,针对指标数据中存在的问题,提出相应的解决方法。最后,利用风电设备可靠性评估模型对治理前后的样本数据进行对比分析,说明数据治理的必要性和有效性。
风电设备可靠性指标;数据质量;贝叶斯网络;风电设备可靠性模型
风电设备可靠性指标综合反映了电力企业设备运行状况以及日常维护水平,而可靠性指标数据质量的好坏,直接影响着企业对风电设备可靠性的评估精度。在原始数据的产生过程中,由于员工素质、统计口径、数据采集方法、组织安排等方面的不同和漏洞,导致数据在完整性、准确性、时效性、可信性和可解释性等维度上存在问题,不能满足不同的业务需求,也影响到设备可靠性指标的数据质量。因此,数据的质量管理日益成为电力企业关注的话题。本文在梳理前人研究的基础上,首先对企业风电设备可靠性指标数据现状进行分析,并就其中存在的问题提出相应的治理方法,然后利用风电设备可靠性评估模型进行对比分析,说明企业风电设备可靠性指标数据治理的必要性和有效性。
业内人士也对相关问题展开了分析和研究。李欣然(2013)在分析电力统计数据现状的基础上,对电力统计数据的质量评估和异常检测方法进行了研究;陈超(2014)通过分析电力数据产生质量问题的原因,结合相关分析研究,提出了适合于电力大数据数据质量控制与评估体系模型;党芳芳(2014)以国网河北省电力有限公司为研究对象,研究了数据质量管控技术在电网企业业务系统中的应用;胡冬梅(2014)对影响发电企业数据质量做出了因素分析,并就提升发电企业数据质量提出了相应的策略和建议;李远宁、刘森(2016)针对电力企业面临的数据质量问题,提出了分布式数据质量管理解决方案。
企业风电设备可靠性评估的关键是构建风电设备可靠性的指标体系。参阅《发电设备可靠性评价规程》,通过相关性分析,得出相关性系数矩阵,筛选出 10个指标构建企业风电设备可靠性指标体系,体系划分为三级,我们选取可用性指标、出力指标、启动指标和其他指标四个二级指标对风电设备可靠性一级指标进行评估,同时用 10个三级指标对四个二级指标进行评价,具体指标体系如图1所示。
图1 风电设备可靠性指标体系
尽管电力企业通过业务管理信息系统获取了大量的风电设备可靠性指标的基础数据,但在基础数据的整个产生过程中,由于人员素质、数据采集方法、统计口径、管理机制等方面存在的不足,导致一些数据在准确性、完整性、时效性、可信性和可解释性等方面不能满足不同用户的需求,数据质量存在一定的问题,从而影响企业风电设备可靠性评估的有效性。
2.1 数据的完整性
人为因素造成的数据项漏填或者数据向数据中心推送时造成的数据项缺失,都会造成数据的不完整,不完整的指标数据会对风电设备可靠性评估带来不利影响。以启动可靠度为例,SR=启动成功次数 /(启动成功次数 +启动失败次数)×100%,在启动成功次数一定的情况下,假设由于人为原因造成启动失败次数项的漏填,则启动可靠度这一指标会被高估,进而影响风电设备可靠性的启动指标。
2.2 数据的准确性
由于人为误差、抽样误差、范围误差、时间误差、统计方法误差等方面,造成数据观测值与目标特征值即“真值”存在着偏差。以可用系数为例,AF=可用小时 /统计期间小时 ×100%,在统计期间小时数一定的情况下,由于可用小时观测值准确性存在问题,高于或低于其目标特征值,从而造成可用系数这一指标被高估或者低估,进而影响风电设备可靠性的可用性指标。
2.3 数据的时效性
就是要缩短统计数据从采集、加工整理到数据传输的整个过程,缩短调查基准期与数据结果发布时间的间隔时间,数据质量在很大程度上受数据时效性的制约,电力企业数据的时效性影响着发电设备运行的效果。以暴露率为例,EXR=运行小时 /可用小时×100%,如果运行小时、可用小时数据不能得到及时的更新、发布,则暴露率这一指标不能得到有效计算,进而发电机组在网运行时间得不到有效评估。
针对上述企业风电设备可靠性指标数据中存在的质量问题,提出相应的数据治理方法。
3.1 数据的完整性
针对数据项的缺失或者数据项的漏填,可以通过以下途径加以管控:(1)可以为数据库中某些字段添加非空约束,保证指标数据的完整性。(2)对于已经存在的数据缺失项,可以通过人工填补,以可用系数为例,AF=可用小时 /统计期间小时 ×100%,我们选取 30台风电机组的指标数据,其中第k台风电机组的可用小时缺失,则一般可用其他 29台风电机组可用小时的平均值对第k台风电机组的可用小时的缺失值进行填充。
3.2 数据的准确性
可以通过以下途径予以解决:(1)界定指标数据的有效范围,判断数据是否在有效范围内波动,进而判断数据的准确性;数据的有效范围,可以通过对历史数据进行统计分析,总结出指标数据的分布区间,也可以通过电力领域的专家或技术人员予以划定。以平均无故障可用小时为例,我们选取 30台风电机组的指标数据,利用 SPSS软件中的非参数检验单样本 K-S 检验对其进行正态分布检测,发现平均无故障可用小时服从正态分布,并得到相应的平均值 u=6948.23和标准差δ =878.79,根据拉依达准则法 )( δ3 ,对大于 δ3+u 或者小于 δ3−u 的观测数据值视为异常值,应予以剔除,得到正常值的波动范围为 ]3,3[ δδ +− uu ,并以此作为平均无故障可用小时指标数据的有效范围。(2)规定相关指标数据的类型,为其设立合理的类型、精度、单位、长度、格式等,筛选出不符合类型标准的指标数据,进而判定数据的准确性。(3)组织相关领域的专家和工作技术人员,直接对存在质量问题的关键性指标数据予以校正。
3.3 数据的时效性
应根据原始数据的业务特点和上报周期,为其设定合理的采集周期,保证数据库中数据的时效性。以月报数据为例,采集周期不能超过一个月,否则指标数据的有效性将会受到影响;针对需要计算得出的指标数据,这部分数据随着其他数据的更新而更新,应为其设定合理的指标数据计算周期,确保指标数据的时效性。
本文以某企业 30台风电机组可靠性指标数据为基础,利用贝叶斯信念网络建立企业风电设备可靠性评估模型,并对治理前后的相关指标数据结果进行对比分析,说明企业风电设备可靠性指标数据治理的必要性和有效性。
首先,为了消除样本数据的不同量纲对训练结果的影响,利用 SPSS Modeler 软件对 30台风电机组可靠性指标数据进行归一化处理。然后,建立贝叶斯网络与训练。最后,在完成贝叶斯网络的训练后,将剩下的21-30号风电机组的样本数据(分为未经治理前的样本数据和治理后的样本数据)作为测试样本集输入贝叶斯网络进行计算,计算完成后,将数据治理前后的网络输出值与实际的鉴定值进行比较,对比结果如表1。
表1 数据治理前后的网络输出值与实际鉴定值的对比分析
从表1中可以看出治理前的网络输出值与实际鉴定值的误差率较大,10台风电机组中共有 5台机组的误差率在 10%以上;治理后的网络输出值与实际鉴定值的误差率较小,10台风电机组中只有 2台机组的误差率在 10%以上,其余的普遍控制在 10%以下;对比分析显示,经过治理后的样本数据对风电设备可靠性的评估精度较好,而未经治理的样本数据对风电设备可靠性的评估精度较差,这不仅说明了企业风电设备可靠性指标数据治理的必要性,也说明了指标数据治理的有效性。
本文通过对企业风电设备可靠性指标数据的现状进行分析,并就数据质量中存在的问题提出相应解决方法,利用风电设备可靠性评估模型对治理前后的指标数据进行对比分析,说明了数据治理的必要性和有效性。但由于各种原因,文章还存在以下诸多局限需在以后的学习中做进一步的研究。(1)未对诸如办公文档、文本、图片、XML、HTML、各类报表和音频 /视频信息等非结构化数据进行详细的现状和治理方法分析。(2)由于数据采集困难,文章只选取了 30台风电机组的样本数据,建立企业风电设备可靠性评估模型,在以后的研究中,可以通过增加可靠性指标数据、扩大样本量等方法建立评估模型,以提高模型的评估精度。
[1]范明,孟小峰 .数据挖掘概念与技术(第三版)[M].北京:机械工业出版社,2016.
[2]党芳芳 .电网企业业务数据质量管控技术的研究 [D].北京:华北电力大学,2014.
[3]贾晓鸽 .数据挖掘在发电设备可靠性控制中的应用与改进研究 [D].北京:华北电力大学,2014.
[4]冯丽红 .调查数据缺失值常用插补方法比较的实证分析 [D].石家庄:河北经贸大学,2014.
[5]苏海峰 .贝叶斯网络及其在发电系统可靠性评估中的应用 [D].石家庄:河北农业大学,2004.
[6]许涤龙,叶少波 .统计数据质量评估方法研究述评 [J].统计与信息论坛,2011(7):3-12.
[7]陈超 .电力大数据质量评价模型及动态探查技术研究 [J].现代电子技术,2014(4):153-155.
[8]宋亚奇,周国亮,朱永利 .智能电网大数据处理技术现状与挑战 [J].电网技术,2013(4):927-935.
TM315
A
1671-0711(2017)07(下)-0227-03
国家电网公司科技项目《企业级数据治理体系研究》,项目编号: 国家电网科 [2015]709号 -43。