李庭瑞 王奔 涂珂
(北京中电飞华通信有限公司 北京市 100071)
在智能电网建设中,电力通信网发挥信息传递作用,是呈现智能电网智能化、可靠性优势的关键。近几年电力通信网规模显著增加,网络结构更为复杂,各个节点的部署更为分散,开展的通信业务更多,加大了电力通信网的运行隐患,电力企业应做好电力通信网的运行维护工作,为智能电网建设发展提供保障。
大数据是指海量、高增长率的多元数据,具有海量、多样、高速、可变及价值等特征,难以在短时间内通过常规工具获取与分析。电力通信网中应用的大数据是指电力大数据,电力大数据为电力行业产生的大数据,在具备大数据常规特征的同时,还具备能量、交互与共情特征[1]。电力通信网包括骨干通信网与终端通信网两部分,在智能电网建设背景下,电力通信网产生的数据具有非结构化、多样性、异构化特征,对电力企业开发利用电力通信网数据提出更高要求[2]。研究学者关于电力通信网大数据的应用开展大量研究,取得成果如下:
有研究学者以电力通信网大数据为基础,构建相应指标体系,评估电力通信网的运行状况,为电力通信网的运行维护提供帮助;有研究学者针对FAHP 的不足,设计基于AHP 的电力通信网评估体系,使电力通信网的运行维护更为便捷,表现出较强的排序稳定性[3]。在智能电网建设后,智能电网大数据成为研究热点,有研究学者认为在智能电网建设下,应构建透明电力通信网;有研究学者构建云计算框架,对电力通信网大数据进行分析[4]。总的来说,智能电网下的电力通信网大数据开发处于起步阶段,相关研究以框架分析为主,关于大数据下电力通信网运行维护策略研究为空白区域。就此,本文研究具有鲜明现实意义。
结合前人研究成果,本文提出构建电力通信网运行维护指标体系的策略,将电力通信网的台账数据、故障工单数据、检修数据为基础,进行数据处理与数据分析工作,评估电力通信网的运行状况,发现其存在异常,进行针对性维护。在数据处理前,明确电力通信网运行指标,分析各项指标的影响因素,为后续运行维护措施实施提供参考,提高电力通信网运行维护水平。
结合电力通信网运行维护工作要求,本文将运行维护指标划分为以下三项:
(1)检修效果,是指电力通信网某个设备检修后出现故障的状况,用K 表示设备检修后出现的故障,T 表示设备的上次检修时间,则Pr(K|t-T)=1 表示设备在检修后的(t-T)时刻出现故障,(t-T)可用于表示检修效果。
(2)检修成本,是指电力通信网检修的时间成本,用检修时长表示,即检修开始时间和完成时间的差值,用检修设备的平均时间表示。
(3)检修时间分布性,是指在明确检修设备类型后,电力通信网检修工作量在时间尺度上的分布,包括周、月、年三种尺度。
在电力通信网运行期间,受内外环境因素影响,产生的大数据存在格式不同数据、无价值数据、缺失数据等现象,影响大数据的开发利用。就此,在电力通信网大数据分析前,应对电力通信网大数据进行预处理,补充缺失数据,对所有数据进行格式统一化处理,便于数据分析。本文采用的数据预处理措施包括以下几项:
2.2.1 数据清理
在大数据预处理中,数据清理可去除数据中的杂质,填补缺失数据,使所有数据具备一致性。本文在进行电力通信网大数据清理时,采用以下两项数据清理措施:
(1)将具备特殊含义的缺失电力通信网大数据忽略;
(2)通过离群点分析处理电力通信网大数据中的噪声数据,该方法相对便捷,利用距离分析方法,判断偏离数据点的数据内容,将其剔除,实现电力通信网大数据的高效清理。
2.2.2 数据集成
在大数据预处理中,数据集成是指整合不同来源的大数据,统一大数据的属性,存储于同个数据库内。常用的数据集成方法包括相关分析、数据冲突检测及语义异种性处理等,本文在进行电力通信网大数据集成时,选择相关分析方法:明确电力通信网大数据的给定属性特征,通过相关分析评估某个属性覆盖另一个相关性高属性的程度,完成电力通信网大数据的初步归约。在两个数据属性的对比分析中,选择卡方检验方法与相关系数检验法,评估两个数据属性的相关性,并剔除其中的冗余属性。
2.2.3 数据归约
在电力通信网运行维护中,经过数据清理与数据集成,可筛选一部分大数据,但仍存在含有噪声的大数据,影响后续数据挖掘分析成果,进而影响电力通信网的运行维护。针对该现象,本文提出数据归约方法,通过主成分分析法,对数据进行进一步处理。通常来说,电力通信网运行维护大数据包括n 个属性或n 个数据向量,在对这类数据进行主成分分析时,需采集k 个可以代表电力通信网运行完维护数据的n 维正交向量。基于相关分析的成果,获取相关性属性较高的数据,完成数据归约处理。细化来说,主成分分析流程如下:
(1)根据电力通信网运行维护大数据的属性,对其进行规范化处理,确保所有属性均处于相应区间内;
(2)利用PCA 进行k 个标准正交向量的计算,将获取的标准正交向量作为数据规范化处理的基,要求单位向量和其他向量保持垂直,将其作为主成分;
(3)根据获取主成分的强度对数据进行降序排列,将主成分看做是坐标系,明确数据处理的方差相关信息;
(4)将主成分排列中的弱成分剔除,完成归约。
2.3.1 算法分析
在数据预处理完成后,获得一致、完整的电力通信网运行维护大数据,为数据分析提供支持。在电力通信网运行维护大数据处理中,本文选择FP-Growth 算法为数据挖掘算法,提高大数据处理效率,为电力通信网运行维护提供支持。大数据挖掘分析通常选择Apriori 算法,该方法可有效减少大数据处理规模,在数据挖掘方面表现出优异的性能。但在实践中,Apriori 算法会增加非平凡开销,即在挖掘分析数据的同时,产生其他候选集,且进行重复扫描操作,加大了数据挖掘分析的工作量,影响工作效率。就此,本文应用FP-Growth 算法,其应用原理如下:
FP-Growth 算法的数据挖掘分析策略为分治,将反映频繁项集的数据库压缩为频繁模式树状态,频繁模式树可反映频繁项集各项信息;再根据不同条件,将频繁模式树分类为不同的投影数据库,为每个数据库配置一个频繁项或一个“模式段”,开展相应的挖掘分析工作。针对数据库配置的“模式段”,挖掘分析内容为“模式段”相关的数据库,挖掘分析的“模式段”越多,压缩的数据集越小,有助于数据挖掘分析效率的提升。在模频繁模式树挖掘中,具体流程如下:将长度为1 的频繁模式作为第一个挖掘分析的数据库,并为其设置初始后缀模式。首先为频繁模式树构建条件模式基(即为数据库的子数据库,包括初始后缀模式的前缀路径集),再明确频繁模式树的条件,在频繁模式树上以递归形式进行挖掘,利用频繁模式树的后缀模式及条件连接完成数据挖掘分析中的模式增长。
2.3.2 算法优化
在实践应用中,FP-Growth 算法适用于较小的数据库,而电力通信网运行维护大数据较多,数据库相对较大,单纯通过FPGrowth 算法,难以进行深入数据挖掘,影响电力通信网运行维护。就此,本文引进Map Reduce 技术,通过其Hadoop 集群功能,对电力通信网运行维护数据进行并行计算,提高数据挖掘分析中的收敛速度,弥补FP-Growth 算法的不足,发挥其优势。在电力通信网运行维护数据处理中,Map Reduce 技术与FP-Growth 算法的配合应用流程如下:
(1)将数据库进行分类,分布于集群的各个节点中;
(2)对每个节点进行support count 计算,整合为同个节点,获取频繁项集;
(3)利用FP-Growth 算法对频繁项集进行处理,获取电力通信网运行维护数据的频繁项集;
(4)将TDB 分布于不同工作节点;
(5)进行F_List 的计算;
(6)进行本地频繁项集的并行计算,利用Map Reduce 技术进行事务集分布于同个节点,获取频繁模式树。
在明确大数据下电力通信网运行维护策略的基础上,本文以某电力企业2015年-2019年的电力通信网运行维护数据为样本,进行本文设计电力通信网运行维护指标体系的应用,评估大数据下电力通信网运行维护策略的可行性及有效性。在大数据处理中,以故障数据、设备检修数据与台账数据为基础,通过挖掘分析明确检修效果、检修成本及检修时间分布性。
通过上述数据处理分析流程,对电力通信网运行维护大数据进行处理,处理结果显示,在2015年-2019年,该电力企业的数据网类型设备共检修234 次,检修完成后出现故障的数据网类型设备共7 个。在检修后出现故障的设备中,有3 个数据网类型设备故障出现时间和检修时间相隔低于2 个月,说明数据网类型设备故障与检修存在相关性。经计算,数据网类型设备检修后出现的故障和检修总数比例约1.3%,说明数据网类型设备的检修效果属于中等偏上水平。根据后续数据挖掘分析,数据网类型设备在检修后出现故障的原因在于检修期间更换的硬件设备质量偏低,且在3 个数据网类型设备检修后故障中,有两个故障为同个设备。由此可以判断,在电力通信网运行维护中,设备故障率和检修方法、检测更换的硬件设备质量存在较大关联度,在以后的电力通信网运行维护中,运维人员应做好更换硬件设备的检查,确保其质量符合电力通信网长久运行要求。
在检修时间成本分析中,分析不同地区电力通信网不同类型设备的平均检修时间,编制关系图,以平均检修时间为纵坐标,以不同地区电力通信网不同类型设备为横坐标。观察分析结果图可知,在电力通信网运行维护中,光缆设备的检修时间最长,传输设备次之,数据网设备最低。就不同地区的电力通信网设备检修时间对比中,广东省在光缆设备检修中花费的时间成本最低,该省的光缆设备与传输设备、数据网设备在检修时间成本方面差异最小,说明广东省光缆设备的运行维护工作效率较高;云南省和贵州省的光缆设备检修时间成本偏高,这是因为云贵两地地理条件复杂,光缆设备所处的运行环境较为恶劣,在很大程度上加大了运行维护难度,使其运行维护花费的检修时间成本更高。数据网设备在不同省份间的差异不大,说明该设备的运行维护影响因素不多,不同地区的运行维护标准一致,使其检修时间成本相差无几。
在检修时间分布性研究中,以空间指标坐标系描述每月电力通信网不同类型设备的平均检修数量变化。将月份作为横轴,将电力通信网不同类型设备作为纵轴,将平均检修数量作为竖轴。根据年度分析结果可知,在电力通信网设备运行维护中,春节至入夏前为设备检修高峰期,检修设备数量较多,出现该现象的原因在于该阶段电力用户的供电需求增强,电力通信网设备运行工作量增多,加大了运行负荷,提高设备故障出现概率,进而增加检修数量。由此可知,在该电力企业的电力通信网运行维护中,电力企业认识到自然条件对电力通信网设备运行的影响,且该电力企业实施的检修工作计划仍存在不足,可进一步优化完善。同时,观察分析结果可知,在不同年份,该电力企业电力通信网设备运行维护的检修量相差无几,说明该电力企业的运行维护工作已达到稳定状态。
根据月度分析结果可知,大部分电力通信网设备的检修工作量分布较为合理,尤其是通信电源设备,其检修工作量集中于月中,说明该电力企业的通信电源设备检修频率与质量较高,但光纤设备及数据网设备的工作量集中于月末,说明该电力企业的光纤设备与数据网设备较为拖沓,需进一步改善。
根据周度分析结果可知,电力通信网设备的检修工作量集中于周中,周末的检修工作量较少,说明该电力设备的检修工作相对合理,可按时完成检修任务。
综上所述,在电力通信网运行维护中,大数据的应用可为电力通信网运行维护提供有效指导。通过本文的分析,电力企业可构建电力通信网运行维护指标体系,对电力通信网的检修效果、检修时间成本与检修工作量分布性进行分析,评估运行维护的优势与不足,为运行维护工作优化提供指导。