陈益果,何安宏
(南瑞集团有限公司(国网电力科学研究院有限公司),江苏 南京 211100)
数据挖掘算法是大规模数据整合和分析的关键工作。为了科学表现大数据的特征,需要将对应这些数据的类型和形式算法进行定式化。这些算法是基于统计的统计方法,只有这样,挖掘的数据才能够充分发挥其本来价值。数据挖掘的主体没有限制,主要是将现有数据通过数据挖掘算法进行预测性分析,进行一些高级别的数据分析,可利用Mahout工具实现,典型算法有SVM、Kmeans等[1]。下文将列举一些比较常用的数据挖掘方法。
MBR(Memory-BasedReasoning)方式主要的核心是记忆基础推理法,涵盖距离函数和结合函数,前者旨在找到最相似案例,后者则将相似案例属性结合起来,以便预测分析时使用。该方法的优点在于能够容许各种型态的数据且不需要服从某些假设,具备自学习能力,能够凭借旧案例的学习获取关于新案例的知识,但需要大量历史数据的支撑。处理费时,效率不高,在欺骗行为侦测、预测客户反应、医学诊疗等方面,有较强的应用前景[2]。
ClusterDetection(聚类分析)技术拥有广泛的应用范围,涵盖基因算法、类神经网络、统计学中的群集分析,主要是找出数据中以前未知的相似群体。
数据挖掘最重要的作用是为相关决策提供有效支撑。就企业来讲,企业的ERP系统应用过程中能够积累大量的业务数据,这对大数据技术的应用提供了较好的前提条件。所以,在运营过程中构建统一的数据平台,可实现数据的集成和共享,为机构决策提供技术支撑。该机构基于市场风险、信用风险以及内部控制,建立起风险管理系统,整合现有风险控制形成风控战略能力,建立起KRI(关键风险管理指标)、风险分析、风险组合管理、风险保管等,极大地提升了机构风险管理水平。同时,在统一平台下实现了业务中心、各部门不同层次的风控要求,满足了不同的业务需求[3],为该机构市场、信用以及仓储三方面的风险控制提供了极大助力,且强大的开放性便于后续的扩展深化。具体而言,即建立风控计量模型,基于历史数据和数据挖掘算法,针对模型进行调整优化,实现量化监控、预测分析以及自动预警。
本文主要研究数据挖掘技术在配电网故障风险预警工作中的应用,流程如图1所示。
以某城市配电网运行数据为研究对象,利用从配电网管理系统中采集的数据进行分析,总结归纳得到故障特征,然后经过对故障关联因素的进一步分析,剔除其中一些不适用的冗余特征,结果如表1所示。
表1 电力故障特征关联因素
图1 风险预警流程图
然后,采用Relief算法计算得到所有特征值的权重大小,最终结果中与馈线故障直接相关的故障特征全部得以保留。这些特征与故障强相关,且各自相互独立。
故障风险是不断变化的,因此在对其进行分析时需要考量时变因素。本文选择2016年5月到2017年4月的数据来作为训练样本,2017年6月、7月的数据作为测试数据。其中,训练样本用来进行相关模型的获取和检验,测试样本主要用来进一步优化模型,以便保证模型的预警效果。
风险等级的样本数量如表2所示。
通过选择使用基于RBF的SVM方法对样本风险实施预警和分析,结果如表3所示。
由表3得知,该模型对馈线风险的预警准确率保持在90%以上。因此,从某种程度上讲,该模型具有较强的实用性和准确性。
数据挖掘技术在大数据配电网故障风险预警中具有重要的作用。通过数据挖掘技术构建的风险预警模型,能够准确的预警配电网风险,对保障电力安全具有重要意义。
表2 风险等级样本的数量
表3 配电网故障风险等级预警结果