基于关联规则的电网物资相关性研究

2018-05-30 01:48国网江苏省电力有限公司物资分公司温富国李金霞
电子世界 2018年9期
关键词:项集数据挖掘物资

国网江苏省电力有限公司物资分公司 温富国 许 斌 李金霞

0 引言

随着我国经济的高速发展,对电力的需求也不断增加[1]。为了满足国民经济全面、协调、可持续发展对电力的需求,提高电力供应能力,提高电力系统供电水平势在必行。而加快电网建设,提高电力系统供电水平都离不开电力系统中输变电物资的采购供应。但是当前物资采购供应环节存在诸多不平衡现象,一方面普遍存在供大于求的现象,库存积压相当严重;另一方面少数物料又存在供应不足现象。例如某配变类工程,大部分物料储备都很充足,但是缺少某一型号的变压器,导致项目延期,无法顺利完成,严重影响电力建设。

从技术上说,各物料之间存在相互配合、相互备用等现象,需求数量有“同增同减”或“此消彼长”的特点,如水泥杆跟架空绝缘导线理论上就存在一定的相关关系。所以对物料使用数量相关性的研究被认为是解决物料采购不平衡问题的一个方向。但由于物料种类较多,采用传统的相关性系数法,容易掉入伪回归[2]陷阱。

所以本文从大数据挖掘的角度,分析2016年江苏省配农网项目的物资使用规律,然后采用关联规则,研究分析各物资之间的相关性,得到物料频繁项集,从而得到物资的相关关系,最后从时间序列[3]角度用相关性系数法对所得结果进行了验证。结果表明,关联规则挖掘出来的频繁项集内的各个物料具有较强的相关性。物料相关性的研究成果可以用于指导物资采购和库存设置,对于提升协议库存物资精细化管理具有重大意义,将很大程度地改善当前物资采购不平衡的现象,从而全面提高采购管理效益水平[4]。

1 关联规则

关联规则[5-7]挖掘是由Agrawal等人于1993年提出,最早是为了解决购物篮分析问题,可以用来挖掘商品间在零售业商品交易事务数据库中的联系规则以及顾客习惯的购买模式。近年来,关联规则挖掘被认为是数据挖掘领域的热点。

1.1 关联规则概念

设数据集D为事务数据的集合,数据集D中包含了n条记录,m个项等参数属性,即是数据库中所有项的集合。D中每条记录即每个事务T都是非空集合,T是项的集合,每条记录的标识符号为TID。Tk中的元素组成的集合即称为项集,包含k个项的集合称为k-项集。

频繁模式是在数据集中频繁出现的模式,频繁模式挖掘是在给定数据集中搜索频繁出现的关联形式。可以用关联规则的形式表示系统内部参数属性间的频繁关联,关联规则为形如形式的关系式,式中。规则的支持度与置信度是用来描述规则兴趣度的两种度量,如式(1)与式(2)所示,它们分别表示所挖掘规则的有用性和确定性。规则在数据集D中成立,具有的支持度s指的是数据集D中包含的百分比,即概率,置信度C是D中包含A的记录同时又包含B的记录的百分比,即条件概率。

例如,[support=30%,confidence=80%],即规则的支持度为30%,置信度为80%,表示在整个数据集中,有30%的记录是属性A与属性B同时出现的,且在属性A出现的记录中有80%的记录属性B也出现了,即表示在属性A出现的情况下有80%的可能属性B也会出现。获得的关联规则是指满足最小支持度阈值与最小置信度阈值的规则,关联规则的挖掘过程即为先获取所有频繁项集,再由频繁项集生成关联规则。

1.2 Apriori算法

Apriori算法[8]是一种用来获取频繁项集的布尔型关联规则算法,该算法使用迭代法进行逐层计算,并基于候选集来获得频繁项集,即使用(k-1)-项集Lk-1产生k-项集Lk。图1及图2分别为频繁1-项集及k-项集的计算流程图。通过扫描数据源,累计每个项的计数,得到满足最小支持度的项,从而找出频繁1-项集的集合,记为L1,之后再通过频繁1-项集的集合L1寻找频繁2-项集的集合L2,以此类推,直到无法获取满足条件的项集,这样得到的项集称为最大频繁项集。

图1 获得频繁1-项集的过程

图2 获得频繁k-项集的过程

从Lk-1项集获取Lk项集时主要需要执行连接步与剪枝歩两个过程的操作。连接步:将Lk-1与自身连接产生候选k-项集的集合,记为Ck。假设l1,l2为Lk-1中的项,将其按照记录中的字典顺序排列,如果它们的前(k-2)项相同,则表示Lk-1中的元素是可连接的。剪枝歩:候选项集的集合Ck是Lk-1的超集,使用先验知识:任何非频繁的(k-1)-项集都不可能是频繁k-项集的子集。因此,如果候选k-项集的任意一个(k-1)项子集不存在于Lk-1中,则可以删除该候选项集,最终可以得到频繁k-项集的集合Lk。

2 物资相关性研究

首先从江苏公司ERP系统中导出2014-2016年的历史出入库数据,共1042.4万条出库记录,每条出入库记录包含物料名称、实发数量、过账日期、领用单位等信息。再按三级分类筛选出配农网项目,共计63218个项目。然后采用统计手段,按工程项目统计出每个项目所需物料的种类和数量,2016年全年共使用2232种物料。

这63218个工程项目对应关联规则n条记录,2232种物料对应关联规则中的m个项,从而构成数据集。每一条记录包含个项,即某个工程项目使用到了p种物料。然后设定support=0.1,confidence = 0.6,采用Apriority关联分析算法先是得到L1项集,然后进行连接歩、剪枝歩操作得到频繁项集。

2.1 L1项集

表1列出了10种支持度较高的物料,如线路柱式瓷绝缘子共在38494个项目中使用过,其支持度高达60%,是使用频率最高的物料。L1项集支持度的大小表征了物料在工程项目中常用程度,这些物料一般都属于通用物资范畴,在采购过程中尤其要注意这些物资的采购,各地市项目单位在设置库存时也应备足余量。

表1 L1项集-常用物料

表2 最大频繁项集

2.2 最大频繁项集

通过Apriori算法的不断迭代,分别可以得到项集,最终得到的满足最小支持度的最大k为6,即L6项集,各项集的物料都具有很强的相关性。如表2为L6项集的一组物料。这6种物料在7380个项目中一起出现过,组合出现频率较高,我们称之为频繁项集。一组频繁项集实际上表征了一种类型的工程项目的物资使用特性。所以,从项目设计与使用的角度来看,我们可以认为这些物料具有较强的相关性。

2.3 结果验证

上述方法得到了电网物资的频繁项集,频繁项集中的各个物料经常在实际工程项目中配套使用,被认为具有较强的相关性。为了验证挖掘结果的准确性,我们采用相关性系数法对频繁项集中的物料相关性进行了验证。

首先基于历史数据,按时间统计出每个月各个物料的使用量。利用简单相关性系数法求得各个物料之间的相关性系数。验证方法采用的是简单相关性系数法[9],公式(3)给出了其定义式:

其中为X与Y的协方差,Var[X]为X的方差,Var[Y]为Y的方差。一般来说,取绝对值后,0-0.1为没有相关,0.1-0.3是弱相关,0.3-0.5为中等相关关系,0.5-1.0表示具有较强的相关性。

以表2中的频繁项集为例,先统计得到每种物料2014-2016年每个月的使用量,再用相关性系数法求得它们两两之间的相关性系数。其结果如表3所示(Xi为表2中的第i种物料),表格第i行第j列表示第i个物料与第j个物料之间的相关性系数。可以看出这些物料之间的相关性系数都很高。

表3 物料之间的相关性系数

图3给出了“锥形水泥杆,非预应力,整根杆,15m,190mm,M”和“架空绝缘导线,AC10kV,JKLYJ,50”两种物料2014-2016年各月的出库量,这两种物料为频繁项集,且相关性系数为0.99,从图中也可以看出这两种物料每年出库总量具有一致的趋势性,相关性较强。两种物料在数量上基本呈正比同步变化关系,可以用来指导采购和库存设置。

图3 两种物料逐月使用量对比

从以上分析可得,为频繁项集的物料其相关性系数都较高,而且在时序图上具有较强的一致性。

3 结论

本文通过关联规则算法得到常用物料和物料频繁项集,然后计算频繁项集各个物料使用数量的相关性系数,证明了关联规则挖掘出来的物料频繁项集确实具有很高的相关性。该方法得到的物资相关性可靠性强,更符合于项目工程实际。该研究结论可以很好地指导电网物资的采购与库存设置,从而提升协议库存物资管理水平。

[1]沈高锋.电力消费与中国经济增长的关系分析[J].消费导刊,2017(26).

[2]姜高霞,王文剑.时序数据曲线排齐的相关性分析方法[J].软件学报,2014(9):2002-2017.

[3]赵一鹏,丁云峰,姚恺丰.BP神经网络误差修正的电力物资时间序列预测[J].计算机系统应用,2017,26(10).

[4]沈男.基于改进BP神经网络的电网物资需求预测研究[D].华北电力大学(北京)华北电力大学,2014.

[5]郭秀娟.基于关联规则数据挖掘算法的研究[D].吉林大学,2004.

[6]胡涛.基于关联规则的数据挖掘算法[J].电子技术与软件工程,2018(2).

[7]李艳.关于数据挖掘中关联规则算法的相关问题研究[J].科技创新与应用,2017(33):161.

[8]郭涛,张代远.基于关联规则数据挖掘Apriori算法的研究与应用[J].计算机技术与发展,2011,21(6):101-103.

[9]谢明文.关于协方差、相关系数与相关性的关系[J].数理统计与管理,2004,23(3):33-36.

猜你喜欢
项集数据挖掘物资
探讨人工智能与数据挖掘发展趋势
被偷的救援物资
电力企业物资管理模式探讨
基于并行计算的大数据挖掘在电网中的应用
救援物资
一种基于Hadoop的大数据挖掘云服务及应用
一种频繁核心项集的快速挖掘算法
基于GPGPU的离散数据挖掘研究
PKPM物资管理系统应用实践
一种新的改进Apriori算法*