戴昶,李波,俞敏,吴春华,史波
(华云信息科技有限公司,浙江 杭州 310000)
电能计量器具智能仓储以及与仓储通信的智能检定一体化系统是先进、成熟的仓储物流输送技术。该技术能够实现电能计量器具检定出库、上料检定、下料装箱、箱表入库和物流配送等全过程作业的智能化、自动化,形成电能计量器具仓储、检定的一体化管理。经过检定后的电能计量器具种类、规格和型号不计其数,在进行库房管理时,如何保证这些计量资产数据及时、准确、合理地应用于生产和营销服务工作,对电能计量器具的仓储管理提出了很高的要求。
现有技术中库房电能计量资产信息管理系统自动化程度差,数据资产管理技术落后。文献[1]应用了改进K-means算法实现电能计量资产自动化智能库房数据的计算和管理,但是面对大量的数据时,需要训练不同的分类器,数据挖掘准确率较低。文献[2]应用随机矩阵理论算法实现电能计量资产大数据计算和管理,剔除了冗余的数据,但是对于电能计量资产大数据训练集的分类精度很低,因此需要新型的库房管理系统。
本文将物联网(internet of things)技术、自动化技术、传感器技术、数据传输技术和大数据挖掘技术融合在一起,构建成新型的自动化库房管理系统。通过RFID射频识别技术和工业条码识别技术,实现了电能计量器具库房管理过程中的可靠信息识别与数据交换。仓储系统通过与RFID射频门结合的伸缩链板机、激光制导的LGV叉车、自动输送线、图像识别器、提升机和堆垛机等协同作业,实现了物流的自动化、智能化。仓储管理系统与营销业务应用系统、ERP系统、RFID资产识别系统和物流配送系统等外部系统进行连接,实现“管、控、营”的一体化信息管理[3],如图1所示。
图1 库房管理系统架构示意图
在本文库房管理系统设计中,其由设备层、数据传递层、中央控制层和上层系统构成。在设备层中,伸缩链板机能够实现电能计量资产器具的自动化承载,自动输送线实现电能计量资产器具的自动化运输,RFID射频识别装置能够实现设备的条码识别,使得识别后的信息直接传递到信息管理系统,在运输过程中,借助于监控设备(比如CCD摄像机)监视和管理电能计量器具在运输过程中的状况[4]。通过提升机使电能计量器具在运输过程中能够上升或下降到用户需要的位置,堆垛机具有堆垛和码垛的功能,使得电能计量器具被堆叠在一起,或者使堆叠在一起的计量器具摊开。数据传递层能够将设备层中的各种数据信息传递到上层进行管理。
在本文库房管理系统中,除了能够实现自动化和智能化运输计量器具,还有一个最大的技术亮点是能够实现人工智能化计算和大数据处理。对营销业务应用数据、ERP数据、RFID资产识别数据以及物流配送数据的妥善处理[5],实现电能计量资产的自动化数据管控。
(1)
式中:WT为正常电能计量资产大数据特征矩阵;wi为正常电能计量资产大数据特征。异常电能计量资产大数据特征的计算如式(2)所示。
(2)
电能计量资产信息大数据特征提取过程中,利用式(3)可以对电能计量资产大数据特征进行加权处理。
(3)
电能计量资产信息大数据特征提取误差如式(4)所示。
(4)
(5)
式中:φ为电能计量资产大数据特征提取结果。
在库房管理中,确定了正常电能计量资产大数据与异常数据之间的关系,通过对电能计量资产大数据异常特征进行计算加权处理,得到电能计量资产大数据特征的提取误差最小时的结果,完成电能计量资产大数据特征提取,接下来通过电能计量资产大数据库挖掘算法的设计,为电能计量资产大数据挖掘奠定基础[10]。
电能计量资产大数据挖掘是以数理统计为基础的挖掘算法[11],应用数据概率理论与统计学为主要核心,对电能计量资产信息大数据进行挖掘,电能计量资产信息大数据挖掘算法原理为[12]:假设电能计量资产信息大数据集中共包含k类电能计量资产大数据,记作C={C1,C2,…,Ck},不同类别数据集中Ci的先验概率通常表示为P(Ci),其中,i=1,2,…,k。将电能计量资产信息大数据训练集中属于Ci的电能计量资产大数据样本数量记作Ni,电能计量资产信息大数据总样本数为N,电能计量资产大数据样本x在Ci类别上的数据量记作xi,则有:
(6)
(7)
基于库房管理需要[13],计算Ci类别电能计量资产信息大数据的后验概率为:
(8)
将计算得到的后验概率最高的电能计量资产大数据样本作为电能计量资产信息大数据样本x进行分类。在实际应用中,令电能计量资产信息大数据样本x可能存在的类别记作c(x),由于实际应用中P(x)作为一个常数量,与Ci之间没有任何关联,因此将P(x)删除,可以得到c(x)的计算式,如式(9)所示。
c(x)=arg maxCi∈CP(x|Ci)P(Ci)
(9)
由于库房数据库数据集中的电能计量资产大数据样本x通常是由多个不同属性值构成[14],因此,电能计量资产大数据样本表达为(a1,a2,…,am),此时电能计量资产大数据样本x的分类c(x)可以利用式(10)计算。
c(x)=arg maxCi∈CP(a1,a2,…,am|Ci)P(Ci)
(10)
电能计量资产信息大数据挖掘算法在具体应用时,电能计量资产大数据测试样本的属性值来自训练样本,无法保证电能计量资产大数据样本集包含所有问题[15]。因此将电能计量资产信息大数据样本X属于Ci类别时,Ai为ai的条件概率:
(11)
式中:n为电能计量资产大数据样本值的总和;nij为在Ci类别中Ai=ai出现的具体次数;nj为第j类的电能计量资产大数据样本数量nij的总和;mi为Ai可能出现的值总数。
电能计量资产信息大数据的挖掘过程可以分为电能计量资产大数据现状分析,电能计量资产大数据的准备、预处理和挖掘,以及挖掘结果的解释和评估[16-17],电能计量资产信息大数据挖掘过程示意图如图2所示。
图2 电能计量资产信息大数据挖掘过程示意图
库房管理中对计量资产数据挖掘的具体步骤如下。
步骤1:分析电能计量资产信息大数据现状。电能计量资产信息大数据挖掘的目标是从大量的电能计量资产大数据中发现有价值的电能计量资产大数据信息,从而找出电能计量资产大数据信息成为整个挖掘过程中的重要环节[18]。分析电能计量资产信息大数据的现状,挖掘人员必须与电能计量技术领域的专家以及最终计量终端之间建立紧密的合作关系。首先明确了实际工作对电能计量资产大数据挖掘的要求,其次对不同种类挖掘算法进行了比较,从而确定了有效的挖掘算法。
步骤2:电能计量资产大数据的收集和预处理。电能计量资产大数据收集的目的是确定所选挖掘任务的目标电能计量资产大数据,根据用户的不同需求,从原电能计量资产信息大数据库中提取数据特征。电能计量资产大数据预处理是数据挖掘过程中的一个非常重要环节。它可以消除电能计量资产大数据的噪声,推导和计算丢失的电能计量资产信息大数据,并消除重复的处理记录,完成离散电能计量资产大数据和连续电能计量资产大数据之间的相互转换,从电能计量资产大数据初始特征中获取有效的数据特征,减少数据挖掘过程中必须考虑的变量特征,从而降低电能计量资产大数据的维数。
步骤3:挖掘电能计量资产信息大数据。在分析电能计量资产大数据应用现状的基础上,确定电能计量资产大数据挖掘的任务和目标,面向库房管理,明确挖掘算法,在实施时应考虑两个因素。一方面,不同的电能计量资产大数据有不同的特点,因此需要利用相关数据挖掘算法,挖掘库房数据库和电网系统的实际需求;另一方面,有些用户想要得到易于理解的电能计量资产大数据信息,而有些用户则想要得到精确的电能计量资产大数据,无论这些电能计量资产大数据是否符合用户需求。
步骤4:挖掘结果的解释和评估。被挖掘的电能计量资产大数据可能存在冗余的数据或与数据挖掘阶段无关的模式。这时,需要将冗余的电能计量资产大数据消除,否则挖掘到的电能计量资产大数据可能不能满足用户需求。整个评估过程需要回到数据挖掘的阶段,比如重新选择电能计量资产大数据,采用新的数据转换方式,设置新的挖掘参数值,通过改变挖掘算法完成电能计量资产信息大数据的挖掘。
综上所述,在库房管理中提取了电能计量资产信息大数据特征,根据数据挖掘算法设计,实现了电能计量资产信息大数据的挖掘。
软件部分采用ADO方式的C/S架构设计,信息管理系统的数据库系统采用MSSQL2000,在前台运行的程序在Win98/Me 2015/XP上进行,采用电能计量资产管理大数据库,数据库中包含3 503 201条电能计量资产大数据。首先将电能计量资产信息大数据划分成训练集和测试集两个集合,采用人工标记的方式,对训练集中的电能计量资产大数据进行标记。库房管理系统软件界面如图3所示。
图3 库房管理系统软件界面
本文采用文献[1]和文献[2]进行对比分析,文献[1]采用改进K-means算法进行电能计量资产大数据挖掘,文献[2]采用随机矩阵理论进行电能计量资产大数据挖掘,分别在3 h内进行试验,通过三种方法对比分析大数据挖掘准确率,对比曲线如图4所示。
图4 大数据挖掘准确率对比结果
通过图4可以看出,随着测试数据集的增多,文献[1]基于改进K-means算法的大数据挖掘准确率逐渐提高,当测试数据集为70×103时,数据挖掘准确率接近了60%,随后准确率逐步减少。文献[2]基于随机矩阵理论的大数据挖掘技术的数据挖掘准确率高于文献[1]基于改进K-means算法进行数据挖掘的准确率,但是仅提高了10%。而本文算法虽然在电能计量资产大数据测试数据集为10×103时的准确率为24%,但是当电能计量资产大数据测试数据集为40×103时,其数据挖掘准确率就超过了文献[1]和文献[2],当电能计量资产大数据测试数据集为100×103时,本文算法挖掘准确率高达93%。因此,本文技术具有较高准确性。
在预处理电能计量资产信息大数据之后,在电能计量资产大数据训练集中,再对分类精度进行对比分析,对比精度曲线如图5所示。
图5 大数据训练集分类精度对比结果
通过图5可以看出:当电能计量资产大数据训练集为30×103时,文献[1]的大数据挖掘技术的训练集分类准确率为58%,文献[2]的训练集分类准确率为37%,而本文方法的大数据挖掘技术的训练集分类准确率为77%;当电能计量资产大数据训练集为100×103时,文献[1]的训练集分类准确率为64%,文献[2]的训练集分类准确率为60%,而本文方法的训练集分类准确率高达92%。由此可知,本文方法大数据训练集分类精度较高。
针对大数据挖掘效率进行试验。在100 s进行试验,试验对比曲线如图6所示。
图6 电能计量资产大数据挖掘效率对比结果
通过图6可以看出:当电能计量资产大数据训练集为50×103时,文献[1]的训练集处理时间为43 s,文献[2]的训练集处理时间为61 s,而本文方法的训练集处理时间为25 s;当电能计量资产大数据训练集为100×103时,文献[1]的训练集处理时间为60 s,文献[2]训练集处理时间为85 s,而本文方法的训练集处理时间为30 s。由此可知,本文方法的训练集处理时间较短,说明处理效率较高。
上述试验表明,本文方法的数据挖掘准确率、训练集分类精度和数据挖掘效率均最高。
本文提出了新型的电能计量资产库房管理方法,设计了全过程管理的智能库房管理系统和方法。通过确定正常电能计量资产大数据与异常数据之间的关系,加权处理电能计量资产大数据,提取电能计量资产大数据特征,采用数据概率理论并预处理电能计量资产大数据,设计电能计量资产信息大数据挖掘算法。通过电能计量资产信息大数据挖掘流程,实现电能计量资产信息大数据的挖掘。本文为市、县、乡镇供电所提供智能化入库和出库管理,使得电能表仓储和领用的管理水平大大提高,极大地深化了计量器具全寿命周期管理,实现了计量器具资产信息的自动化和智能化管理。