基于文本挖掘的电力设备缺陷用户画像构建

2019-12-17 08:03张鹏王玮赵德伟司晓峰
科技风 2019年33期
关键词:聚类算法文本挖掘电力调度

张鹏 王玮 赵德伟 司晓峰

摘 要:针对电力系统调度员在OMS调度日志中记录的电力设备缺陷数据繁杂,冗余等问题,提出了一种基于文本挖掘的电力设备缺陷用户画像构建新方法。首先在分析电力设备缺陷文本数据的基础上,对集合样本进行标签化处理,以电力调度员的录入缺陷数据及运检人员在现场实际发现的缺陷数据为输入,运用改进的聚类算法对电力设备缺陷标签进行了定义及归类,最后结合构建的文本预处理模型以及卷积神经网络分类器,对电力设备缺陷文本进行了分类,并根据分类文本构建了电力设备缺陷的用户画像系统。实验结果表明,该方法有效的解决了电力调度员标签语义化问题,将需要调度人员关心的设备缺陷信息进行智能提取,实现了从PMS系统所有缺陷数据中自动推荐调度员关心的缺陷。

关键词:电力调度;设备缺陷;聚类算法;用户画像构建;文本挖掘

中图分类号:TM930.7  文献标识码:A

Abstract:Aiming at the redundancy and other problems of power equipment defect data in the OMS scheduling recorded by power dispatchers,this paper presents a new method for constructing user portraits of power equipment defects based on text mining.Firstly,the text data of power equipment defects are analyzed,the set samples are labeled.The defect data recorded by the power dispatcher and the actual defect data found by the operator are taken as input,the defect labels of power equipment are defined and classified by the improved clustering algorithm.Finally,combined the text preprocessing model and the convolutional neural network classifier,classified the defect text of power equipment.,a user portrait system of power equipment defects is constructed according to the classified text.Experimental results show that this method can solve the problem of semanticization of power dispatcher labels effectively,the equipment defect information concerned by the dispatcher is extracted intelligently,and can recommend defects to the dispatcher from all defect data of the PMS system automatic.

Key words:electric power dispatching;defective equipment;clustering algorithm;user portrait;text mining

智能電网系统依赖于生产,传输,分配,设备用电的各个环节,如果在其中出现任何问题,都会给电力系统造成巨大的影响及经济损失。特别是用电设备出现损伤及缺陷后,需要对该事故进行迅速的分析及处理是解决智能电网可靠性和稳定性的关键[1]。现代智能电网系统运行中会产生大量的多源异构数据[2],其中电力设备缺陷文本中包含着与电网稳定可靠运行关系最为密切的信息,在海量的设备缺陷数据中,现场调度员及设备操作员往往只关注与他们工作息息相关的数据,研究如何从PMS抽取符合规则的缺陷信息到OMS中,并建立调度员关心的缺陷研判规则具有重要的意义。

为了构建电力设备缺陷用户画像系统,首先需要对电力调度员感兴趣的缺陷文本进行挖掘,之后

利用自然语言处理中的机器学习或决策树算法使缺陷文本挖掘变的简单而高效。目前用于构建用户画像的方法主要有K-means聚类算法[3]、贝叶斯网络算法[4]、结合主题模型算法[5]、基于统计分析算法[6]等。但是实际运行的电力系统中提取的缺陷信息中经常由于不规范、歧义、不完整等问题,造成缺陷文本的失效。本文基于多种文本挖掘技术,通过分析不同的缺陷标签,对冗余文本进行删除,并对质量较差的文本进行改进,从设备缺陷的数据源头上提升文本质量,构建合理的电网缺陷用户画像系统。

1 电力设备缺陷标签

在构建用于故障研判的电力设备缺陷用户画像之前,首先要定义电力设备缺陷标签。电力设备缺陷是在实际运用或者备用中,电力设备及设施出现的一种对电网系统或设备健康具有一定损害的现象[7]。电力设备缺陷按照国家电网公司企业标准,根据其损害程度可以定义为一般缺陷、严重缺陷、危急缺陷,见表1。

通过设备运维管理系统(PMS)与调度管理系统(OMS)发现的缺陷,由于种类繁多且缺陷类别复杂,导致运检人员在发现设备缺陷后,需要亲自确认该缺陷是否在对应调度的观测类别中,并且运检人员也要确认该缺陷的等级才能制定相应的处理策略。在上述过程中,工作人员记录的大量的设备缺陷数据称为电力设备缺陷文本,通常缺陷文本应包含设备分层、缺陷描述、缺陷等级三个部分。其中按照分层可以将文本归纳为设备类型、部件类型、设备种类、部件种类以及发生部位,为了实现缺陷的用户画像系统构建,在进行缺陷流程发起时,对其缺陷文本定义如下:类别(type)、开始时间(start-time)、结束时间(end-time)、变电所名称(st-name)、变电所ID(st-id)、发现单位(found-com)、电压等级(vol-level)、设备类型(dev-type)、设备名称(dev-name)、缺陷等级(defect-level)、缺陷描述(defect-des)。

通过对缺陷文本进行标签化处理,可以得到用于构建用户画像的多维度高精度的特征量,本文采用分词算法对缺陷文本数据进行标签化步骤如下:

(1)取缺陷文本信息的首字母记为First;

(2)按First对缺陷字典库进行排序,并按文本数据的长度降序排列,其长度不能超过设定好的maxLength;

(3)将选择的词分别与缺陷文本字符串进行匹配;

(4)若匹配结果中出现该缺陷词,将其保存;

(5)将缺陷文本字符串中已经匹配到的子串删除,将剩余文本数据保存并返回步骤2;

(6)重复步骤2至步骤5一直到缺陷文本中再也没有匹配到的缺陷特征量关键词为止,即可停止对该缺陷文本的检索,至此完成电力设备缺陷的标签的准确分类定义。

2 聚类算法及其改进

2.1 K-means算法基本原理

若某电力设备缺陷发生在该时间段的次数占行为总发生次数的百分之六十以上,则证明该电力设备缺陷具有周期性的时间段缺陷,即在重复时间段内会发生周期性故障,此时调度员应当在描述标签中加入时间段名称。

利用改进聚类算法,对电力设备缺陷描述数据进行单维度离散化可生成不同分类的电力设备缺陷标签,给该系统每月的缺陷标签分为一般缺陷、严重缺陷、危急缺陷等级标签,根据改进聚类算法,经多次试验,设置t=0.1时聚类效果最好。计算出所有数据点的局部密度后,再计算出每个数据点的γ值,如图1所示:

由图1可见,选择γ值前20的值作为该电力设备缺陷标签等级的聚类中心,依据聚类中心大小分成一般缺陷、严重缺陷、危急缺陷等级标签,然后将非聚类中心的数据点进行分类,因此可以将电力设备缺陷分为五个等级,并建立相应的缺陷标签。

3 电力缺陷用户画像构建

3.1 自动文本分类模型的构建

在文本分类的过程中,需要设置该分类的标准及分类的方法,使得计算机对待分类的文本集合自动进行划分。对文本进行挖掘的前提就是设置预先计算好的主题类别及算法,通过构建合理的自动文本分类模型,可以将文本集中待分类的文本自动划分到相近的类别,从而大幅度降低人工处理文本集合的成本[11]。

对电力设备缺陷数据进行文本挖掘,基于特征量对待分类文本进行最优的划分,从而构建出能够突出不同电力设备缺陷的用户画像系统。文本分类过程一般由预处理、文本表示、特征选择、构造分类器等步骤组成[12],如图2所示。

电力设备缺陷文本与其他文本集合不同,其中包含了大量的专用词汇,并且由于现场调度员及检修人员的录入习惯不同,对同一设备缺陷或故障的描述词汇可能不同,例如“储油柜”和“油枕”。在电力设备的缺陷文本中可能同时包含大量的英文和数字,例如“压力释放阀漏油,1min内15~20滴”,这些信息虽然复杂但却对缺陷文本的分类具有重要作用[13]。综合上述电力设备缺陷的特点,本文在普通文本分类模型上进行了改进,首先对平台数据进行清洗,对清洗后的数据集合进行文本分词,通过一些预处理手段,得到具有代表性且统一表述的词语。通过参考电力设备用语规范,对同义词的词向量进行了合并,使模型更加适用于电力设备缺陷文本的分类任务。文本预处理过程见图3所示。

3.2 卷积神经网络分类器构建

卷积神经网络于1989年由Lecun提出[14],其在网络中的一层中使用卷积来代替一般矩阵的乘法。卷积神经网络的结构主要包括:卷积层,池化层以及全连接层,其中最重要的部分是卷积层和池化层组合的特征提取器[15]。卷积层与池化层共同组成了用于特征提取的选择器,卷积层的一个神经元只能和相邻的神经元相连,每层可以含有多个特征映射[16]。通过对不同文本特征量计算提取,本文构建的卷积神经网络结构图如下:

对于池化层,本文采用最大池化方法,将每个卷积得出的卷积层向量的最大值max作为特征值,来提取各个卷积窗口对应的特征值[17],同时将所有提取出的特征量进行拼接,形成一个新的池化层的向量p∈R,从而实现了特征量的进一步提取并降低了特征量的维度。

4 仿真验证

针对本文提出的电力缺陷标签分类及用户画像构建算法,选取甘肃省电网公司2008-2018年内的3000条电力设备缺陷数据进行试验,其中包括变压器缺陷,断路器缺陷,互感器缺陷,其他二次设备缺陷等。每条缺陷數据均包含具体的设备缺陷数据参数值,以及调度员当时对该缺陷的描述及等级分类的记录。将该3000条记录平均分为5组,其中每组包含600条缺陷数据,轮流将前4组缺陷样本作为训练数据集合,第5组缺陷数据作为测试结果集合。

对于一般缺陷和危急缺陷,所包含的对于设备缺陷等级的描述及等级划分具有非常大的差别,因此把以上两种调度员的相互错误描述定义为严重误分类,基于严重误分类的缺陷描述使用户画像的构建产生严重偏差,在此引入严重误差率指标进行描述如下:

严重误差率=∑5i=1第i个数据集严重错误分类数第i份测试集总数5(10)

为了验证电力设备缺陷用户画像构建的准确性,本文对卷积神经网络的结构参数进行了优化与改进,设置了两组用于对比实验验证结果性能的不同卷积神经网络模型,电力设备缺陷标签文本分类结果见表2。

从表2可以看出,本文提出的改进聚类与卷积神经网络相结合的文本挖掘方法,对于提高模型准确率有很大作用,耗时与传统方法虽然接近,但由于两者向量维度相同,使得耗时只受维度的影响。结合卷积神经网络分类结果,得出电力设备缺陷标签用户画像见表3。

5 结论

针对电力设备缺陷的用户画像系统的构建,本文提出了改进聚类算法结合卷积神经网络来实现文本挖掘的新方法:

(1)从表3可以看出,卷积神经网络标签分类模型与传统机器学习算法相比,构建的模型在分类精度和用户画像描述的准确度都有了极大的提高。

(2)通过国家电网公司实测电力设备缺陷数据训练与测试,验证了该文本挖掘方法在电力设备缺陷用户画像构建上的显著优势和效率上的可行性,该方法有效的解决了电力调度员标签语义化问题,提取了需要调度人员关心的设备缺陷信息标签,实现了从PMS系统所有缺陷数据中自动推荐调度员关心的缺陷。

(3)通过该用户画像系统,如何扩大数据挖掘缺陷信息,实现电力设备缺陷的及时提醒和预防有待进一步研究。

参考文献:

[1]杜修明,秦佳峰,郭诗瑶,等.电力设备典型故障案例的文本挖掘[J].高电压技术,2018,44(4):1078-1084.

[2]周念成,廖建权,王强钢,等.深度学习在智能电网中的应用现状分析与展望[J].电力系统自动化,2019,43(4):180-191.

[3]赵红丹,田喜平.基于K-means算法分割遥感图像的阈值确定方法研究[J].科学技术与工程,2017,17(09):255-259.

[4]李苗苗,黄丽华,李静雅,等.基于贝叶斯网络时序模拟配电系统可靠性评估软件[J].科学技术与工程,2013,13(1):70-74.

[5]曹占伟,胡晓鹏.一种结合主题模型的推荐算法[J].计算机应用研究,2019,36(6).

[6]许明乐,游晓明,刘升.基于统计分析的自适应蚁群算法及应用[J].计算机应用与软,2017,34(7):204-211.

[7]林钰杰,吴丽贤.基于工作流的电力设备缺陷管理系统设计[J].自动化技术与应用,2018,37(7):122-125.

[8]夏士雄,李文超,周勇,等.一种改进的k-means聚类算法[J].东南大学学报(英文版),2007,23(3):435-438.

[9]白树仁,陈龙.自适应K值的粒子群聚类算法[J].计算机工程与应用,2017,53(16):116-120.

[10]王学贺.一种基于改进微粒群和轮廓系数的划分聚类方法[J].云南民族大学学报(自然科学版),2016,25(4):367-371.

[11]胡杰,李少波,于丽娅,等.基于卷积神经网络与随机森林算法的专利文本分类模型[J].科学技术与工程,2018,18(6):268-272.

[12]Lodhi H,Saunders C,Shawe-Taylor J,etal.Text classification using string kernels[J].Journal of Machine Learning Research,2002,2(3):419-444.

[13]曹靖,陈陆燊,邱剑,等.基于语义框架的电网缺陷文本挖掘技术及其应用[J].电网技术,2017,41(2):637-643.

[14]李新叶,王光陛.基于卷积神经网络语义检测的细粒度鸟类识别[J].科学技术与工程,2018,18(10):240-244.

[15]马骁烊,张谧.基于标签卷积神经网络的文本推荐算法[J].计算机系统应用,2018,27(8):136-141.

[16]Ming L,Hu X.Recurrent convolutional neural network for object recognition[C].Computer Vision & Pattern Recognition,2015.

[17]何俊林,趙晓亮,孙连海,等.结合MACH滤波最大池化及多类SVM的行为识别[J].计算机工程与设计,2017,38(12):3431-3435.

References:

[1]Du Xiuming,Qin Jiafeng,Guo Shiyao,etal.Test mining of typical defects in power equipment[J].High Voltage Engineering,2018,44(4):1078-1084.

[2]Zhou Niancheng,Liao Jianquan,Wang Qianggang,etal.Analysis and prospect of deep learning application in smart grid[J].Automation of Electric Power Systems,2019,43(4):180-191.

[3]Zhao Hongdan,Tian Xiping.Based on K-means Algorithm of Remote Sensing Image Threshold Segmentation Method for Determining the Research[J].Science Technology and Engineering,2017,17(09):255-259.

[4]Li Miaomiao,Huang Lihua,Li Jingya,etal.Distribution System Reliability Assessment Software Based on Bayesian Network and Sequence Simulation[J].Science Technology and Engineering,2013,13(1):70-74.

[5]Cao Zhanwei,Hu Xiaopeng.Recommendation algorithm combining theme model[J].Application Research of Computers,2019,36(6).

[6]Xu Mingle,You Xiaoming,Liu Sheng.Self-adaptive ant colony algorithm based on statistical analysis and its application[J].Computer Applications and Software,2017,34(7):204-211.

[7]Lin Yujie,Wu Lixian.Design of Power Equipment Defect Management System Based on Workflow[J].Techniques of Automation and Applications,2018,37(7):122-125.

[8]Xia Shixiong,Li Wenchao,Zhou Yong,etal.Improved k-means clustering algorithm[J].Journal of Southeast University(English Edition),2007,23(3):435-438.

[9]Bai Shuren,Chen Long.Particle clustering algorithm with adaptive K values[J].Computer Engineering and Applications,2017,53(16):116-120.

[10]Wang Xuehe.An automatic approach to solving clustering problems with the number of clusters unknown based on the particle swarm optimization and silhouette coefficient[J].Journal of Yunnan University of Nationalities(Natural Sciences Edition),2016,25(4):367-371.

[11]Hu Jie,Li Shaobo,Yu Liya,etal.A Patent Classification Model Based on Convolutional Neural Networks and Rand Forest[J].Science Technology and Engineering,2018,18(6):268-272.

[12]Lodhi H,Saunders C,Shawe-Taylor J,et al.Text classification using string kernels[J].Journal of Machine Learning Research,2002,2(3):419-444.

[13]Cao Jing,Chen Lushen,QIU Jian,etal.Semantic Framework-Based Defect Text Mining Technique and Application in Power Grid[J].Power System Technology,2017,41(2):637-643.

[14]Li Xinye,Wang Guangbi.Fine-grained Bird Recognition Based on Convolution Neural Network Semantic Detection[J].Science Technology and Engineering,2018,18(10):240-244.

[15]Ma Xiaoyang,Zhang Mi.Personalized Academic Article Recommendation with Tagged Convolutional Nets[J].Computer Systems & Applications,2018,27(8):136-141.

[16]Ming L,Hu X.Recurrent convolutional neural network for object recognition[C].Computer Vision & Pattern Recognition.2015.

[17]He Junlin,Zhao Xiaoliang,Sun Lianhai,etal.Activity recognition combined with MACH filter,max-pooling and multi-class SVM[J].Computer Engineering and Design,2017,38(12):3431-3435.

作者簡介:张鹏(1977-),男,汉族,本科,高级工程师。

*通讯作者:司晓峰(1981-),男,汉族,本科,高级工程师。

猜你喜欢
聚类算法文本挖掘电力调度
数据挖掘技术在电站设备故障分析中的应用
K—Means聚类算法在MapReduce框架下的实现
基于K?均值与AGNES聚类算法的校园网行为分析系统研究
基于LDA模型的95598热点业务工单挖掘分析
从《远程教育》35年载文看远程教育研究趋势
浅谈电力调度自动化系统的应用
浅谈县级供电局电力调度管理和安全风险的控制
慧眼识璞玉,妙手炼浑金
基于改进的K_means算法在图像分割中的应用
大规模风电场集中接入对电力系统小干扰稳定的影响分析