秦浩 赵永生 江和顺 梅战旗 魏希文 吴少雄
关键词:NLP技术;智能分析;用电网络;高维度电力数据分析;电网停电数据
在互联网技术蓬勃发展的环境下,电力设备能否正常运行给智能电网、电力用户、工作等造成重要影响,给电力企业用户造成无法衡量的损失。伴随着电网信息技术的发展,产生了大量的电网信息数,尤其是造成停电原因的数据,如果电网用户能够恰当地寻找停电数据信息,将在一定程度上挽回企业损失。停电的因素有很多,诸如无法抗拒的自然界外力因素,电力设备故障因素,在电网技术中电力需求侧的供需失衡遭到破坏、人为蓄意地破坏、管理不足等方面。在较大的电网系统中,提供配电网的可靠性和稳定性就需要一种分析智能电网停电的方法。
传统技术中的分析方法通过检测设备来衡量,这种方法检测效果差,技能落后,已经很难满足现有电力、电网技术发展的需要。这就急需一种快速分析方法来克服上述技术的不足。本文引用一种中文搜索的方法引擎,能够快速、便捷地提高停电原因分析,优化提取配置配电网电力参数项目的智能化方式。针对停电原因信息的特点,采用基于神经网络训练(NLP)的智能电网信息提取模型,并在该模型的基础上,采用关联度匹配的检测方法实现配电网项目关键指标的大数据的重新勾画,然后采用大数据关联算法规则挖掘的方法对电力配电网中的关键指标数据进行有用信息的提取,然后再结合NLP深度学习算法对配电网项目关键指标特征进行自适应学习和误差补偿。
1整体架构设计
基于互联网技术集成NLP技术,融人大数据降维技术PCA和聚类分析技术,在系统中设定Python等高级语言,进而构设出整体构架框图,其架构设计图如图1所示。在图1中,架构图包括电力设备层、数据存储层、数据分析层和数据应用层。在电力设备层中,布局有多种电力设备传感器,通过各种传感器设备实现对电网与用电设备的电流、电压、功率、频率等相关数据的采集,采集到的数据通过路由器进行数据上传。在数据存储层中,根据数据的不同种类,按照用电数据信息、停电数据信息、故障数据信息等各种标准进行分类存储。在数据分析层中,通过NLP技术对存储信息进行分析,其中分析方法包括大数据降维处理分析法、聚类分析法,和数据的预处理。进过数据分析后,复杂而庞大的数据,将会变得非常直觀,呈现与数据应用层面再次存储与各种数据库。用户使用时可直接从相应的数据库进行数据调用。
在上述系统分析层中,考虑到用户的多样性,在设计软件时,软件通常以模块化的方式设计,因此可以在界面以及功能上进行自由组合。同时,它可以通过用户需求的变化在一定程度上快速修改,而不需要调整软件的核心部分。通信网络层的作用是为系统软件层以及智能设备层之间的信息传输提供技术支持以及平台。然而,在其开发过程中,通信网络层也增加了许多功能。除了提供基本的有线数据传输之外,它现在可以实现无线连接,并已在许多方面得到广泛应用。例如:物联网技术、现场总线、无线传输、工业以太网、无线通讯、光纤技术等。用户可以根据现场工作条件、数据处理容量情况等以各种可以组合的方式进行组合。停电分析系统经过不断发展,不仅仅具有实时数据采集、远程控制、故障分析、程序管理等先进功能。对于低压电气系统,由于可以直接连接到控制终端,所以需要应用的设备更多,而且配电以及布局复杂,因此操作将变得非常频繁。在停电分析系统中,它具有面向对象的工作模式以及很强的抗干扰能力。它使用智能组件层的智能组件来完成控制工作。它是一个网络集成控制系统,能够实现快速、高可靠性的运行状态。在停电分析系统中,低压智能设备在功能上可分为几种类型,包括:测量参数模块、电能质量测量、开关保护以及控制等。由于总线技术的使用,智能设备可以独立工作而不依赖于计算机网络。该模式大大提高了系统工作效率,满足了停电分析系统运行管理的要求。
2NLP技术分析方法
在对现代电力电网停电数据进行智能化分析时,存在着多种对电力电网干扰的外界环境因素,诸如多种不同的网络数据参数、信息报警数据、电网干扰电波、空气湿度或者温度范围比较大的数据,自然环境灾害对电网环境的自然影响因素和人为影响因素、谐波电压、电流等的不稳定性因素、电压的不稳定性、电网信息异常跳动状态频率等。当在电网波形中出现严重变形的信号时,这些各种干扰因素都能够会造成停电。这些因素的整理也不是一件容易的事情,往往会掺杂各种外界的干扰因素,因此,刚开始时,就需要对各种不同的停电影响要素进行分析、参考,对数据进行预处理,过滤掉没用的数据信息,获取较为纯洁的数据信息。数据预处理包括的方法有数据清理、数据集成数据变换、数据归约等。
在经过数据清洗之后,在清洗后的数据中,通过NLP技术引出“定义指令”。
在采用指令时,借助于Python语言,使用户得出能够与备注的数据库相匹配的指令。在该指令库中,能够向检索数据库一样被检索到。进而使用户能够直接看到各条不同指令表达的含义,然后用户能够通过图文的多种表达方式确保用户指令下达的正确性,通过语言编写的方式编制这种方式,能够使它被已知的现有系统认可、接受。在工作之初,编写完毕的对应“定义指令”与“指令词库”相对应。因此,仅仅需要将这种技术特征的指令编译输入“指令词库”即可。在应用中,可以根据数据错误的情况修改对应的参数。
通过构建上述NLP分析模型,然后采用大数据降维技术PCA( PrincipaIComponentAnalysis)即主成分对数据进行分析,该方法是用于探索高维数据结构的技术。PCA常用于现代大数据高维降维处理,使不可见的高维数据变成可视化的低维数据图像。PCA在数据分析中最重要的一点就是将具有关联特性的数据合成线性无关的低维数据,这在PCA降维技术中称之为主成分。虽然高维数据经过了降维处理,但是通过PCA转换的低维数据仍具备原有数据所需的变量特征。而特征性稀疏,特征维度高又是现在自然语言的本身特性。而高特征维数又会使在建立模型时出现高维特征性问题。使最后运算出来的数据失真,变得毫无价值。又极易出现连锁高维特征运算崩溃,加大计算难度与准确度。稀疏的特征又会占用计算机大量资源,是计算机一直重复计算不必要的特征。由此可见,在进行大量数据分析并包含自然语言时,降维使我们应该首先考虑的事情。通过分析本次技术包含自然语言,本文设计中通过使用PVA技术使停电分析原因变得显而易见。
在对大数据分析时,在经历了大数据降维之后,可以再采用聚类方法对处理后的数据进行二次处理。常见的聚类算法有很多种,比如聚类分析算法、决策树分类方法、与关联聚类方法以及与网格有关的聚类方法等。在诸多的算法类型中,进行合适的聚类分类对于用户处理数据具有重要的作用。由于分析样本数量巨大,重复率高而且样本特征混杂,采用划分聚类法将会使计算分析变得十分简单。在本文应用中,采用K-means算法对降维后的数据进行分析、聚类。在应用时,假设要将N个停电数据类型划分为K类,则可以随机地选择K个不同的对象,在所选择的K个不同的对象中定义表示个类的停电设备数据中心,然后将距离最小的停电故障数据分配到用户规定的不同属性的数据类型中。在首次的停电数据信息分配到用户设定的属性中后,然后求出剩余属性的停电数据信息对象的个体属性均值,再将该均值作为数据划分属性的新中心,然后再次重新分配,直到达到用户的满意值为止。这种方法能够根据用户设定的各种属性类型来实现不同电网设备停电的数据的不同分类。
3仿真实验与分析
在模拟仿真时,在国网安徽省电力有限公司内部提供的硬件资源和平台进行仿真和模拟。仿真系统采用的语言为VisuaIC,采用的服务器操作系统为WindowsServer2015,數据库管理系统软件为SQLServer2015,Web服务器软件为IIS6.O。采用的仿真试验根据IEC61850标准建立电能质量监测模型,实验时通过MMS协议将电能质量监测数据实时传递到主站,并对数据进行计算、存储。通过客户端内的Silverlight程序进行WCF服务,进而获取实时监测的电力网路数据,在OneNet平台中进行一体化处理、显示。试验结构原理图如图3所示。
实验时在电力网络中的不同位置分别设置5台电力网络质量检测模块。随机从采集检测数据,分别在50V、100V、120V、150V.200V和220V时电力网络线路附近监测线路上的停电信息情况。在此,仅仅对电压和电流的误差数据作为评估,测试数据样本如表2所示。
通过上述分析,当K=2时,能够将停电信息划分为2类(通过NIP语意的方式分别表示对应表中的1和2),因此可以看出属于那种故障类型。当K=3时,停电原因可以表示为继电器开关坏,转向泵漏油等其他类别中的3种(分别对应表中=3时的2、5等),由此可见,同种类型的停电信息之间的语义较为接近。当K值增加时,对于停电类型的划分将逐步地细化,当类别数增加时,聚类中心个数也在增加,在停电信息中,停电信息由于存在各种不同的情况,将刚开始聚类分析时被聚为一类的电网设备停电信息重新构成新的属性,使得停电信息类型的属性划分更加细化。
通过图4可以看出,在相同时间内,采用相同的常规设备仪器检定停电原因分析与采用NIP技术进行比较。采用常规方法的数据正确率低于80%,采用NLP技术时,数据的完整性高于90%,近乎100%。因此,比起常规方法的数据正确率,采用NLP技术的数据正确率略高。
4结论
通过采用NLP技术对电力电网中设备的各种智能停电原因进行智能分析。区别于常规技术,采用人工编制停用词表、机械分词法进行数据预处理,这种方式能够直接地描述智能电网停电原因信息。采用NLP技术设定的故障信息语句精短,语义容易理解。有利用用户在处理复杂信息时建立合理的向量空间模型,在应用过程中,通过采用自然语言处理的智能搜索引擎,便于用户更大程度地对电网智能数据进行分析。为后续实现智能电网分析技术提供重要技术支撑。