基于信息抽取的电网缺陷文本挖掘系统设计

2022-02-17 12:11宋立华
电子设计工程 2022年3期
关键词:精准度拉杆断路器

宋立华

(福建亿榕信息技术有限公司,福建福州 350003)

在对电网设备进行运行管理的过程中,会将设备故障、缺陷、维修和故障排除等信息记录在文档中[1],并以文字的形式存储于信息管理系统中,其中,既包含各种电力设备的历史信息,又包含各种电力设备的近期使用信息[2]。电力企业对设备缺陷的分类、分析、统计多采用人工进行,不仅工作量大、时间长,而且由于主观因素和经验差异,分类统计结果不够准确[3]。因此,对缺陷文本信息挖掘技术的研究显得尤为重要和迫切。目前,缺陷文本挖掘主要采用矢量空间方法,但单纯使用统计方法不能准确提取重要数字信息和量词;采用语义框架槽充填法进一步建立基于已有“故障与缺陷基本词汇”的本体论词典。在研究总结大量缺陷文本的基础上,建立了电网缺陷文本的基本语法模型。但是该模型既不存在词与词之间的空格,也不存在词与句之间的空格,词性与句法结构差异较大,文本挖掘结果不准确。为实现更深层次的信息挖掘,设计了一种基于信息抽取的电网缺陷文本挖掘系统。

1 系统硬件部分设计

在电网缺陷文本挖掘系统中,设备故障内容经常有详细的记录,系统硬件结构如图1 所示。

图1 系统硬件结构

由图1 可知,数据采集模块主要负责从互联网获取数据;网页分析模块主要负责对HTML 网页进行预处理;数据存储模块主要负责对大量文本信息进行存储;文字预处理模块主要负责对原始采集的文字数据进行处理;特征提取模块主要负责对文字内容挖掘中的热点信息进行提取;文本建模模块主要负责提取文字内容挖掘中的主题相关信息[4-6]。

自定义数据采集方案的功能是实现浏览器端用户和系统之间的连接,并控制数据采集规则;交互事件响应模块负责接收用户请求,并与服务器端数据存储设备进行通信;可视视图生成模块负责将客户端返回的文本挖掘结果显示给用户,并根据用户的交互需求实现页面的重置[7-9]。

1.1 数据存储模块

存储器是数据存储模块的核心,是数据存储的主要场所[10]。存储器分为内存储器和外存储器,其中内存储器可以直接访问存储器内部数据,而外存储器需要借助主存指令,才能访问存储器内部数据[11-13]。从外存储器中获取信息后,中央处理器才能把数据传输到内存中,内存储模块如图2 所示。

图2 内存储模块

由图2 可知,在用office 处理文档时,键盘输入的字符会储存在内存中。当数据保存到磁盘上时,存储器中的数据将被存储到外存储器(如硬盘)中[14]。一阶(L1)、二阶(L2)和三阶(L3)缓存是一阶缓存的模组,位于内存储器与外存储器之间,借此可避免数据储存等待时间过长。用外存储器存储数据时,需要经过这3 个等级的缓存模块;相反,用内存储器存储数据时,可以直接读取数据[15]。

1.2 应用服务器

应用服务器主要负责处理用户发送的、通常是无状态的请求信息,服务程序本身并不需要为用户请求记录上下文信息。该设计的优点是任何用户的请求都可以提交到任何应用服务器上[16]。事实上,应用服务器集群通常由负载均衡服务器来构建。

1.3 浏览器端

浏览器端可以是单进程的应用程序,也可以是使用IPC 通信的多进程应用程序,多进程具体分为:

浏览器进程:完成浏览标签的前进、后退,浏览地址栏、书签栏等任务,处理浏览器中一些不可见的底层操作,比如网络请求,文件访问等。

渲染进程:当显示标签时,负责相关工作,也称为绘图引擎。

插件进程:负责控制所用到的插件。

GPU 进程:负责处理整个应用程序GPU 任务。

2 系统软件部分设计

信息抽取就是把包含在文本中的信息进行结构化处理,建立便于使用数据库存储的组织形式。信息提取系统的输入信息是文本的原版,输出信息是固定格式的。抽取来自不同文件的信息并以统一格式进行集成,该集成方法的优势是数据易于检查、比较和自动处理。基于信息抽取的电网缺陷文本挖掘模型如图3 所示。

图3 挖掘模型

基于信息抽取挖掘过程包括以下5 个步骤:

将试验一所得数据制成时间函数和上拉杆角度(如图5所示)、上拉杆垂直力(如图6所示)、上拉杆水平力(如图7所示)、右拉杆垂直力(如图8所示)、右拉杆水平(如图9所示)、左拉杆垂直力(如图10所示)及在拉杆水平力(如图11所示),从上图可以看出,当毒饵喷撒机做提升试验时上拉杆角度在(32°~68°)的范围内。上拉杆垂直力在(0~7 285N)范围内;上拉杆水平力在(0~5 189N)范围内;右拉杆垂直力在(0~5 721N)范围内;右拉杆水平力在(0~5 575N)范围内;左拉杆垂直力在(0~5 238N)范围内;左拉杆水平力在(856~5 863N)范围内。

step1:预测有用信息。自动获取所有相关文件时,有必要尽可能地搜索不相关的信息,而有价值的信息可以通过网络爬虫来显示。

step2:抽取信息。作为数据挖掘的预处理阶段,信息提取包含了大量的信息元素,电网缺陷术语表如表1 所示。

表1 电网缺陷术语表

输入电网缺陷文本后,利用术语注解标准形式识别术语表1 中的内容,由此得到文本中的标准词汇。调度人员在某一固定周期内会对电网设备进行不同描述,由于调度人员对不同电网缺陷信息描述习惯a不同,其行为标签ti在固定周期中的覆盖率可表示为:

式(1)中,sum 表示调度员对某种电网设备出现故障缺陷问题的标签描述;T表示系统出现故障缺陷的时长。

电网缺陷记录的平均时间间隔计算公式为:

式(2)中,k表示电网缺陷记录次数;d表示时间间隔,则电网缺陷描述偏离度计算公式为:

如果电网设备出现故障是无周期性的,那么偏离度为0,否则偏离度与时间间隔d一致。设在固定时间内某种电网缺陷标签标记的时间间隔为d1,d2,…,dn,电网缺陷标签标记的周期可表示为:

如果电网缺陷发生在该周期内,则说明电网缺陷是具有周期性的,即在相同时间段内会出现周期性电网故障,在该段周期内,调度人员应当在标签中加入时间段描述标签。对于表1 中的缺陷等级术语分类,使用已标记的标准词汇分析后,输出语法角色标记的片段,如表2 所示。

表2 语法角色标记的缺陷等级术语片段

step3:建立数据仓库。数据仓库是一个集成的、用于支持管理决策的稳定数据集。作为一个信息平台,数据仓库主要利用星型模型和雪花型模型组织数据,使用户能够通过数据挖掘从数据中获取信息和知识。

step4:挖掘数据。数据采掘就是挖掘大量结构化数据的知识。

step5:结果可视化。运用信息可视化技术辅助展示挖掘结果。

3 实 验

选择某电网公司2015-2019 年的数据,共包括1 515 条有关变压器缺陷的文本历史记录,以该数据为基础,对基于信息抽取的电网缺陷文本挖掘系统设计的合理性进行实验验证分析。

3.1 文本挖掘精准度分析

分别使用向量空间法、语义框架槽填充方法和基于信息抽取方法分析变压器缺陷文本挖掘精准度,对比结果如图4 所示。

图4 不同方法缺陷文本挖掘精准度对比

由图4 可知,使用传统方法挖掘缺陷文本时,挖掘精准度明显低于所提方法;而所提方法的挖掘精准度较高,最低精准度也达到了85%,说明该方法的挖掘结果更可靠。

3.2 断路器缺陷文本挖掘精准度分析

以断路器为对象,对断路器发生故障下缺陷文本的挖掘精度进行分析,机械电磁拖动检流动作精度低是造成断路器出现缺陷的主要原因,机械电磁拖动检流动作如图5 所示。

图5 机械电磁拖动检流动作

根据图5 所示,对比不同方法的断路器缺陷文本挖掘精准度,结果如图6 所示。

图6 断路器缺陷文本挖掘精准度对比

由图6 可知,传统方法针对断路器缺陷文本进行挖掘时,挖掘精度较低。而使用所提方法对断路器缺陷文本进行挖掘时,挖掘精度明显更高。说明所提方法对断路器缺陷文本挖掘结果更可靠,充分验证了所提方法的有效性。

4 结束语

电网缺陷文本挖掘系统是一个基于信息抽取技术的网络热点内容挖掘系统,它将文本采集、大数据处理和文本信息可视化融为一体。该系统能够根据目标文本集合整合词汇信息,快速识别目标文本中的关键内容,帮助用户快速获取网络信息重载环境下的宏观信息。从系统性能方面,利用信息提取技术,实现了文本分析模块,在文本特征和主题挖掘过程中,计算了网络缺陷描述的偏差度,从而大大提高了网络缺陷处理结果的准确性。

猜你喜欢
精准度拉杆断路器
移动式港口起重机塔身及拉杆设计分析
M形屋架张拉施工过程监测研究
SQ6 型运输汽车专用车渡板拉杆试验及改进设计
让党建活动更加有“味”——礼泉县增强“两新”党建精准度
基于高精度差分法的线性常微分方程边值问题研究
直升机飞行操纵系统拉杆裂纹故障探讨
六氟化硫断路器运行与异常处理
断路器控制回路异常分析及处理
一例断路器内部发热的诊断分析
SF6断路器拒动的原因分析及处理