面向煤矿智能化建设领域的工业知识图谱构架方法研究及应用

2023-09-27 09:40张佳斌
科学与信息化 2023年18期
关键词:图谱煤矿智能化

张佳斌

1.煤炭科学研究总院有限公司 北京 100013;

2.天地科技股份有限公司北京技术研究分公司 北京 100013

引言

煤炭资源一直是中国经济发展的重要支撑,但也存在安全事故和资源浪费等问题。为了解决这些问题,煤矿智能化建设日益受到关注。知识图谱作为一种高效的数据结构,可以将领域内的知识和信息进行整合,有望为煤矿智能化建设提供更加智能化、精准化的技术支持。在煤矿智能化建设中,涉及多方面的知识如煤矿生产、机电设备、安全管理等领域。这些知识形成的海量数据难以有效整合和挖掘,而知识图谱可以通过抽取、建模、推理等方法将这些知识与信息组织起来,从而帮助人工智能系统有效地理解和利用领域内的知识和信息[1]。例如,知识图谱可以帮助煤矿工人管理设备、预测故障、优化生产过程,实现节能减排和安全生产等目标。

因此,研究面向煤矿智能化建设领域的工业知识图谱具有重要的研究意义。该研究可以促进煤矿智能化建设的整体发展,提高生产效率和安全水平,减少资源浪费和人员伤亡风险,同时也有助于推动国内人工智能、大数据等相关领域的发展。

1 系统设计

1.1 功能需求

要根据知识图谱中的结构化知识,简洁而准确地回答用户的问题,需要解决以下两个问题:第一是如何存储数以亿计的结构化知识,依据结构化查询语句对知识快速访问;第二是自然语言与结构化查询之间的语义鸿沟,导致自然语言难以直接映射为查询语句。本文设计的系统能够允许用户输入自然语言问题,它能准确地理解用户意图,将问题映射为结构化查询语句并访问知识图谱提取候选答案,最后展示给用户简洁而准确的答案,提高用户的查询体验。为了设计并实现目标系统,现将需求详细介绍如下。

基于知识图谱面向煤矿智能化建设领域的工业知识系统存在多方面的功能要求,主要分为问题接收与结果展示功能和知识图谱问答功能[2]。一方面,系统需要提供友好的用户交互界面,该界面既允许用户提交自然语言问题,又能够将答案简洁地展示给用户。另一方面,系统能够接收用户的请求,并将其提交给后台服务端对问题进行处理,基于知识图谱中的结构化知识产生问题的答案,以此实现知识图谱的面向煤矿智能化建设领域的工业知识系统的整体需求。面向煤矿智能化建设领域的工业知识系统提出的主要功能如下[3]:①资源存取:放置额外的资源或是其他相关知识文件。②相关知识点推荐:系统推荐所查询的相关知识点,减少再次搜寻数据的时间。

因此本课题构建一个基于知识图谱的面向煤矿智能化建设领域的工业知识系统来解决上述的问题。

1.2 系统架构

用户输入界面输入想要搜寻的信息,经由通过查询器处理,向存储知识点本体数据库要求相关信息回传至面向煤矿智能化建设领域的工业知识系统后,呈现在用户界面。系统采用的系统架构为三层式主从架构。三层式主从架构是为了解决两层式主从架构的客户端问题。系统的设计原则是从整体性、全面性、系统性的角度进行考虑,为了使得设计出的系统不仅能整体运行良好,而且更重要的是具备可扩展性、具有良好的兼容性、还具有很好的维护性。因此必须遵守一定的系统设计原则[4-5]:①由于每个系统都与数据打交道,因此对数据的存储能力的设计和大量数据之间的交互能力的设计是首先要考虑的设计因素,一个好的系统对数据的读取和写入要流畅快速,便于进行大数据的挖掘分析等工作。②不仅具有强大的数据存储能力,还要实现对数据的快速处理和多通道处理的设计需求。③为了便于数据的高效查询,对数据库的索引的建立、分区的创建、Sql的优化等内容进行设计,提高数据库不同分区的读写速度。④为了减少系统数据库的空间开销,通常利用各种压缩算法设计,以此来提高数据库内数据的压缩率。

1.3 知识实体抽取

为更加准确、高效地从工业知识文本中抽取出相关实体,将基于BiLSTM网络和LSTM网络设计一种编码器框架用于工业知识实体的抽取,此外在模型输入和实体识别过程中考虑了多种特征(Multi-features),由此提出一种基于多特征融合的工业知识领域命名实体识别模型(Multi-features-based BiLSTMLSTM for Named Entity Recognition in Threat Intelligence),记作MF-BiLSTM-LSTM。MF-BiLSTM-LSTM工业知识实体抽取框架中,针对工业知识句子序列,综合考虑了词特征、字符特征以及句法依存特征,将三类特征融合后作为模型的输入,进而利用BiLSTM网络对输入特征进行编码,得到更高级的句子序列特征[6]。由于自注意力机制(Self-attention,SelfAtt)可以直接学习序列中任意两个词之间的依赖权重,因此在BiLSTM网络之后引入自注意力权重的计算,进一步提升句子特征的表达[7]。在上述工业知识实体抽取框架中,采用LSTM作为标签解码器,而非传统被广泛使用的CRF模型,是由于当标签空间较丰富时,在模型训练过程中,前者已被证明比链式CRF模型更快。

1.4 知识构建的方法

本毕业设计将冗长的工业知识等详细的信息,以及报告内所有的资源等使用MySQL关系式数据库做存取,其作为本课题中的统常态数据库。为了呈现使用信息技术课程知识本体内object的关系特性,本课题利用符合相同领域的类别所属的知识点,作为推荐用于用户查询知识点的扩展。

2 系统的实现

2.1 数据采集实现

本系统开发了2套爬虫代码,分别去爬取了两个不同的网站:爬取时候设置了cookies和headers才绕过了反扒机制。解析html文本,清洗数据准备训练模型。使用精灵标注工具对数据进行标注,得到标注后的json文本,在编辑转换代码将json文件转换为bio标注。

2.2 知识实体实现

过去也曾有许多研究想要为工业知识做抽取分类,且比起通过知识特征,更多论文倾向用特征为工业知识做抽取分类,所以我们运用IDCNN与BiLSTM两种方法来将工业知识到适合的抽取。

2.2.1 数据预处理。中文断词采用预先训练好的断词模型将句子中的每个字词分隔,不仅能够将标点符号与字词分开,也能将缩写字拆分成单一的单词。删除停用词(Stop Words)指的是在中文中非常常用的字词,通常不太影响抽取分类,删除停用词能够帮助模型更加正确的分类文句抽取。本模块通过中文断词将云漏洞库数据进行前处理,经去除无用及噪音文字,再以词典内编制字词与文本比对,产生断词结果并进行词频统计,分析出最常出现的字词。

2.2.2 字词向量。以本文采用Word2Vec做字词向量,Word2Vec是Google 2013年由Tomas Mikolov等人所提出,通过学习大量没有标签的文本数据,将字词用数学向量的方式来代表他们的语意。并将字词嵌入到一个空间后,让语意相似的单字可以有较近的距离,可用来表示词与词之间的语意关系[8]。

2.2.3 模型构建。本文BiLSTM来做煤矿智能化建设领域的工业知识抽取分类。通过将四种特征合并成一个字段且限制每笔字段长度为500,经过 Word2Vec的Embedding后,通过单层32个、双层64个BiLSTM 神经元运算出的平均结果,找出最理想的抽取分类结果[9]。除了情报信息为较长的文字特征将每笔字段长度限制为500之外,其余3个文字特征长度限制都设置为20。图1为MF-BiLSTM-LSTM(M9)我们除了一样将较长的文字特征,通过IDCNN取得进阶的文字特征后,再交由BiLSTM学习序列关系的抽取特征之外,将其余3个较短的文字特征交由BiLSTM分类与M8做比较。

图1 MF-BiLSTM-LSTM(M9)模型架构图

2.2.4 模型训练。我们训练命名实体识别模型,训练了99个epoch,将误差从145降低到1.02左右。

2.3 系统实现

2.3.1 neo4j数据库构建。我们利用模型训练出数据,结合定义的本体规则生成知识图谱三元组,将三元组数据人工细节处理一遍,然后通过create_node创建本文的威胁知识节点,通过create_relation创建这些节点之间的关系。通过Graph类实现将知识图谱存入neo4j数据库。

2.3.2 django系统构建。构建django的rel数据库模型,将数据库存入sqlite数据库中,开发查询功能,实现知识图谱根据某些关键字查询其邻居结点[10]。生成对应的json数据,传给vue和d3js开发的知识图谱可视化的前端页面,形成网站交互功能。

2.4 功能分析

本节将展示基于知识图谱的面向煤矿智能化建设领域的工业知识系统的系统平台首页,用户搜索主界面,搜索结果展示。系统平台的首页,上方的功能列中有搜寻答案。以下将以本课题的知识点来演示系统的实现。

用户搜寻的主界面,用户可以输入相关的关键词来获取对应的知识点。首先需要对问句进行过滤,然后基于特征词进行对问句进行分类,最后基于对问句的分类来进行具体的答案提醒。详细的过程是python通过check_medical对问题进行过滤,找到问题的核心关键词,如果通过函数check_words来判断该关键词是否在本系统的词典中。然后通过answer_prettify搜寻相关问题的答案,具体根据question_type的类型来进行,具体都是通过查找相关的词典来进行。

4 结束语

通过基于知识图谱的工业知识分析可以很好地为煤矿管理人员提供相关参考。本文的研究可以促进煤矿智能化建设的整体发展,提高生产效率和安全水平,减少资源浪费和人员伤亡风险,同时也有助于推动国内人工智能、大数据等相关领域的发展。为了使该系统功能性能更加完善,本文的未来工作主要有以下几点[11-12]:①在问题预处理模块的实体链接阶段,为了能够更加准确的进行实体链接,在未来研究中可借鉴现有实体消歧方法,结合更多的知识信息定位问题中的知识图谱实体。②进一步完善数据库的内容,使数据库的内容更加的丰富,以满足更多用户的使用需求,未来将不仅仅局限于工业知识的知识内容。

猜你喜欢
图谱煤矿智能化
智能化战争多维透视
绘一张成长图谱
印刷智能化,下一站……
基于“物联网+”的智能化站所初探
补肾强身片UPLC指纹图谱
主动对接你思维的知识图谱
大型煤矿自动化控制系统的设计与应用
石油石化演进智能化
上半年确定关闭煤矿名单513处
去年95.6%煤矿实现“零死亡”