韩一搏 董立红 叶鸥
文章編号:1671?251X(2024)04?0084?10 DOI:10.13272/j.issn.1671-251x.2023100009
摘要:利用知识图谱技术进行数据管理可实现对煤矿综采设备的有效表示,以便获取具有深度挖掘价值的信息。煤矿综采设备数据不均衡、某些类别设备实体较少等问题影响实体识别精度。针对上述问题,提出了一种基于联合编码的煤矿综采设备知识图谱构建方法。首先构建综采设备本体模型,确定概念及关系。然后设计实体识别模型:利用 Token Embedding、Position Embedding、Sentence Embedding 和 Task Embedding 4层 Embedding 结构与 Transformer?Encoder 进行煤矿综采设备数据编码,提取词语间的依赖关系及上下文信息特征;引入中文汉字字库,利用 Word2vec 模型进行编码,提取字形间的语义规则,解决煤矿综采设备数据中生僻字问题;使用 GRU 模型对综采设备数据和字库编码后的字符向量进行联合编码,融合向量特征;利用 Lattice?LSTM 模型进行字符解码,获取实体识别结果。最后利用图数据库技术,将抽取的知识以图谱的形式进行存储和组织,完成知识图谱构建。在煤矿综采设备数据集上进行实验验证,结果表明该方法对综采设备实体的识别准确率较现有方法提高了1.26%以上,在一定程度上缓解了在少量样本情况下构建煤矿综采设备知识图谱时因数据较少导致的精度不足问题。
关键词:煤矿综采设备;知识图谱;本体模型;联合编码;实体识别
中图分类号:TD67 文献标志码:A
Construction of knowledge graph for fully mechanized coal mining equipment based on joint coding
HAN Yibo, DONG Lihong, YE Ou
(College of Computer Science and Technology, Xi'an University of Science and Technology, Xi'an 710054, China)
Abstract: Using knowledge graph technology for data management can achieve effective representation of fully mechanized coal mining equipment. The information with deep mining value can be obtained. The imbalanced data of fully mechanized coal mining equipment and the limited number of entities in certain categories of equipment affect the precision of entity recognition models. In order to solve the above problems, a knowledge graph construction method for fully mechanized coal mining equipment based on joint coding is proposed. Firstly, the fully mechanized coal mining equipment ontology model is constructed, determining the concepts and relationships. Secondly, the entity recognition model is designed. The model uses Token Embedding, Position Embedding, Sentence Embedding, and Task Embedding 4-layer Embedding structures and Transformer Encoder to encode fully mechanized coal mining equipment data, extract dependency relationships and contextual information features between words. The model introduces a Chinese character library, using the Word2vec model for encoding, extracting semantic rules between characters, and solving the problem of rare characters in fully mechanized coal mining equipment data. The model uses the GRU model to jointly encode the data of fully mechanized coal mining equipment and the character vectors encoded in the font library, and fuse vector features. The model uses the Lattice-LSTM model for character decoding to obtain entity recognitionresults. Finally, the model uses graph database technology to store and organize extracted knowledge in the form of graphs, completing the construction of knowledge graphs. Experimental verification is conducted on the dataset of fully mechanized coal mining equipment. The results show that the method improves the recognition accuracy of fully mechanized coal mining equipment entities by more than 1.26% compared to existing methods, which to some extent alleviates the low accuracy problem caused by insufficient data when constructing a knowledge graph of fully mechanized coal mining equipment in a small sample situation.
Key words: fully mechanized coal mining equipment; knowledge graph; ontology model; joint coding;entity recognition
0引言
我国煤矿行业正处于从自动化向信息化、智能化的转型升级阶段[1]。随着煤矿信息化程度不断提高,机电设备数量不断增加,设备之间的关系变得愈加复杂。由于没有相对完整的煤矿综采设备知识管理体系,用户无法在短时间内了解和整理有效的煤矿综采设备知识,导致大量具有深度挖掘价值的知识难以得到有效利用。因此,煤矿综采设备知识整合及知识管理成为煤矿数据挖掘与分析领域的重點和热点研究内容。
目前,国内外学者针对煤矿领域知识管理问题的研究主要分为2类:①基于大数据技术的数据管理。曹现刚等[2]搭建了基于 Hadoop 的煤矿企业大数据管理平台,实现了数据采集、多元数据融合、分布式存储、大数据挖掘分析等一体化,提高了煤矿机电设备运行状态数据的管理能力。高晶等[3]通过搭建适合 BP 数据集的 Hadoop 大数据框架,对企业内部已有多系统信息资源进行整理、清洗、分析、归纳,从不同角度挖掘信息之间的规律、模式等隐含知识。 QiaoWanguan 等[4]从特征分析的角度研究煤矿安全大数据模型,设计了 CMSBD(Coal Mine Safety Big Data,煤矿安全大数据)的研究范式和技术框架,以更好地管理煤矿安全数据。该类方法解决了煤矿数据管理效率低的问题,但缺少对煤矿知识的有效表示,难以获取具有深度挖掘价值的信息。②基于知识图谱的数据整合及挖掘分析。吴雪峰等[5]通过定义概念、关系等构建知识本体,并基于深度学习模型识别实体,在煤矿领域知识图谱构建方面进行了初步尝试。刘鹏等[6]构建了煤矿安全知识图谱,并引入基于 Spark 的并行朴素贝叶斯算法的智能查询方法,首次利用知识图谱进行场景应用。李哲等[7]通过定义四元组本体模型,并基于 BiLSTM (Bidirectional Long?Short Term Memory,双向长短期记忆)+CRF(Conditional Random Field,条件随机场)模型进行知识抽取,构建了煤矿机电设备事故知识图谱。Zhang Guozhen 等[8]通过分析煤矿设备维修知识体系的特点,构建了煤矿设备维修本体模型,并提出了 BERT(Bidirectional Encoder Representations from Transformers,双向编码器表示)?BiLSTM?CRF 实体识别模型,提高了实体识别精度,为知识抽取引入新的研究思路。 I. Osipova 等[9]通过分析地质、水文、地球物理和采矿等知识,提出了关于煤与瓦斯突出过程的知识结构,通过构建本体较好地解决了煤矿安全生产中的瓦斯闪爆问题。该类方法可以实现对信息的深度挖掘,但由于煤矿综采设备类型繁杂,缺乏对综采设备维护知识的表示能力,较难形成相对完整的综采设备维护知识管理体系,不利于综采设备维护知识的关联和挖掘,导致煤矿综采设备维护知识较难充分利用。
针对上述问题,同时考虑煤矿综采设备数据不均衡、某些类别设备实体较少等问题,引入中文汉字字库,将其与综采设备数据进行特征融合,设计了一种基于联合编码的煤矿综采设备知识图谱构建方法,并通过煤矿综采设备数据集验证了该方法的有效性。
1煤矿综采设备知识图谱构建总体思路
2012年 Google 首次提出“知识图谱”概念,旨在通过利用“实体、关系和属性”阐述客观世界的概念、实体、事件[10]。其目的是建立一个庞大的结构化知识库,以帮助计算机系统更好地理解和处理自然语言,并提供更智能、精确的搜索结果。知识图谱中实体(如煤矿综采设备、使用地点等)被表示为节点,而实体间的关系被表示为边。每个实体可具有多个属性来描述实体的特征。构建煤矿综采设备知识图谱需要对知识进行分析、归纳和标准化。本体[11]作为一种形式化的知识表示方法,用于定义领域中的概念、类别、属性及关系,为知识图谱提供语义框架。
本文将煤矿综采设备核心概念分为综采设备整机、综采设备部件、传感器、通信协议、设备维护、设备维修、工种、相关资料等八大类,并分析本体间的复杂关系。采用三元组本体模型Ω=
采用自顶向下和自下向上的混合方式[12]构建综采设备知识图谱,具体流程如图2所示。①构建综采设备本体模型,确定概念及关系。②基于联合编码识别命名实体。将收集的综采设备数据通过 Token Embedding, Position Embedding, Sentence Embedding, Task Embedding 结构由文本转换为连续的向量表示,并捕捉词语之间的语义关系、位置信息、整体句子信息和任务特定信息,之后经过24层叠加的 Transformer?Encoder 捕捉词语间的依赖关系及上下文信息。由于少量样本训练数据难以充分训练模型,出现模型欠拟合问题,所以引入中文汉字字库进行样本扩充。考虑直接合并2份数据极易出现模型过多关注样本中的噪声与细节而导致模型过拟合的问题,对综采设备数据集与字库分别进行编码。由于编码生成的2种字符向量具有不同的特征分布,所以对2种字符向量进行标准化,将不同特征映射到同一尺度,并使用 GRU(Gated Recurrent Unit,门控循环单元)模型进行向量定长处理,通过横向拼接后再次使用 GRU 模型进行特征融合。之后将融合特征向量输入 Lattice?LSTM 进行字符解码,完成综采设备实体提取。③使用 Neo4j 图数据库进行知识存储,实现煤矿综采设备知识图谱构建。
2煤矿综采设备知识图谱构建关键技术
2.1煤矿综采设备数据预处理
尽管目前在煤矿设备管理和生产监控等系统中已存储大量的综采设备信息,但多源异构的综采设备数据来源给综采设备知识管理带来了一定的阻碍。为了构建煤矿综采设备知识图谱,需在获取综采设备原始数据后,按照数据特性和结构化要求对数据进行预处理,步骤如下。
1)数据清洗。使用正则表达式去除煤矿综采设备原始数据中的特殊字符和标点符号,例如:相关资料文本中“《煤矿安全规程》明确规定,井下人员必须随身携带自救器”清洗为“煤矿安全规程明确规定井下人员必须随身携带自救器”;检测并去除设备维护文本中“井下电缆的连接要求如下”與“井下电缆的连接,必须符合下列要求”清洗为“井下电缆的连接要求如下”。
2)中文分词。煤矿环境中设备数据通常呈现复杂多样的特征,而中文语言的特别之处在于其缺乏明确的单词边界,使得词与词之间没有空格或其他明显的分隔符,对理解《煤矿采掘机械与设备》等非结构化文本数据的语义特征提出了更高的要求。对此,需通过分词将连续的综采设备数据文本语料切分成离散的词语,从而使模型能更好理解句子的语义特征。本文采用 jieba 中文分词组件对综采设备数据文本语料进行分词。通过对综采设备数据文本语料进行细致分析,可以更好地把握设备功能、运行状态、维护需求及可能存在的潜在风险。《煤矿采掘机械与设备》中截取的部分语料分词效果见表1。
3)语料标注。煤矿领域目前尚缺乏公开或标准的可用于训练的已标注数据集。考虑到煤矿环境中设备整机等数据往往具有复杂性和多样性,为了确保训练模型的有效性和泛化性,需通过人工标注方式为这些数据添加语义标签。常见的标注标签一般分为 BIO[12]和 BIOES[13]2种,本文依照 BIOES 五元标注法构建标签表 D ={B; I; E; S ; O}。其中 B为实体起始字;I为实体中间字;E为实体结尾字;S 为单个字所构成的实体;O为除实体以外的字。从《综采技术手册(上下)》截选的部分语料标注结果见表2。
通过上述预处理操作,为煤矿综采设备本体库构建奠定了坚实的基础,并为综采设备知识存储关联映射提供了可靠的数据支持。
2.2基于联合编码的字符编码器设计
2.2.1煤矿综采设备数据编码
Embedding 是一种常用的自然语言处理技术,用于将离散的符号(如词语、句子、段落)映射为连续的向量表示。它通过将符号与向量空间中的点相对应,将离散的符号转换为实数值向量。其目标是将符号的语义信息编码到向量表示中,使得具有相似语义的符号在向量空间中更加靠近,从而为计算机模型提供更好的语义理解能力。通过 Embedding 技术可将文本数据转换为计算机可以处理的形式,从而应用于各种自然语言处理任务。
本文使用4层 Embedding 从不同层面对煤矿综采设备数据文本语料进行编码。其中 Token Embedding 主要用于将煤矿综采设备语料中的离散词语转换为连续的向量空间,捕捉词语之间的语义相似性,并为每个词提供一个基础表示。Position Embedding 用于编码词语在句子或文本中的位置信息,使模型可以区分不同位置上的词语,并捕捉词语之间的相对距离。 Sentence Embedding 通过将词嵌入或词级别的表示进行组合,捕捉句子的语义和上下文信息。 Task Embedding 用于引入任务相关的嵌入向量,将模型的注意力和重点放在当前任务上,使模型学习任务特定的信息和模式。
Transformer?Encoder [14]是一种基于自注意力机制的神经网络模型,主要将输入序列中的每个元素映射为其向量表示,同时保留元素之间的语义和位置信息。 Transformer?Encoder 单元结构如图3所示。通过多层 Transformer?Encoder 堆叠,模型可以提取输入序列中的语义和结构信息,生成更丰富的向量表示。本文采用24层 Encoder,每层中有1个 Attention,头数为12,词向量维度为768。
煤矿综采设备数据编码过程如下。
1)Token Embedding。设煤矿综采设备文本序列为x ={x1; x2;···; xn },其中n为输入序列长度,xi 为序列中第 i个字,i=1, 2, ···, n 。通过 Token Embedding 将 xi 映射为实数向量ei 。
ei = Qtoken one_hot(xi ) (1)
式中:Qtoken 为固定大小的词嵌入矩阵;one_hot(·)为 one?hot 编码函数。
2)Position Embedding。通过 Position Embedding 为每个字 xi 的位置编码固定大小的向量表示 pi。
式中:k为维度索引;l 为字符嵌入的维度。
3)Sentence Embedding。通过 Sentence Embedding 对 Token Embedding 和 Position Embedding 输出进行加权平均计算,得到整个句子的向量表示 s。
式中:W1,W2分别为 Token Embedding,Position Embedding 的权重矩阵。
4)Transformer?Encoder 编码。通过梯度下降学习到 Task Embedding 并输入 Transformer?Encoder 中,计算输入序列与其他位置的注意力分数αi。
式中:d 为注意力机制的维度;qi 为经过线性变换后得到的查询向量。
对αi 进行加权平均,计算相应位置的输入向量 zi。
式中:u 为词向量个数;vj 为第j个词向量线性变换结果。5)全连接计算。通过前馈神经网络对每个位置的输出向量 zi 进行全连接,得到最终向量维度为768的输出向量 Ti。
式中:ReLU(·)为激活函数;w1; w2为训练权重;b1, b2为偏置。
2.2.2基于 Word2vec模型的字库编码
由于煤矿数据零散,获取相关研究数据较为困难。本文引入字库数据以扩充数据量,使实体识别模型得到充分训练。将原数据与字库数据融合训练易出现模型过多关注样本中噪声与细节而导致模型过拟合的问题,因此,将原数据与字库数据分开编码,最后对2种字符向量进行联合编码,达到最佳编码效果。
Word2vec 模型是由输入层、隐藏层和输出层组成的神经网络[16],能够得到表示语义的词向量。按照预测对象的不同,Word2vec 一般可以使用2种模型训练向量:①以中心词来预测上下文的 Skip? Gram 模型。②以上下文预测中心词的 Continues Bag of Words模型。本文采用 Skip?Gram 模型,其由前馈神经网络模型改进而来,结构如图4所示。
本文采用的字库输入层 X与隐藏层 H之间的权重矩阵WVXN是需要通过训练学习的参数,V为词汇表大小,N为隐藏层神经元数。输出的词向量为 N X V维WN(、)XV 。
隐藏层节点输入由输入层加权求和计算得到。由于输入为 one?hot 向量,所以只有输入向量中的非0元素才能在计算后产生隐藏层的输入。对隐藏层的对应节点加权求和,得到输出层的输出。最终得到向量维度为300的字库字符向量。
2.2.3基于 GRU 的联合编码
因 Encoder模块和 Word2vec模型训练出的2个字符向量具有不同的维度和表示方式,进行后续解码任务时需合并2种不同的向量,作为解码任务的输入。在进行拼接时需要确保2个向量的维度一致。本文基于 GRU 结构进行联合编码,使向量维度统一,以获取2种编码的字符表示。由于2种字符向量具有不同的特征分布,在进行联合编码前需进行特征规范化。归一化和标准化是常用的特征规范化方式,其中归一化会将特征缩放到一个较小范围内而导致信息损失,因此选用标准化方式进行特征规范化。
根据下式将2种字符向量的特征值缩放到均值为0、标准差为1的正态分布中。
式中:Z'为标准化的字符向量特征值;Z为字符向量特征值;?为特征值的均值;ξ为特征值的标准差。
标准化的优点是可以处理不同特征的取值范围不同的情况,同时可将特征值映射到同一尺度上,使不同特征对模型的贡献权重更加平衡。本文将字库的字符向量维度映射至768,与煤矿综采设备原始数据字符向量维度保持一致。
GRU 是一种改进的 RNN(Recurrent Neural Network,循环神经网络)单元,可以解决传统 RNN 中的梯度消失和梯度爆炸问题,并具有较强的记忆能力[17]。GRU 引入门控机制,通过门控单元来控制信息的流动。其具有更新门和重置门2个门控单元。
当输入序列为{y1;y2;···;yT }(T 为当前时刻),隐藏状态为{h1; h2;···; hT }时,计算 GRU 的重置门:
式中:σ(·)为 sigmoid 激活函数;Wr 为重置门的权重矩阵;[hT?1;yT ]表示将前一时刻隐藏状态 hT?1和当前时刻的输入yT 进行拼接。
更新门为
式中Wz 为更新门的权重矩阵。
候选隐藏状态为
式中:W为候选隐藏状态的权重矩阵;⊙为矩阵元素相乘符号。
则更新的隐藏状态为
在联合编码时,先用 GRU 对标准化的向量进行
定长处理并进行横向拼接,再通过 GRU 对序列数据进行处理,融合关键特征并生成联合编码表示,为后续任务提供更丰富的特征表示。
2.3 Lattice?LSTM 解码器设计
Lattice?LSTM 模型能够充分利用单词和词序信息,在字的基础上融入词语的编码信息[17]。其网络结构如图5所示。 Lattice?LSTM 模型主干仍是 LSTM?CRF。与传统 LSTM 模型不同,Lattice?LSTM 模型根据事先构造的词库表选取所需的前向词汇信息融入字符信息中。
将 GRU 模型输出的字符序列作为 Lattice?LSTM 模型输入序列{φ1;φ2;···;φM },M 为字符数。句中第 J(J=1,2,… , M)个字向量为
式中L(·)为字向量映射函数。
T 时刻 LSTM 模型隐藏状态为
式中:Λ为 LSTM 模型训练过程中学习到的参数;θ为 LSTM 模型的超参数。
在hT(L)STM 上使用 CRF,得到标签序列 o 的概率为
式中:K为 CRF 模型特有参数;γ为 CRF 模型偏差。
2.4知识图谱存储及可视化
在知识图谱中,常用关系型数据库、RDF 三元组和图数据库存储知识[18]。与前2种方法相比,图数据库只需插入节点和边即可实现数据的高效存储和查询,因此采用图数据库 Neo4j 实现煤矿综采设备维护知识的存储。在 Neo4j 中,使用标签来表示综采设备维护知识的概念,节点和节点属性用于表示实体及其属性,边和边属性用于表示实体之间的关系和关系属性。基于 Neo4j 的知识存储映射方案见表3。
利用 Cypher 語言对煤矿综采设备知识进行存储、查询、更新及删除操作。使用 CREATE 语句创建煤矿设备实体节点;使用 MATCH查询实体节点或关系;使用 WHERE 进行条件设置。存储部分结果如图6所示。
3实验及结果分析
3.1数据集建立
为了验证本文模型在少量样本命名识别任务中的有效性,对收集的《煤矿机电设备(第3版)》《煤矿采掘机械与设备》《综采技术手册》和百科网站中相关数据及字库进行预处理,经过数据清洗、中文分词和语料标注后,得到煤矿综采设备领域数据集。数据集规模见表4。该数据集共有8种不同的实体类别,包含设备整机(EQU)、部件(PART)、通信协议(COM)等。字库采用中国国家标准简体中文字符集,共包含6620个简体汉字、148个汉字偏旁部首。
3.2实验设置
实验在 CentOS7操作系统、Intel(R)Xeon(R) Silver 4210 CPU@2.20 GHz 处理器、NVIDIA GeForce PTX 2080Ti(11 GiB)GPU 处理器、python3.8环境下进行。在该实验环境下,Word2vec 模型使用默认参数训练,其余各模型参数设置见表5。
3.3评价指标
采用准确率 P、召回率 R 及 F1值作为评价指标。 P 衡量模型的精确性,R 衡量模型的覆盖能力,F1分数为 P 与 R 的调和平均数,衡量模型的性能。
式中:λc 为预测正确的实体数;λt 为实体总数;λd 为数据集实体数。
3.4模型实验
分别进行消融实验及对比实验。消融实验中设计4种实验方式:①将本文模型作为基准模型。②将煤矿综采设备原始数据与字库合并利用 Embedding 和 Transformer?Encoder 编码(Encoder? Lattice?LSTM 模型)。③将编码器 Lattice?LSTM 模型替换为 BiLSTM 模型(Encoder?Word2vec?GRU? BiLSTM 模型)。④將煤矿综采设备原始数据与字
合并利用 Word2vec模型进行编码(Word2vec? Lattice?LSTM 模型)。模型训练结果如图7—图9所示。可看出在消融实验中本文模型在训练中精度更高,且收敛效果优于对比模型。
消融实验结果见表6。可看出本文模型的准确率分别较 Encoder?Lattice?LSTM 模型、Encoder? Word2vec?GRU?BiLSTM 模型、Word2vec?Lattice? LSTM 模型高0.92%,4.93%,8.02%。主要原因:①合并数据会造成模型过多关注噪声,进而影响模型精度。本文模型通过对煤矿综采设备数据与中文汉字字库分别编码,减少噪声影响。② BiLSTM 未充分引入字形信息。本文模型采用 Lattice?LSTM 进行字形特征表示,从而提升识别精度。
为了更好地验证本文模型的可行性及准确性,在所建数据集上对本文模型与 ALBERT?BIGRU? CRF 小样本命名实体识别模型[19]、BERT?BiLSTM? CRF+BERT?CRF 分词的联合训练模型[20]、传统Lattice?LSTM 模型、BiLSTM?CRF [21]模型进行对比实验,结果如图10—图12所示。可看出本文模型在前期的收敛速度较其他模型快,且最终收敛效果优于其他模型。
对比实验结果见表7。可看出本文模型准确率较 ALBERT?BIGRU?CRF 模型、BERT?BiLSTM? CRF+BERT?CRF 模型、Lattice?LSTM 模型、BiLSTM? CRF 模型分别提高了1.26%,5.32%,11.88%,14.86%。主要原因:① ALBERT?BIGRU?CRF 模型未考虑模型对于生僻字学习不充分的问题。本文模型通过引入中文汉字字库,可充分学习生僻字,提高了命名实体识别精度。② BERT?BiLSTM?CRF+BERT?CRF 模型未考虑在联合训练过程中易出现过度关注样本噪声与细节而导致模型过拟合的问题。本文模型通过对煤矿综采设备数据与中文汉字字库分别编码,降低了对噪声的关注度。③ Lattice?LSTM 模型与 BiLSTM?CRF 模型未考虑少样本情况。本文模型利用联合编码技术,扩充模型训练语料,提高了识别精度。
4结论
1)构建了煤矿综采设备知识图谱:通过定义概念、属性和关系,建立了一个本体模型,用于表示煤矿综采设备领域的语义关系;设计实体识别模型,对文本数据进行处理,从中提取出设备名称、传感器、通信协议等重要信息;利用图数据库技术,将抽取到的知识以图谱的形式进行存储和组织,完成知识图谱构建。
2)引入字库以扩充煤矿原始数据,设计联合编码器,融合原始数据和字库的特征信息,解决了少量数据集实体识别中模型难以理解和区分生僻字的问题,提高了煤矿综采设备实体识别精度。
3)实验表明,本文模型对煤矿综采设备实体识别准确率较现有模型提高了1.26%以上,提升了煤矿综采设备知识图谱构建的完整性。
4)针对煤矿少样本知识图谱构建问题,未来重点研究2个方面的内容:①少量样本关系抽取;②利用知识推理进行少量样本知识图谱的知识补全。
参考文献(References):
[1]王国法,任怀伟,马宏伟,等.煤矿智能化基础理论体系研究[J].智能矿山,2023,4(2):2-8.
WANG Guofa,REN Huaiwei,MA Hongwei,et al. Research on the basic theoretical system of coal mine inteliigence[J]. Journal of Intelligent Mine,2023,4(2):2-8.
[2]曹现刚,罗璇,张鑫媛,等.煤矿机电设备运行状态大数据管理平台设计[J].煤炭工程,2020,52(2):22-26.
CAO Xiangang,LUO Xuan,ZHANG Xinyuan,et al. Design of big data management platform for operation status of coal mine electromechanical equipment[J].Coal Engineering,2020,52(2):22-26.
[3]高晶,赵良君,吕旭阳.基于数据挖掘的煤矿安全管理大数据平台[J].煤矿安全,2022,53(6):121-125.
GAO Jing,ZHAO Liangjun,LYU Xuyang. Coal mine safety management big data platform based on data mining[J]. Safety in Coal Mines,2022,53(6):121-125.
[4] QIAO Wanguan, CHEN Xue. Connotation, characteristics and framework of coal mine safety big data[J]. Heliyon,2022,8(11). DOI:10.1016/j. heliyon.2022.e11834.
[5]吴雪峰,赵志凯,王莉,等.煤矿巷道支护领域知识图谱构建[J].工矿自动化,2019,45(6):42-46.
WU Xuefeng, ZHAO Zhikai, WANG Li, et al. Construction of knowledge graph of coal mine roadway support field[J]. Industry and Mine Automation,2019,45(6):42-46.
[6]劉鹏,叶帅,舒雅,等.煤矿安全知识图谱构建及智能查询方法研究[J].中文信息学报,2020,34(11):49-59.
LIU Peng,YE Shuai,SHU Ya,et al. Coalmine safety: knowledge graph construction and its QA approach[J]. Journal of Chinese Information Processing,2020,34(11):49-59.
[7]李哲,周斌,李文慧,等.煤矿机电设备事故知识图谱构建及应用[J].工矿自动化,2022,48(1):109-112.
LI Zhe,ZHOU Bin,LI Wenhui,et al. Construction and application of mine electromechanical equipment accident knowledge graph[J]. Industry and Mine Automation,2022,48(1):109-112.
[8] ZHANG Guozhen, CAO Xiangang, ZHANG Mengyuan. A knowledge graph system for the maintenance of coal mine equipment[J]. Mathematical Problems in Engineering,2021,2021:1-13.
[9] OSIPOVA I,GOSPODINOVA V. Representation of the process of sudden outbursts of coal and gas using a knowledge graph[C]. E3S Web of Conferences,2020. DOI:10.1051/e3sconf/202019204022.
[10] ETZIONI O,BANKO M,SODERLAND S,et al. Open information extraction from the web[J]. Communications of the ACM,2008,51(12):68-74.
[11]施昭,曾鹏,于海斌.基于本体的制造知识建模方法及其应用[J].计算机集成制造系统,2018,24(11):2653-2664.
SHI Zhao,ZENG Peng,YU Haibin. Ontology-based modeling method for manufacturing knowledge and its application[J]. Computer Integrated Manufacturing Systems,2018,24(11):2653-2664.
[12]封红旗,孙杨,杨森,等.基于 BERT 的中文电子病历命名实体识别[J].计算机工程与设计,2023,44(4):1220-1227.
FENG Hongqi,SUN Yang,YANG Sen,et al. Chinese electronic medical record named entity recognition based on BERT methods[J]. Computer Engineering and Design,2023,44(4):1220-1227.
[13]蔡安江,张妍,任志刚.煤矿综采设备故障知识图谱构建[J].工矿自动化,2023,49(5):46-51.
CAI Anjiang, ZHANG Yan, REN Zhigang. Fault knowledge graph construction for coal mine fully mechanized mining equipment[J]. Journal of Mine Automation,2023,49(5):46-51.
[14] COLLARANA D,GALKIN M,TRAVERSO-RIBóN I, et al. Semantic data integration for knowledge graph construction at query time[C]. IEEE 11th International Conference on Semantic Computing,San Diego,2017:109-116.
[15] SUN Yu,WANG Shuohuan,LI Yukun,et al. Ernie 2.0: a continual pre-training framework for language understanding[C]. The AAAI Conference on Artificial Intelligence, New York,2019. DOI:10.1609/aaai. v34i05.6428.
[16] CHURCH K W. Word2Vec[J]. Natural Language Engineering,2017,23(1):155-162.
[17]丁辰晖,夏鸿斌,刘渊.融合知识图谱与注意力机制的短文本分类模型[J].计算机工程,2021,47(1):94-100.
DING Chenhui,XIA Hongbin,LIU Yuan. Short text classification model combining knowledge graph and attention mechanism[J]. Computer Engineering,2021,47(1):94-100.
[18] ZHANG Yue,YANG Jie. Chinese NER using lattice LSTM[Z/OL].[2023-09-10]. https://doi.org/10.48550/ arXiv.1805.02023.
[19]宫法明,李翛然.基于 Neo4j 的海量石油领域本体数据存储研究[J].计算机科学,2018,45(增刊1):549-554.
GONG Faming,LI Xiaoran. Research on ontology data storage of massive oil field based on Neo4j[J]. Computer Science,2018,45(S1):549-554.
[20]马良荔,李陶圆,刘爱军,等.基于迁移学习的小数据集命名实体识别研究[J].华中科技大学学报(自然科学版),2022,50(2):118-123.
MA Liangli,LI Taoyuan,LIU Aijun,et al. Research on named entity recognition method based on transfer learning for small data sets [J]. Journal of Huazhong University of Science and Technology(Natural Science Edition),2022,50(2):118-123.
[21]秦健,侯建新,謝怡宁,等.医疗文本的小样本命名实体识别[J].哈尔滨理工大学学报,2021,26(4):94-101.
QIN Jian,HOU Jianxin,XIE Yining,et al. Few-shot named entity recognition for medical text [J]. Journal of Harbin University of Science and Technology,2021,26(4):94-101.
[22]于韬,张英,拥措.基于小样本学习的藏文命名实体识别[J].计算机与现代化,2023(5):13-19.
YU Tao,ZHANG Ying,YONG T. Tibetan named entity recognition based on small sample learning[J]. Computer and Modernization,2023(5):13-19.