贝毅君,周 勇,高克威
(浙江大学 软件学院,浙江 宁波 315000)
数控机床设备维护技术与工业生产的发展相辅相成,随着传统工业生产的持续发展,数控机床设备维护技术存在以下不足和局限性:
由于数据分散、繁杂,传统的设备管理系统信息检索效果非常不理想。各个数据之间其实是存在关联的,如设备和各个故障维修方法,两者存在着紧密联系。而传统的检索方法难以在越来越丰富的知识库中检索出想要的内容,因此知识问答技术应运而生。如今的知识问答不再像传统的检索一样,通过简单的关键字匹配完成,而是通过一定的自然语言数据作为问答的基础,对这些数据进行处理,使得其能够适用于相关的问答领域。
本文旨在探索数控机床生产设备维护领域的新方法,研究主要围绕面向数控机床设备维护的知识推理技术。主要的研究目标是利用知识推理能力,通过已有数控机床设备故障解决方案推理出新故障的解决方案,对不完整的知识图谱进行补全,弥补数控机床设备维护领域的知识图谱不完整给其问答带来的影响,使得数控机床设备维护领域的知识问答能够更加的准确。同时,将数控机床设备维护手册等专家经验搬到线上,数控机床设备维护人员能够通过它获得不同故障问题的解决方案,这对于提高企业的数控设备维护人员的综合素质极其重要。具体内容包括:
(1)研究一种适合数控机床设备维护领域的知识图谱补全方法,该方法利用现有数控机床设备维护三元组信息推断出部分缺失的关系,进而实现对该领域的知识图谱补全。该方法基于Attention机制,并与卷积神经网络(Convolutional Neural Network, CNN)和双向门控循环单元(Bi-directional Gated Recurrent Unit, BiGRU)进行耦合。同时对比类似的知识图谱链接预测的方法在数控机床设备维护领域的效果。
(2)研究数控机床设备维护领域的多跳知识问答,目前针对该领域的知识问答研究相对比较匮乏,这将是一个重要的探索方向。本文将从Embedding的方法进行考虑,并将补全的知识图谱数据作为数控机床设备维护领域的答案数据来源,最后针对模型的各个方面进行评估。
现如今,知识图谱技术迅速发展,一些著名的数控机床企业也将目光转向了知识图谱技术,他们利用知识图谱来帮助企业为不同垂直领域的数据进行关联,为整体解决方案提供服务。周扬等[1]利用飞机的故障知识进行模型的构建以及检索应用,解决目前飞机维修工作中故障知识难以共享的问题。秦大力[2]通过本体模型来表示维护相关的一些知识,能够形式化地定义设备维护知识空间。张勇等[3]提出了采用知识网格的模式实现设备维护领域的知识共享。将知识图谱技术运用到智能制造领域,它能够将数据与数据之间的关系凸显出来,而不是让数据相互独立,毫无联系。
近年来,基于路径的推理方法,DAS等[4-5]、JIANG等[6]已成功应用递归神经网络(Recurrent Neural Network, RNN)通过将推理路径嵌入到低维空间来实现知识图谱补全任务,并已相对于路径排序算法(Path-Ranking Algorithm, PRA)有显著改进。Embedding方法是一种比较有用而且盛行的技术,它是许多知识图谱细化方法的基础。基于知识嵌入的方法,比如TransE[7]和TransR[8],在低维向量空间中将实体与关系表现得淋漓尽致,同时实体和关系之间距离的特征也一一体现。
然后,通过比较两个训练对象的嵌入之间的距离与查询关系的嵌入之间的距离来判断查询关系是否存在。HILDEBRANDT等[9]提出一种基于辩论动力学的知识图谱自动推理方法。JAGVARAL等[10]提出一种知识图谱补全的方法,该方法将BiLSTM和CNN注意力机制相结合,这是一种基于路径的模型。LIN等[11]通过引入奖励函数和动作后退来改进这两种名为MultiHopKG的方法。WANG等[12]基于Attention机制和长短期记忆网络(Long Short Term Memory network, LSTM)产生了一个框架(ALSTM),该框架将结构学习和端到端的神经网络模型中一阶逻辑规则的参数学习相互关联,这也是查询相关路径的方法。
最近提出的许多问答任务不仅需要机器理解问题和上下文,还需要通过引用外部知识对实体及其关系进行推理[13-14]。尽管大规模的预训练语言模型(Pretrained Language Model, PTLM)[15]取得了成功,但是这些模型没有提供可解释的预测,因为未明确说明其训练前语料库中的知识,而是隐式学习了这些知识。而利用知识图谱能以一种直接方法对这些关系路径进行建模。KagNet[16]和MHPGM[17]从知识图谱(Knowledge Graph, KG)中提取多跳关系路径,并使用序列模型对其编码,此外,注意力机制在这些关系路径上的应用也可以进一步提供良好的解释性。但是,这些模型几乎不可扩展。
近些年来,知识问答获得了大量专家学者的关注。在多跳知识问答中,系统需要对KG的多个关系路径进行推理以获得最终的答案。通常情况下,KG一般是不完整的,这给知识图谱问答带来了更多的挑战,尤其对于多跳的知识问答来说。SUN等[18-19]提出使用外部文本语料库来处理知识图谱稀疏性。基于数控机床设备维护的知识问答研究几乎没有,这对于制造业数字化转型极为不利,应加大这方面的探索。
本文主要选择德国西门子(SIMENS)和日本发那科(FANUC)的数控机床维护案例作为研究的数据,主要原因如下:
(1)西门子和发那科的数控系统是国内外广泛使用的数控系统。
(2)西门子和发那科的数控系统是目前主流的数控系统,很多其他的数控系统都在学习其高精尖技术以及经验。
(3)使用西门子和发那科的数控系统的机床设备的维护手册开源程度较高,这意味着获取的数据相对比较完整,而其他很多数控机床的数据开放程度较低,导致数据难以获取,而对知识问答而言数据量越大效果越好。
针对西门子和发那科数控机床设备维护领域设计出本体模型,如图1所示。对数控机床设备维护案例中数据特点总结出设备、操作、现象、原因、方法等实体类型,同时对各个实体之间的关系进行表示,各个数据之间的特点通过本体模型能够非常客观的进行表现和阐明。本体模型的设计能够有效地支撑实体和关系的抽取工作,同时具有广泛的适用性,易于添加新的节点类型和关系。
数控机床设备维护领域的数据是稀疏的,信息的表达往往带有个人的偏好,同时知识抽取手段本身也非常影响知识图谱的质量,本文采用的数据不是网上公开的数据集,而是通过知识抽取手段获取得到的,实体之间的关系也存在一定的不完整性。研究提出的先图谱补全后知识问答算法的整体模型如图2所示。通过对图谱的补全降低其稀疏性,提高数控机床设备维护领域的知识问答准确率。基于ConvBiGUR和Attention机制的图谱补全模型如图3所示,基于Embedding的多跳知识问答模型如图4所示。
2.1.1 知识图谱补全的链接预测
三元组由源实体Es,目标实体Et和二元关系R组成,同时知识图谱G由一组三元组构成。每个三元组(es,r,et)是一项有序集合,其中:es,et∈E是源实体和目标实体;r∈R是它们之间的二元关系。本文通过现有的数控机床设备维护三元组信息推断出缺失的实体之间的关系,通过估计一个实体以某种关系链接到另一个实体上的概率。在研究中,将链接预测转化为所有可能链接集(三元组)的分数排序问题。
为了进行模型的评估,需要生成一些两个实体之间没关系的三元组,其中源实体和目标实体是随机抽取的实体。因此训练数据包含一组正确的三元组(es,r,et)∈G和一组错误的三元组(es,r,et)∉G。
对于知识图谱的三元组和训练三元组,首先采用PRA算法执行随机游走,枚举出用于训练三元组的有界关系路径。在整个知识图谱上进行随机游走,从源实体开始,一直到达目的实体,同时记录源实体到目的实体路径上的关系。这样可以获得多个关系路径,并且获得的关系路径p包含一系列关系{r1,r2,…,rl}。然后,给定从es开始并遵循p中所有的关系路径的随机游走,计算出到达et的随机游走概率。对计算出的每个关系路径的随机游走概率进行排序,将概率较高的关系路径作为潜在路径特征。最后,通过包含诸如π={es,r1,e1,…,rl,et}∈Π的中间实体,将所有关系路径p进一步扩展为完整路径π。
2.1.2 路径序列编码
研究中采用了新设计的一种神经网络结构,能够将关系路径嵌入的低维向量中。利用CNN和BiGRU神经网络模型,对路径序列信息进行编码操作,这两种方法都已经成功应用于处理长序列和短序列。
(1)
(2)
(3)
通过双向GRU获得了两个隐藏状态,通过一定的规则将其进行合并操作,生成长度为l的路径π,最终表示为:
(4)
2.1.3 多路径表示和输出层
为了让一些比较重要的路径凸显出来,引入Attention机制来计算所有路径的匹配分数,以对重点路径有所突出。首先,将查询关系进行编码,并将其转换为向量表示形式,例如u=A(r)=r。然后,将关系的嵌入与路径的编码进行匹配,以计算出Attention层中每个路径的匹配分数。每个嵌入路径mi都能够通过式(5)获得一个分数,关系r和路径πi之间的语义相似度通过该分数进行表示。
(5)
(6)
使用加权和运算对所有的路径编码向量叠加,以生成一个状态向量o,
(7)
通过加权和运算将多个路径的信息合并到一起,将重要的路径保留,并丢弃不相关的路径。最后,计算出关系r和实体对(es,et)的概率分数,其计算公式如下:
P(r|es,et)=sigmoid(Wp(o+u))。
(8)
采用注意力机制以不同的方式参与其中重要的路径和不重要的路径,例如,与候选关系r更加相关的路径应获得较高的权重,相反与候选关系r不相关的路径应获得较低的权重。
2.1.4 模型的优化函数设计
通过最小化二进制交叉熵损失来优化模型,自适应矩估计(Adam)优化器用于优化。目标函数的简化形式如下:
(9)
式中:N表示三元组的数量,T+和T-分别表示正负案例,Θ表示模型中可学习的参数。通过目标函数达到模型训练的目的,在正确的三元组上计算出较高的值,在错误的三元组上计算出较低的值,同时还能够降低总误差。对于链接预测,不断调整模型参数直到最优,然后从所有候选项中检索前k个预测。同时,将权重的标准L2范数用作约束函数。本文设定一系列的学习率,以了解不同学习率对于预测性能的影响,当损失函数收敛到最佳点时直接停止训练。
2.2.1 模型整体思路
基于Embedding的多跳知识问答模型如图4所示。其中主要包含知识图谱嵌入模块、问题嵌入模块和答案选择模块3个模块。
2.2.2 知识图谱嵌入模块
给定实体E和关系R,知识图谱G的三元组K,使得K∈E×R×E。一个三元组表示为(es,r,et),其中:源实体和目标实体分别用es∈E和et∈E表示,源实体与目标实体两者之间的关系利用r∈R表示。在第2.1节中进行了实体链接预测处理,通过ConvBiGRU+Attention机制计算三元组的匹配分数,通过该评分判断两个实体之间能否通过该关系r进行链接。
随着时代的发展,数控机床设备维护数据也会逐渐增加,考虑到知识图谱会逐渐变得庞大的问题,本文也采用ComplEx算法作为嵌入方法。ComplEx是一种张量分解方法,将关系和实体嵌入复杂空间中。给定实体es,et∈E和关系r∈R,通过ComplEx模型生成ees,er,eet∈d,并定义了评分函数,如式(10)所示:
(10)
其中所有正确三元组φ(es,r,et)>0,而对于不正确三元组φ(es,r,et)<0,Re表示复数的实部。
知识图谱嵌入模块采用ComplEx嵌入,针对知识图谱中的所有实体es,et∈E和关系r∈R进行训练,使得ees,er,eet∈d。
2.2.3 问题嵌入模块
问题嵌入模块(Question Embedding Module, QEM)将用户问题q嵌入固定维数向量,使得eq∈d。这可以采用前馈神经网络来实现,该网络首先利用RoBERTa[19]将问题嵌入786维向量中。RoBERTa模型是一种基于Transformer的双向编码表示来改进基于架构微调的方法,相比以前提出的BERT模型做出了很大的优化,RoBERTa模型可以称为BERT模型的强化版,该模型在数据层面对模型进行优化,使用更大的数据集进行实验,同时采用字节对的编码方式来处理文本。研究中的设备维护案例基本都是以文本的形式保存的,所以选择了RoBERTa模型应用于此研究的模型中。
问题通过RoBERTa模型生成了786维向量后,将其通过4个具有RuLU激活函数的全连线性层,最后还需要将它投影到复杂空间d上,其中算法模型结构如图5所示。
针对用户输入的一个问题,主题实体es∈E(问题中的主要实体)和候选答案实体集合A∈E,通过式(11)~式(12)实现问题的嵌入:
∅(ees,eq,ea)>0,∀a∈A;
(11)
(12)
针对每个用户的问题,将所有候选答案实体a′∈E和它进行一一比对,通过评分函数计算出匹配值。通过最小化分数的S型曲线和目标标签之间的二进制交叉熵损失来学习模型,其中正确答案的目标标签为1,其他为0。当实体数量很大时,将进行标签平滑处理。
2.2.4 答案选择模块
答案选择模块(Answer Selection Module,ASM)主要选择最佳的候选实体作为最终的答案。在进行推断时,模型针对所有可能的答案a′∈E进行评分,对于候选答案实体比较少时,仅选择得分最高的实体即可,具体公式如下:
eans=arga′∈Emax∅(ees,eq,ea′)。
(13)
定义一个评分函数S(r,q)如式(14)所示,该函数对给定问题q的每个关系r∈R进行排名。将关系r的嵌入定义为hr,将输入到RoBERTa的问题q的单词序列定义为q′=(s,w1,…,w|q|,/s)。评分函数定义为RoBERTa的最后一个隐藏层的最终输出hq与关系r的嵌入hr的点积的S型函数,其中hq的计算公式如式(15)所示。
(14)
hq=RoBERTa(q′)。
(15)
在所有关系中,选择评分大于0.5的那些关系,将其表示为集合Ra。针对获得的实体a′,应找出它与源实体es的是以何种关系进行关联的,并将这些关系定义为Ra′。将每个候选答案实体的关系得分定义为其交集的大小,如式(16)所示:
RelScorea′=|Ra∩Ra′|。
(16)
利用关系得分RelScorea′和ComplEx得分的线性组合来找出问题的答案,如式(17)所示:
eans=arga′∈Emax∅(ees,eq,ea′)+γ×RelScorea′。
(17)
式中γ为可以调整大小的超参数。
3.1.1 实验数据和实验设置
本文使用的在数控机床设备维护领域的数据中抽取出来的实体以及关系如图6所示。
本文使用的是来自于西门子和发那科的2 000个设备维护案例,针对数据的特点定义本体模型,通过本体模型能够客观地解释和说明数据之间的关系。通过知识抽取将数控机床设备维护文档中的案例的实体和关系抽取出来,变成实验需要的三元组,作为实验的数据集。
首先随机初始化所有模型的参数,并使用Adam优化器作为以最小批量为64的训练算法。在实验中采用网格搜索方法来不断调整模型中的超参数,在{0.001,0.002,0.002 5,0.003}中选择合适的值作为学习率参数γ,在{50,100}中选择合适值作为向量的维度k,模型BiGRU中的隐藏单元数从{64,128}中选择,过滤器数量选择{30,40,50,60}的其中一个,正则化权重λ从{0,0.005,0.01,0.1,0.5,1}中选择。不断调整小批量的大小,使得每一个epoch都包含64个小批量。通过不断地改变参数以使模型的效果及性能达到最佳。
3.1.2 对比模型
模型主要采用ConvBiGRU+Attention机制实现了基于路径的知识图谱补全,将此研究的模型与最近的基于路径的推理方法进行了比较,拥有不错的效果。
本文采用多种方法来全方位评估算法模型,其中包括平均精度均值(Mean Average Precision, MAP)和平均倒数排名(Mean Reciprocal Rank, MRR)。其中MAP是对相关正确三元组进行排名的等级的精度值的平均值,MAP得分计算公式如下:
(18)
式中AP是每一个正确三元组得排名位置得精度得分得平均值。MRR是指第i个查询得第一个正确三元组的排名位置,若该结果排名越前,则效果越好,其计算公式如下:
(19)
式中:Qr表示样本集合;rankq表示查询q中第一次出现对应答案的位置,q∈Qr。
本文研究中对比了其他研究者的优秀算法,实验结果取输入查询关系r的最优值,结果如表1所示。
表1 最新方法比较
通过表1结果对比发现,PRA模型对于数控机床图谱的链接预测效果一般,MINERVA和ConvE在数控机床图谱补全方面也有不错的效果,这是由于现在只是将西门子和发那科部分数据抽取用于实验,若是将所有数据用于实验,仍是本文模型更加适用于大型数据集上的缺失链接预测。
3.1.3 实验结果分析
实验模型将所有关系数据传入到本文算法模型中进行测试,针对不同的关系三元组模型的耗时不同,经过了多次不断的训练,取多次实验的结果对比,并计算出加权平均,作为本次实验结果,这样能够减少实验所带来的误差,使实验结果相对而言更加准确,具体结果如图7所示。
由图7可知,该模型整体效果是不错的,对于关系the_reason_is的平均精度均值(MAP)能够达到0.85,平均倒数排名(MRR)能够到达0.946,这属于比较好的结果,这可能与从数控机床设备维护文档中抽取的数据质量有关系,或者这类关系三元组存在一定的缺失情况均会影响实验效果。这也是影响算法模型的一个方面。实验对于每个测试的三元组都通过模型计算出相应的权重α,通过权重的大小可以评估此条路径对于链接预测的重要性。生成的具体数据格式为es,et,score,其中score对应每一个三元组的权重大小,权重越大,说明其对于链接预测重要性更强。同时,还绘制了所测试三元组的权重柱状图,如图8和图9所示。
通过图8可以观察到所有的测试三元组一共有934 784组,因为数据量较大,所以图8数据很密,看起来不是很清楚。可以看到,图8下方的小图很清楚地展示了整个数据的权重起伏情况,图9是对图8部分区域的缩放,看起来更加明显,还是有很多三元组的权重是较小的,并不是所有的三元组对于链接预测均有很好的促进作用,因此应选择权重比较高的,才能够使得模型的效果更好。
最终选择权重大于0.85的三元组,其统计数值如图10所示。
同时,还对比了ConvBiGRU+Attention和ConvBiLSTM+Attention在数控机床领域的效果,主要选取关系accompany_with进行对比,实验对比结果如图11所示。通过观察图11可以看出,在相同的条件和环境下,GRU明显比LSTM耗时少,最长的能达到10 s之久,这只是针对部分西门子和发那科的数控机床数据,若将所有数据用于实验耗时,差距会更加明显,而数控机床的数据本身就非常庞大,因此对于模型的选择还是选择了GRU作为模型的一部分。对于关系accompany_with的实验结果采用GRU时的MAP比LSTM高出两个百分点达到了82.34%,从而验证了GRU更加适合于数控机床领域。
3.2.1 实验设置
知识问答所采用的数据集和图谱补全中使用的数据来源是一致的,但是知识问答部分的实验数据是通过知识图谱补全模型进行处理后产生的数据,能够有效地解决数控机床设备维护知识图谱的稀疏性。
数据集另一部分就是生成用于训练的问题集,通过手动的方式模拟WebQuestionSP数据集生成西门子和发那科数控机床领域的问题,利用三元组信息生成想要的训练问题数据,并对路径长度进行限制,经过对比发现当路径长度大于4时,知识的推理效果骤降,对于性能的消耗也在增加,综合考虑决定将最大路径长度设定为4,这样对于数控机床领域的多跳知识问答更加合适。利用生成了问题的训练集和测试集用于本次研究,评估利用Embedding模型实现数控机床领域的多跳知识问答的效果。
对于本次研究的所有模型参数,首先随机初始化模型的参数,然后不断进行调整以达到最优则停止训练。对于嵌入模型的选择,从{DistMult,SimplE,ComplEx,TuckER,RESCAL}中选择,经过不断的实验发现,ComplEx比较适合数控机床领域,ComplEx模型能够将实体和关系嵌入到复杂空间中。批量大小从{16,64,128}中选择,考虑数据量较大的情况,默认选择128,若是数据量较少的情况可以改变其大小。参数dropout的设置十分关键,它能够解决过拟合的问题,该参数在0.4~0.6中选择。在实验中采用了网格搜索方法来不断调整模型中的超参数,在{0.001,0.002,0.003,0.004,0.005,0.006}中选择一个值作为学习率参数。
3.2.2 对比模型
采用Embedding的方法实现数控机床设备维护领域的多跳知识问答,针对数控机床设备维护知识图谱采用ComplEx进行嵌入,而对于用户问题则采用了RoBERTa模型进行嵌入处理,将模型与最近的知识问答算法模型进行一定的比较。
通过图12结果对比发现,快速问答(Fast Question Answering, FastQA)模型对于数控机床设备维护领域的效果不是很理想,而变分推断网络(Variational Reasoning Network, VRN)模型在数控机床设备维护领域表现不错,采用本文的RoBERTa+ComplEx模型效果略优于前者,提升了4~5个百分点。整体而言,模型没有获得很好的效果,可能是由于采用的数据集并非公共数据集,相对而言数据质量还是存在一定问题,后期优化首先可以考虑数据问题方面的优化。本次只对比这几种比较新的算法,后期还可以多对比几种算法模型,体现出基于Embedding的多跳问答在数控机床设备维护领域的优势,采用Embedding的方法更加能够应对知识图谱稀疏性的问题。
3.2.3 实验结果分析
该任务评估主要包含两部分,首先是知识图谱嵌入,将准备好的实体字典、关系字典以及训练集测试集传入知识图谱嵌入模块,通过不断的训练生成数据的嵌入向量,其中数控机床设备维护知识图谱嵌入训练过程记录在文本中,绘制出各个指标的变化如图13所示。
知识图谱嵌入过程通过5个衡量指标进行评估,观察图13可以发现经过不断的训练最终结果越来越好,刚开始训练时评估指标的值都是比较小的,而且刚开始上升比较缓慢,当训练次数达到98时,曲线出现骤然上升的趋势。5个指标整体趋势是相同的,训练次数在98次~182次之间,曲线上升速度是非常迅速的,当训练次数大于182次之后,曲线基本趋于平稳的方式。其中hits@3和hits@10达到了0.999,hits@1也达到了0.966,说明整体而言,知识图谱的嵌入效果比较好。当训练次数达到一定之后,再继续进行训练,其评估指标也不会再增加,因此可以不再继续训练知识图谱。
将用户问题通过RoBERTa模型嵌入到786维向量中,再将其经过4个具有ReLU激活函数的全连接层,最后投影到复杂空间。将问题中的源实体和候选答案实体计算出一个分数,实现问题的嵌入。所有关系的问题均用于实验,但是部分关系效果不是很好,可能是由于从数控机床案例中抽取出来的数据质量存在一定的问题,将一些关系的实验成果列出,如表2所示。
表2 部分关系的实验结果
由表2可以观察出,这几个关系实验效果一般,这与用户问题训练数据均由代码自动生成有关,将三元组与关系进行组合产生,这对于其准确率有的一定的影响,后期将考虑对数据方面进行改进优化,这样才能够从根本上改善整个知识问答的效果。基于Embedding的多跳知识问答在其他领域已经有不错的应用,在数控机床领域的使用应该也没有问题。其中有部分关系效果表现不佳,可能由于不同关系数据存在差异,应该对模型进行改进使其适用于所有关系任务,使得模型匹配所有数控机床关系的问答。
3.2.4 案例分析
本节选择一个用户问题详细分析整个过程,数控机床设备维护知识问答过程案例如图14所示。
通过观察图14分析源实体和候选答案实体匹配分数的计算过程,实验将用户问题“导致[主轴驱动器主回路出现过电流报警]现象的原因是什么?”以及候选答案实体“驱动器控制板上的报警指示灯AL8(LED12)、AL4(LED14)亮|主回路不存在短路现象|无其他报警信号|元器件正常|主轴驱动器FR-SE内的断路器CB1就跳闸|实际测量全部逆变大功率晶体管组件|主轴驱动器在高速的情况下出现断路器跳闸的问题”输入模型的用户问题嵌入模块,其中候选答案实体以竖线进行分割。对每个用户问题通过评分函数计算出问题和每个候选答案实体的分数,图14中数字即为匹配分数,答案选择时还有不同的策略,候选答案实体较少时,直接选择评分最高的实体,即图14中“主轴驱动器在高速的情况下出现断路器跳闸的问题”。当含有较多的候选实体情况下,选择最大评分实体可能效率比较慢,可以通过修剪候选实体的方法来改善性能问题,比如图14中出现几个评分0.5以下的候选实体,当将用户问题与候选答案实体进行打分的时候,可以对其进行修剪,使得最后挑选答案时性能得以提高。
本文针对数控机床设备维护领域的知识问答进行了一些相关的研究,提出先图谱补全后知识问答的方法来弥补知识图谱稀疏性给数控机床设备维护领域的知识问答带来的问题。基于Embedding的多跳知识问答模型,在数控机床设备维护领域拥有较强的可扩展性,对于部分关系的问答准确率也能到70%,该项研究还需要进一步的探索。
此研究以西门子和发那科数控机床设备维护数据为例,抽取出数据质量还存在一定问题,后期将与相关领域的专家一起参与设计本体模型,深入了解数据含义。同时考虑算法模型的优化方法,探索和总结出能够应用于数控机床设备维护知识问答的通用方法。