马付建,李锡伟,黄文丽
(大连交通大学 机械工程学院,辽宁 大连 116028)
转向架是机车车辆的核心部件,是典型的复杂装配产品。在转向架设计和加工中用到的知识主要由涵盖分析、选型、校核等设计知识及包括切削加工、焊接、铸造、锻造、热处理等加工知识组成,这些知识内容广泛且具有复杂性的特点,表达形式具有多样性,导致转向架设计与加工过程间、不同加工先后过程之间知识传递困难,浪费大量人力物力资源。因此,如何构建转向架设计与加工知识库,实现转向架知识高效重用以辅助设计加工工作成为亟待解决的问题。
在转向架知识库研究中,专家知识库技术被大量应用以设计构建转向架知识管理系统[1-4]。以上研究主要专注于故障诊断、装配、维护、谱系设计等小范围的转向架知识库构建,对转向架设计与加工过程涉及的广泛且复杂的知识内容缺少分析,故对转向架知识的高效重用范围有限。
专家知识库技术集中于对知识内容进行数据化、结构化的表达,对以文本表示的转向架设计加工知识的语义关联性缺乏分析,难以满足实际设计加工过程中大量文本形式知识内容的深度挖掘与高效重用。当前采用知识图谱进行文本内容的重用,其本质是由关系网络构成的图谱[5]。在设计加工相关知识图谱构建研究中,采用层次结构的关系定义本体以构建数据库是一种主要方法。周毅等[6]对多层次知识进行融合基于语义本体模型建立企业客服问答知识图谱。凡天娣等[7]基于本体定义对船舶焊接工艺知识实现了图谱构建。李佳静等[8]以层级隶属等语义层面的关系定义知识本体建立知识库,实现转向架设计知识的重用。以上研究将知识的表达问题转变为语义层面逻辑关系的本体定义问题,相较于传统专家知识库,文本知识的利用率有所提升,但本体定义大量依靠人工制定规则与标注,对于设计加工知识复杂内容的可移植性较差,且效率较低。
本文通过分析转向架设计加工知识内容的特点,对转向架知识基于数据类型特征进行分类,通过特征编码和依存句法分析分别对离散型数据和文本型数据进行处理,建立编码系统数据与基于语法逻辑的三元组数据,并对两种类型数据进行合并处理,构建转向架设计加工知识图谱,将设计与加工知识充分结合,实现转向架内容广泛复杂、形式多样知识的数据库存储以及知识内容联系、高效重用。
转向架知识主要包括设计与加工两大领域。转向架设计知识主要包含方案分析、技术指标、结构选型、校核计算等大类。方案分析包含功能需求、质量需求、成本需求、运营需求、型号及系列、关键部件型号等;技术指标包含速度、轴重及轴距、自重、轴颈中心距、轮径、车轴数目、设计精度等;结构选型包含侧架构架形式、传动制动装置、旁承间距、弹簧横向间距、轴箱定位方式、横梁侧梁截面、载荷传递方式、弹簧悬挂结构等;校核计算包含强度校核、运动干涉校核、限界校核、临界速度仿真、运行安全性仿真、运行平稳性仿真、振动舒适度仿真、侧风稳定性仿真、轮轨接触仿真等。
转向架加工知识主要包含切削加工、焊接、铸造、锻造、热处理等大类。切削加工包含加工特征、机床、加工精度、切削用量、刀具参数、刀具材料、毛坯加工余量、加工工艺、夹具等;焊接加工包含焊材与基体、焊接设备及电源、焊接结构、焊接装夹、焊接工艺、焊接缺陷及检测、劳动保护与安全、焊缝成型、应力与变形等;铸造加工包含铸造材料、材料选择及造型方法、特种铸造方法、流动与收缩性、落砂清理与检验、工艺图与零件图、结构设计工艺性、计算机辅助成型、缺陷及检测等;锻造加工包含锻压材料、锻造设备、组织力学性能、表面精度、锻造工序、锻压温度、结构工艺性、变形过程与硬化、性能与锻造比等;热处理包含热处理材料、热处理设备、热处理曲线、铁碳相图、过热过冷度、组织与性能、热处理工艺、热处理方法、热处理时效等。
在转向架设计加工知识中部分数据类型属于离散型数据,它们普遍可以直接被量化为数值,知识内容系列化、标准化且特征鲜明,在设计知识中有:转向架型号及系列、关键部件型号、技术指标、结构选型等;在加工知识中,切削加工有加工特征、机床、加工表面质量、切削用量、刀具参数及材料、毛坯及加工余量等。在焊接、铸造、锻造、热处理部分同理。
此外仍有大量与离散型数据紧密相关的文本型数据,内容主要体现为描述或分析,如设计知识中的方案需求分析、校核仿真等,以及加工知识中的加工工艺、焊接工艺、焊接缺陷与检测、变形过程与硬化等,文本型数据需要经过智能语言处理,形成复杂的结构化数据才可使用。
对离散型数据基于设计加工中的主体和客体概念进行区分,主体指行为实施者,客体指行为指向的对象。主体及实施行为的工具手段为转向架知识分类中结构选型、技术指标部分和转向架加工知识分类中机床、刀具、焊接设备及电源、材料选择及造型方法、锻造设备、切削用量、热处理工艺等;客体及其被改变的属性为转向架知识分类的设计知识中转向架型号及系列、关键部件型号、设计精度和转向架加工知识分类中加工特征、焊材与基体、铸造材料、锻压材料、热处理材料等。
离散型数据采用基于主体及实施行为的工具手段、客体及其变更先后的属性等数据共有的特征进行编码。对转向架切削加工数据采取4位编码,见表1。从左向右1到4位定义生产要素特征,分别指代加工手段、设备特征类型、加工精度、切削参数。其他主体及实施行为的工具手段编码同理。
表1 切削加工数据编码
对转向架及其构件的信息基于特征采取8位编码,见表2。从左向右1到4位定义转向架的特征,分别指代国内外、转向架应用场景、转向架运载能力、生产时期;5~8位定义转向架构件的特征,分别指代构件种类、加工特征、精度等级、加工尺寸。其他客体及其被改变的属性的编码手段同理。将表3编码与表4编码基于专业经验或规范进行映射,表3中编码1023指代铣加工采用立式铣床加工精度IT6以及对应切削参数,该码对应映射于表4编码11251110指代国内客车25T转向架2000年到2005年定型、构架加工面设计精度IT6对应尺寸50~75 mm。
表2 转向架及构件数据编码
表3 简略词性表
表4 PYLTP-BIESO标注体系
文本预处理是转向架文本型知识处理的重要一步,主要经过分词、词性标注、命名实体识别3个阶段。以截取的某转向架构架加工工艺设计文本片段为语料进行处理,转向架工艺文本实例见图1[9]。
图1 转向架工艺文本实例
对选定文本进行分词,中文句子可视为由汉字[e]及词语[E]元素构成的有序集合S,{∑E}是S的子集,单字元素[e]可就近单向有序组合为词语[E],但句中词语{∑E}间无明显分割界限,所以依照常用汉语规范进行选择性切分,在被分割的词的边界标分隔符,得到有序词集合{∑E},对于词[E]的选择性标准主要概括为词字数上下限制、词与引用专业词库的贴合度等。分词后,识别词语序列的词性,随每个词语顺次标出。简略词性表见表3,基于表3对图1中正文第一句的分词及词性标注见图2。
图2 分词及词性标注
命名实体识别是在分词与词性标注的基础上,选择性识别文本中具有特定含义的实体词语,通常包括人名、地名、机构名等专有名词。命名实体识别采用如表4所示的 PYLTP-BIESO标注体系[10]。
对如图1所示的转向架加工工艺实例文本进行命名实体识别,文本概述部分结果内容见图3,对分解的词语标注识别类型,图中专有名词被单独分类。
图3 工艺实例文本实体识别结果
依存句法分析[11]围绕“主谓宾,定状补”分解出句中词语{∑E}间词性的依存关系,判断并识别出句子的核心动词,作为支配其他词语的中心词,核心动词不受其他词语支配。在句内结构中被分割的词语之间直接发生依存关系,构成依存对。依存句法分析关系表见表5。
表5 依存句法分析关系表
在依存关系中,一个是支配词,在句法分析过程中称为父节点,另一个是从属词,称为子节点。依存关系采用单向的依存弧表示,由从属词指向支配词。依照依存句法定义,对转向架工艺文本实例概述首句进行句法依存关系分析,父子节点依存关系分析结果见图4。
图4 父子节点依存关系分析结果
三元组[12]表达格式为:(head, label, tail),head与tail分别表示头实体和尾实体;head、tail属于实体集合(entities),label属于关系集合(relationships),实体内容在知识图谱中体现为节点,三元组形式如图5所示。
图5 知识图谱三元组
结合依存句法原则和中文语法启发式规则[13],三元组的实体与关系的组建。可通过筛选依存句法分析父子节点得到,采用正则表达式表述,关系可简写为:(关系表述==状语*动词+补语?宾语?)。其中:*表示状语未出现或出现任意次;+表示动词至少出现1次或任意次;?表示补语和宾语出现一次或不出现。
根据图4中对“客车转向架用来支承车体”这句话的依存句法分析结果,构建实体关系三元组,依存句法分析结果中,根据状中结构的介词“用来”和谓语动词“支承”判断,名词“客车转向架”以“主谓宾”的形式间接指向名词“车体”,基于此种语法逻辑,再对构建的三元组实体与关系进行基于词语长度的筛选,排除过短或过长内容和标点符号,可以构建实体关系三元组(客车转向架,用来支承,车体)。
对图1概述部分的文本进行实体关系三元组的构建,结果见图6,可见构架加工经验文本里的主要名词实体及其关系被抽取出来。
图6 文本三元组构建输出结果
图数据库是一种用图形存储数据的数据结构,主要组成元素是节点、关系、属性,见图7。
图7 图数据库组成方式
知识图谱通过实体和关系构建的三元组点云图来表示知识,将依存句法分析处理的转向架知识三元组数据存储于Neo4j中建立节点与关系,构建转向架知识图谱的主要框架,再将编码系统中离散型数据内容导入Neo4j中,将特征编码以属性形式随实体存入库中,产生节点。文本型数据经依存句法分析处理后,一些重要内容的节点如“转向架”会高频出现,且离散型数据与文本型数据内容高度关联,因此图谱内会有重复内容节点,故对节点的名称信息和属性信息遍历,对重复节点进行查找与合并,可将特征编码结果和依存句法分析结果基于重复的节点内容实现结合。图8展示了重复节点的查找与合并,左侧为重复节点,右侧为合并结果。
图8 重复节点的查找与合并
基于Neo4j采用知识图谱构建知识库,涵盖9大类75小类共计约30 000个节点,部分索引见图9。
图9 转向架设计加工知识图谱
对图谱转向架关键部件内容进行索引,部分结果见图10。
图10 转向架关键部件图谱部分结果
本文构建的转向架构架加工工艺知识图谱,见图11。其中,图11(a)反映25T客车转向架加工工艺知识节点关系的图谱,图11(b)为节点关系图谱对应的特征编码关系图谱。根据表3、表4的编码原则,可见图11(b)中编码1023与11251110反映了加工工艺手段知识与加工构件知识的对应关系,在图11(a)中反映为切削力因素与转向架构架弹簧筒圆销外圆加工面间的联系。
(a) 节点关系图谱
经依存句法分析、同节点合并后,转向架设计加工知识不同分类内容间基于语义联系,按照表6颜色对应原则对知识图谱分类节点采取不同颜色表示,构建转向架降本增效相关设计加工知识图谱见图12。
图12 转向架降本增效相关设计加工知识图谱
表6 图谱节点颜色分类对应原则
如图12可见,转向架降本增效分析相关的设计知识与加工知识间、设计知识内不同分类间、加工知识内不同分类间相互联系;设计前期结构选型、成本需求、后期校核仿真知识与加工工艺、工艺图与零件图知识被综合考虑,达到了联系贯通并高效重用转向架设计加工知识的目的,为设计加工过程提供了指导。
本文主要研究了基于知识图谱Neo4j的转向架设计加工知识库构建方法。首先对转向架设计加工知识进行分析,根据知识数据的特点将其分为离散型数据和文本型数据。对离散型数据基于主体及实施行为的工具手段、客体及其变更先后的属性等特征进行编码,并对两组编码进行映射;然后对方案分析、校核仿真、加工工艺、焊接工艺、焊接缺陷等文本型数据进行了命名实体识别与依存句法分析;最后以三元组数据形式将处理结果存储在Neo4j知识图谱中,并对重复内容合并。达到了转向架专家知识库中设计与加工知识的广泛内容分类、复杂形式处理、设计与加工知识内容充分结合以达到高效重用的目的,验证了基于知识图谱构建转向架设计加工知识库的可行性。