面向手机质量检测领域的知识图谱构建

2021-02-22 04:33:55张郑
科教创新与实践 2021年45期
关键词:知识图谱

张郑

摘要:随着人们对手机需求、功能等要求逐渐增多,手机市场的竞争越来越激烈,手机质量的好坏直接影响产品的竞争优势,及时发现产品质量问题,找出解决办法,对提高手机产品竞争力具有十分重要的作用。知识图谱是一种展示实体之间关系的语义网络,具有强大的推理能力,在数据挖掘、存储、展示等方面具有重要应用。本文结合手机生产、使用过程中的故障知识,构建手机检测领域知识图谱,通过检测标准知识图谱进行产品质量检测,提高手机质量检测效率。

关键词:手机检测;知识图谱;语义网络

1、引言

21世纪以来,移动通信技术迅速发展,手机产品推陈出,已经成为人们生活中必不可缺的电子产品。现阶段手机故障检测多数依靠人工检测的方法,检测效率低、差错率较高、并且对于检测过程中产生的大量检测业务数据没有深度挖掘,无法建立故障数据之间的知识关联,不能够为今后的质量检测提供知识性支撑,延长手机质量检测周期。

知识图谱(Knowledge Graph)是由谷歌公司2012年提出[1],是新一代语义网的实现,主要是对各种不同类型知识资源与其载体进行挖掘与分析,并建立他们之间的联系,通过将事实描述存储为三元组,以结构化形式反映现实世界里各个实体、概念与关系。知识图谱的使用能够解决数据冗余、关联、展示等问题。构建手机检测领域知识图谱,能够将手机检测过程中不同类型的数据进行集成,进行数据推理,找出之间联系,实现信息共享,提高检测效率。

2、关键技术

知识图谱的本质是一种语义网,将结构化数据、半结构化数据和非结构化数据进行整合,构建为一个数据关联网络,主要以实体或者概念为节点,以关系为边,将不同类型数据链接在一起并通过图结构表示,通常各种实体和概念以及他们之间的关系以三元组的形式表示:

G=(E1,R,E2) (1)

G=(E,A,V) (2)

第一个三元组表示实体之间、概念之间的关系,第二个三元组表示实体内部的特性,属性及其属性值。本文构建手机质量检测领域知识图谱需要从逻辑层和技术层两方面进行设计。

知识图谱逻辑层面设计包含图谱模式层和数据层[2]。模式层主要构建了本图谱的基本“骨架”,它定义了该领域的涉及的类和类之间关系以及概念与概念之间的关系,从而能够规范化对知识库进行管理。数据层是在模式层指导下,对所采集的数据源进行处理,实现实体识别,关系抽取以及数据存储,从而实现将不同数据类型转化为三元组形式,进行可视化表达。

知识图谱数据层面主要是依靠应用的场景和构建的需求,根据领域特色采用不同的数据处理办法,主要集中于命名实体识别、实体关系抽取、知识消歧和知识存储等方面,依据不同的场景选择不同处理方法,提高数据的准确度和精确度。

本文为面向手机质量检测领域知识图谱构建,通过数据层和模式层共同构建领域知识图谱。模式层主要根据手机质量检测过程中遵循的行业检测标准,专业术语,及其相关概念采用“自顶向下”的方式构建其“基本骨架”,数据层从手机质量检测领域中产生的半结构化数据和非结构化数据中进行数据抽取,主要实现手机领域的命名实体识别,关系抽取、属性提取。最后通过Neo4j数据库进行图谱的可视化展示。

3、知识图谱构建关键技术

3.1 命名实体识别

命名实体识别是对已经给定的非结构化文本中,提取出能够表示具体实体或者抽象实体的词组或单词,是知识结构化、实体语义表示和数字化的基础[3].基于神经网络将命名实体识别看作是一种序列标注问题,利用词向量为特征,减少人工特征标注。通过BIEO方法对手机基本检测数据进行数据集标注,通过双向长短期记忆网络与条件随机场组合模型(Bi-directional Long Short-Term Memory+Conditional Random Field,Bi-LSTM+CRF)训练实现手机检质量测领域实体识别。

3.2 实体关系抽取

实体关系抽取主要是对于非结构化数据而言,抽取出文本间或句子间两个实体的语义关系,将实体通过关系进行连接,从而形成结构化数据。实体关系抽取是知识图谱构建构成中的重要环节。为了减少关系抽取对人工关系设计特征的依赖性,提高抽取准确率,采用神经网络方式自动提取文本特征,并在已有的Bi-LSTM网络模型训练基础上,引入胶囊网络,构建出初级胶囊,在通过动态路由算法进行选择得到相匹配的输出胶囊,动态路由算法是以迭代的方法构造一个非线性映射,由一个较低级别神经元决定发送输出给更高级别的神经元,确保每个胶囊的输出被发送到下一层中的适当父级,通过路由算法,当胶囊将自己学习预测到的数据传给更高层次胶囊时,如果预测一致时,父级胶囊将变得更加活跃,这样就可以使潜在的父级对象利用动态路算法减小连接强度。通过该方法,可以较好的提高关系抽取的准确度。

3.3 知識存储

知识图谱的数据存储主要有:资源描述框架(RDF存储模式)[4]和图

数据库存储两种模式,利用图数据库进行知识存储,具有数据遍历、检索效率高,数据更新实时性快,扩展性能好等优势。采用Neo4j图数据库对抽取的实体、实体关系及其属性值组成的三元组进行存储,从而进行可视化展示,通过Cypher语句查询相应节点、搜寻实体之间的关系。

结语

手机的质量直接影响人们的使用、安全,是一个品牌的竞争优势的重要因素,因此必须严格保障手机质量,及时进行质量检测、手机维修。本文通过构建手机质量检测领域知识图谱,整合质量检测数据资源,通过数据关联、知识可视化,为质检人员提供更加直接的数据支撑,提高数据的利用率。

参考文献:

[1]Newton C. Google. s Knowledge graph tripled in size in seven months[EB/OL]. [2019-01-20]. https://en.wikipedia.org/wiki/CBS_Interac‐tive.

[2]刘 峤 , 李 杨 , 段 宏 , 等 . 知 识 图 谱 构 建 技 术 综 述 [J]. 计 算 机 研 究 与 发 展 , 2016, 53(3):582-600.

[3]Zheng S, Hao Y, Lu D, et al. Joint entity and relation extraction based on a hybrid neural network[J]. Neurocomputing, 2017, 257: 59-66.

[4]王晓云, 杨子煜. 基于科研本体的国防科技知识图谱构建[J]. 中华医学图书情报杂志, 2018, 27(7):6-13.

猜你喜欢
知识图谱
国内外智库研究态势知识图谱对比分析
现代情报(2016年11期)2016-12-21 23:54:23
国内信息素养研究的知识图谱分析
现代情报(2016年11期)2016-12-21 23:53:46
国内图书馆嵌入式服务研究主题分析
现代情报(2016年10期)2016-12-15 12:32:46
国内外政府信息公开研究的脉络、流派与趋势
现代情报(2016年10期)2016-12-15 12:27:57
近十五年我国小学英语教学研究的热点、问题及对策
基于知识图谱的产业集群创新绩效可视化分析
智富时代(2016年12期)2016-12-01 16:28:41
基于知识图谱的智慧教育研究热点与趋势分析
国内酒店品牌管理研究进展的可视化分析
从《ET&S》与《电化教育研究》对比分析中管窥教育技术发展
专家知识图谱构建研究