中国核动力研究设计院 黄禹 栾思雨 兰洋 张玥 黄粲
本文以船用核动力知识图谱构建为例,从知识图谱构建的实际流程出发,阐释构建过程中的科技情报质量控制的原理和手段。首先,提出基于DIKW 层次结构的船用核动力知识图谱构建流程;然后,根据知识图谱构建流程,提出图谱构建过程中的科技情报质量控制过程模型,将整个流程划分为“知识获取——知识表示——知识存储与可视化”三阶段,并针对过程不同阶段提出了相应的情报质量控制手段;最后,分阶段完成了船用核动力知识图谱框架的构建,实现图谱的存储与可视化,并使得科技情报质量控制贯穿于从知识获取到知识存储与可视化的整个图谱构建过程中。
知识经济时代的到来使知识成为提升企业竞争力的重要来源。随着2015 年新版国际标准ISO9001 明确将知识管理纳入质量管理认证体系范畴,知识管理理论与实践方法得以快速发展,并逐渐反哺企业利用知识管理理论与方法指导科研生产,实现科学、高效、系统的管理模式。同时,知识管理也广泛应用于情报业务中。知识管理集成信息收集、组织、检索和传递的各种技术,为情报研究工作提供有力的技术保障。在情报实践中,质量控制是满足用户情报需求、实现情报价值的重要手段。通过知识图谱、时间序列等可视化手段,情报产品能够以直观、具体、智能的方式呈现给用户,提升情报研究的质量。因此,科技情报研究更加强调充分的数据资源、数据内容的深入挖掘、分析过程和结果的客观性、数据处理的自动化手段等,在数据驱动的思维方式和工作方式下,探索出情报分析工作的有效模式和流程,充分提升情报质量,实现知识的价值。
知识图谱构建对于科技情报质量控制的必要性还体现在其对于科技情报工作人员不同知识位势(Knowledeg Potential)情况的处理上。知识位势指知识主体在某领域所处的知识水平状态,其中既包括明文记载或口头传授的显性知识,也包括个人积累的经验、技巧或培养形成的洞察力、价值观等隐形知识。由于不同分析人员之间学术背景不同、学科分类不同、经验积累不同等原因,同时考虑到船用核动力这一系统工程的复杂性,在情报研究过程中存在处于同一研究课题小组的分析成员之间知识位势差过大的问题,这会对团队情报分析的质量和效率带来负面影响。为此,将知识管理引入船用核动力领域,利用知识图谱技术构建专题核动力知识图谱框架,对系统梳理领域专业知识、了解设计研发构成、明晰操作规程具有一定的实践意义,为我们后续开展知识管理分析应用平台建设提供参考与借鉴。
知识图谱的构建对于情报信息数据采集、分析以及传递阶段都要求做好情报质量控制,使信息更加精准。基于此,本文以船用核动力知识图谱构建为例,从知识图谱构建的实际流程出发,构建科技情报质量控制过程模型,阐释知识图谱构建各阶段科技情报质量控制的处理手段,为情报分析中群体决策环节的质量提升提供借鉴。使研究成果更外显生动,研究结论浅显直观,帮助情报用户清晰地理解情报内容。
科技情报的质量是一个抽象的、多维度概念,是通过情报研究过程而形成并传递出的情报产品,与最初直接采集到的数据和信息相比,所增加的决策支撑价值。这里的决策支撑价值具体指情报产品中所蕴含知识的价值,具有高相关性、及时性、全面性以及真实性的特点。
知识图谱(Knowledge Graph)是以图的形式表现客观世界中的实体(概念)及其之间关系的结构化语义知识库。知识图谱由数据层和模式层两部分构成,数据层主要内容为具体的数据信息,以“实体——关系——实体”或“实体——属性——属性值”的三元组形式进行存储,是构成知识图谱的基本元素。模式层位于数据层之上,是知识图谱的核心,其主要内容为知识的数据结构,包括实体、关系、属性等知识类的层次结构和层级关系定义,约束数据层的具体知识形式。
Neo4j 是一个基于Java 的高性能NOSQL 图形数据库,不同于以二维表形式实现数据存储的关系型数据库,其将结构化数据以网络(图)状进行存储,利用自定义存储格式和基于图相关的概念来描述数据模型。与传统关系型数据库相比,以Neo4j 为代表的图数据库为适应大数据时代海量数据存储的需要,突破表结构的关系束缚,将数据以实体、属性和关系的形式进行网状存储,使得数据的粒度、数据之间的关系更加清晰、高效,使之成为知识图谱构建、上层知识应用的基础。
DIKW 层次结构也被称作知识层次、信息层次、知识金字塔等,是展示数据(Data)、信息(Information)、知识(Knowledge)和智慧(Wisdom)之间关系的模型,也是展现数据如何一步步转化为信息、知识乃至智慧的方式。其中,数据是原始事实的抽象表示,是记录客观事物的可鉴别符号;数据通过某种方式进行组织、处理和分析数据间的关系,形成具有意义的信息;知识是对信息的应用,是一个对信息判断和确认的过程,是从相关信息中过滤、提炼及加工而得到的有用资料;智慧主要表现为收集、应用、传播知识的能力,以及对事物发展的前瞻性看法。DIKW 金字塔层次模型如图1 所示。
图1 DIKW 金字塔层次模型Fig.1 DIKW pyramid hierarchy model
知识图谱的构建方法主要有三种方式,即自底向上、自顶向下和二者混合的方法。其中,业内最常使用的是自底向上的构建方法,该方法从数据源中提取实体、属性和关系构建资源模式,通过选择其中置信度较高的新模式,加入到知识库中。其主要的构建过程按照“知识获取——知识表示——知识存储——知识可视化”的步骤进行,本文在此构建过程的基础上,融入DIKW 层次结构的特点形成专题核动力知识图谱构建流程如图2 所示。具体步骤如下:
图2 基于DIKW 层次结构的专题核动力知识图谱构建流程Fig.2 Construction process of thematic nuclear powered knowledge graph based on DIKW model
(1)在数据层次通过对核动力专业领域数据的整理与体系梳理完成对知识的获取;
(2)在信息层次通过知识抽取,构建“实体——关系——实体”三元组,形成图谱关系,完成对知识的表示;
(3)在知识层次与智慧层次,利用Neo4j 图数据库完成对知识图谱的存储并在此基础上实现知识的可视化应用。
科技情报质量是在情报研究活动中逐渐形成和衍化的,不同的情报研究阶段,情报质量有不同的表现形式,对应着不同的质量标准。本文知识图谱构建过程中的科技情报质量控制的过程模型如图3 所示,该模型将基于DIKW 层次结构的知识图谱构建全过程视作“知识获取——知识表示——知识存储与可视化”三个前后相继的阶段,提出每个阶段的情报质量标准并归纳总结出各阶段潜在的质量干扰因素,知识图谱构建过程中考虑到各阶段的质量干扰因素并提出相应的进行质量控制手段,从而实现贯穿知识图谱构建全过程的质量控制。的数据源中提取出实体与属性,在此基础上,通过构建各实体间的相互关系形成本体化的知识表示。本阶段,最主要的质量标准就是数据和信息的准确、充分和相关。面对可能存在的需求不明、数据渠道不权威、数据价值低等质量干扰因素,该阶段的质量控制需做到:
图3 图谱构建过程中的科技情报质量控制过程模型Fig.3 The process model of science intelligence quality control in the process of graph construction
(1)清晰聚焦情报需求。准确清晰地定义情报需求是情报质量控制的第一个重要环节。以船用核动力知识图谱构建为例,数据层次需要完成对所需数据的整理与体系的全面梳理,以研究方向为主脉形成领域知识树,为知识图谱的构建奠定框架基础。
(2)从权威渠道获取数据。从数据源中获取实体与属性信息是知识获取中的重要步骤,数据来源渠道的权威性是数据质量的重要保障。专业性知识图谱的知识获取原则上需要以专业领域的数据源为基准,由于知识较为分散,本次知识获取过程以于俊崇等编著的,并由上海交通大学出版社公开出版发行的《船用核动力》为例,将此书作为主要数据源以确保数据来源渠道的权威性与高数据价值,以提升情报工作人员核动力领域知识储备,解决同一小组分析成员之间知识位势差过大的问题。通过人员对文献进行系统梳理,对各种核动力技术的相关知识按照研究方向、研究内容、研究内容子项进行整理分类,最终形成包含17 类研究方向的结构化文本。形成的专题核动力知识图谱框架体系示例如表1 所示。
表1 专题核动力知识图谱框架体系示例Tab.1 Example of thematic nuclear powered knowledge graph framework
在知识图谱的构建过程中,知识获取是从各种类型
信息层次的主要任务是完成对数据的加工,使得具有一定逻辑的有价值的数据形成信息。知识表示是数据形成信息的重要阶段,也是情报质量控制的重要阶段,需要对整个数据抽取过程进行层次分解,将数据进行归类,保证数据的有效融合、价值的充分提取和挖掘,实现规范性、标准化和一致性的质量标准,以此达到控制知识表示过程质量的目的。
(1)对知识表示过程进行层次分解。对知识表示的过程进行分解是本阶段质量的控制重点。以船用核动力知识图谱构建为例,将需要抽取出的知识表示对象分文实体、属性、关系三个层次,并分别建立相应的抽取原则,从而实现对各类对象的规范化、一致化的抽取流程,保证数据的价值得到充分挖掘,完成对专题核动力数据源内的实体抽取、关系抽取、属性抽取,将实体与属性及关系信息构建成三元组实现对知识的表示。
(2)将知识表示进行归类,突出相关关系。为解决知识抽取后各实体关系离散化、相关关系不明确的问题,需要对知识表示进行归类。以专题核动力知识图谱中“失水事故处置”知识表示为例,通过知识抽取技术构建出“失水事故”“小破口失水事故”“反应堆舱高剂量报警信号”“稳压器水位低报警信号”这多个实体并具备各自属性,例如“失水事故”这一实体具有概述(反应堆主回路压力边界产生破口或发生破裂,造成一部分或大部分冷却剂泄漏的事故)、事故工况(一回路管道破裂、与主管道连接的辅助管道破裂、隔离阀门卡开)、事故类型(大、中、小破口失水事故)等属性。针对实体关系间的抽取,将其构建为多个
知识表示通常选用RDF 或者图数据库来表示,本文选择采用图数据结构的表示方法,关系图模型中每个节点表示现实世界中的一个实体,节点与节点间的边表示实体之间的关系。一般来说,图数据库中的节点与节点之间可以存在多条边,即可存在多种关系,每条边都与2 个节点相连接。如“失水事故”这一实体既与“小破口失水事故”存在“事故类型”关系,又与“反应堆舱高剂量报警信号”“稳压器水位低报警信号”这两个实体分别存在“造成”关系,这在图数据库中的知识表示形式如图4 所示。
图4 以“失水事故”为例的知识表示Fig.4 Knowledge representation taking "Water Loss Accident" as an example
知识层次与智慧层次作为数据与信息利用的高级阶段,基于主观认知从信息中过滤、提炼及加工而得到能够指导决策与行为的无形资产,是一个组织存储、利用知识的核心。而知识的价值最终也通过使用而得以实现,因此本阶段的质量是一种效用质量,知识的存储与知识可视化应围绕知识高效存储、所形成的情报产品直观明了等质量标准开展工作。为实现本文所构建的专题核动力知识图谱的知识存储与可视化应用,所生成产品能够有效处理响应慢、内容不易理解等质量干扰因素,采用Neo4j 图数据库作为存储及可视化方式。知识可视化将知识以图的方式进行呈现,类似于思维导图,可以加深人们对知识的直观理解,从而达到对知识印象加深,进而支持智慧层次的高级应用。基于Neo4j 图数据库将知识获取与知识表示阶段形成的结构化数据进行数据提取并保存在网络中,同时利用Java 持久化嵌入式引擎,能够更高效地解决低结构化、复杂的数据,使数据库的工作效率更加高效,同时可以将存储的知识迅速形成知识图谱,视觉化呈现出效果。
专题核动力知识图谱属于特定行业的领域知识图谱,对系统梳理领域基础性专业知识、了解设计研发构成、指导操作规程具有一定的实践意义。为缩小小组成员知识位势差距,为情报分析中群体决策环节的质量以及后续开展知识管理分析应用平台建设提供参考与借鉴。在该图谱的构建过程中,科技情报质量控制贯穿于从知识获取到知识存储及知识可视化的整个过程。在接下来的研究中,将会不断应用新一代信息技术,持续深化对图谱内知识的动态可视、语义搜索、智能问答、个性化推荐等智能应用的探索,逐步实现基于数据驱动的复杂分析应用与决策支持辅助,为知识管理分析应用平台的构建奠定基础。
引用
[1] 李志男,孟潇,杨海丽,等.基于信息融合模型的科技情报质量控制研究[J].情报杂志,2019,38(1):54-60.
[2] 田玲,张谨川,张晋豪,等.知识图谱综述——表示、构建、推理与知识超图理论[J].计算机应用,2021,41(08):2161-2186.
[3] 徐增林,盛泳潘,贺丽荣,等.知识图谱技术综述[J].电子科技大学学报,2016,45(4):589-606.
[4] 莫富传,娄策群,冯翠翠,等.基于DIKW体系的政府数据利用路径研究[J].情报科学,2021,39(3):82-87.
[5] 黄恒琪,于娟,廖晓,等.知识图谱研究综述[J].计算机系统应用, 2019,28(6):1-12.
[6] 李德毅,于剑.中国科协新一代信息技术系类丛书 人工智能导论[M].北京:中国科学技术出版社,2018.
[7] WU X,CHEN H,WU G,et al.Knowledge Engineering with Big Data[J].IEEE Intelligent Systems,2015,30(5):46-55.
[8] 于俊崇.船用核动力(第一版)[M].第一版版.上海:上海交通大学出版社, 2016.
[9] 何婷婷,涂新辉,张红春,等.中文维基百科的结构化信息抽取及词语相关度计算方法[J].中文信息学报,2012,26(3):109-115.
[10] 韩晨静,王天时,高凯烨,等.基于Neo4j图数据库的质量工程技术知识图谱的构建及实现[J].质量与可靠性,2021(2):50-55.