本体与关联数据融合驱动的科技文献细粒度知识挖掘研究

2023-05-30 10:48闫丽
河北科技图苑 2023年1期
关键词:本体

摘要:科技文献的细粒度知识挖掘对于科学的发展起着至关重要的作用。文章在分析科技文献知识挖掘的基础上,构建出本体与关联数据融合驱动的科技文献知识挖掘模型,最后基于研究成果,以人工智能领域科技文献为例进行案例分析,诠释了本体与关联数据融合驱动下科技文献的细粒度知识挖掘所具有的特征。

关键词:本体;关联数据;科技文献;知识挖掘

中图分类号:G207.6   文献标识码:A

DOI:10.13897/j.cnki.hbkjty.2023.0006

近年来,随着科技发展,作为知识主要载体的科技文献成

为人们获取知识的重要来源。在科技文献不断激增的同时,

文献资源不断的丰富与其利用率之间不可避免地会产生一定的矛盾,

知识挖掘是知识开发的重要工具,为知识服务创新提供新的方法与技术,大大提高了知识管理的效率,所以对于科技文献进行知识挖掘至关重要。大数据环境下,为了更好地对海量的科技文献进行利用,需要更细粒度的对其潜在的知识内容进行深入挖掘。基于此,本文在本体与关联数据的融合驱动下,面向科技文献进行细粒度知识挖掘研究。通过研究探求能够挖掘出更具价值的信息,以助力科技文献的开发利用。

1 相關研究概述

1.1 本体

本体的概念源自于哲学,由Neches等学者提出,其认为本体是术语、关系和规则的集合[1]。在不断的研究中,其中Gruber学者认为本体是具有逻辑理论的陈述性描述,通过形式化的描述来对特定领域的术语、关系和规则进行解释与使用,这也是本体的经典定义[2]。随后,在计算机技术的不断发展下,各大领域均逐渐引入本体,并对其进行了不同的诠释,尽管目前并没有对本体这一概念进行具体规范,但普遍认为本体具备形式化的特点,并对共享的概念体系具有明确且详细的说明[3]。后期,一些国外学者便将本体与技术进行融合应用到信息资源的研究中,本体充分利用到元数据的思想与结构化的知识,对异构信息资源进行语义化的标注,建立起标准的元数据知识存储库,充分实现语义的检索。知识组织工具是本体的本质,这便使数字资源的语义化标注

和互操具有可能性,并在一定的范围内消除了数字资源语义异构等问题,但局限是一定与领域相关,针对某一个领域进行融合[4]。

1.2 关联数据

关联数据是指互联网上进行发布、共享并连接各种不同类型的数据、信息以及知识的一种方式。

它不但克服了本体针对于某一领域的局限性,并且对于数据间开放性的无缝互联进行了实现[5],其核心在于通过统一的资源描述框架(Resource Description Framework,RDF)对资源数据进行描述并对其中所蕴含的信息进行解析,利用超文本协议来对资源数据进行获取并揭示关联,有效减少了其孤岛效应的产生。其本质是在数据标准化识别的基础上,用以构建出能够被所有机器理解的具有结构化的数据网络,从而使本并不具备任何关联的有关数据信息产生出相应的关联关系,进而才能对更高层次上的智能检索进行有关探索

[6]。这是一种简化版的语义网模型对于不同领域、来源及系统间的知识资源进行关联以实现多维关联及开放获取。

1.3 知识挖掘

从知识挖掘出现至今,不同领域的学者对其定义的诠释也有所差异,现在广泛使用的为:知识挖掘是从数据集当中对有效或具有潜在价值的信息进行识别,并最终转化为可被大家所理解的一种模式的全过程[7]。当前,关于科技文献的知识挖掘已经进入到了细粒度的层面,更强调了对知识单元以及知识关联的识别与利用。其中,知识单元是具有特定意义的并且能够进行独立使用的知识单位,其对科技文献的知识点进行抽取,是在信息抽取的基础上的进一步深化应用

[8]。除此之外,在知识挖掘的过程中知识关联对于完整知识体系的形成至关重要,其表示可以从任一维度出发与知识单元建立相应的关联。

2 科技文献细粒度知识挖掘的特征分析

2.1 知识提取准确性高

当对科技文献进行细粒度知识挖掘时,通过对本体的引入可有效提高细粒度知识挖掘过程中的知识单元与知识关联抽取的可靠性。与此同时,通过本体的特征能够有效实现对科技文献中同一语义而不同表述的知识提取,进而增加提取的准确性。此外,关联数据也能够通过对复杂关系进行扫描的资源描述框(RDN)对资源进行描述,使关联数据能够通过统一的标准进行语义关系的描述,经过语义描述的资源具备机器可读以及高度的结构化等特点,这也使“资源孤岛”之间不断地产生语义关联,将碎片化的资源充分连接成庞大的资源网络以供用户使用,这也大大提高了知识提取的准确性[9]。

2.2 知识重用率高

本体与关联数据融合驱动下的科技文献细粒度知识挖掘,能够对知识间的语义信息进行清晰准确的描述,这成为系统中不可或缺的支持可重用并且能够共享的组件之一。在进行系统升级或不同的系统间进行数据交换时知识整合平台

对于不同系统之间的交叉与融合不会受到影响,并缓解了系统集成时开发周期长的相关问题,使知识重用率显著提高。

2.3 知识共享无障碍

在本体与关联数据的融合下,通过共同的关联描述,能够对同一语义间的知识表达的差异性进行消除,对统一资源标识符(Uniform Resource Identifier,URI)进行充分运用,使互联网中的任一资源都能够得到充分描述,包括图片、声音以及文档等,相同的标准化描述对资源的异构性显著降低,而使用本体与关联数据相融合的方式可以显著提高其信息资源数据的传播、分享以及发布等。通过本体与关联数据融合驱动下所发布的资源不但能够在不同的数据集之间产生互联互通,并且搜索相应信息时,也能够发现其搜索的相关内容,从而对知识的认识性与理解性进行增强,实现知识的无障碍交流。

3 本体与关联数据融合驱动的科技文献细粒度知识挖掘模型构建

本研究提出了一个基于本体与关联数据融合驱动的科技文献细粒度知识挖掘模型,该模型具有3个层级架构,分别是基于本体、关联数据以及本体与关联数据融合驱动的模型架构。

3.1 基于本体的细粒度知识挖掘

该架构囊括目标决策、规则抽取、知识挖掘以及服务反馈四个层面。在目标决策阶段,进行挖掘对象的指定和挖掘范围的确定,其中,挖掘对象需要繁多的分析文档及反馈信息,并在本体所具备的强大的逻辑推理的基础上将其显性化,而挖掘范围还包括目标区域与挖掘权重的确定,例如,在本体所在领域内具有典型代表性的特定数据库等。在挖掘约束中,其借助于本体的概念与实例,对于相同概念却不同实例的情况,也可依据属性值进行描述,也就是其检索中所查找到的关键字,这便能够发现关键词频次高的区域从而进行深度挖掘,提升效率。在知识存储中,其格式与内容都有明确的规定,包括字段、标注以及逻辑推理等。而知识清理相当于一种基于本体逻辑的合法性检验,消除错误,并排序属性值。知识提炼同样基于本体逻辑进行推理,从而对实际问题进行解决。在知识服务与反馈中,所获取的数据呈现出了其潜在联系与发展趋势,但其仍不易阅读,所以知识服务中便能依据不同需求进行知识的深加工。在反馈分析中,可以进行最终结果与最初目标偏离程度的衡量,从而进行及时的优化和更新,提高细粒度知识挖掘的效率。

3.2 基于关联数据的细粒度知识挖掘

基于关联数据的架构是在上述本体架构基础上形成的,包括本体知识库、关联数据、半结构化数据以及实体属性选择等。在实体属性选择中,在确认目标后,需要结合科技文献相关专家们的建议,并针对不同领域的不同属性对实体产生关联,例如,数据与对象属性,其中对象属性是在本体构建中所产生的关系属性等。在关联数据中,主要包括类及属性的构建、实例的创建、关系构建图以及一致性检验等步骤,其中需要使用到Protégé等构建工具,将所选实体以及属性分别进行构建,其产生的数据可以直接作为实例进行构建,并通过各类关联关系建立起关联数据,在进行一致性检验后将构建出的关联数据用OWL格式进行本体知识库存储。

3.3 本体与关联数据融合驱动的细粒度知识挖掘

在科技文献的细粒度知识挖掘中,针对于不同类型与来源的更细化的文献资源,所采用的元数据描述规范也不尽相同,致使同一科技文献内部常常存在着多种不同的元数据规范,而不同科技文献间其元数据规范更是差异化显著。元数据所提供的语义基础并不能有效解决文献资源异构性等问题,这种局限性则需要在元数据基础上进行某种特定机制的构建,用以实现格式化不同以及类型不同的差异化元数据间的语义性互操,这也充分体现出本体所具备的特征。本文中所采用的是混合法,针对不同科技文献,先构建出其知识挖掘的核心本体,此元数据本体并不包含任何规范性元素,而是以一种形式化的方式对其核心元素进行描述,针对特定的核心挖掘文献,其相关属性以及特定关系便能够以动态的形式进行添加,从而形成定制化的拓展,以生成专门的挖掘本体。在上述基于本体的知识挖掘的研究中,虽然实现了科技文献资源语义关系上描述分析的挖掘,但是由于本体所具有的局限性,这种挖掘仅局限于其整体与部分间的显性关系间体现,而对于深层次隐形关系的挖掘却无法实现,比如同一主题下的资源信息等,更没办法实现资源的延展挖掘。除此之外,对于不同资源集合的访问则需要自有的Web API,而在不同本体域间建立起关联关系可以使科技文献资源统一成一个整体,使每一个资源數据都能通过HTTP协议进行访问,并通过RDF链接访问相关资源并实现自由切换,揭示了资源间的相互关系。同时,其关联数据能够与外界相关联,进而成为数据云的一部分,以达到最大利用率。

4 本体与关联数据融合驱动的科技文献知识挖掘模型应用场景分析

本研究以人工智能领域的科技文献的元数据为数据源,并构建出实验模型,进而进行知识挖掘的可视化展现。

4.1 人工智能领域科技文献元数据识别

人工智能领域的科技文献,其摘要涵盖了重点研究问题及实验方法,是精华之所在。基于此,在实验过程中,便以所研究的问题与实验所用方法的实体抽取为人工智能领域科技文献摘要的实际实验对象。首先,有目的性地进行题录数据的文章摘要及标点符号的抽取;其次,对实体中的识别任务进行考虑,部分不引注意的特征也可能对识别的结果产生较大影响,例如,词向量和词性等文本特征,故抽取特征至关重要;最后,对实验研究对象的识别其实质也属于监督学习的一种形式,需要人为的文本标注作为模型的语料。

4.2 基于本体与关联数据融合驱动的实验模型设计

在人工智能领域科技文献的实验模型中,分为知识挖掘管理、用户查询及推理等三个模块,如图1所示。其中,知识挖掘管理与推理是管理模块,而查询是操作模块能够对本体和关联数据以及潜在知识的结果进行展示。有关本体与关联数据,其对本体技术进行了充分有效地使用,并能够建立起相应的语义关系,其关联数据也能够实现直接在相对应的数据库当中进行存储。同时,在知识挖掘前需要对本体数据库与关联数据库中的相关信息进行相应的预处理,以方便分类科技文献数据以及实现知识挖掘的目标。关联数据查询中能够将人工智能领域科技文献本体与关联数据中有关显性知识的部分进行显示。并对推理机进行恰当的运用,实现实体与关联数据的推理效果,得到相对应的目标结果。知识挖掘主要针对的是使用部分查询解析器,进行关键字标注理解,并调动其后台的RDF的连接进行分类算法的实现,挖掘出其深层次的潜在知识,同时在JDBC接口处与知识库连接,通过挖掘引擎将人工智能领域科技文献的细粒度知识挖掘结果得以实现。

4.3 人工智能领域科技文献细粒度知识挖掘分析

基于上述实验模型,在进行人工智能领域科技文献细粒度知识挖掘时,选定人工智能领域的“computer vision”实体作为实例。本研究选取“computer vision”为主题的科技文献作为文本的实验数据集,在CNKI专业检索搜索框中以“su=computer vision”为检索式,对检索结果进行分析。通过对CNKI中进行实体的抽取与定位,并将所抽取的文献信息资源运用相关解析器进行语义以及语义关系的相应提取,能够有效体现出本体与关联数据融合下所具有的知识重用率高等特征,运用自然语言处理等技术进行分割,同时采用RDF进行描述并运用子挖掘算法将人工智能领域科技文献中的隐形信息剖析出来,其结果具有可靠性和准确性,最后运用数据库显示其关联关系(见图2-3)。“computer vision”等人工智能领域的实体能够反映出主题与主题间的相似度,以共现矩阵的形式将主题、知识单元以及它们之间的关联构建科技文献细粒度知识组织,进一步建立起语义知识库以及推理知识库,从而方便人们进行阅读,同时也为科技文献细粒度知识挖掘提供了保障。

5 结语

随着科技文献的不断增多,其带来丰富信息的同时也产生了一定的问题。通过分析科技文献细粒度知识挖掘的准确性高、重用率高以及共享无障碍等特征,并构建出本体与关联数据融合驱动的科技文献知识挖掘模型,包括基于本体融合的架构、基于关联数据融合的架构以及本体与关联数据融合驱动的架构,最后基于上述研究成果,以人工智能领域科技文献为例进行案例分析。科技文献细粒度知识挖掘需要本体与关联数据的融合驱动,方能提高知识挖掘效率。

参考文献

[1]黎霞,张凌云.《资本论》汉英术语知识库知识本体建设[J].图书馆工作与研究,2022(2):5-14.

[2]曾桢,赵浩宇.基于文献的中国近代史知识图谱构建与实证研究[J].数字图书馆论坛,2022(4):35-42.

[3]马翠嫦,曹树金.网络学术文档细粒度聚合本体构建研究[J].图书情报工作,2019,63(24):107-118.

[4]张修文,张晓梅,付佳,等.基于本体和关联数据的馆藏资源融合模型[J].中华医学图书情报杂志,2015,24(8):50-54.

[5]赵龙文,罗力舒.基于关联数据的政府数据开放:模式、方法与实现——以上海市政府开放数据为例[J].图书情报工作,2017,61(19):102-112.

[6]杨选辉,龙帆.关联数据与本体在图书馆资源服务模式中的应用研究[J].图书馆理论与实践,2016(12):97-100.

[7]罗希莹,王俊瑛,胡笳.基于知识挖掘的高校机构知识库的信息服务研究[J].教育教学论坛,2019(39):66-67.

[8]秦春秀,刘杰,刘怀亮,等.基于知识元的科技文本内容描述框架研究[J].圖书情报工作,2017,61(10):116-124.

[9]陈氢,刘文梅.基于关联数据的企业数据治理可视化框架研究[J].现代情报,2021,41(6):76-87.

作者简介:闫丽(1975-),女,肥城市图书馆馆员。研究方向:文献学。

(收稿日期:2022-10-28 责任编辑:张晓霞)

Research on Fine-grained Knowledge Mining of Scientific and Technological

Documents Driven by Ontology and Association Data Fusion

Yan Li

Abstract:

The fine-grained knowledge mining of scientific and technological documents plays a vital role in the development of science. Based on the analysis of the knowledge mining of scientific and technological documents, this paper constructs a mode of scientific and technological documents knowledge mining driven by the fusion of ontology and associated data. Finally, based on the research results, taking the scientific and technological literature in the field of artificial intelligence as an example, the paper fully explains the characteristics of fine-grained knowledge mining of scientific and technological documents driven by ontology and association data fusion.

Keywords:

Ontology; Related Data;Scientific and Technological Documents; Knowledge Mining

猜你喜欢
本体
灰铸铁缸体本体抗拉强度提升的研究
眼睛是“本体”
领域本体的查询扩展和检索研究
一种基于社会选择的本体聚类与合并机制
基于本体的机械产品工艺知识表示
本体在产品设计知识管理中的应用研究
《我应该感到自豪才对》的本体性教学内容及启示
一种基于本体的语义检索设计与实现
立足音乐本体 开启音乐思维
媒介生存:关于新闻史研究本体的思考