基于关联数据的新一代机构知识库知识发现系统研究

2020-12-14 11:10
图书馆学刊 2020年11期
关键词:数据源出版商知识库

王 伟

(东北财经大学图书馆,辽宁 大连 116025)

1 引言

在开放获取的推动下,全球机构知识库(Institutional Repository,简称IR)的建设发展迅猛。截至2020年8月,在全球机构知识库注册网站(The Directory of Open Access Repositories,OpenDOAR)注册的机构知识库数量已从2005年的79个增长到5395个[1]。但在学术交流环境中,商业数据库和商业出版依然是学术交流的主渠道。随着大数据、云计算、人工智能等新技术的广泛应用,如何应用新技术使机构知识库在新学术交流生态环境下发挥积极作用,成为机构知识库研究的发展趋势。

2016年4月,开放获取知识库联盟(The Confederation of Open Access Repositories,简称COAR)启动了一个研究项目,即“下一代机构知识库”(Next Generation Repositories),并成立了新一代知识库工作组,调研用户需求,提出新功能和技术方案[2]。在COAR的引领下,对新一代机构知识库的功能、技术和发展的研究与应用,逐渐成为IR领域的研究热点。目前,通过对机构知识库内部和各机构知识库间的资源进行有效关联是新一代机构知识库实现个性化、知识化服务的重要手段。此种形势下,将关联数据技术应用到机构知识库领域,深入挖掘机构知识库的内在知识价值,探索机构知识库资源聚合与知识发现服务的新业态,对新一代机构知识库的建设与发展具有重要意义。

2 新一代机构知识库基本架构及功能

新一代机构知识库的核心是将机构知识库作为一种分布式的、全球网络基础设施的学术交流平台,其总体框架的最上一层可部署知识增值服务,由此将系统提升为能面向研究、开放并有助于创新,同时便于学术群体集体管理的平台[3]。在大数据和云计算等理论发展趋势下,机构知识库逐渐从单一机构的知识典藏向全球学术交流生态系统转型。新一代机构知识库不同于传统的机构知识库,其存储的目的不是为了收藏,而是为了通过服务增加价值,包括学术评价、同行评审和学术社交等,使得资源能够发挥更大的效用。同时,更加注重合作,不断增强机构知识库之间的关联度和协作能力。

2.1 新一代机构知识库基本架构

新一代机构知识库中,通过集成云计算、大数据等全新技术,为机构知识库的开发提供更多的服务支持。新一代机构知识库的系统架构和具体功能见图1所示。

图1 新一代机构知识库的系统架构及功能

新一代机构知识库的底层数据来源更加广泛,包括WOS、SCOPUS、EI、Pubmed、学位论文库以及机构文库。数据类型更加丰富,包括期刊论文、会议论文、学位论文、专著、专利、演示文稿等。在内部功能上,依托完善的数据处理流程,可实现学术成果自动更新,消除学者姓名和机构名称等拼写歧义,进行机构甄别和学者甄别。同时,可以全面准确地追踪学者或机构的学术产出,进行学术评价和同行评审,促进科研合作、知识传播和共享。在外部功能上,通过标准数据接口,整合多方服务,可对接机构的人事管理系统、科研管理系统和教学管理系统,从而使新一代机构知识库更好地支持机构教学、科研以及管理等活动。在服务功能上,构建面向复合与数据对象管理、内容自动更新和机构影响力评估等服务。

2.2 新一代机构知识库功能服务

(1)数据及复合对象管理服务。随着学术产出的内容、形式不断地演化丰富,越来越多其他形式的学术产出从科研背后走向前台。这包括科学数据、图像、视音频、软件和工作流等。对于结构化的单一内容对象类型,组织起来比较容易,而对于复合对象需采取关联组织模式,因此,该功能提供了新一代机构知识库作为数据登记和发现系统的服务。

(2)内容的自动更新服务。这项功能服务的实现有3种模式。第一种模式,支持出版商自动推送OA内容到机构知识库,同时,出版商也支持作者选择存缴。发表文章的作者可将成果的接受稿/最终稿自动推送至所属机构的机构知识库中。这种模式要求IR平台应支持SWORD协议,出版平台也支持SWORD协议。第二种模式,机构知识库通过出版商的API(应用程序编程接口)服务来主动采集授权内容。从出版商获取的数据主要是以元数据格式为主。在访问权限上,OA论文可以直接访问全文。授权用户直接访问最终发表版全文。非授权用户可预览论文全文的首页等。目前,越来越多的出版商提供API(应用程序编程接口)服务,比如,Elsevier、Springer、PubMed、IEEE等。第三种模式,建立论文交换和分发中心解决出版商与机构知识库之间多对多推送关系。机构知识库接受出版商数据的推送,出版商可以按照论文作者机构,将论文推送到各个机构知识库中。

(3)影响力管理服务。机构知识库建设的一个重要目标和作用就是展示和提升科研人员及所在机构的影响力。科研和学术交流评价趋向多元化和综合性。传统的学术影响力计量主要是指同行间的学术引用。日趋流行的综合影响力要素除了引用还有使用下载以及社会公众的评价等方面。新一代机构知识库将集成基于引用的计量,科研成果的引用频次、来源出版物的影响因子、科研人员的H指数,同时,还集成社群/社会影响力等指标。

3 新一代机构知识库相关技术实现

关联数据(Linked Data)这一概念最早是由Web的发明人蒂姆伯纳斯·李(Tim Berners-Lee)于2006年首次提出,目前成为被W3C推荐的一种用来发布和链接各类数据、信息和知识的规范。其采用资源描述框架RDF(Resource description framework)数据模型,利用统一资源标识符URI(Uniform Resource Identifier)命名数据实体,来发布和部署实例数据和类数据,从而可以通过HTTP协议揭示并获取这些数据,同时它强调数据的相互关联、相互联系和有益于人机理解的语境信息[4]。机构知识库中的各类型资源实体首先经过词表的复用与扩展,形成RDF形式的语义化元数据,实现元数据的语义化互操作。然后,采用本体化的元数据模型,对资源进行语义化描述,再借助语义化的本体将RDF链接显性的揭示出来[5]。

3.1 关联数据中的关键技术

(1)将机构知识库中的资源实体描述得规范化。为满足用户快速、准确地找到所需学术资源,新一代机构知识库将提供语义化的访问服务。这就需要对资源实体进行规范化描述,而不是HTML格式的简单描述。新一代机构知识库是围绕研究主题或学科领域来进行知识组织的,每个研究主题或学科领域又可分为多个专题。专题可以根据文献类型或其他的索引方法来进行组织。每个专题的内容包含着期刊论文、会议论文、学位论文、专著、专利、演示文稿等多种类型数据集。

(2)将机构知识库中资源实体扩展到已有关联词表。关联数据的基本原则之一就是尽可能提供相关的统一资源标识符URI,以使用户发现更多的资源。在数字图书馆领域,资源一般最常用的就是RDF schema和OWL提供的结构描述,如DC、PROV-O、SKOS、VOAF、FRBR等语义关联描述模型,它们均已经实现了全面的关联数据化。新一代机构知识库可以利用标准的关联数据组织模式,对系统内的知识组织体系进行规范。因此,可使用已有的类以及属性选择最合适的关联词表,如分类表、主题词表等,明确的表示实体之间的映射关系,使机构知识库在关联词表的帮助下支持SPARQL模式的语义查询[6]。

(3)将机构知识库中的实体进行语义化。关联数据可以为机构知识库实体资源语义化提供基础。可利用实体对象之间的关系对机构知识库中的资源实体对象资源的核心概念进行确定,进一步对它们进行描述。这些核心概念包括相关概念、从属概念、交叉概念等。首先要构建机构知识库资源领域本体,其次抽取概念间的关系,扩展类的属性,在本体之间形成语义关联。同时,关联数据允许机构知识库关联到更广泛的信息资源,并不局限于资源实体本身的信息。它可以扩充科研人员、所属机构、科研成果以及其所属学科主题等其他信息,到其他任何一个存在该信息描述的数据源,并提供多个分布式异构数据源整合的关联访问,从而为用户提供整合的资源发现服务[7]。

3.2 关联数据能解决的关键问题

(1)机构知识库实体对象的识别和实体关系的抽取。机构知识库中的实体对象很多,关系也很复杂。对同一实体对象和关系的识别和抽取是一个关键问题。不同的关联数据源对同一个实体,如人名、地名等采用了不同的URI来标识[8],会导致他们所标示对象的标签和实质的内容并不是完全匹配的。为了解决这一个问题,可设计一个知识资产作者及作者排序确认程序,目的是借助人工的甄别,去实现作者和其成果的一一对应关系。该程序会在作者向机构知识库所提交的条目内容被接受和保存,并分配唯一的URI标示符后,自动向作者发送认领邮件,由作者本人来确认是否是自己的作品以及选择作者的排序。这种做法虽然效率可能会比较低,认领周期会有点长,但是对于目前的研究层次而言,是十分有效的,而且很大程度地提高了实体对象识别的准确率。与此同时,机构知识库还可增加别名管理程序,为同一个人名实体添加多个形式的别名,解决人名实体多样化的识别问题。有了这些前期的预处理工作,抽取机构知识库中自身的实体对象和关系可以按照机构知识库的元数据描述字段以及关系类型进行解析和拆分。

(2)机构知识库关联数据源的选择和不同词表间的映射。机构知识库中的数据主要是期刊论文、会议论文、学位论文、教材、专著、专利、演示报告等资源,要将机构知识库中的元数据扩展到外部的关联数据源,选择合适的关联数据源十分重要。目前互联网上的关联数据源有很多,但基本都是综合性的社会公共性质的数据集。而不同的关联数据来源可能采用不同的关联词表,为了最大化、最有效地语义化机构知识库中的元数据,从而为用户提供整合的清晰的数据视图,需要将不同的术语转换成统一的目标模式。转换工作主要依据词表将数据映射成本地的数据模式,另外,还需要依据人工产生或者经过数据挖掘得到的映射规则进行转换[9]。

猜你喜欢
数据源出版商知识库
汉语近义词辨析知识库构建研究
一种多源数据融合过程中的实体关联性计算方法
利用属性集相关性与源误差的多真值发现方法研究
Web 大数据系统数据源选择*
卫星状态智能诊断知识库设计方法
数据有增加 图表自适应
机构知识库建设的动力研究
位置与方向测试题
各行各业
2006年国际消费类杂志调查