陈海玉 向前 赵冉 何剑锋
摘要:数字环境下,馆藏红色文献的知识存储、服务利用和传播效能问题亟待解决。知识库在知识聚合以及为用户提供个性化、知识化、专精化服务方面具有优势。本文以红色基因传承为导向,探索馆藏红色文献知识库在数据获取与处理、元数据设计、知识关联与知识服务方面的问题,为今后构建文献知识库提供参考。
关键词:红色文献 知识库 知识服务
目前我们提出“把红色资源利用好、把红色传统发扬好、把红色基因传承好”的红色文化观,极大激发了红色资源新活力。红色文献是红色资源的重要组成部分,理应在红色资源发掘利用中发挥重要作用。随着新时期信息技术与经济社会的广泛融合应用,各地馆藏红色文献数字资源和数据资源持续增长,海量集聚的特点凸显,社会各界对红色资源的利用需求也呈现多样化、个性化和智慧化发展趋势,加强红色文献资源的深度建设、服务创新与开放共享利用已成为社会的广泛共识。
现有红色文献数据库的利用率不高,存在“信息需求的集结、有序、专精与信息资源的海量、无序、异分的矛盾”[1],制约着红色文献资源社会效能的充分发挥。因此,当前迫切需要加强红色文献资源建设,通过推进文献数字化和数据化,促进信息资源的有效整合、深度挖掘与知识关联,提升管理及利用效益。本文从红色基因传承的视角,探索馆藏红色文献知识库在数据获取与处理、元数据设计、知识关联与知识服务方面的问题,为今后文献知识库的建设与应用提供参考。
(一)有利于推进红色文献资源的集成化管理
红色文献知识库构建的目的是成为公众新型红色文献资源共享、红色精神传承和各地区红色学术交流平台的重要基础设施,能够保存与管理类型异构和数量众多的红色文献资源,既包括各种革命历史档案资料、报刊、手稿、文件、日记、书信、年谱、传单、宣传标语、票据、图片、缩微胶片、音视频资料、软件、工具等,还包括该领域专家、学者的研究成果和学术报告等,继而成为全社会不同类型用户利用红色资源的文献资源中心。
(二)有利于实现红色文献资源的深度加工与挖掘
馆藏红色文献知识库可以有效解决红色文献资源关联性问题,借助新技术、新媒介的多样性,通过分析、统计、计算等方式重构和创新人文知识,为研究者提供更多视角的研究可能和线索,从而能够拓宽学术边界,实现学术领域疆域的重绘。它可以实现新兴理念与传统人文知识的对话,包括突破既定学科边界的对话,跨越理论与实践、定性与定量的对话等,其创新性主要体现在加大资源整合力度、细化知识粒度、实现知识聚合与关联等方面。
(三)有利于满足社会各界用户的多样化利用需求
馆藏红色文献知识库是具备异构数据互用性的开放性网络资源知识库,是友好型、个性化的人机交互知识库,能够为每个用户、组织和机构提供设施、知识和服务的红色文献资源共享基础。同时,红色文献知识库为学者创造开放的、学术性的生态环境,成为具有时代特征和创新性的学术体,并能参与到世界记忆工程构建中,成为缅怀历史、传承红色基因的新型载体。
在红色文献知识库构建中,结合档案文献知识内容和领域特征,知识库架构分为数据存储层、知识组织层和知识服务层(见图1)。
数据存储层是红色文献知识库的基础,通过数据的有序化和知识化形成粗粒度知识,为知识组织层提供数据来源,是构建知识组织的底层数据。数据存储层承担着红色文献数据整合、保存和管理的任务,是整个知识库架构的基础以及用户需求服务的保障。
知识组织层是知识库的核心层,主要是实现知识有序化和知识创新,完成数据存储层的数据关联,将数据资源细化升格为知识资源。在知识组织层,我们将借助一些知识组织工具,建立知识间的语义关系,形成中国革命历史领域本体、数据链、知识链、用户需求和用户行为等关系链,并建立红色文献知识仓储。
知識服务层是实现用户需求和知识组织联系的接口层。该层虽然不承担知识组织的具体任务,但它是用户和知识组织系统之间的纽带,一方面根据用户的需求,运用检索技术、推理技术、关联分析技术等对知识关系链或知识仓储进行运算,从而实现知识服务;另一方面采集用户需求信息和使用系统信息,并将这些信息传递给知识组织层,为建立用户行为分析知识关系链提供客观数据。[2]
在实际知识库构建中,我们既要考虑到红色文献资源对社会大众的爱国宣传作用,也要考虑到红色文献资源研究领域专家学术成果的应用。[3]同时,红色文献知识库的构建还需打破现有知识库由单个学科机构承担的窘境,才有利于红色文献、科研成果、学术报告等资源的开放。因此,红色文献知识库的构建需要由体制内大型机构牵头,联合各地红色文献保存主体,打破馆际壁垒和地理隔离。
(一)知识库的数据准备
知识库的数据准备是知识库数据存储层构建的关键步骤,同时也是为了实现数据知识化、知识有序化以及知识服务的前期工作。在知识库的数据准备中,知识表示是十分重要的前期工作,它是知识库知识组织工作的基础和保证。在知识表示的前期构建中,我们要重视获取和选择相关的知识资源、工具和方法。红色文献知识库的数据准备主要包括知识资源准备和知识组织工具的选取等方面的工作。
红色文献知识资源的形式多样,既有保存于档案馆、博物馆、图书馆等机构的尚未正式出版的原始资料和正式出版的一次文献(如期刊论文、著作等),也有经过整理生成的索引文摘之类的二次文献和综合分析产生的综述、述评类三次文献。之后,我们再根据用户需求准备知识资源的形式,根据需求类型设计知识组织的逻辑结构。
选择合适的知识组织工具是知识组织的关键。红色文献知识库可选用本体构建工具进行知识组织,本体构建工具是知识处理及可视化类工具,可建立知识之间的深层次关联,形成知识网络,并通过合适的方式展现给用户。除此之外,还有自然语言处理工具、引文处理及可视化工具等知识组织工具。
(二)知识库元数据规范制定
知识库元数据规范制定是构建知识组织层的核心内容,对知识库元数据标引的质量有较大影响。元数据规范制定大致遵循以下流程:一是选择知识库系统平台,同时确定基础元数据规范;二是分析知识库的功能;三是根据知识库功能需求对基础元数据进行扩展或本地化。[4]
如红色文献知识库选用DSpace系统平台,并基于该平台进行扩展开发,分析红色文献知识库的功能,即知识服务层可提供的服务,一是知识库的基本功能,即存储和展示参与共建机构间的所有红色文献;二是扩展的知识库功能,即基于语义的概念查询、知识聚合和知识链展示,以及知识的创新。根据知识库的功能,我们可以设计红色文献知识库的元数据,除了启用DC元数据(即都柏林核心元数据)字段,如Contributor(作者)、Date(出版时间)、Description(摘要)、Identifier(引文格式)等基础DC元数据字段,还需要进行一些扩展。
红色文献知识库根据其功能进行DC元数据扩展,主要是针对红色文献资源属性和针对知识库服务的扩展。
(三)知识发现
知识发现是连接知识组织层和知识服务层的桥梁,主要由文献概念提取、本体表示和知识揭示三部分组成,即通过对前期数据准备形成的红色文献资源集合进行文献概念提取,构建概念集合,之后在本体表示和知识揭示中形成语义本体集合(见图2)。
红色文献资源概念的提取是指在不同数据源的结构化和非结构化资源中提取概念。知识的概念和领域,重在揭示信息的内部特征和使知识显性化,对信息的描述粒度可细化到最小知识单元级别,对异构信息也能很好地处理,对知识的描述突破粒度、结构、类型的限制,可以描述文献、信息资源,还可以描述其内容中隐含的知识,如人、机构、地点、时间、事件、物体、主题词、关键词等实体或概念的特征及其相互之间的关系。红色文献资源涉及的知识领域属于中国革命历史领域,历史事件、组织、人物等是存在层级化的本体体系,上下层级之间通过概念类定义进行继承,我们还可直接引入另一个概念类联系领域中的其他本体,实现知识关联。[5]
本体表示是在红色文献资源概念提取形成概念集合的基础上对红色文献资源进行正式的语义表达,其核心是利用现有的本体对从文献资源中抽取到的词汇进行概念规范化并形成语义,包括选择、利用与相互映射本体,从而利用本体对文献资源进行综合全面的规范与聚合。本体表示可以实现异构文献资源的互用性,对不同数据源的概念实现规范化,以及促进异构资源的融合、互操作和共享等。
知识揭示即对不同数据源中的概念进行研究,包括机器学习和数据关联,对规范后的资源概念和关系进行挖掘,揭示知识和深层语义关系。在数据规范化后,我们基于本体的概念与关系加强领域知识之间的关联,将异构数据规范以提高知识聚合的效果。
(四)知识服务
知识服务是知识服务层主要内容。知识服务面向不同层次和不同工作特性的用户,并根据用户的需求提供不同特点的知识。知识服务具备面向用户需求和导向提供服务的特点。要满足多层次的知识需求,不仅需要知识库的数据储存层按照用户需求划分知识粒度,更需要在不同粒度知识间建立语义联系,并将这种联系建立在数据组织之中,使其能经过推理来满足更深度的知识需求。基于此,馆藏红色文献知识库需要加强知识的语义标注,更新领域实例来补充和丰富原知识库,并将中国革命历史领域知识构建成知识网络,形成领域知识地图,以提高知识服务的质量。
馆藏红色文献知识库的知识服务是以数据存储层的资源为基础,并结合中国革命历史领域的专家、学者和其他主体的参与情况,在充分挖掘红色文献资源的前提下,以用户需求为服务导向提供开放式的服务,允许认证用户不受限制地进行检索、浏览和下载。
图3为红色文献知识库知识服务图。我们通过知识库服务使知识的利用延伸和辐射开来,可以提高知识服务多功能和智能多样化水平,同时精细化知识库服务体系,保障多个节点使用环境下的用户需求。最后,我们还可以借助信息技术的个性化定制服务来实时更新用户的“需求与兴趣”,以此保证档案文献知识库可持续的知识服务。
多個平台、数据异构、元数据不统一、馆际壁垒等现象一直是制约着红色文献资源知识服务效率的因素。红色文献知识库构建了一个知识聚合的统一平台,打破传统以单馆或单个机构为主体自建数字资源的模式,实现整体集群效应,大大提升红色资源的利用效率。一是在开放环境下嵌入并优化技术环境和管理环境,实现知识库知识服务多功能化。多功能主要包括知识库领域知识概念的检索、知识关联形成的知识图谱服务和知识导航服务等。二是实现知识库知识服务机制的创新,促进知识库服务智能多样化。红色文献知识库服务的多样化是服务维度的拓宽,主要包括知识分析、知识网络构建、完整知识本体响应时长等。三是借助新兴数字技术,为知识库知识服务架上“时代翅膀”。红色文献知识库开源的特征为新兴数据技术的引入带来了可能,能够借助技术的优势不断优化知识库知识服务的效度和质量。
红色文献承载着中国共产党的初心与使命,理应在红色基因传承中贡献“文献智慧”,彰显“文献作为”。新技术环境下的红色文献建设与利用,追求形式多样、受众广泛、存取便捷、利用高效的目标,将海量、异构的红色资源组织成为有序的知识资源,并向社会各界提供高效的知识服务,是解决离散且独立的红色文献资源系统化整合问题,充分发挥红色文献资源资政育人作用的重要举措。因此,各地红色文献资源挖掘的深入和服务利用水平的不断提升,将极大推进相关知识库的建设与应用,并为各地红色文化传播和革命历史教育发挥数据中心的作用。
注释及参考文献:
[1]徐艳芳,曹高辉,王学东.基于知识构建的老庄研究知识库知识服务实现探析[J].情报资料工作,2014(1):83-86.
[2]徐绪堪.面向知识服务的知识组织框架体系构建[J].情报学报,2013(12):1278-1287.
[3]陈晶晶,覃芳,董小熔.数字人文背景下档案馆知识服务:价值阐释与运行逻辑[J].北京档案,2021(12):23-27.
[4]崔海媛.机构知识库构建指南[M].北京:海洋出版社,2019:205-206.
[5]夏翠娟.文化记忆资源的知识融通:从异构资源元数据应用纲要到一体化本体设计[J].图书情报知识,2021(1):53-65.
作者单位:云南大学历史与档案学院