常志军,许丽媛,于倩倩,张建勇,王永吉
(1.中国科学院文献情报中心数据资源部,北京 100190;2.中国科学院大学图书情报与档案管理系,北京 100049;3.中国科学院软件研究所计算机科学国家重点实验室,北京 100190)
数据是一种重要的资产[1],与事物资产的可见可动,财务资产的可计可量不同,数据资产有其独特的特性和价值:持久保存性、损坏不再生、使用无消耗、动态应用性、多状态应用、数据自生产等。数据管理的核心是确保数据的质量,如果数据未能满足使用者的需求,那么所有收集、存储、安全加固、使用数据的努力都是无用的。据IBM 估算,2016 年,美国由于数据质量问题而导致的损失达到3.1 万亿美元[2]。因此,数据使用者必须与具备专业知识领域和技能的数据管理团队共同参与定义数据的特征,使之成为高质量的数据。
中国科学院文献情报中心 (以下简称文献中心)通过集团采购、资源置换、自主建设等渠道收集了大量的科技文献,包括科技图书、科技期刊、科技报告、专利文献、会议文献、学位论文、标准文献等。这些科技文献类型众多,来源广泛,凝聚着人类在科技探索过程中的经验和智慧[3]。在信息化迅速发展的当下,如何对这些科技文献进行有效、高效的管理是亟需面对和解决的问题,也是文献中心科技文献管理工作发展的重要方向。
国内外很多研究团队开展了科技文献管理方法的研究和科技文献管理体系的建设,如云安全联盟组织为云环境数据提出CSA 模型[4],包括创建、存储、使用、共享、存档和销毁,他是为云环境设计的,重点解决了数据安全,未考虑数据质量、数据处理和数据分析等内容。美国地质调查局数据集成社区提出采用USGS 模型管理数据,包括计划、获取、处理、分析、保存和发布/共享,用于评估和改进管理科学数据的政策和实践,是一个综合的模型[5,6]。大学间政治和社会研究联合会提出采用DDI 模型[7]管理数据,包括研究概念、数据收集、数据处理、数据存档、数据分发、数据发现、数据分析和重新调整用途等,是一个全面的模型,但是没有对数据质量和数据安全的关注。张迎等[8]提出了科学数据管理生命周期,并从获取、描述、存储、发布、重用等5 个阶段对科学数据进行管理。
但当前就如何利用生命周期理论对科技文献进行综合管理和有效利用,以及采用专业的衡量标准进行质量评估等研究还处在初级阶段。围绕基于生命周期理论对科技文献进行综合管理等需求,本文第二部分论述了数据生命周期管理模型,总结归纳符合科技文献生命周期发展的阶段和模型,本文第三部分重点介绍了数据管理体系研究的7 个流程,并详细说明了每个阶段的管理体系建设内容,本文第四部分创新性的以WOS BP 数据为基础开展基于生命周期的数据管理实践,并依照数据管理目标从6 个维度进行管理实践与综合评价,本文第五部分对工作进行简要总结,并对未来工作进行展望。
数据不是静止的,在整个生命周期中,数据需要被清洗、转换、合并、增强等。不同类型的数据具有不同的生命周期,这加大了数据生命周期中相关概念的复杂性。如事务型数据可以通过基本业务规则得到管理,而主数据需要通过数据综合处理得到管理。尽管如此,仍然存在一些生命周期通用规则,适用于任何数据。2018 年国务院办公厅在印发 《科学数据管理办法》[9,10]时指出要加强科学数据全生命周期管理[11],规范科学数据的采集生产、加工整理、开放共享等各个环节的工作。同时也将科学数据管理生命周期分为数据采集和交汇、数据保存、数据共享利用、数据保密安全等方面。
数据生命周期管理 (Data Life Cycle Management,DLM) 是一种基于策略的方法[12],着重于数据的规划和设计、使数据可用、可维护,以及通过应用数据实现组织的目标,最终达到可被需要的人或流程所使用的目的。通常用于管理数据在整个生命周期内的流动:从数据的创建和初始存储、变化、迁移和维护到它过时被删除的全过程[13]。尽管数据和技术是交织在一起的,但是不能把数据的生命周期混淆为系统开发生命周期 (Systems Development Life Cycle,SDLC),因为系统开发生命周期专注于在预算范围内按时完成项目研发任务[14]。
数据生命周期管理模型定义从生产阶段到服务阶段的数据全景视图,目标是优化数据管理、提高效率、降低成本。DAMA 数据资产管理协会作为一个全球性的数据管理协会,致力于数据管理的研究和实践原则。DAMA 模型包括创建或获取数据、移动、转换和存储数据并使其得以维护和共享的过程、使用数据的过程以及处理数据的过程[15]。在数据的整个生命周期中,可以清理、转换、合并、增强或聚合数据,同时随着数据的使用或增强,通常会生成新的数据,因此生命周期具有内部迭代。
基于生命周期管理的数据可以在一定程度上提升数据质量,最终达到数据使用者的期望并满足数据需求。判断数据质量优劣的标准是与能否满足数据消费者的需求一致为基准,一致则属于高质量数据,反之,不适用于数据使用者的数据则是低质量数据。数据质量维度是数据的可测量特性或属性,为了评估数据的质量,需要建立具体可行的衡量维度,这些维度不但对业务流程很重要,而且具备可测量、可操作的特性。2013 年,DAMA 英国分会编写的数据管理白皮书提出了6 个核心的数据质量评估维度[16],分别是:完整性(Completeness),是评估已存储数据占应存储数据的百分比。唯一性 (Uniqueness),是评估任何实体的记录会不会出现多次。实时性 (Timeliness),是评估数据体现特定时间点的真实程度。有效性(Validity),是评估数据是否符合相关定义 (格式、种类、范围)。准确性 (Accuracy),是评估数据描述真实世界对象或事件的精确度。一致性 (Consistency),是评估多处对同一个事物的描述不存在差异。
DAMA 表示数据管理是基于数据生命周期的管理,不同类型的数据有不同的生命周期特征。科技文献数据[17]具备数据量大、文件类型多、获取方式和格式多样、更新频率快、时效性强等特点,以文件类型多为例:科技文献通常覆盖期刊、会议录、专著、丛书、文集汇编、工具书、课程、研究论文、专著章节、科技报告、学位论文、课件等多个类型。此外,科技文献数据可描述内容的颗粒度更细化,如JATS 数据标准包含了250 余个元素和130 余个元素属性,NSTL 统一文献元数据标准包含97 个描述性元素、53 个辅助性元素和49 个属性[18]。同时,科技文献数据组织模块化加强,通过对细粒度元素的组合形成相对独立又相互关联的实体模块,如期刊、论文、会议、基金、贡献者、机构等多个实体模块。
本文将科技文献数据的全生命周期阶段主要归纳为创建、存储、预处理、计算、服务、归档、销毁等7 个阶段,可以在科技文献中进行普适性应用。如图1 所示,数据在每个阶段呈现不同的活跃度,在数据计算阶段和数据服务阶段达到峰值,在数据销毁阶段达到谷值。
数据创建阶段收集从多个来源获取的商业采购数据、开放获取数据、中心自建数据和交换获取数据等,通过网络接口获取、公开网页采集、数据库直接导入、硬件批量拷贝、网络集中下载等多种接入形式,获取期刊论文、会议论文、科技报告、科技专利、基金项目、科技资讯、图书专著、科技政策等各个类型数据。
数据存储阶段针对不同体量、结构的数据进行个性化存储设计。对无需复杂操作的小体量数据采用本地文件系统存储形式,利用单台服务器满足对文件数据、源数据、中间数据的存储需求。对无需复杂操作的大体量数据采用分布式存储形式,利用多台服务器满足对大文件数据的存储需求。对需要复杂操作的结构化数据采用数据库存储形式,对常规业务数据、监测日志数据等进行存储。
数据预处理阶段可以从字段抽取、信息转换、数据清洗、数据校验、数据索引等5 个方面进行。将非结构化数据转化为符合统一标准的结构化数据,或者将一种形式的结构化数据转化为另一种形式的结构化数据,对相关字段进行抽取、清洗、加工,以获取更丰富更标准的数据,基于服务需求设定索引数据,为了后续计算、服务更方便、灵活。
数据计算阶段是科技文献在整个生命周期中最活跃的阶段,也是数据最具操作性、最丰富的阶段,主要是从数据加工、数据丰富化、数据融合、实体和关系抽取等4 个方面展开,对数据进行集中的治理和计算,以产生更具使用价值的科研数据。
数据服务阶段是将前期已经处理和计算生成的数据通过各类服务形式稳定、高效地进行数据交互并输出数据,提供基础数据服务和增值数据服务,同时支持面向用户需求定制开发优质的、高效的数据服务,基于权限控制和访问监控保障数据服务安全。
数据归档阶段是将不再经常使用的数据迁移到一个单独的存储设备来进行长期、有效保存的过程,这类数据通常是由旧的数据组成,但又是以后必须参考且很重要的数据,需要长期存储和长期可获取,因此在归档时必须遵从相应的规则进行。
数据销毁阶段是指数据服务到期后进行销毁的过程,通常采用对数据及数据的存储介质物理删除的操作手段,使数据彻底丢失且无法恢复。为保证后续审计需要,在销毁时需要对销毁内容、时间、方式、核准部门及人员等信息进行登记审核。
基于生命周期进行数据管理的流程主要分为:数据创建登记、数据解析存储、数据加工处理、数据集成计算、数据服务应用、数据归档保存、数据销毁记录等,如图2 所示。
图2 数据管理流程Fig.2 Data management processes
3.2.1 数据创建阶段
在数据创建阶段主要进行数据创建和登记,科技文献数据来源主要分为3 种类型:商业采购数据、开放获取数据、内部自建数据。各数据来源提供不同的数据获取方式,有些方式利于形成机器自动化例行服务,有些方式需要人工操作获取数据,有些方式利于频繁地、轻量化的获取数据,有些方式则适用于大量数据的快速传递。每一种来源都有其独特的数据接入形式,如表1 所示。
表1 科技文献数据来源和接入形式Table 1 Sources and access forms of scientific and technical literature data
不同来源的数据,接入形式各异,因此需要个性化定制多种工具,以满足在数据创建阶段对数据资产的完整接入,如表2 所示,从接口获取、数据库导入、存储介质拷贝、网络下载、网络采集等方面对数据创建工具进行设计。
表2 数据创建工具Table 2 Data creation tools
3.2.2 数据存储阶段
在数据存储阶段主要进行数据解析和存储,通过各类接入形式获取的科技文献数据主要是XML、数据表、JSON、文本文件等4 种类型,对比这几种类型数据主要有以下特点,如表3 所示。
表3 数据格式和特点Table 3 Data formats and features
综合分析科技文献数据的各种数据格式特点,设计统一的文献元数据存储体系,对各类型数据进行统一存储,有助于处理、维护、集成、包含、审计和管理科技文献数据。文献元数据存储体系重点描述了数据本身,如数据库、数据元素、数据模型;数据所代表的概念,如业务流程、应用系统、软件代码、技术基础设施;数据和概念之间的连接和关系等,主要包含了业务元数据、技术元数据和操作元数据3 类,如表4 所示。
表4 科技文献元数据存储体系Table 4 Metadata storage system for scientific and technical literature
经过统一文献元数据存储体系描述的科技文献数据资源可以更好的解释、组织、理解各类型数据结构、数据内容、系统业务流程等。以业务元数据为例,根据各来源数据组织结构的特点,为每类实体设计独立存储结构,数据组织、字段命名符合JATS 数据标准、NSTL 统一文献元数据标准等相关规范,如图3 所示为科技论文元数据结构。
图3 科技论文元数据结构样例Fig.3 Example of a technical paper metadata structure
3.2.3 数据预处理阶段在数据预处理阶段主要进行数据加工和处理,建设数据预处理工具,实现对各类型数据的格式预处理、解析、转换、结构化,并存储到目标存储系统,如图4所示。
图4 数据预处理流程Fig.4 Process of data pre-processing
首先,根据数据来源、数据量、接收方式、接收频率的不同,通过简单配置数据解析规则,归纳高复用的数据解析模块,设计基于HTML、CSV、XML 和JOSN 等4 套主要格式的数据解析引擎,形成一套半自动的数据结构化解析处理机制,实现对数据资源的自助收割兼具批量运行的数据组件,为数据深加工做好支撑工作。
然后,对多来源数据进行解析、规范化,生成符合元数据标准格式的数据仓库,同时构建镜像索引,为数据计算提供离线、在线的读取基础。同时完成定时功能实现部分数据源的自动更新。
最后,对汇集的具体字段如学者、机构、关键词、来源等内容进行规范化处理,保证从各数据源采集来的数据可以进行统一的清洗、规范、管理和使用。同时不断完善清洗规则、清洗库,清理冗余字段,提升数据质量,为应用服务提供有效的数据支撑。
3.2.4 数据计算阶段
在数据计算阶段主要进行数据集成和计算,主要涉及的关键步骤包括数据丰富化加工、实体关系抽取和知识图谱构建等。
数据丰富化是基于数据已有特征进行信息扩展,提升数据信息量。例如基于文献元数据进行增强关键词扩展,基于摘要进行知识元扩展,基于内容进行中图分类法扩展等。数据加工通常是人工参与的数据加工工作,是最常见的数据质量提升途径。加工过程一般分为加工编辑和审核两个阶段,具有较高的数据质量保障。数据融合是对同一数据的多源处理策略,通常采用优先级筛选和优先占位策略,对不同来源不同类型的数据确定优先等级,质量越高的数据优先级越高,融合时使用来源等级更高的数据字段覆盖来源等级低的字段。当数据字段不能独立支撑数据融合时,可以采取信息块的模式进行综合融合,如图5 为数据融合流程设计。
图5 数据融合流程设计Fig.5 Design of data fusion process
数据中往往记录了多个维度或实体的信息,实体抽取是基于预处理和丰富化加工后的数据,根据应用需求或知识图谱的设计,定义科研实体和实体间的多维关系模型,从科技文献元数据中提取结构化知识、显化数据间的关联关系、挖掘更深层次的数据内涵、构建学术知识网络关系,形成数据知识图谱,支撑科技文献数据间的关联信息揭示,支持智能知识服务能力。比如从一篇文献中抽取的多个作者实体,隐含着合作作者的关系。
3.2.5 数据服务阶段
在数据服务阶段主要进行数据服务和应用,数据检索是数据服务的主要形式之一,是将数据价值显化的重要手段。采用SpringCloud 分布式技术体系,设计基于Eureka、Ribbon、Security、Springboot 等组件的微服务架构,通过Restful API 接口实现对应用的支撑。微服务技术具有扩展灵活、部署方便、自动负载均衡等特点,以集群模式为多业务提供强稳定、高性能、低延迟的数据服务。如图6 是数据服务架构。
图6 数据服务架构设计Fig.6 Design of data service architecture
首先,构建多节点数据注册总线,实现动态服务代理,提供总线基础管理:查看总线使用状态接口,配置安全、注册、监控等功能,通过发布订阅通信应用程序共享信息,通过核心的消息系统负责连接端点和他们之间路由器,以实现数据总线的合理配置。
其次,构建基础设施管理群和服务提供群,部署登录服务、配置服务、查询服务等多个应用服务,可共享数据通路,也可独立部署使用。
最后,构建业务服务消费群,部署数据监控服务,数据分析服务、用户画像服务、检索系统服务等,同时支持各类业务服务的灵活扩展,只需要遵循协议对接到数据总线即可。用户根据需求和应用类型选择适当的接口,通过简单配置IP、数据通路、offset 等信息,即可通过总线轻松获取数据。
3.2.6 数据归档阶段
在数据归档阶段主要进行数据的归档和保存,在大数据成为了关键资源的今天,归档各种类型的数据是非常重要的,是数据量和数据体量积累的重要阶段。在数据归档时既要考虑存储海量数据的设备成本,也要考虑存储海量数据的时间成本。
基于整个数据生命周期,制定符合业务需求的数据归档策略。首先是识别哪些数据应该被归档,以及需要被归档多长时间。其次,根据数据特性将数据存储在相应的存储设备上,始终将归档数据保留在高性能存储平台上,会导致不必要的成本和人力资源的消耗。对经常使用的数据且重要级别较高的数据,归档在高成本、高容量的存储系统上,比如固态硬盘;对经常使用的数据且重要级别一般的数据,归档在低成本、高容量的存储系统上,比如磁盘阵列;对不经常使用但重要级别较高的数据,归档在低成本、高容量的存储系统上,比如磁带设备;对不再使用的数据直接物理删除。最后,制定数据访问策略和安全机制,对具备访问归档数据的用户赋予相关权限。
3.2.7 数据销毁阶段
在数据销毁阶段主要进行数据的销毁和记录,数据销毁阶段是指数据到期后进行销毁的过程,数据生命周期的最后阶段需要安全销毁,需要制定销毁计划,来定义进行数据销毁的时间和方式。通常可以通过机器方式或人工方式进行在线数据销毁和归档数据销毁。同时,为保障后续业务需要,应对销毁的数据内容、销毁时间、销毁方式、销毁人员等信息进行登记,以确保数据销毁的安全性和全面性。
基于科睿唯安核心数据集,从数据接收、数据存储、数据处理、数据计算、数据服务、数据归档、数据销毁7 个阶段严格按照本文设计的数据管理体系开展基于生命周期的WOS BP 数据管理实践。然后依照数据管理目标从完整性、唯一性、实时性、有效性、准确性、一致性等6 个维度进行管理实践与综合评价。最后,依据评价结果得出结论:本文提出的基于生命周期理论的科技文献管理体系适用性良好。下面就具体的评价指标进行说明。
完整性是评价数据缺失的情况,包括记录数缺失、字段缺失,属性缺失等,可以在数据接入前或接入后进行监控。以数据字段完整性监测为例,在数据接入后,对147 个数据项进行监测 (图7),实时评估有值数据字段和空值数据字段,对比有值/空值占比,得出数据完整性评价。据统计,截止到2021 年12 月,147个数据项有值占比为59.75%,必备字段 (WOS 入藏号、出版年份、文献标题、作者名称、WOS 分类、发表期刊标题等) 有值占比为99.22%。
图7 数据完整性评价Fig.7 Evaluation of data integrity
唯一性是评价数据重复的情况,包括数据实体是否重复、属性是否重复等,可以在数据接入前或接入后进行监控。针对WOS BP 数据设计专业数据字典(图8),定义12 类数据模块,覆盖文献、作者、图书、分类、会议、通讯作者、基金项目、作者机构、出版信息、参考文献、作者信息、发表期刊等内容,通过对数据内容进行监控约束,避免出现数据重复的情况。以数据入藏号为例,数据唯一性达到99.23%。
图8 数据唯一性评价Fig.8 Evaluation of data uniqueness
实时性是评价数据及时的情况,是评估数据体现特定时间点的真实程度,包括数据从发表到接收的实时性、数据从接入到服务的实时性,可以在数据接入后进行监控。以数据从接入到服务的实时性为例,以接收第23 周数据后和WOS 官方6.4 日数据量对比:1980—2019 年历史数据相差很小,个位数到十位数之间;2020 年数据相差百位数;2021 年数据相差千位数,是数据处理的正常范围,如图9 所示。
图9 数据实时性评价Fig.9 Evaluation of data real-time
有效性是评价数据项符合规则和定义的情况,包括数据项是否符合类型、格式、种类、范围等约束,是否符合业务逻辑,是否符合值域约束等,可以在数据接入后进行监控。以数据项是否符合类型约束为例,为147 个数据项分别定义数据属性区间和类型备选,严格控制每个数据项符合应有的类型约束。
准确性是评价数据错误情况,包括数据集合、数据条数、数据项等内容是否与真实数据保持一致,可以在数据接入后进行监控。以数据项准确性评价为例,随机抽取一条数据记录,对比WOS 官网数据内容,包括文献信息、发表信息、分类信息、作者信息、基金项目信息等(图10),数据准确性为100%。
图10 数据准确性评价Fig.10 Evaluation of data accuracy
一致性是评价数据符合标准的情况,也是多次对同一数据进行描述而不存在差异的评价,包括数据包是否符合约定形式,数据是否符合数据标准,数据项是否有漏掉或增加等,可以在数据接入前或接入后进行监控。以数据符合标准一致性为例,对接收的WOS BP 数据进行专项核查,一致性达90%。
本文以数据生命周期为出发点,探究科技文献生命周期管理的关键核心,立足数据管理全流程应用,以科技文献数据为基础,从创建、存储、预处理、计算、服务、归档、销毁7 个阶段为重点实施步骤进行实践探索,基于WOS BP 核心数据集实施了上文提出的数据生命周期管理模型,然后从数据质量评估维度进行了完整性、唯一性、实时性、有效性、准确性、一致性等6 个维度的评价核验,基本解决了科技文献数据在每个生命周期阶段都可以进行有效的管理和应用问题。最终管理模型初具成效,并达到良好的服务效果。
但仍存在很多问题和挑战,在接下来的工作中将进一步完善和改进。首先,在科技文献生命周期管理中集成人工智能技术引擎,紧随国家 “新基建” 战略部署,让数据管理更智能更全面。其次,在数据生命周期管理中扩展更多种类型和来源的科技文献资源,打通多模态数据智能管理渠道。最后,进一步提升数据生命周期管理的实际应用效果,打造精细化、细粒度的数据形态,提升数据服务水平。