鲜国建 罗婷婷 赵瑞雪 张建勇 杨增秀
(1. 中国农业科学院农业信息研究所,北京 100081;2. 农业农村部农业大数据重点实验室,北京 100081;3. 中国科学院文献情报中心,北京 100190;4. 机械工业信息研究院,北京 100037)
NSTL自2000年成立以来,始终按照“统一采购、规范加工、联合上网、资源共享”的机制,采集、收藏和开发理、工、农、医各学科领域的科技文献资源,是面向全国提供公益、普惠的科技文献信息服务的机构[1]。随着数字科技文献的大量出现、开放获取资源快速发展和用户对知识服务需求的日益增长,近年来NSTL大力推进由成立之初的传统外文文献信息保障服务向新时期新型泛在知识发现服务的战略转型。为此,NSTL数据库建设模式也随之发生转变。本文以期刊文献为例,介绍NSTL文摘数据加工模式发展脉络和近十年文摘数据加工利用的情况,并重点阐述“多源异构数据深度融合利用”模式的构建,以期为实现多源异构数据的集成管理,提升数据组织管理能力,消除“数据孤岛”,挖掘数据的潜在价值[2]提供参考借鉴。
NSTL文摘数据加工业务伴随NSTL的诞生而诞生,伴随NSTL的发展而发展,是NSTL科技文献信息资源与服务体系建设的核心业务单元,对于促进文献信息资源的开发利用具有非常重要的意义[3]。20年来,NSTL数据加工组组织9家成员单位,本着“统一标准、分布加工、集中建库、分布服务”的原则持续开展科技文摘的数字化加工。在此期间,由于文献资源的来源及形态不断发展变化,数据加工工作大体经历了三个发展阶段。
在这一阶段,NSTL订购资源主要以印本为主,文献类型包括西文期刊论文、会议论文、文集汇编、学位论文、科技报告、标准等,对这些文献,数据加工组按照统一的文献数据加工标准规范,采用人工扫描识别等方式开展数字化加工工作。为有效规范和指导各类文献的数字化加工,NSTL研究制定文献数据库数据加工规范,对各类文献数据的元数据描述框架、元素集的构成和元素集之间关系进行了系统描述[4]。同时,为加强数据加工的规范化控制,提高数据质量和管理效率,NSTL启动联合数据加工系统的研发并于2010年上线运行,正式承担起NSTL数据加工管理任务,实现NSTL各单位之间数据加工的集成化、协同化管理,并建立了与NSTL联合目录系统、数据仓储系统、门户服务系统等基于OAI-PMH协议的元数据共享和交换体系[5]。经过15年的全自主加工和持续建设,为NSTL奠定了与文献检索及原文传递等服务相匹配,并拥有独立自主知识产权的海量外文文献核心元数据的资源保障体系。
为有效应对数字文献信息资源环境变化、用户信息需求变化和学术信息服务市场竞争,NSTL在其“十三五”发展规划中明确提出加强国家科技文献信息资源建设,扩大数字资源和开放资源保障能力的发展目标,以及拓展国家科技文献信息元数据资源多渠道采集方式等任务措施[6]。从2015年1月起,NSTL在坚持做好订购文献自主加工的同时,以专项任务等形式,前期开展了Web of Science(WoS)等第三方来源数据与NSTL自主加工期刊论文数据的品种覆盖、加工著录规范、数据内容质量等多角度对比分析和规律总结,并行启动了WoS、中图公司、期刊出版社等第三方来源元数据的获取、解析、映射和本地化存储管理。结合第三方来源数据特点,研究制定了NSTL加工使用第三方数据的若干规定,设计研发了准备库系统和第三方数据获取工具,并与联合数据加工系统进行无缝集成和互操作。经过加工组全体成员的共同努力,实现了第三方文献元数据与NSTL自加工数据的有机整合[7],同时进一步促进NSTL数据加工效率和数据质量的提高。为确保NSTL文献检索和原文传递服务的一致性和稳定性,这一阶段主要以NSTL自加工数据为基础来推进第三方数据的引进利用。
为高效应对数字业务环境变化和知识服务的新要求,NSTL加快了原有基于印本文献的采集加工和服务的业务布局优化重组步伐,规划设计了NSTL新的业务总体框架和业务布局。根据流程再造规划方案,在继续做好订购资源元数据加工处理的基础上,重点建立健全多来源元数据加工和匹配融合机制,基于新的统一文献元数据标准规范,建设多源数据驱动的新型文献元数据分布式协同加工管理平台与人工弱干预数据融合系统,全面推进多源异构数据的广泛汇聚、迭代加工、精准映射与深度融合。
目前,随着WoS、Taylor、Crossref等10多种第三方数据资源引进量不断增加,其在NSTL文献资源中占比不断扩大,现已超过60%。同时,第三方数据中还包含大量非NSTL订购资源,这些多来源数据相对独立分散,NSTL尚未实现对所有来源和所有类型异构数据的集成管理、深度融合和一体化服务。在此背景下,根据新的业务再造要求,从2018年开始,NSTL先后启动了文献元数据集成加工管理系统建设、多来源文摘数据融合研究与系统建设等重点专项,以期全面推进多源异构文献数据的汇聚、加工和融合,进一步实现数据加工模式的转型升级。本文还将继续探讨这一模式的建设进展。
本文对NSTL近十年(2010—2019年)期刊文摘数据加工情况进行统计,见表1。
不难看出,2010—2014年采用“全自主加工”模式,年数据加工量基本稳定。2015年以来,采用“自主加工+第三方数据利用”模式,自主加工数据量总体呈下降趋势,自主加工量占总加工量比例由2015年的51.0%下降到2019年的39.1%。而第三方数据利用量不断增加,第三方数据量占总加工量比例由2015年的49.0%上升到2019年的60.9%。表明利用第三方数据在NSTL数据加工工作中的重要性不断提高。
表1 近十年(2010—2019年)期刊文摘数据加工情况统计
虽然2015—2019年NSTL利用第三方数据不断增多,但已利用量占总购买量的比重不到15%,尚有超过85%的第三方数据未被利用。究其原因,主要在于这些数据具有来源广泛、数据量大、数据类型多、结构复杂等特点,要实现有效的加工、融合、利用,尚需持续深入开展研究、探索、实践,找到行之有效的办法并不断优化完善。
上述分析表明,最大程度地发挥第三方数据的价值,与NSTL自主加工建设数据库进行取长补短、优势互补,是目前需要着重解决的问题。由第三方数据的特点可知,要对其有效利用,需要解决这些多源异构数据的格式规范化、层级结构清晰化等关键问题,需要管理多源异构数据的整个生命周期[8],以实现多来源数据的精准匹配与深度融合,促进NSTL基于数据资产的服务创新和价值创造[9]。
为此,总结以往数据加工经验,融入大数据治理和数据全生命周期管理[10]等理念,本文提出了一种“多源异构数据深度融合利用”的新模式,通过数据采集、汇聚、匹配、融合、审核、发布等核心环节,实现多源异构数据形式和内容上的汇聚与融合,为NSTL实现知识发现、知识计算和开放共享等知识服务提供科技大数据资源保障。
为确保多源异构数据深度融合利用模式全流程转型和工程化实施的顺利稳定开展,构建多源异构数据深度融合利用模式,需要遵循以下原则。
(1)标准化、规范化原则。多源异构数据匹配融合集成加工需要使用开放的、公共采用的标准规范,主要基于NSTL统一文献元数据规范XMLSchema3.0格式,以便于实现与NSTL其他各业务系统的协同、交互与合作。
(2)易用性、可溯性、可扩展性原则。数据建设组采用的数据采集、数据汇聚、数据匹配等数据治理方法流程要简单清晰、易理解,最终形成的融合后数据要可回溯、可修改、可扩展。
(3)连续性、完整性原则。多源异构数据深度融合集成加工是一个长期的过程,一方面要保证数据的连续性和完整性,另一方面也要建立长效机制,保证参与多源异构数据匹配融合集成加工人员的连续性。
为加强多源异构数据匹配融合加工的规范化控制,提高数据匹配融合率,保证融合后数据质量,需要做到流程清晰、接口规范、人机协作友好,实现与NSTL各业务系统的无缝连接,多源异构数据深度融合利用模式的总体框架如图1所示,主要包括数据获取、数据汇聚、数据匹配、数据融合、人工弱干预、成果数据发布等步骤。
首先,定期通过微服务数据接口或其他方式获取多源异构数据,并建立不同来源和规范格式的元数据向NSTL统一文献元数据规范XMLSchema3.0格式的统一映射与同构转换,完成同来源数据查重后进入数据汇聚库,建立索引并进行核心字段预处理,开展多途径精准匹配,并将精准匹配的多源数据开展字段级深度融合。然后,各成员单位数据处理人员进行数据抽检,对疑似数据或未匹配成功的数据进行人工匹配融合,融合后的数据写回汇聚库。最后,对机器+人工融合后的成果数据进行质量检查,并通过接口等方式输出,供NSTL其他业务系统使用。
图1 匹配融合加工模式总体框架
在该模式下,如何实现多源数据中同属一篇文献的精准匹配并完成字段级内容融合是核心,匹配融合规则及算法设计合理性将直接影响文摘数据匹配率和数据融合质量。经过深入分析大量多源异构数据母体、卷期、篇级等信息,通过多轮优化完善,项目组探索出一套合理完善的多源异构文摘数据匹配融合规则,并进行了算法实现。
2.3.1 流程规则设计
分析数据本身的特点是规则设计的基础。多源异构文摘数据结构复杂,层级较深,需要分类分层逐个分析。根据多源异构期刊文摘数据的特征,数据加工组依次从期刊母体、卷期、篇级三个层级开展了深入分析。在期刊母体、卷期数据方面,针对卷期命名规则不一致的现象,进行了统一规范化处理;在期刊篇级数据方面,对标题、DOI、起始页码、摘要、作者等核心字段进行了规范化处理。
据统计,在来源数据中有ISSN号的数据约占90%。为提高匹配效率和准确率,匹配规则可分为ISSN不为空和ISSN为空两类,不同类别的数据匹配规则不同。
针对ISSN不为空的数据,匹配规则总体思路是在同一ISSN下进行三轮循环:首先,直接循环匹配DOI,再比对标题;然后,按出版年分大组,再按标题分小组,小组内对比卷、期、起止页、作者、摘要等核心数据项;最后,未匹配成功的数据,根据年份和期进行分组,循环计算每组两条数据标题的相似度,编辑距离大于阈值0.7的数据继续进入第二轮匹配循环。
针对ISSN为空的数据,以及后续增量数据匹配规则总体思路是:通过标题和年份查询,快速获取候选集,再根据标题和相似度,取出满足标题和年份相等或者相似度较高的数据,先对比DOI,再对比卷、期、起止页、作者、摘要等核心数据项。匹配规则详细流程如图2示。
在精准匹配基础上,针对NSTL元数据30多个字段/组内容进行了数据字段级内容融合规则和优化级的设计确定,字段级融合规则的总体思路是先以NSTL字段为融合基准,再为WoS等其他优质来源数据依次选用,融合过程通过日志可回溯可修改。
图2 多源异构数据匹配规则流程图
2.3.2 核心算法实现
匹配融合规则的合理性和准确性需要通过算法来实现和验证,这决定了多源异构数据深度融合利用的模式具有计算密集型的特点。在具体实现中,基于当前大数据环境下主流的算法靠近数据的原则,通过构建ElasticSearch索引集群来进行匹配,采用快速分组方式,提取出所有的ISSN号,每次只处理同一个ISSN下的数据,并将匹配算法封装为中间件,集成到Pentaho开源ETL工具,开启多线程运行(见图3)。经过多轮改进优化,目前的数据处理效率为一周内可完成7000万条数据的精准匹配。目前,基于匹配算法初步实现了1.57亿余条13类多来源异构期刊文摘数据的精准匹配,精准匹配的数据约7900万条(占比50%),疑似匹配的数据约311万条(占比2%),未匹配(单一来源)的数据约7533万条(占比48%)。
在融合算法实现方面,对匹配上的数据进行分组,再根据数据融合规则选取相应字段的具体信息,生成一条新的数据并同时记录该数据所有字段来源信息(见图4)。目前,在单线程下每分钟能融合1000条,据初步统计分析,基于融合算法将精确匹配的7900万余条数据融合为2990万余条。
图3 精准匹配算法流程图
图4 字段级融合算法流程图
通过数据采集、汇聚、匹配、融合等数据治理核心流程,使多源异构文摘数据实现了精准匹配和字段级融合。从匹配融合的结果来看,一方面,存在一部分疑似数据和未匹配数据无法通过机器实现匹配融合,需要基于多源数据融合系统开展人工弱干预;另一方面,为了保证数据的真实性、准确性、连续性、及时性,需要将这一套数据治理方法及流程固化到融合系统之中,实现全流程展示及监控。因此,项目组研制了一套计算机自动匹配融合与人工弱干预相结合的多来源文摘数据匹配融合系统。
2.4.1 核心功能设计
新型多源异构数据融合系统的核心数据处理功能是后台数据密集型计算,前端则侧重于对人机互动的高效、友好、便捷的互操作支撑。因此,核心功能将不再是细粒度的流程驱动和逐条逐项数据的细致操作,而主要包括系统管理、统计分析、典型案例、数据匹配、数据融合、数据审核、数据发布、系统管理等。其中,系统管理模块是指对任务、角色、菜单、用户等管理;统计分析模块包括文摘数据来源占比情况、各来源数据匹配情况、融合情况等多维度统计,实时查看数据流转各流程、在线查看日志统计图表;典型案例是指通过多途径处理后,成功匹配上的数据展示;数据匹配模块包括疑似数据人工匹配、人工抽检、未匹配查看;数据融合模块包括融合数据人工抽检;数据审核模块主要是对数据匹配、融合环节人工干预的操作进行审核;数据发布是指对机器+人工融合后的成果数据进行展示。系统核心功能如图5所示。
图5 多源文摘数据匹配融合系统核心功能
2.4.2 系统功能研发
结合业务流程再造的发展目标,多源数据融合系统将不再是支撑人工密集型数据加工业务的系统,也需要改变原有联合数据加工系统中总分结合的系统架构和部署模式。因此,本系统整体基于B/S架构,采用“关系型数据库+NoSQL数据库+ElasticSearch索引集群”等大数据混合存储框架来支撑多源数据的集中存储、高效读写和统一调度,并集成富客户端ExtJS和ECharts等前端框架技术,为数据库建设管理人员和加工人员提供网络化、分布式协同工作平台。目前,该系统初步完成了一期核心功能研发与测试,并在成员单位开展了应用测试。其体系架构及系统部分功能见图6和图7。
图6 系统体系架构图
图7 精准数据人工抽检功能(部分)
20年来,NSTL数据加工工作走过了一条不平凡之路,取得了显著成绩。数据库建设组紧密结合NSTL“十三五”发展规划和业务流程再造总体目标,积极探索新型的“多源异构数据深度融合利用”模式,为深入推进NSTL多来源数据加工融合全流程转型和工程化实施奠定了基础,初步实现了从人工密集型向计算密集型数据加工的转变。相对而言,传统自主加工模式重点依托联合数据加工系统,由各成员单位组织数据加工人员开展任务获取、数据加工、审核与提交,是以人工密集型为主。而计算密集型模式主要依赖大数据基础设施算力和自主研发的流程算法,自动化程度更高、效率更高,也能减少人为理解偏差或失误等因素造成的错误,加之通过多源数据内容取长补短实现内容增强,数据质量也得以显著提升。
然而,由于当前要加工融合的数据来源广泛、数据规范格式不一、数据项厚薄不均、数据体量巨大,对融合数据支撑后续挖掘计算和知识发现提出了更高要求。因此,在NSTL整体业务流程再造过程中,多源异构数据匹配融合加工模式要全面转型,还存在诸多困难和挑战。在今后的工作中,还将重点开展多源异构数据匹配融合工程化实施,基于大数据基础设施和数据治理技术方法,加强与NSTL其他业务和服务体系的集成,实现从加工流程驱动向多源大数据驱动的全面转型。在此基础上,进一步开展人机协同的数据内容规范化处理,细粒度知识单元识别、组织与关联,开展泛科技文献大数据知识图谱构建,为NSTL构建下一代新型、智能化的知识发现服务体系,提供坚实的数字科技文献大数据支撑和富含语义信息的基础语料知识库体系。