付 强, 陈晓玲, 李 沫, 李剑锋
(吉林省科学技术信息研究所 a. 信息技术支撑中心; b. 大数据中心, 长春 130033)
为贯彻落实《国家科技资源共享服务平台管理办法》指出的“推进建立科研仪器设施国家网络管理平台与资产管理系统中科研仪器信息对应关系, 做好数据共享”, 需完善科技资源共享服务体系, 推动科技资源向社会开放共享。科技文献信息服务平台是对外文献资源体系支撑的窗口, 集聚国内外优质文献资源, 建立高效快捷的文献服务渠道, 开展全方位多层次的信息服务, 为我省政府机构、 科研院所、 企业等创新主体提供强有力的信息保障[1-3]。
科技文献的作用主要体现在: 帮助科研人员在科研工作中缩短时间和节省经费, 在项目申报时提高科研内容的起点, 完善科研系统, 在科研攻关时突破研发卡壳, 碰撞新的科研火花; 了解同行业同领域的技术进展、 最新动态、 前沿热点, 利用原始的科技文献数据, 抽取有价值的信息, 挖掘出解决问题的关键知识, 最终实现运用知识形成智慧产品[4-6]。笔者进一步丰富平台的功能, 提升平台信息、 知识服务, 用户检索、 信息获取和科研绩效; 进一步完善平台的支撑和保障作用, 使其在助推我省创新驱动发展中发挥更大的作用[7]; 该研究是当前科技文献发展的热点和重点, 是科技文献资源建设、 科技信息服务发展的趋势和方向, 其研究成果能立刻应用于实际工作中, 转化效果显著。
对异构资源系统中的异质、 异类的数据在逻辑上或物理上有机地集中, 提供统一的表示和操作, 以解决多种数据资源的互联与共享[8]。解决多源的异构数据库深度融合到平台并发布的建设方案, 并对数据整合后的深层应用与服务进行研究, 实现数据资源的统一、 跨库、 多库检索, 实现专业数据、 文献资料以及数据库等的整合重组[9]。1) 针对不同的数据源, 设计一套跨系统、 跨平台的数据转换标准与规范, 将数据源杂乱无章的数据, 转化成标准有序的数据仓库存储。实现平台与数据仓库的对接, 对数据仓库的数据进行访问与获取。2) 对平台数据库中的文献资源进行合理排序与分类, 异构系统“互通互联”, 以统一的视图方式表现, 构建智能化的统一跨库检索入口, 实现用户在统一检索界面同时对所有科技资源的数据进行检索[10]。
数字文献和数据资源的异构整合通常有传统数据仓库整合方法和中介模式整合方式。笔者采用数据仓库对平台异构数据进行整合[11]。底层中心数据仓库包括异构数据源层、 元数据抽取与创建层、 数据仓库构建层、 数据仓库管理层与应用层。首先经过元数据抽取与创建层技术抽取数据, 将多个数据源的异构数据向数据仓库集成[12]。在数据抽取过程中, 按照一定标准对采用不同单位、 属性、 名称、 结构的数据进行标准化处理, 并且进行正确性鉴别及对错误格式、 类型错误的数据进行净化, 确定元数据名称的定义及描述, 之后向元数据库进行转移和加载, 创建数据仓库。使用户可从不同角度对数据进行分析, 充分挖掘数据中蕴含的信息。最后对数据进行统一发布, 平台提供统一的数字资源检索和查询功能, 为用户实时提供数字文献服务。
通过对平台拥有科技文献资源(知网、 维普等)、 网站上收集的信息进行规范深度整合, 进一步完成元数据仓储建设。从技术需求出发, 经过元数据采集、 加工、 整合, 建立元数据仓储库, 为我省科研用户提供简单、 快捷的数字资源及检索服务(见图1)。平台作为与用户交互的前端, 为用户提供统一检索与资源获取入口, 实现平台从异构、 无序到有序的数据集合层, 元数据仓储建设就是实现科技文献检索系统中的数据集合层以及有序数据层[13]。
图1 元数据仓储建设流程图Fig.1 Flow chart of metadata warehouse construction
元数据采集是元数据仓储建设的基础, 负责元数据记录的收割采集。无论任何数据平台都需要通过元数据进行数据挖掘与采集, 目前笔者已与资源库进行合作, 通过FTP(File Transfer Protocol)方式收割数据, 另有部分需要通过互联网实现数据采集, 面对海量的元数据资源, 如何快速采集和及时更新是采集的难点, 这需要通过增量元数据收割方式解决。
针对不同数据库主要采用以下几种方式: 按刊年期、 资源厂商资源唯一号、 数据更新时间, 以及RSS(Really Simple Syndication)订阅等方式。考虑到增量的采集方式会有遗漏, 定期通过全量的方式收割资源唯一号, 通过与已收割的数据比对后再补充。但上述元数据收割方式存在一些不足, 如按刊年期的方式前提是网络数据库出版每次整期出版, 随着优先出版方式的出现, 网络出版出现了非整期出版, 在实际采集过程中使用以上多种方式组合保证数据采集的全面性、 及时性。
元数据加工模块是元数据仓储质量的保障, 按照功能细分为元数据转换、 清洗、 深度加工以及质量检查。对平台所有的科技资源数据库进行整合, 实现统一管理、 搜索、 登录、 结果排序、 数据关联分析等功能。
1) 元数据转换。利用转换技术将不同结构的数字资源标准规范化, 消除异构资源间的不一致性, 对来自不同资源厂商的元数据根据元数据仓储著录标准进行字段映射, 为资源的整合及统一存储奠定基础。
2) 元数据清洗。包括规范大小写: 全角转半角; 字段拆分(主要集中在网页模版不统一, 元数据采集时未拆开的情况): 格式化处理, 如期刊中卷期的描述有的来源是固定位数, 不足位前面补0, 有的来源不是固定位数; 非学术论文记录剔除, 如征稿启事等; 关联补充字段项, 如ISSN(International Standard Serial Number)以及规范用于整合查重的字段。
3) 元数据深度加工。对“知识获取5要素”进行深度加工标引, “知识获取5要素”是指学者、 科研机构、 主题、 学科和基金项目。如对作者单位进行分级处理, 一级单位、 二级单位和邮编等; 论文基金资助信息规范基金名称、 项目名称及项目编号等, 深度加工后的元数据更有利于对科研实体、 主题、 学科、 项目和专家进行挖掘分析。
4) 元数据质量控制。以必备性检查为主, 如标题名称、 期刊名称、 年份和作者等; 字典检查为辅, 如学位级别和授予学位单位等; 以及正则检查, 如ISSN号, 年、 DOI(Digital Object Identifier)等。经过上述加工后的元数据, 进入资源厂商镜像库。
对平台内部各种元数据的来源信息进行统一管理, 以具体或某个数据库为单位进行梳理和分类, 归纳出各种资源库的类型、 学科和语言等客观属性, 同时为用户提供各种资源库基本信息的详细介绍及其分类导航和索引。
1) 元数据整合程度及模式。元数据整合程度, 就是对各种来源不同的元数据, 其是在系统内简单地堆积, 还是在系统内部转换为统一格式、 合并重复记录。前者, 保持了原始数据的原貌, 输入数据处理简单, 但存在数据量大、 元数据判别问题, 元数据质量、 编制索引、 提供显示、 按指定格式输出都非常复杂, 并且需要读者自己判断记录是否相同等问题; 后者, 输入数据处理复杂, 甚至需要工作人员辅助去重, 但系统检索服务简单快捷, 用户使用数据集中明了。
笔者采用后一种整合程度, 并由此引申出元数据管理模式及去重等问题。鉴于既要去除重复数据, 又要保留原始数据的原貌, 在实际处理中, 借鉴FRBR(Functional Requirements Bibliographic Records)模型的理念, 基于“版本”思想, 将同一条记录来自不同资源供应商分别作为一个“版本”[14]。
元数据整合阶段的数据管理模式, 经过元数据采集、 加工后, 每个资源厂商的数据都进入到相应的镜像库, 在元数据整合阶段, 根据各资源来源的数据质量优先顺序进入仓储整合库, 对同一条记录有多个来源时, 仓储整合库中只存一条质量较优的记录, 同时标记数据来源, 以及能关联到各来源镜像库的ID。
2) 元数据整合去重。元数据整合去重规则关系到整合后数据的质量, 应尽量减少漏查和误查。针对不同的文献类型及不同来源的数据分别针对不同的查重规则。另外, 在来源数据内部也涉及去重问题, 但单一来源内部查重相对简单, 一种是按照来源数据库内部唯一号, 如万方数据期刊论文每篇论文都有内部唯一号; 另一种按照来源URL(Uniform Resource Locator), 前提是来源数据库的URL未发生变化。对多来源元数据的整合去重规则相对复杂, 主要是由于来源渠道多样、 各学术资源平台的元数据描述标准不统一等原因导致。以中文期刊论文为例, 严格意义的中文期刊论文查重规则: 标题、 第1作者、 刊名、 年、 期和页码相同, 但由于各资源平台著录标准不同, 主要体现在以下几个方面, 即期刊合并拆分、 跳转页和期号[15]。
1) 元数据使用权限控制。平台拥有的各类文献资源, 后台管理中的超级管理员设置详细的使用权限分配, 灵活控制各种资源的使用范围、 应用场景和用户组别, 为不同的级别、 群体的用户提供差异化、 个性化的资源服务, 同时能保证资源服务内容的安全性和合法性。
2) 元数据仓储库应用展现。通过应用场景的元数据使用权限控制, 为不同的服务或用户推荐有针对性、 推荐性的最新和热门资源内容, 满足各种应用场景的服务需求。为不同用户建立了个人知识库, 提供强大的个人交互功能和个性化服务。
平台采用软件工程方法, 遵循先进性、 开放性和安全性原则, 采用开放式C/S(Client/Server)3层结构和集中数据存储, 基于Web构建实现平台升级为V2.0, 数据都集中在专门的数据库服务器上, 为数据的安全性、 完整性、 易维护性和数据分析以及数据挖掘提供了安全保障和数据支撑条件。
平台采用SQL Server 2008作为数据库管理系统, 利用其增量备份和恢复功能为保证数据库的安全性, 采用第三范式设计数据存储结构, 利用数据库关联技术建立多表之间的关联关系, 实现跨库检索。对规范的操作建立数据表视图及存储过程, 以减少网络流量和返回的结果集, 从而提高检索效率。采用面向对象的数据库系统管理图像、 声音和视频等多媒体数据。利用灵活实用、 功能强大的ASP(Active Server Pages)及ActiveX组件技术开发信息发布及后台管理系统等模块, 实现后台数据库与前台发布内容的同步更新, 并利用JavaScript实现平台特殊效果。平台的功能采用模块化设计, 使功能具有延展性[16]。用户管理系统、 信息发布与管理系统等模块进行多系统交叉应用设计, 并解决了系统优化及信息安全。
1) 各种科技资源整合后的统一的、 跨库的、 一键式的检索功能模块(见图2), 既实现了全部科技资源类型的统一跨库检索, 也实现了某类科技资源的一键式检索。
图2 平台统一检索功能模块实例Fig.2 Example of platform unified retrieval function module
2) 高检索功能, 按关键词的多条件组合式检索, 外加按时间限定、 资源库选择、 语言选择综合选择设定检索条件(见图3)。
图3 平台高级检索功能模块实例Fig.3 Example of platform advanced retrieval function module
3) 检索结果聚类分析, 通过统一跨库检索方法得到检索聚类结果页面, 提供按文献类型的聚类检索结果及文献数量(见图4)。
图4 平台异构数据整合检索结果聚类分析Fig.4 Clustering analysis of heterogeneous data integration retrieval results
笔者根据前期的需求分析和技术方案, 有针对性地对平台的搜索引擎元数据仓储建设、 异构数据整合进行了目标明确的研究, 实现了平台的元数据仓储和异构数据整合技术, 平台信息服务和知识服务能力切实得到了提升, 平台的科技资源支撑和保障作用进一步增强。平台本身就肩负着助推我省创新驱动发展、 协同科研攻关、 提升科研绩效的使命, 完善平台的功能, 将更好地提升平台的科技信息服务作用, 即时效果已在文献平台的使用中得到实证, 转化率达到100%。从科技文献对象做标识和粒度分析, 同时支持除科技文献资源库之外的区域特色资源库、 科学数据等相关异构资源的整合和扩展, 有助于构建合理的科技文献资源支撑体系和知识服务体系, 从而实现真正意义上的知识管理和服务, 以达到源源不断的知识产出和科技创新的效果。
参考文献:
[1]刘伟. 基于内容特征元数据的多源异构科技资源关联聚合研究 [J]. 中国科技资源导刊, 2020, 52(5): 28-34.
LIU Wei. Research on Correlation and Aggregation of Scientific and Technical Resources Based on Content Feature [J]. China Science & Technology Resources Review, 2020, 52(5): 28-34.
[2]甘大广, 苏学, 张正峰. 科技文献搜索引擎元数据仓储建设实践 [J]. 数字图书馆论坛, 2013(6): 39-43.
GAN Daguag, SU Xue, ZHANG Zhengfeng. Construction of Metadata Repository in Scientific Literature Search Engine [J]. Digital Library Forum, 2013(6): 39-43.
[3]黄琪, 曾建勋, 刘伟. 科技资源关联聚合中的元数据框架研究 [J]. 中国科技资源导刊, 2020, 52(4): 38-46.
HUANG Qi, ZENG Jianxun, LIU Wei. Research on the Metadata Framework in the Association and Aggregation of Scientific and Technical Resources [J]. China Science & Technology Resources Review, 2020, 52(4): 38-46.
[4]孙坦, 鲜国建, 黄永文, 等. 面向外文科技文献的科技知识组织体系建设与应用 [J]. 数字图书馆论坛, 2020(7): 20-29.
SUN Tan, XIAN Guojian, HUANG Yongwen, et al. Development and Application of Scientific and Technological Knowledge Organization System for Foreign Scientific and Technological Literature [J]. Digital Library Forum, 2020(7): 20-29.
[5]曹琳. 内蒙古大学图书馆资源整合研究 [D]. 呼和浩特: 内蒙古大学工商管理学院, 2012.
CAO Lin. Research on Resource Integration of Inner Mongolia University Library [D]. Huhehaote: College of Business Administration, Inner Mongolia University, 2012.
[6]顾复, 刘杨圣彦, 顾新建. 科技资源描述模型和建立方法研究 [J]. 知识管理论坛, 2020, 5(2): 69-81.
GU Fu, LIU Yangshengyan, GU Xinjian. Description Method of Scientific and Technological Resources [J]. Knowledge Management Forum, 2020, 5(2): 69-81.
[7]许东惠, 赫运涛, 王志强, 等. 面向科技资源管理的科技平台标准体系研究[J]. 中国科技资源导刊, 2020, 5(2): 1-6,16.
XU Donghui, HE Yuntao, WANG Zhiqiang, et al. Research on Technology Platform Standard System for Science and Technology Resource Management [J]. China Science & Technology Resources Review, 2020, 5(2): 1-6,16.
[8]王利蕊. 高校图书馆数字资源整合方式研究 [J]. 现代情报, 2009, 29(2): 75-77.
WANG Lirui. Research on Integration Mode of Digital Resource of University Library [J]. Journal of Modern Information, 2009, 29(2): 75-77.
[9]张维冲, 王芳, 赵洪. 多源信息融合用于新兴技术发展趋势识别----以区块链为例 [J]. 情报学报, 2019, 38(11): 1166-1176.
ZHANG Weichong, WANG Fang, ZHAO Hong. Multi-Source Information Fusion Analysis for Emerging Technology Development Trend Identification,Using Blockchain as an Example [J]. Journal of the China Society for Scientific and Technical Information, 2019, 38(11): 1166-1176.
[10]马文峰, 杜小勇. 基于数据的资源整合 [J]. 情报资料工作, 2007(1): 41-45.
MA Wenfeng, DU Xiaoyong. Data Based Resource Integration [J]. Information and Documentation Services, 2007(1): 41-45.
[11]李鹏程, 刘应波, 王锋, 等. 海量异构科技文献信息资源的非结构化存储研究 [J]. 计算机应用与软件, 2018, 35(5): 73-77,88.
LI Pengcheng, LIU Yingbo, WANG Feng, et al. Research on Unstructured Storage Of Massive Heterogeneous Scientific and Technological Literature Information Resoures [J]. Computer Applications and Software, 2018, 35(5): 73-77,88.
[12]刘春燕, 安小米. 基于生命周期的科技信息资源共享元数据研究 [J]. 情报理论与实践, 2018, 41(5): 39-43.
LIU Chunyan, AN Xiaomi. Research on the Metadata in Scientific and Technical Information Resources Sharing Based on Lifecycle [J]. Information Studies: Theory & Application, 2018, 41(5): 39-43.
[13]李城, 童彬, 刘应波, 等. 分布式检索在异构科技信息资源中的应用及优化 [J]. 计算机应用与软件, 2017, 34(10): 78-84,156.
LI Cheng, TONG Bin, LIU Yingbo, et al. Application and Optimization of Distributed Heterogeneous Retrieval in Scientificand Technological Information Resources [J]. Computer Applications and Software, 2017, 34(10): 78-84,156.
[14]林珠, 李莎, 郑伟鸿, 等. 面向科技资源数据处理的“一站式”共享与服务平台建 [J]. 现代计算机(专业版), 2017(12): 67-71.
LIN Zhu, LI Sha, ZHENG Weihong, et al. Development of One-Stop Sharing and Service Platform for Data Processing of Science and Technology Resources [J]. Modern Computer, 2017(12): 67-71.
[15]涂勇, 彭洁. 数字对象唯一标识在中国科学数据领域中的应用研究 [J]. 数字图书馆论坛, 2013(8): 31-36.
TU Yong, PENG Jie. Research on the Application of Digital ObjectIdentifier in China’s Scientific Data [J]. Digital Library Forum, 2013(8): 31-36.
[16]王文哲. 多源异构科技共享资源管理系统的研究与实现 [D]. 武汉: 武汉理工大学信息工程学院, 2012.
WANG Wenzhe. Research and Implementation of Multi-Source Heterogeneous Technology Sharing Resource Management System [D]. Wuhan: School of Information Engineering, Wuhan University of technology, 2012.