原毅玲
大数据时代科技文献信息的开发与利用
原毅玲
科技文献信息的开发与利用影响着科技事业和国民经济的发展,本文对大数据时代的元数据管理、信息网格、风险防控的技术要点进行了介绍,对在科技文献信息的开发与利用过程中,大数据对元数据的管理方法、信息网格的信息集成及检索方法进行了说明。
科技文献记录着科学技术研究活动的丰硕成果,反映了社会科技水平的发展状况,是人类智慧和科研水平的集中体现。对科技文献的开发利用直接影响着国民经济的发展进程和科技事业的发展水平,对全面提升科技创新能力、进一步促进科技成果转化起着非常重要的作用。因此,大数据时代的背景下,研究如何完善并促进科技文献信息的开发与利用在理论和实践方面均具有重要意义。
近年来,随着物联网、云计算、移动互联网等技术的发展,大数据时代已潜移默化的进入人类社会。在大数据时代,复杂数据的产生、保存及分析,对科技文献服务水平提出了更高的要求。如何通过元数据管理、信息网格技术,组织与分析隐藏在用户行为中的结构化、半结构化数据信息,改变科技文献的服务范围,达到文献服务提供与用户需求的理想化匹配,已成为大数据时代科技文献开发与利用的研究重点。
在大数据时代通过元数据管理、信息网格构建及风险控制等技术,搭建一个全面、高效、安全的科技文献信息管理平台,更好的为科技文献信息的开发与利用服务。
元数据处理技术
元数据是指描述数据的数据,科技文献元数据,在整个开发利用过程中,为文献信息提供检索、标引和揭示等服务,既是科技文献信息开发的重要方法,也是科技文献信息利用不可或缺的重要工具。科技文献元数据作用的发挥充分兼顾了开发与利用两个方面的需求。
大数据时代对科技文献元数据管理分三步进行管理,第一步,建立完整一致的元数据管理策略。元数据管理策略需要明确科技文献元数据管理的目标、愿景、需求、约束和策略等,根据科技文献服务当前以及未来所需实现的管理成熟度及成熟度路线图,确定元数据管理的版本控制、安全策略、元数据订阅推送等。第二步为明确元数据集成体系结构。在明确元数据管理策略后需要确定实现该管理策略所需的技术体系结构,即元数据集成体系结构。不同科技文献的元数据管理策略和元数据管理成熟度差别较大,因此元数据集成体系结构也多种多样,大体上元数据集成体系结构可以分为点对点、中央辐射式、分布式和层次/星型体系结构等。第三步为实施元数据管理,在明确了元数据管理策略和元数据集成体系结构之后,科技文献管理可根据需要选择合理的业务元数据和技术元数据管理工具,制定相应的元数据管理制度进行元数据管理。通常,大数据分析是受用例驱动的,科技文献可以通过梳理大数据用例的方式逐步完善大数据的元数据管理。
信息网格技术
在大数据时代进行信息网格建设,实现科技文献信息的统一检索与广泛集成。互联网中科技文献信息资源虽然是海量的,但由于信息资源的孤立存在、相互分散的特点,为其利用带来了极大的困难。而信息网格技术可以实现用户对存储于任意地点的科技文献信息进行访问,并且不受该信息所处的网络环境的影响。通过信息网格,用户还能够获取和利用不同组织的信息与数据,避免孤立信息的存在。
信息网格的主要功能及实现技术如下
(1)信息集成
通过信息集成,进一步缩短信息处理时间,在信息集成过程中,应当注重从原始数据中提取有效数据的能力,借助大数据的数据处理分析技术,提高数据访问的效率,为在信息网格中进行科技文献信息资源的发现工作提供有力支持。
信息集成主要包括两个层次,一是对科技文献元数据信息的整合,二是对不同科技文献资源检索接口的整合。利用已建立的元数据目录实现同时对多个科技文献信息源集成的功能,用户通过链接即可进行信息的获取。目前使用较为成熟方法是使用OAIS参考模型,按照OAIPMH的协议进行信息集成功能框架建设,通过各类科技文献元数据汇编在一起的元数据目录,提供网格中的科技文献信息集成。
(2)检索方法
科技文献信息资源由分布在不同地域、不同结构的信息仓储组成,在浩瀚的信息资源中,及时准确定位所需资源,对于提高文献信息资源的利用非常重要。由于每个信息仓储相对离散和独立,信息组织和处理方式迥异,在检索利用方面,所提供的查询方式也不尽相同。而用户对文献信息的需要范围广泛,涉及的文献类型很多,需要用户了解每个数据库的特性并掌握相应的检索技术,才能实现对多个数据库的查询,这是严重影响科技文献检索获取的瓶颈之一。利用信息网格技术可以将各种类型的科技文献信息集中在一起,形成一个功能全面、信息完整的资源平台,借助资源平台所提供的检索技术和界面,实现在不同的检索方式和信息格式之间进行统一透明的跨库检索。
建立统一的元搜索平台作为用户与数据源之间的桥梁,平台通过元数据的目录服务与集成服务实现检索。由于用户操作和数据库查询类似,因此整个信息网格系统仍然采用常规数据库系统与和分布式检索系统的运行模式,通过建立在科技文献信息网格节点的索引,向上级服务器提供本地全部元数据资源。上级服务器汇总信息资源后向元搜索平台提供标准检索接口。
元搜索的工作流程为:首先通过信息网格所提供的标准协议,统一底层服务所使用标准和协议;其次在标准协议的基础上对分布异构的科技文献资源进行检索;之后服务提供者接收记录用户需求的查询文档并进行解析;最后对元数据目录进行检索,将查询结果汇总整理并通过操作界面反馈给用户。检索操作仅连接本地数据库,未连接远程数据提供方,提高了检索效率。
此外,大数据时代,信息网格能够充分利用网络资源,通过资源共享发挥科技文献信息的价值。用户管理方面,在科技信息网格中引入用户分级管理方式,有效控制科技文献信息的获取渠道,保证不同密级科技信息的安全。科技信息网格实现了信息的组织、导航与检索,充分运用科技文献信息网格良好的扩展性,集成整合并管理各类服务商提供的服务与应用,通过对各种文献信息资源以及检索和服务系统的整合,为不同级别用户提供统一的科技文献资源共享平台。
风险控制策略
大数据时代,在科技文献信息的开发利用过程中,面临网络环境、元数据、存储、访问过程、获取过程等方面风险的威胁,从技术层面分析,根据OSI安全体系结构的技术特点,在网格环境中数据库安全、访问控制、身份认证与加密等问题最为突出。因此,针对这些环节的风险控制策略是确保科技文献信息开发利用的关键。
在身份认证与加密过程中,用户在客户端向网格服务器发送用户名和密码,网格服务器向用户认证中心验证资源请求者的身份和权限,若验证通过,则为用户调配响应资源。在访问控制过程中,利用科技信息网格的权限管理系统,通过网格实现对用户的分级管理,保证不同层级用户权限的安全。在数据库安全过程中建立数据库安全防护体系,保障数字化科技文献的存储安全。通过多种策略协作互补方式,保证数据库的安全运行。
站在大数据时代的前沿,通过对科技文献信息开发与利用的分析研究,理论上有助于拓展科技文献服务的研究范围,推动新的学科增长点;实践中有助于文献信息资源管理理论体系的完善,更好地为科研成果的转化服务。在今后的研究中,应继续探索基于大数据的相关技术在科技文献信息开发利用中所发挥的作用,如语义技术、云计算、数据挖掘、智能分析等。在应用上应充分借助政府力量,积极筹措多方资源,形成合力,不断推进科技文献信息的开发与利用能力的提高。
10.3969/j.issn.1001-8972.2015.15.026