E-Science环境下高校图书馆科研数据的集成管理与共享模型研究

2022-12-07 01:44杰,王
河南图书馆学刊 2022年11期
关键词:数据管理图书馆用户

杨 杰,王 茜

(1.西安外国语大学图书馆,陕西 西安 710128;2.陕西中医药大学图书馆,陕西 咸阳 712046)

1 E-Science环境与科研数据

1.1 E-Science的定义与作用

E-Science又称电子科研,20世纪末由英国学者提出。E-Science是指充分利用信息资源管理技术、网格技术、分布式存取技术等现代化信息技术,实现对世界范围内数据的收集加工、规范处理、关联挖掘、高效存取及交互共享的数字化研究[1]。E-Science提高了数据资源集成管理与共享的层次和科研针对性,改变了传统的数据管理与共享模式,将各个领域的科研数据进行系统的整合和联动,不仅满足了用户对本学科科研数据的需求,还为跨领域的科学研究提供了支撑。E-Science旨在建立科学易用的科研数据的管理规范、关联规则以及共享环境,其对科研数据的综合处理效果已经得到广泛认可,能够有效推动高校图书馆基于科研数据集成管理与共享的科研服务模式的转型与优化。

1.2 科研数据的定义

科研数据又称科学数据或研究数据,是科研人员在科研过程中产生的各种形式的数据,以及科研机构产生的第三方数据。科研数据是科研活动的重要构成,能够真实反映科研活动过程及特征,揭示科研活动的内在规律,是科学研究中必不可少的基础性资源。科研数据作为信息的一部分,内在地拥有信息的全部特性,其中增值性和不对称性特性尤为重要,增值性说明科研数据在使用过程中能够产生新的价值,而不对称性则说明科研数据随着用户的不同,其使用的最终效果也会有很大不同。由此可见,这两个特性都要求对科研数据进行科学管理和应用,通过科学有效的集成管理、规范组织、关联揭示和数据共享,使科研数据在不同使用者手中最大限度地被使用以及创造更大价值。

1.3 E-Science环境下高校图书馆科研数据特点

基于E-Science理论的高校图书馆科研数据的集成管理与共享,极大地改变了传统模式下科研数据的产生与利用过程,赋予了科研数据全新的特点。E-Science环境下的科研数据主要呈现高度分布性、高度开放性、高度共享性等特点[2]。

1.3.1 高度分布性。E-Science利用分布式技术使全球范围内科研数据的交互共享拥有了实现的可能,高校图书馆可以依托分布式数据处理技术对不同科研项目的科研数据进行分布存取、共享访问,从而构建一个去中心化的科研数据集成管理与共享系统,避免了不同类型科研数据因集中统一管理带来的数据混乱和管理无序,提高了科研数据的利用效率。

1.3.2 高度开放性。E-Science环境下的科研数据高度开放,科研数据集成管理与共享系统下的任何用户都可以对系统内的科研数据进行自由访问和存取,这一方面能够提高科研数据的利用率和共享率,另一方面也为跨领域、跨学科的科研项目提供了更加广阔的数据空间。

1.3.3 高度共享性。E-Science的一个重要特点就是能够极大提升信息资源的共享率。E-Science打破了传统科研数据在时间、空间、权限等方面的禁锢,用户可以利用互联网和个人终端实现科研数据的自由存取和高度共享,同时高度的共享性也使科研数据能够即时应用,用户可以在时滞最小的情况下获取并利用科研数据。

2 E-Science环境下科研数据管理需求分析

2.1 数据内容需求

数据内容需求是E-Science环境下科研数据管理需求中最重要的需求。科研数据内容需求是用户对科研数据管理需求的基础,高校图书馆需要通过多种渠道了解并分析用户现有的和潜在的科研数据需求,从而有针对性地进行科研数据采集整理,并提供给用户。高校图书馆作为科研数据集成管理与共享的主体,不能将未经加工处理的科研数据简单直白地提供给用户,而应根据用户当前的实际需求有选择地对科研数据进行分类整理和内容挖掘,以提供有针对性、层次性和系统性的科研数据内容。

2.2 数据服务需求

数据服务的展现方式是用户数据内容需求的体现。高校图书馆应在E-Science环境支持下随时随地满足用户对科研数据的便捷获取,科研数据的数据服务除向用户提供畅通无阻的数据主动获取渠道外,还应根据用户当前的科研项目预测其潜在的数据需求,主动推送相关科研数据。

2.3 共享系统需求

E-Science环境下的高校图书馆应当构建科研数据共享系统,将科研数据置于统一的平台,便于用户通过一站式检索页面检索获取所需的科研数据。科研数据共享系统建设不仅要具有可靠性和开放性,即用户可以长期甚至永久通过固定渠道实现科研数据的透明访问和自由共享,还应当具有易用性,即用户不需要非常专业的计算机操作技能就能获取科研数据。

3 E-Science环境下高校图书馆科研数据的集成管理与共享模型构建

高校图书馆作为科研数据的集成管理与共享的主导机构,需要构建相应的管理与共享模型以满足用户的信息需求。基于E-Science环境,笔者构建了高校图书馆科研数据的集成管理与共享模型,详见图1。

图1 E-Science环境下高校图书馆科研数据的集成管理与共享模型

3.1 数据采集层

数据采集是高校图书馆进行科研数据集成管理与共享工作的起点。数据采集层的目的是获取各种结构化和非结构化的科研数据,这些科研数据一般包括高校的科研项目数据、科研成果数据、科研经费数据以及科研机构或团队的第三方数据。一般而言,科研数据大部分是以研究论文、会议论文、科技报告等文献为载体的,因此可以按照载体类别将科研数据划分为文献内部数据和文献外部数据[3],基于此标准进行科研数据划分能够更加全面地涵盖繁杂多样的科研数据。文献内部数据是指在科研文献内部存在的主要以文献论据形式出现的科研数据,是开展科研数据内容分析和数据关联挖掘的重要数据来源,能够极大提升科研工作的效率;文献外部数据是指存在于科研文献外部的数据,多在科研过程和高校科研机构或团队运营过程中产生,这类数据的类型界限相对清晰。

3.2 数据描述层

高校图书馆采集到的科研数据在格式规范上往往是不统一的,且存在数据重复冗余的可能,因而需要对其进行规范化描述处理。数据描述层的主要工作就是数据清洗、实体抽取和数据规范标引,将科研数据以规范化的结构进行组织。数据清洗是将收集到的重复数据、冗余数据以及不符合采集标准而误采集的数据进行删除处理;实体抽取是将科研数据中的科研项目名称、科研过程数据、科研成果数据、科研项目成员、时间节点等不同类型的实体抽取出来[4],并进行统一规范化命名;数据规范标引则需高校图书馆提取科研数据的统一实体特征,并选择合适的元数据标准进行科研数据的规范标引,以便后续数据处理工作顺利展开。

3.3 数据组织层

数据组织层的中心工作是构建科研数据的关系链接,即根据科研数据的实体名称和元数据属性,将所有科研数据进行简单的关系链接。但是,这种链接实现的关联关系比较粗浅,因为即便经过规范化的数据描述,不同科研项目所产生的科研数据也会因其具体研究方向和科研人员表达习惯的不同,使数据间存在较大差异。基于此,笔者将引入语义映射技术以实现科研数据的深层次关联组织,语义映射的实质是通过在两个或更多的词汇表间建立词条的关联[5],对科研数据进行基于概念匹配的语义映射,从而解决不同来源科研数据在语义内容方面的异构问题。

3.4 数据表现层

数据表现层是将通过互联网和个人终端科研数据提供给用户,以简易化、人性化的界面设置,支持用户在科研数据集成管理和共享系统实现各种功能。在形式上,数据表现层应支持基本的界面浏览和HTML和SPARQL查询语言,如果是与其他浏览器和科学数据库合作,还应当支持跨库检索,同时支持对检索结果进行整合,将结果以统一格式呈现给用户;在内容上,数据表现层应着眼于用户所需科研数据与数据库中科研数据的相关性,最大化提高用户检索的查全率和查准率,降低错检、漏检概率。高校图书馆要注意数据表现层的更新维护,实时同步科研数据内容以及科研数据之间的关系链接变化,保证该层高质量运作。

3.5 数据服务层

数据服务层是高校图书馆科研数据集成管理与共享系统的顶层模块。除检索功能外,科研数据集成管理与共享系统还应在数据服务层探索科研数据个性化推送、科研数据定制、参考咨询等多样化的数据服务。科研数据个性化推送是对用户当前的信息检索行为及其参与科研项目进度的分析后,探索其潜在的科研数据需求,从而主动向用户提供的知识推荐服务;科研数据定制服务是根据用户主动提出的科研数据定制需求,整理组织后定期推送给用户;参考咨询服务则是图书馆员对用户的信息提问进行有针对性的回复,同时根据用户反馈及时调整系统功能和设置,提高用户的使用体验。

4 E-Science环境下高校图书馆科研数据的集成管理与共享模型实现路径

4.1 管理与共享政策制定

一直以来,高校图书馆科研数据的管理与共享都存在数据保管不善、数据丢失、数据获取困难等问题,亟须制定相应的科研数据管理政策,规范、引导和推动高校图书馆科研数据的集成管理与共享发展。高校图书馆科研数据管理与共享政策制定主要依靠国家和高校图书馆。在国家层面,相关机构要在宏观上构建科研数据管理与共享政策框架,制定适用范围广、条款全面具体的科研数据管理与共享政策;在高校图书馆层面,则需要高校图书馆针对高校科研团队、科研项目以及科研数据的具体情况,制定既能适应本校发展又能满足跨机构合作共享的管理制度。科研数据管理政策与共享政策制定要保证其可持续性,要符合长远发展并根据环境变化不断加以修正与完善[6]。

4.2 数据标准化管理

高校图书馆科研数据管理与共享的前提是标准化,只有实现标准化管理,才能保证不同类型、不同领域的科研数据顺利共享,增强科研数据间的互操作性。科研数据标准化管理并不意味着高校图书馆要完全原创独属于科研数据管理与共享相关的标准,而是可以根据科研数据的特性合理化使用已有的数据管理规范,如:高校图书馆可依据中国高校机构知识库联盟发布的《CHAIR机构知识库资源描述元数据方案(草案)》制定本校科研数据的元数据规范。

4.3 整合分布式数据

E-Science环境下科研数据呈现高度分布性特点,高校图书馆应加强分布式科研数据的整合与集成,保障用户对系统内所有科研数据的合理利用。当前,科研数据形式多样、内容复杂,而用户需要的是集成化、高质量、高时效性的科研数据。作为用户获取科研数据的主要机构,高校图书馆必须积极整合分布式科研数据,构建科研数据集成管理和共享系统,实现不同类型科研数据的统一管理和共享。

4.4 数据安全管理

科研数据在存储和利用过程中存在的安全隐患是科研数据共享的一大阻碍,很多科研人员出于数据泄露的风险考虑而拒绝科研数据共享,因此,数据安全管理也是高校图书馆科研数据集成管理与共享工作中亟须解决的问题。高校图书馆一方面要强化安全管理意识,组建科研数据安全管理团队,综合利用技术和法律手段保障科研数据的安全存储与利用;另一方面要建立科研数据安全评估标准[7],对科研数据的保密程度进行分级,评估科研数据安全隐患和潜在威胁并进行针对性解决。

4.5 数据共享服务

除科研数据个性化推送服务、科研数据定制服务、参考咨询服务等数据共享服务外,高校图书馆还应当积极探索更多的科研数据共享服务,丰富科研数据共享形式,满足用户对科研数据的多样化需求。高校图书馆可引入数字人文理论和技术,利用数字人文领域开发工具对科研数据进行深层次内容挖掘,向用户提供更加精准高质的科研数据分析、数据推送和数据可视化服务。本质上讲,数字人文就是在计算机网络技术、多媒体技术、信息技术和数字技术等新兴技术支撑下开展的人文领域的跨学科研究,随着数字人文理论与技术的发展,其应用领域已经逐渐拓展到其他学术领域。例如,北京大学建立了开放研究数据平台,提供科研数据统计分析、数据在线格式转换和子集拆分、数据可视化展示、数据关联出版物链接等服务[8]。北京大学图书馆开放研究数据平台用图可视化的方法提供可视、可交互的作者合作关系展示,详见图2。

图2 学术论文作者合作关系的可视化显示

5 结语

综上所述,E-Science环境下构建的高校图书馆科研数据集成管理与共享模型,面向科研数据的采集、描述、组织、表现和服务进行分层次建模讨论,最终实现科研数据的检索、共享与多样化服务。在E-Science环境下,构建高校图书馆科研数据集成管理与共享模型可以对高校图书馆的科研数据进行全面管理,推动科研数据的共享与推广,满足用户对科研数据的需要,提高科研效率。

猜你喜欢
数据管理图书馆用户
企业级BOM数据管理概要
定制化汽车制造的数据管理分析
海洋环境数据管理优化与实践
CTCS-2级报文数据管理需求分析和实现
图书馆
关注用户
关注用户
关注用户
如何获取一亿海外用户
去图书馆