李小清
摘 要:文章在概述科研决策、高校智慧图书馆科学数据共享空间的基础上,从数据采集融合层、应用体验层、服务应用层、支持建设层四个层面构建了面向科研决策的高校智慧图书馆科学数据共享空间总体框架,并从科学数据融合处理、科学数据发现采集、科学数据聚合分析三个维度,归纳了高校智慧图书馆科学数据共享空间面向科研决策提供的数据服务,旨在提升高校科研人员科研决策的精准性与科学性。
关键词:科研决策;高校智慧图书馆;科学数据共享空间
中图分类号:G258.6 文献标识码:A 文章编号:1003-1588(2024)05-0075-04
随着人工智能时代的到来,高校每天都会产生大量科学研究数据,且这些数据快速迭代、快速变化,高校智慧图书馆面向科研决策的科学数据共享面临数据采集周期长、数据存储周期长、数据时效性低等难题。虽然高校智慧图书馆近年来致力于增强科研数据服务能力,建设科研数据库和科研数据服务平台,支持高校的科研决策,但取得的效果有限,难以满足高校应用科研数据快速咨询、分析、调查的需求,一定程度上影响了重大科研项目的推进。因此,高校智慧图书馆科研决策更需要建立一个科学、稳定、高效的集成化数据平台提供数据支持。源于国外的数据共享空间(Data Commons,DC)是当前在科学数据服务领域被广泛应用的数据基础设施,其不仅能满足高校智慧图书馆科学数据的共享要求,还具备科研数据管理、发布、标准化处理、大数据分析、数据挖掘、数据可视化展示等功能,能在促进高校管理科研数据、开发数据管理工具、制定数据使用标准的同时,构建科研数据生态共享平台,集成多种科研数据服务项目,为科研决策提供全方位支持。
1 科研决策、高校智慧图书馆科学数据共享空间概述
1.1 科研决策
科研决策是围绕各类高校科学研究活动、学术会议、学科研究活动、课题研究、科学数据使用、科学项目等活动开展情况进行的决策行为,是与现代科学研究活动具有密切联系的领导决策方式[1]。科研决策有两个方面特点:一是重视科学数据及过往的决策经验,基于科研活动的特点建立科学的决策体制,实现集体决策。二是重视通过对科研项目、科学研究活动的科学分析和应用科学方法进行决策[2]。同时,科研决策是高校论证科研项目、确定科研成果、开展科研管理的核心工作,科学的决策行为对制订科研计划、编制科研项目规划、制定科学研究政策具有重要意义。
1.2 高校智慧图书馆科学数据共享空间
1990年,信息情报服务机构为解决大规模复杂的信息情报处理问题,将“信息共享空间理论”引入人文社科领域的信息处理,建立了信息共享空间,为用户提供多样化的信息服务。随着数字技术快速发展,图书馆共享空间逐步向多元化发展,衍生出知识共享空间、智慧学习空间、智慧阅读空间、信息交互空间、创客空间等[3]。此后,高校图书馆科学数据服务受E-Science密集型科研环境影响,针对大量异构化、半结构化科研数据的全生命周期管理就成为图书馆亟待解决的问题。为此,高校图书馆建设了数据共享空间,帮助高校解决科研数据全生命周期管理问题,致力于为生命科学、生物学、医学、物理学等领域的科研工作提供数据支持。相润等人认为,数据共享空间是围绕科研项目或科研数据管理的标准化数据共享平台,本质上是开放的数据网络和数据库工具,能够对专业研究主题数据进行知识拓展,并促进数据共享[4]。吴雅威等人提出,科学数据共享空间能够对科学数据进行长期存储、提供研究工具、提供高效检索,并支持数据分析、图像分析、云服务和API服务,是处理大规模科学数据集并进行复杂网络分析的数据服务平台[5]。张向先等人在数据共享空间研究过程中,结合科学数据的特点及面向对象的不同,从数据资源层、平台管理层、用户应用层、数据服务层四个维度构建了互联网背景下的图书馆数据共享空间框架模型,旨在为各学科用户的科学数据管理提供支持[6]。高校智慧图书馆作为融合人工智能、AR/VR、5G、物联网、大数据等技术实现智能化改造升级的新一代图书馆,具有感知智慧化、服务智慧化、资源数据化、阅读场景化等特点,其拥有的数据共享空间可以基于AI系统强大的算力和数据处理能力为机构用户、普通用户的科研数据全生命周期管理、长期存储及标准化共享提供支持,并提供科研数据分析、数据可视化、大数据预测等服务,为用户的科研决策提供支撑。
2 面向科研决策的高校智慧图书馆科学数据共享空间框架构建
面向科研决策的高校智慧图书馆科学数据共享空间总体框架由科学数据采集融合层、应用参与层、服务应用层、支持建设层四部分构成,形成了面向科研决策的科学数据共享空间结构框架,见图1。
2.1 数据采集融合层
数据采集融合层主要是针对各学科领域产生的科学数据进行采集、清洗、挖掘、融合,根据学科领域的划分,将数据归类到与之对应的科学数据集中,并根据数据的分布态势、种类制定元数据标准、数据共享标准、数据共享使用协议等。数据共享标准和数据共享使用协议的制定可以扩大科学数据的共享范围和使用范围,使机构或用户在科研决策时有更全面的数据支持,更规范、更合理地进行科研决策[7]。同时,高校智慧图书馆科学数据共享空间需重视数据的复用性、可靠性、安全性,在机构和用户使用过程中进行身份认证,并给予一定的数据使用权限。
2.2 应用体验层
应用体验层是高校智慧图书馆科学数据共享空间的重要组织层,包括科学数据共享空间物理层、科学数据共享空间虚拟层及关联者参与层,各层功能明确、分工明晰。
2.2.1 科学数据共享空间物理层。物理层主要指科学数据共享空间的物理空间,由科研讨论区、创意交流区、数据服务区、决策支持区组成,为高校与科研人员的科研决策提供了基础服务设施,可以促进高校与科研人员深化对高校智慧图书馆科学数据共享空间的了解,也能使科学数据共享空间的科学数据服务渗透到科研决策全过程。
2.2.2 科学数据共享空间虚拟层。虚拟层主要包括数字终端、API接口、科学数据服务平台。科学数据服务平台针对机构与用户的科研决策需求提供科学数据产品及咨询报告,是科学数据与用户互动交流的主要渠道;API接口为机构与用户用于科研决策的核心数据标准获取、应用程序开发及程序工具访问提供支持;数字终端面向机构与用户的科研决策需求提供专业的数字服务,如云存储、在线教学、知识图谱等。
2.2.3 关联者参与层。关联者包括高校智慧图书馆、科学数据中心、政府、高校和科研人员,其中高校智慧图书馆在政府、高校、科学数据中心的支持下规划建设科学数据共享空间,并由高校、数据中心为科学数据共享空间提供科学数据资源,并运营和管理科学数据共享空间。政府负责制定科学数据共享空间的运营管理制度,畅通高校智慧图书馆与各级高校的数据共享渠道。高校和科研用户在科研决策过程中利用科学数据共享空间,享受科学数据共享空间提供的科学数据服务,并对服务进行反馈,帮助高校智慧图书馆优化科学数据共享空间的功能。
2.3 服务应用层
服务应用层是高校智慧图书馆面向科研决策提供科学数据服务的直接作用层,提供科学数据分析、预测、聚合、可视化、价值挖掘等服务,促进科学数据共享空间功能直接与高校和科研人员的决策机制相耦合。其中,高校智慧图书馆科学数据共享空间需要与高校和科研人员在科研决策上形成良好的交互机制,及时了解机构和科研人员的决策需求,并提供科学数据支持,提升科研决策效率。
2.4 支持建设层
支持建设层是构建科学数据共享空间的基础,包括各类支持性条件,如专业技术、人员配置、基础设施、经费、政策等[8]。技术支持性条件有数字终端、计算机设备、大数据技术、元数据标准等;人员配置包括科学数据共享空间管理人员、技术人员、数据专家等;基础设施包括数字设备、网络设施、通信设备等;经费是高校智慧图书馆建设科学数据共享空间的财力支持;政策保障则是政府对科学数据共享法律的制定、共享标准的制定、存储标准的制定、数据服务政策的制定等,保障科学数据服务高效支持科研决策。
3 面向科研决策的高校智慧图书馆科学数据共享空间的科学数据服务
3.1 科学数据融合处理服务
高校智慧图书馆科学数据共享空间会对各类科学数据的存储及使用进行监控,尤其注重高校和科研人员在科学数据使用过程中的权益保护,促进科学数据得到科学合理的使用。但是,一些异构化、非结构化的科学数据不能满足机构或用户的科研决策需求,其在数据结构、数据标准、数据格式方面可能存在较大的偏差,为此高校智慧图书馆科学数据共享空间应对这些数据进行科学排序,增强科学数据的价值性、完整性、可用性。通常情况下,高校智慧图书馆会构建一套通用的元数据标准,依托元数据标准对科学数据进行标准化处理,并根据数据内容确定数据主题,融合具有相同内容的科学数据,构建学科主题数据集,实现科学数据的集中化应用。例如,“A-Engineering Project Space”是美国建设的工程数据共享空间,收集了大量工程领域的科学数据,使用Spark、MuleSoft、Keboola进行科学数据的处理与融合,向有科研决策需求的机构和人员及时提供高密度集成的工程科学数据集,及时推送工程数据研究报告,高校或科研人员根据科学数据共享协议可随时查询工程数据研究报告或获取工程科学数据集,借助操作平台及时修改科学数据,对数据使用的全流程进行监控,随时由数据专家提供支持,保证了科研决策质量。
3.2 科学数据发现采集服务
为满足机构和用户的科研决策需求,高校智慧图书馆科学数据共享空间通过数据发现技术对科学数据进行研究,发现科学数据的价值,与数据中心及其他高校进行策略关联,采集可满足科研决策需求的数据,并进行计量统计、分析与挖掘,从数据中挖掘知识,进行知识关联,更有效地支持科研决策。科学数据共享空间的知识发现与采集可以与馆员的知识技能和采集工具联系起来,通过发现、采集、观测和挖掘数据,发现科学数据潜在的分布态势、存在特征及运动规律,探寻科学数据的内在关联,采集显著特征相似的科学数据构建知识地图、数据导航图、数据线路图,在科研决策过程中提供可视化结果,使科研人员能够看到科学数据的深层次联系,更高效地做出决策。例如,华盛顿大学“Cultural and artistic data space”共享空间是典型的知识发现空间,应用Python爬虫工具采集最新的文化艺术数据,通过数据清洗去除冗余、不完整的数据,使用Cite-Space构建文化艺术数据地图、数据导航图、艺术知识图谱,在人文艺术学院科研项目立项决策时直接将可视化结果呈现给学者,使他们能够针对最新文化艺术科研项目的可行性快速做出决策。
3.3 科学数据聚合分析服务
高校、科研人员针对科研项目的论证决策及可行性分析依赖科学数据的质量、完整性、精准性、预测性等,科学数据共享空间提供的科学数据越准确、完整,高校和科研人员就越能快速进行科研决策,决策的效率也就越高。为此,高校智慧图书馆科学数据共享空间需要基于机构和用户的科研决策需求建立一套完善的科学数据聚合分析机制,通过搭建大数据Hadoop集群、建立科学数据分析矩阵、嵌入数据聚合分析算法,对科学数据进行有效聚合和精准分析,挖掘科学数据的深层次价值。高校智慧图书馆可根据高校的科研决策流程,使用不同的科学数据分析方法在科学数据共享空间对科学数据进行聚合分析,将不同的分析结果提供给有科研决策需求的高校或用户,便于他们高效决策。高校智慧图书馆还可以搭建密集型科学数据聚合分析环境,优化科学数据共享空间算法,提高科学数据分析效率。例如,Science Big Data Miner是基于爬虫工具、数据挖掘、数据聚合分类的密集型开源化科学数据分析环境,既适用人文社科领域科学数据的分析挖掘,也适用自然科学领域科研试验数据的大规模分析,既可以通过Linux语言进行操作,也可以通过Java语言进行大规模进程操作,能在短时间内快速生成数据模型并进行数据分析,预测科研决策结果,帮助科研人员提升决策效率。
参考文献:
[1] Zhao X,Shuning L,Yanan X,et al.Digital Humanities Scholarly Commons at Beijing Normal University Library[J].Library Trends,2020(1).
[2] Science-Library Science;University of Nebraska-Lincoln Researchers Update Current Data on Library Science (Interiors,Affect, and Use:How Does an Academic Librarys Learning Commons Support Students Needs?)[J].Information Technology Newsweekly,2020.
[3] 袁先文,程结晶.图书馆用户数据共享空间的构建及应用研究[J].图书馆理论与实践,2021(4):113-120.
[4] 相润,韩明杰.基于用户应用场景的图书馆知识循环共享空间建设研究[J].图书馆建设,2020(S1):184-188.
[5]吴雅威,魏来.图书馆Data Commons的服务建设研究[J].图书馆学研究,2017(19):46-52.
[6] 吴雅威,张向先.我国Data Commons平台的建设策略研究[J].图书馆学研究,2019(18):46-53.
[7] 张果果,邓海波.基于大资源理念下的高校图书馆LC构建研究[J].长沙大学学报,2019(4):43-45.
[8] 吴雅威,魏来.国外Data Commons的发展及其构建初探[J].情报资料工作,2017(6):41-48.