科学数据情报化及其在图书馆学科化服务中的应用研究

2024-11-05 00:00:00马丽丽杨硕
图书馆界 2024年5期

[摘 要]人工智能技术的发展给图书馆知识服务带来了机遇和挑战。从图书馆学科化服务的视角出发,论述科学数据情报化的发展现状与趋势、问题和挑战,提出科学数据情报化的实现途径及技术方法体系,探讨科学数据情报化在图书馆学科化服务中的应用场景,包括智慧馆员、科学数据数字化管理、人工智能科学家、辅助同行评议、科研诚信评价、虚拟仿真和智能教育等,以期为数智时代下今后图书馆学科化服务提供思路和参考。

[关键词]科学数据;情报化;图书馆;学科化服务

[中图分类号]G250[文献标志码]A[文章编号]1005-6041(2024)05-0034-06

1 引 言

科学数据(Scientific Data)作为国家数据战略的有机组成,在实施创新驱动发展战略、促进产业现代化变革、支撑公众健康、维护国家安全与社会稳定等方面具有重大价值,已成为国家重要的战略科技资产和竞争要素[1]。科学数据情报化作为一个新兴的研究方向,通过发挥情报学领域的技术优势,与大数据、信息资源管理等领域交叉融合,为基于科学数据综合利用的自然科学研究及创新活动提供服务,从而实现数据增值。2020年,伴随AlphaFold的推出[2-3],AlphaFold2成功预测了人类98.5[WTB3]%[WTBZ]的蛋白质3D结构,进一步显示了数据密集型科研范式下科学数据情报化拥有的广泛应用前景。本文在概述科学数据情报化发展现状、趋势、问题和挑战基础上,重点探讨科学数据情报化的实现途径及在图书馆学科化服务中的应用场景,为大数据背景下的图书馆知识服务理论研究和实践提供参考。

2 科学数据情报化概述

2.1 发展现状与趋势

在中国知网中可检索到“情报化”相关的文献70余篇。情报化的概念可追溯到20世纪80年代初国内关于“情报化社会”的讨论[4-5]。在相关研究中,有学者提出情报化社会来源于“后工业社会”,认为知识和情报已成为比物质、能源更重要的资源,使社会经济运行产生深刻变革。同一时期,业界也引发关于图书馆工作的情报化转变和挑战的讨论[6-7]。十几年来,随着全球信息化和数字化进程的加速,关于信息或大数据的“情报化”问题虽然热度渐起,但相关研究仍停留在企业运营数据情报化等层面[8-10]。

广义范畴上的科学数据包括通过实验、观测、调查等科技活动获取的原始数据,以及按特定需求系统加工生成的衍生数据[11]。一些发达国家和地区较早即重视科学数据的战略价值和数据利用,如2018年美国国立卫生研究院(NIH)发布第一个数据科学管理战略《NIH数据科学战略计划》,旨在最大程度地提高NIH产生的大量医学数据的利用率和科学价值,推动美国的生物医学研究;从《开放科学2030》到“地平线2020”再到“欧洲云计划”,欧盟一直是开放科学和科学数据共享的重要推动者;2021年法国发布《大数据、算法和源代码政策:2021—2024路线图》,旨在打通科研数据壁垒,建设全国一体化的科研大数据平台。近年来,我国也越来越重视科学数据的规范管理和高水平共享。2018年,国务院办公厅印发《科学数据管理办法》;2023年12月31日,国家数据局等17部门联合印发《“数据要素x”三年行动计划(2024—2026年)》,并选取工业制造、现代农业、商贸流通等12个行业和领域先行推动。在人工智能、机器学习等技术的“加持”下,势必将带来科学数据情报化的变革性发展,其未来发展潜力不容小觑[12]。总体而言,科学数据情报化的作用及必要性体现在以下方面。1)科学数据情报化是科技创新智能化的发展趋势。当前人工智能等新一代信息技术快速发展,有研究称科学研究将进入“智能化科研”(AI4R)的第五范式[13],科学数据对科研活动的基础支撑作用也越来越显著。借助大数据挖掘和分析技术,进行学科领域多源科学数据以及跨学科间的融合、关联,将科学数据转化为有情报价值的信息有助于促进科学研究向数字化、智能化发展。2)科学数据情报化是现代社会数据利用的现实需求。美国前国家情报总监丹·考茨曾说:“情报界的首要任务是缩小数据和决策之间的鸿沟。”在当前互联网“数据爆炸”的时代背景下,通过科学数据情报化,揭示海量数据背后隐藏的规律和趋势,辅助科技决策,为学科态势扫描、预测预警等提供支撑,满足行业市场在产业投资、资源配置、技术突破等方面的综合需求[8,14]。3)科学数据情报化是现代图书馆服务纵向发展的必然选择。对数量大、类型复杂、碎片化的科学数据进行关联、挖掘、提炼后形成情报,以易懂、直观的情报产品呈现给用户是现代图书馆服务的必然需求点。在以网络信息为主要载体的情报3.0时代下[15],科学数据情报化有助于图书馆从“科学数据管理”服务向“科学数据情报”服务的增值性转变,能在数据服务中凸显情报化特色。

2.2 问题和挑战

2.2.1 高水平开放共享是制约科学数据情报化的重要因素。随着《科学数据管理办法》的发布,国内科学数据的开放创新生态已逐步形成。但由于不同领域的科学数据缺乏统一的格式和标准,学科间仍存在隔阂,给科学数据的质量控制、汇交广度和整合利用带来了困难,高质量的科学数据供给仍然不足。同时,随着数据共享和开放的推动,科学数据情报化也面临着数据隐私、数据安全和知识产权等问题的挑战,统筹科学数据开放与安全利用的数据治理制度有待完善。

2.2.2 “信息化”并不等于“情报化”。当前各行各业的信息化、数字化建设如火如荼,针对特定学科领域的各类科学数据中心、数据仓储等科学大数据基础设施建设也取得了较大进展,科学数据采集、管理、建模等技术也得到较大提高。但是,目前业界普遍存在着“重存储、轻利用”的问题,仅是科学数据和资源的集成与汇编,不能实现完全意义上的“情报化”,导致数据的积累与数据的利用之间仍存在明显的鸿沟。

2.2.3 科学数据情报化的关键在“化”。从思维逻辑方面来看,情报化是一种理性、经验与人脑认知活动结合的复杂思维活动,当前我国科学数据服务人员的数据分析技术已处于世界领先水平,但基于海量科学数据开展价值信息提取的情报思维和能力仍是科学数据情报化工作的瓶颈。从技术方面来看,科学数据的情报提取整体上仍缺乏现代、高效的计算和分析手段,智能化、智慧化仍是未来很长一段时间内科学数据情报化面临的挑战。

3 科学数据情报化的实现途径

科学数据的“情报化”既是目标,也是手段,不仅关注数据的获取、存储和整合,更重要的是提取和洞察其中所蕴含的知识和情报信息,提高数据的可理解性和可利用性。以下分四个阶段阐述科学数据情报化的实现途径。

3.1 科学数据的收集与整合

科学数据的收集与整合是情报化的基础,只有保障数据的准确性、一致性和可信度才能确保从中提取的情报具有可靠性。该阶段涉及多源异构数据的结构化,并对原始数据中的噪声、错误、缺失或冗余信息等进行预处理,主要步骤如下。1)数据采集与预处理。数据采集前,需要明确采集的目标和范围,并选择适当的数据源和采集方法。除了科研活动中通过传感器、实验仪器等直接获得的实验数据,科学数据常用的数据源还包括媒体、网站、开放获取(OA)数据、领域专业数据库等渠道可获得的公开信息,以及通过文献数据库、专利数据库、商业数据库等合法获得的信息。然后,对采集的原始数据进行预处理,以便后续的清洗和整合,其中缺失值处理和异常值检测是两个重要的预处理方法。2)数据清洗与转换。为了确保数据的准确性和一致性,需要对数据中的噪声、错误和冗余信息进行修复和去除,并将原始数据转化为结构化的数据集以满足后续处理的需求。可利用编程语言、数据处理软件和数据库管理系统等工具,结合缺失值处理、噪声去除、数据冲突解决、元数据等技术,提高科学数据的质量、适用性和可分析性。3)数据集成与融合。

将多个数据源整合为统一的数据集需要解决不同数据源的语义差异、数据格式差异和数据质量差异等问题,常用的方法包括基于映射规则的数据集成和基于机器学习的数据融合。基于映射规则的数据集成方法通过定义一组映射规则,将不同数据源的数据映射到一个统一的模式中;基于机器学习的数据融合方法利用机器学习算法,通过对数据进行训练和学习来生成一个融合后的数据集。

3.2 科学数据的分析与挖掘

数据分析与挖掘作为科学数据情报化的核心环节,主要是利用统计学、机器学习和数据挖掘等方法来揭示数据中隐藏的模式、关联规则和异常情况等,降低科研人员和决策者从海量数据中提取价值信息的难度。主要方法有以下几种。1)数据挖掘技术。通常使用计算机编辑程序对大数据进行分析、模式识别和预测。通过使用统计软件、机器学习库和数据可视化工具等,结合分类、预测、关联规则挖掘和异常检测等技术,从大规模科学数据中提取信息。2)自然语言处理(NLP)。作为一种可自动发现、提取和分析信息的文本挖掘方法,NLP技术在科学文献的知识发现中有成熟的应用[16]。通过文本分析、关键词提取和实体识别等技术,自动解析科学论文、专利和研究报告等非结构化的大规模文本数据,帮助科研人员发现研究热点。3)数据建模。基于已有科学数据构建模型,从大规模数据中学习更高层次的特征表示,以揭示数据中的潜在关系、趋势和规律,实现对未来事件的预测。常用的技术包括回归分析、聚类分析、决策树等统计学方法[17]。4)图像处理技术。图像形式的科学数据挖掘在科学数据情报化中的应用日益重要。例如,通过深度学习技术对天空图像进行分析和处理,可以帮助科研人员发现新的天体、研究宇宙演化、进行遥感地物识别等;利用生物医学图像分析可以帮助医生进行疾病早期诊断等[18-19]。

3.3 科学数据的情报推理与转化

情报推理是将科学数据转化为可用情报的关键过程,通过运用情报学的理论和方法,对科学数据背后的“暗信息”进行研究、甄别、筛选、判断和推理,从中提取有价值的情报信息。1)扎根理论。多用于研究人类行为和社会现象背后的意义和动因,是一种定性研究方法[20]。在科学数据的情报推理转化过程中,扎根理论可以帮助研究人员更好地揭示科学数据的内在关联性,为情报工作提供更加准确和有洞察力的解释。2)“以目标为中心”方法。2003年,

美国情报家罗伯特·克拉克等提出一种情报分析流程[21],这种方法强调情报工作目标的主导地位,始终将用户需求纳入决策,围绕目标,由所有利益相关者协同参与情报分析过程。3)统计分析方法。主要利用假设检验、相关分析、回归分析、因子分析等多种定量分析方法,对科学数据进行计算、解释和推理,发现科学数据的分布特征、变化趋势、相关关系等,为最终做出正确的情报结论提供数据支撑。4)科学计量法。主要通过文献计量、文本计量、主题聚类、社会网络分析等方法来揭示学科领域的现状、演化特征、前沿热点和竞争态势等。常用的数据源主要为科技论文、专利、政策文件、报告等,分析维度包括时间、国家、机构、主题等。除了充分运用情报学方法,特定学科领域专业知识和方法的结合应用也很重要,并在必要时积极借助专家智慧对分析结果进行解读。

3.4 科学数据的情报产品与输出

情报产品的形成与输出是决定科学数据情报化效果的“最后一公里”,产品形式一般包括简报、快报、研究报告、数据集、数据库、知识图谱等类型,情报产品既要专业准确,又要浅显易懂,方便不同领域的用户理解和采用。

数据可视化、虚拟现实等技术可以为用户提供直观、交互式的情报利用环境,用户可进行检索、浏览、数据定制、图表可视化、视觉生成、音频输出等交互操作,加强用户对数据和情报的深入理解。另外,未来AI技术将在科学数据情报化的自动化流程、智能算法、数据可视化、智慧推荐、生成式情报等方面实现更加畅通的人机交互沟通。

4 科学数据情报化在图书馆学科化服务中的应用场景设想

科学数据与一般数据等不同,具有明显的学科性。因此,科学数据服务需要服务者具备专业学科、数据分析、图书文献和情报学的综合素养。国内外很多高校和专业图书馆都提供基于学科馆员团队的面向研究机构的学科化服务。学科馆员既拥有某学科的自然科学背景,又熟悉图书情报工作,在此服务优势下,科学数据服务已成为近年来图书馆学科化服务的重要内容之一[15,22]。研究科学数据情报化,可实现科学数据的有机整合和增值利用,为学科化服务注入新的活力,其应用场景可如图1所示。

4.1 基于知识挖掘和重组的智慧馆员服务

拥有丰富的纸本和电子文献资源以及各种专业数据库一直是图书馆的一大重要优势。在现有学科化服务基础上,学科馆员要发挥文献资源优势,进行科学数据的细粒度知识挖掘和重新组织,综合运用情报技术、文献计量方法、统计方法、人工智能、ChatGPT等新技术,依托智慧数据平台,改进传统的图书馆参考咨询服务,为科研人员快速了解学科领域国内外进展、前沿方向、技术布局、交叉研究等提供智慧问答和咨询服务,助力抢占领域科技制高点。

4.2 科学数据的数字管理与重用服务

大数据时代,科学数据的综合分析已成为科技创新的重要支撑,如美国航空航天局(NASA)的地球科学数据和信息系统,美国国家海洋与大气管理局(NOAA)的海洋气候大数据管理,生命科学领域的NCBI、GenBank、EMBL、UniProt等科学数据仓储,对相关领域的科技创新发挥了重要作用[23-24]。在服务过程中,学科馆员可发挥学科背景和情报学的交叉优势,辅助研究机构制订科学数据管理计划,为研究机构的科学数据收集、长期存储、共享、数据知识产权、数据安全评估等提供服务;联合数据技术人员开展学科领域特色科学数据的采集、二次加工、标注和关联,利用AI大模型等先进技术开展大规模文献的知识挖掘,提升科学数据的质量和可重用性[25-26]。

4.3 人工智能科学家

2020年,英国利物浦大学开发了一款人工智能机器人化学家,之后,国内外“机器人化学家”的多项成果不断出现在《科学》《自然》等高水平期刊上[27-29]。2023年3月,我国科技部、自然科学基金委联合启动了“人工智能驱动的科学研究”(AI for Science)专项,紧密结合数学、物理、化学、天文等基础学科关键问题开展布局。有理由相信,未来将出现更多的“机器人数学家”“机器人物理学家”“机器人天文学家”等人工智能科学家。图书馆科学数据情报化的作用在于,通过对特定领域文献和科学数据的深度加工,为人工智能科学家设计提供可行的科学实验方案,增加实验的成功率和可信度。

4.4 科学数据质量评价与同行评议辅助

在数据驱动的科技创新生态环境内,科学数据质量评价将成为科研人员、期刊编辑、审稿专家、学术出版机构等关注的共同问题[30]。图书馆可结合领域特色,建立特定学科的科学数据质量评价指标体系,为投稿人员提供科学数据质量评价、论文影响力预测和投稿期刊推荐等服务,为审稿人员提供来稿数据质量审查、审稿专家智能推荐、科学数据标准化存档等辅助服务。

4.5 科技查重与科研诚信评价

科学数据开放共享、ChatGPT技术等虽然有效推动了科学研究的变革,但其背后潜在的数据造假和科研诚信风险也愈发受到学界关注[31-32]。科学数据情报化通过对实验数据、文章图片、专利、科研项目等科学数据的整合,可为学术出版机构、研究机构学术委员会、学术会议举办方、科技项目管理部门等提供丰富的科技查重数据池。通过建立完善的科技查重数据库,开发先进的智能语义检测、图像识别算法等深度学习技术,为用户提供实验数据重用、图片相似性检测、专利技术查新、科技项目查重、科学数据正确引用等服务。

4.6 虚拟仿真实验和智能教育

作为一种新的科学研究和科研教学形式,虚拟仿真实验具有不受传统实验室时空限制,有效降低实验感染风险及野外考察危险性,教学沉浸感与交互性更强等优点,在生物学、地球科学、海洋科学、动物科学、临床医学等领域得到广泛应用[33-34]。通过对特定领域科学数据进行整合、知识表示、逻辑关联等情报化处理,为虚拟仿真实验提供专业的知识结构支撑,结合虚拟现实、区块链、数字孪生、知识图谱、元宇宙概念等技术,为科学实验提供实体与虚拟相结合的场景再现。

5 结 语

在当前科学数据数量激增、用户信息需求不断提高、科学数据服务转型升级等现实背景下,科学数据的深度利用是图书馆学科化服务中学科馆员面临的一个重要挑战和机遇。科学数据情报化适应图书馆知识服务向智能化发展的趋势,是将图书情报、信息技术、智能工具与特定学科领域知识深度融合的一个重要途径。另外,图书馆的科学数据情报化服务思维要从线性向系统性转变,通过科学数据与其他数据的多维关联,致力于将科学数据转化为易于理解的加工服务产品,更精准地满足新时代的科研需求。

[参考文献]

[1]郭华东,邹自明,陈刚,等.科学数据支撑国家重大战略需求的若干思考[J].科学通报,2024,69(9):1116-11.

[2]JUMPER J,EVANS R,PRITZEL A,et al.Highly Accurate Protein Structure Prediction with AlphaFold[J].Nature,2021,596(7873):583-589.

[3]TUNYASUVUNAKOOL K,ADLER J,WU Z,et al.Highly Accurate Protein Structure Prediction for the Human Proteome[J].Nature,2021,596(7873):590-596.

[4]肖光.情报化社会[J].情报科学,1980(1):88.

[5]唐赞雄.情报化时代的情报管理[J].情报学刊,1987(1):58-60.

[6]路林.谈专业图书馆工作情报化问题[J].图书馆杂志,1985(4):33-34.

[7]宋继伟,石进,吕美香,等.信息情报化的关键:构建CIS分析模块的思考[J].图书情报工作,2012,56(24):33-38.

[8]张登军.新媒体时代企业财务数据实现情报化途径探讨[J].科技传播,2017,9(23):178-179.

[9]张敏.财务信息情报化过程研究[J].现代情报,2013,33(6):112-116.

[10]曹艳秋,李金莲.上市公司财务信息情报化过程分析[J].中外企业家,2016(1):131-132.

[11]蒋星.国外高校图书馆科学数据管理调研现状与启示[J].图书馆界,2020(1):32-37.

[12]张婧睿,孙蒙鸽,韩涛.科研智能化趋势下科研数据研究[J].科学观察,2023,18(4):49-61.

[13]李国杰.智能化科研(AI4R):第五科研范式[J].中国科学院院刊,2024,39(1):1-9.

[14]王振宇.美国情报界“数据+智能”战略体系初探[J].军事文摘,2022(3):33-37.

[15]吴晨生,张惠娜,刘如,等.追本溯源:情报3.0时代对情报定义的思考[J].情报学报,2017,36(1):1-4.

[16]刘媛.美国自然语言处理技术专利情报分析及启示:基于1999—2018年专利数据[J].科技管理研究,2020,40(6):201-209.

[17]聂少军,汪运鹏,王春,等.激波风洞测力信号的频域数据深度学习建模分析方法[J].振动与冲击,2023,42(13):296-302,315.

[18]李晓龙,蔡洪波,黎华丽,等.基于模糊聚类的大视场地基光学天文图像薄云识别与分析[J].激光与光电子学进展,2022,59(16):171-177.

[19]彭斌,白静,李文静,等.面向图像分类的视觉Transformer研究进展[J].计算机科学与探索,2024,18(2):320-344.

[20]盛东方.我国图书情报研究中的扎根理论应用[J].图书馆论坛,2020,40(8):78-86.

[21]吴素彬,陈云,王科选,等.美国“以目标为中心”的情报分析流程研究[J].情报杂志,2013,32(4):6-9,21.

[22]师荣华,刘细文.基于数据生命周期的图书馆科学数据服务研究[J].图书情报工作,2011,55(1):39-42.

[23]刘炜.发达国家地质大数据管理现状分析与启示:以美、英、澳、加为例[J].高校地质学报,2022,28(2):274-286.

[24]姜恩波,李娜.开放科学环境下的欧盟研究数据开放共享研究[J].世界科技研究与发展,2020,42(6):655-666.

[25]秦顺,李昊沂,邢文明.数据管理计划评估准则:实践模式、核心要素及其启示[J].图书馆论坛,2023,43(5):81-94.

[26]李斯.图书情报科研人员对高校图书馆科学数据共享的感知风险研究[J].图书馆学研究,2019(9):44-53.

[27]SLATTERY A,WEN MrYBzUN2U/aL+6VzM+G63g==Z,TENBLAD P,et al.Automated Self-optimization,Intensification,and Scale-up of Photocatalysis in Flow[J].Science,2024,383(6681):1817.

[28]BURGER B,MAFFETTONE P M,GUSEV V V,et al.A Mobile Robotic Chemist[J].Nature,2020,583(7815):237-241.

[29]段伟文.人工智能科学家对科学认识论的挑战[J].农业图书情报学报,2023,35(11):4-12.

[30]撒旭,王健,范智萱,等.数据期刊同行评议视角下科学数据质量评价指标识别[J].图书情报工作,2020,64(17):123-130.

[31]周谨平.ChatGPT应用中的科研诚信风险及其伦理治理[J].中南大学学报(社会科学版),2024,30(1):31-37,198.

[32]徐彤阳,任浩然.数字图书馆视域下学术论文图像篡改造假检测研究[J].现代情报,2018,38(7):81-87.

[33]罗珽,冷伟.沉浸式虚拟现实技术在地球科学中的应用[J].中国科学技术大学学报,2021,51(6):431-440.

[34]李琰,张佳琳,饶星,等.基于数字化的高校虚拟仿真实验教学平台建设与实践[J].实验室研究与探索,2023,42(10):233-238.

[作者简介]马丽丽(1989—),女,博士,副研究馆员,中国科学院武汉文献情报中心;杨 硕(1997—),女,硕士,华中师范大学信息管理学院。

[说 明]本文分别系2023年度中国科学院文献情报能力建设专项课题“数字化科研信息素养培训与服务”(项目编号:E2291108)、中国科学院武汉文献情报中心“青年领军人才计划”(项目编号:E0KZ451)的研究成果之一。