开放科学背景下的科学数据开放共享：国家青藏高原科学数据中心的实践

2022-01-19 12:00:42潘小多李新冉有华郭学军

大数据 2022年1期

潘小多，李新，冉有华，郭学军

1. 中国科学院青藏高原研究所国家青藏高原科学数据中心，北京 100101；2. 中国科学院青藏高原研究所青藏高原地球系统与资源环境国家重点实验室，北京 100101；3. 中国科学院西北生态环境资源研究院，甘肃兰州 730000

0 引言

开放科学指科学家通过互联网免费分享他们的研究数据、方法、代码、实验室笔记和其他研究过程，以便能够被重复使用和复现，实现协作研究的科学实践，其旨在消除科学研究过程中的访问障碍，使得研究者可共享任何类型的研究成果、资源、方法或工具，促进科学的自由传播，加强科学合作和信息共享，推动科学进程[1-2]。开放科学运动最早可以追溯到17世纪的启蒙运动时期，但是“开放科学”这个术语直到1998年才被史蒂夫·曼提出，当时他注册了域名openscience.com和openscience.org，这标志着开放科学开始步入人们的视野。开放科学代表了一种全新的科学研究范式，它依赖于建立在数字化技术和新型协作工具上的协作型研究和新的知识传播方式。开放科学的理念反映了50年来科学研究的范式转变：以前的标准做法是将研究成果发表在科学出版物上，而现在的趋势是在研究过程的早期阶段就共享和使用所有可用的知识[3]。

开放科学的实践得到越来越多人的认可和采用，比如开放获取的学术论文[4-5]、共享数据[6-8]和开放代码[6,9]等。McKiernan E C等人[1]通过回顾大量文献发现，开放获取学术论文有利于增加科研工作者的学术论文引用、媒体关注、潜在合作者、就业机会和资助机会等。虽然开放数据对于用户和促进科学发展等方面的益处不言而喻，但是科学数据没有像学术论文那样广泛采用开放获取的共享方式，一个重要的原因是研究人员不确定分享科学数据会对他们的职业生涯造成什么影响。开放数据也是欧盟开放科学战略八大目标的首要目标[10]。为抗击新型冠状病毒肺炎（COVID-19）疫情，全球科学出版商取消了访问COVID-19相关研究的限制，研究人员充分认识到开放获取的数据共享对于科学研究的意义，进一步促成了开放科学实践活动。

科学数据是国家科技创新和发展的基础性战略资源，随着大数据时代的到来，科学数据日益呈现出4V特征：体量（volume）、类型（variety）、速度（velocity）和最重要的价值（value），并具有巨大的潜在价值和可开发价值。开放科学重视数据的开放，它不仅倡导论文的开放获取，而且认为论文中的数据开放也是不可或缺的。开放科学数据是开放科学的重要物质基础，强调数据的活用和重用，并把研究数据与论文或论著置于同等甚至更为重要的位置，随着开放数据的持续深入推进，科研期刊要求著作者提交数据可获取声明已成为常态[11]。

科学数据的开放共享已经从全面开放（full and open）原则过渡到目前普遍遵循的FAIR（可发现性（findability）、可获取性（accessibility）、可互操作性（interoperability）、可重用性（reusability））原则[12-13]，并进一步提出了CARE（集体收益（collective benefit）、质量保证（authority to control）、责任（responsibility）、伦理（ethics））原则[14]。FAIR原则强调技术进步，而CARE原则更侧重政策变革，两者相辅相成，体现了大数据时代科学数据共享技术和政策双轮驱动的特征。在我国，为了完善科技资源共享服务体系，推动科技资源向社会开放共享，国务院办公厅在2018年印发了《科学数据管理办法》，明确了数据开放是受政府预算资金资助的研究项目的基本原则。2019年6月，国家青藏高原科学数据中心等20个国家科学数据中心成立，开启了我国科学数据开放共享的新阶段。目前，中国在科学数据开放共享方面取得了巨大进展，在地学数据共享方面，国家自然科学基金委员会地学领域的重大研究计划、中国科学院的地球大数据科学工程都已成为地学数据开放共享的标杆[15-16]。

上述科学数据开放共享的原则或政策对于促进开放数据是非常有价值的，但它们并没有消除研究人员对于“开放数据可能会给自己的科研工作带来风险”的顾虑，一定程度上影响了科研工作者自下而上自发地开放科学数据的意愿。要实现范式转变，仍需要政府、研究人员和数据中心的积极努力。我国还要在政策、管理、技术和国际化等方面采取更具体的行动，以更大的力度和更多的措施促进科学家共享数据的意愿，提高我国科学数据中心的影响力，推动更加广泛的数据共享[15]。科学数据中心作为数据存储、管理和运营的核心，连接着数据贡献者和数据用户，促进数据贡献者自下而上地开放共享意愿，从而在推动开放数据的实践方面发挥关键作用，但面临的挑战不容小觑。

1 开放数据面临的挑战

开放数据面临的首要挑战是数据引用和数据计量。科学的数据计量和规范化的数据引用能够解决再现性、可靠性和可重用性方面的问题，能够定量化开放数据的贡献，能够提高公开数据所关联文献的引用量[17]，能够为相关机构提供考核依据，从而激发数据贡献者开放共享数据的意愿，进一步促进开放科学和开放数据的实践。数据作为科学发现的重要支持，应被视为合法的和可引用的研究成果[18]，并像学术文献一样被直接引用；如后续有增值数据，原始数据也应被引用，明确原始数据的价值，确保增值数据的可靠性追溯[19]。然而目前大部分数据中心缺乏数据引用信息或者不同数据中心之间缺乏统一的数据引用标准，很难进行追踪计量；对共享数据的计量大部分等同于其关联文章被引用的情况，这不利于对那些没有关联文章的共享数据的评价。因此，数据中心作为数据的重要载体和管理方，应尽量遵循由全球大量数据相关机构共同制定的数据引用原则[18]，开发相应的工具，为共享数据提供数据引用信息（包含数据贡献者、数据集名称、数据制备年份、数据的数字唯一标识符和数据分发机构等），并能根据不同引用方式灵活提供数据引用信息。

同时，传统的期刊影响因子及论文引用量并不能充分反映科研成果的科学、社会、政治和经济效应，开放科学为开发新的科研成果计量方式创造了机遇，有助于激励科研人员自发共享除学术论文外的科研成果，比如科学数据和软件代码等。数据中心需要抓住机遇，加强开放数据的科学计量，开发新一代开放科学计量工具，综合反映科学数据的科研、社会、政治和经济效益。实现这些基本的计量只是第一步，如何实现更科学的数据计量，并合理设计相应的激励机制，还需要更多的研究与探索。

第二个挑战是数据的互操作性。在FAIR原则中，互操作性是体现数据信息增值最大化的核心属性，相较于其他属性，该属性最能激发数据贡献者的数据共享意愿。从宏观上来讲，互操作性是要建立一个被广泛认可的关于数据交换、数据安全和信息传递的规范、标准、方法、过程或实践等准则[20]，从技术、结构、语义和组织等不同层次实现数据互操作的标准化。从数据实体来讲，互操作是能够实现多源异构数据的集成、分析和处理，进而实现大数据分析和决策的技术和方法，具体而言，即保证：①数据/元数据使用正式、可访问、共享和广泛适用的语言来表示知识；②数据/元数据使用遵循公平原则的词汇表；③数据/元数据包括对其他（元）数据的限定引用[21]。

第三个挑战是数据共享模式从数据仓库到大数据平台的转换。实现数据共享模式从数据仓库到大数据平台的转换是从数据角度支持开放科学的关键，应对这一挑战的核心是建设集数据存储、管理、建模、分析、可视化、决策支持于一体的大数据平台，并将其作为开放科学时代的信息基础设施，实现从地球系统的观测、数据综汇、开放获取、信息提取、知识挖掘到智慧决策的技术贯通。而模型驱动与数据驱动方法的深度结合可能是最大的技术瓶颈，也是最有前景的研究方向[22-23]。此外，兼容传统数据共享模式，提供更加强大的数据搜索引擎、智能数据处理工具，更有效地为用户和机器提供更加友好、智能的服务，也是实现上述技术升级转换的桥梁。

2 开放数据实践

为了应对数据开放共享存在的问题和面临的挑战，国家青藏高原科学数据中心初步开展了一些尝试，包括采用国际标准提供数据引用方式和数据关联文献引用方式，支持数据出版，开发在线大数据分析、模型应用等功能，促进第三极地区科学数据开放共享[24-25]。

具体来讲，国家青藏高原科学数据中心开发了中英文双语数据管理与共享平台，大部分数据采用开放获取方式（其中大部分开放数据实现免登录下载），目的是降低数据下载门槛。但是需要有知识产权保护作为开放获取的前提，国家青藏高原科学数据中心采用以下方式来保障数据作者的知识产权（图1）：①为每个自有产权的数据赋予唯一的数字对象标识符（digital object identifier，DOI）和中国科技资源（China science and technology resource，CSTR）标识，体现数据的跟踪价值、引用价值、集成价值和互联价值；②采用知识共享（creative commons，CC）4.0协议，保留作者版权，同时授权他人在协议限定范围内的转载、使用和二次演绎等行为；③建议和鼓励用户进行数据引用和数据关联文献引用，并在数据详情页提供数据引用和数据关联文献引用信息；④秉承数据开放获取的原则，同时兼顾数据作者对特殊数据保护的诉求，可设置不超过两年的数据保护期，或根据数据作者对数据共享需要附加额外条件的要求，设置数据申请审批流程。

图1 数据知识产权保护措施

国家青藏高原科学数据中心积极申请成为国际重要期刊和组织认证的数据仓储，不断完善数据中心的功能，提升数据中心的共享和服务能力。2020年7月国家青藏高原科学数据中心成为国内首个通过Nature旗下Scientific Data认证的数据仓储中心。2020年7月国家青藏高原科学数据中心成为美国地球物理学会（American Geophysical Union，AGU）推荐的数据仓储，并成功注册综合性的全球研究数据存储库系统（re3data.org和FAIRsharing）和项目（Enabling FAIR Data），促进了数据中心、国际地球科学领域其他数据中心和研究人员的合作与交流。

在数据互操作方面，国家青藏高原科学数据中心尽量采用地学数据领域广泛认可的标准和规范来减少互操作性障碍，如数据交换服务协议选用开放源代码的网络数据访问协议（open-source project for a network data access protocol，OPeNDAP）和开放地理空间信息联盟（open geospatial consortium，OGC）标准。关于数据层面的互操作性，虽然没有要求数据作者使用特定的格式，但建议数据作者尽可能按照气候和预测（climate and forecast）公约，采纳网络通用数据格式（network common data format，NetCDF）对数据进行编码。国家青藏高原科学数据中心按照谷歌数据搜索引擎的要求，在数据集描述页面添加符合Schema.org标准的元数据信息，使得数据中心的数据能够在谷歌数据搜索引擎中被查询到。

在大数据分析方面，国家青藏高原科学数据中心通过增量集成和自主研发，构建大数据质量控制、自动建模与分析、数据挖掘及交互式可视化的方法库，形成具有高可靠性、高可扩展性、高效性和高容错性的工具箱，实现青藏高原及周边多源异构、多粒度、多时相、长时间序列大数据的协同分析方法的集成和共享，以及高效和在线的大数据分析处理，并通过青藏高原关键地表过程的大数据分析应用示范，打通数据深度挖掘的整体技术链路[26]。国家青藏高原科学数据中心目前包含机器学习、数据同化、参数估计、时间序列分析、高级地统计、数据后处理和因果分析七大类大数据分析方法库，通过方法库的元信息对方法进行管理和智能搜索/推荐，建立代码共享机制，并在GitHub上托管。

目前，国家青藏高原科学数据中心集成了青藏高原及周边科学数据集4 350个（数据量接近172 TB），其中开放获取的科学数据集有2 797个，占比超过64%。自2021年3月以来，国家青藏高原科学数据中心对开放获取的数据实行免登录设置，平均每月数据下载量达1.6万多次，较之前增长了两倍多，大大提升了数据共享服务量。境外用户的数据下载量占比超过35%，随着国家青藏高原科学数据中心国际化建设的进一步推进，国际数据贡献者和数据用户有望进一步增多，从而进一步提升数据中心的国际影响力。截至2021年9月，已有2 800多篇论文使用和引用了国家青藏高原科学数据中心的数据集，用于冰冻圈变化、亚洲水塔变化、生态系统脆弱性评估、重大工程风险评估和遥感反演评估等研究，为青藏高原地球系统科学研究提供了数据支撑，有效地提高了第三极地区科学数据的共享水平与利用效率，推动了青藏高原及周边地区地球系统的科学研究和前沿创新。

3 结束语

随着以地球观测系统和众源地理信息为典型代表的各类科学数据以指数级速度的持续增长，地球系统科学研究进入了“大数据”时代，科学研究的第四范式——数据密集型科学发现不约而至，开放科学和开放数据是科学发现新范式的一种适应和必然过程，每一位科研工作者都将是开放科学和开放数据的贡献者和受益者。数据中心是开放数据系统中连接决策者、数据贡献者、数据和数据用户的中介机构，可从政策、管理、技术和国际化等方面加强开放数据措施，并让数据贡献者和数据用户受益，形成科学和社会收益的强化反馈。