《科研数据北京宣言》解析*

2022-09-05 08:29:56温亮明
图书情报研究 2022年3期
关键词:宣言数据管理政策

温亮明 李 洋 宋 佳

(1.中国科学院计算机网络信息中心 北京 100190;2.中国科学院大学 北京 100049;3.成都体育学院图书馆 四川 成都 610041;4.西南医科大学图书馆 四川 泸州 646000)

1 引言

“数据+计算”双轮模式驱动科技创新和科技发现范式下[1],数据已经成为国家和全球科技创新的战略资源。作为大数据的重要组成部分,科研数据正在成为科学研究不可或缺的原材料之一,对科研数据进行有效管理是保证科学研究可持续发展的重要举措[2]。国际社会已经对科研数据的重要性形成共识并出台了一系列科研数据管理政策倡议,如《G8 开放数据宪章》[3]《发展中国家数据共享原则》[4]《数字时代知识发现海牙宣言》[5]《科研数据权力索邦宣言》[6]等,这些原则尽管都曾在国际上引起热议,但就内容层面而言都略显狭隘,如《G8 开放数据宪章》侧重政府数据,《发展中国家数据共享原则》重点关注发展中国家,《数字时代知识发现海牙宣言》侧重知识产权保护。2019年9月,国际科学理事会数据委员会(CODATA)数据政策委员会相聚于北京召开“开放科研数据政策与实践国际研讨会”,共同探讨当前国际科研数据管理问题,研讨会的主要成果之一是形成了《科研数据北京宣言》(以下简称《宣言》),并于2019年11月在CODATA 官方网站正式发布,网址见文献7[7]。《宣言》提出后,得到国内外广泛关注:研究数据联盟(RDA)[8]、全球农业和营养开放数据网络(GODAN)[9]、开放获取目录社区(OAD)[10]、FAIR 原则倡议组织(GO FAIR)[11]、全球变化科学研究数据出版系统[12]、国家科技资源共享服务平台(NSTI)[13]、中国科学院计算机网络信息中心(CNIC)[14]等诸多组织机构在官方网站专题报道并表示支持,有专家建议在“2019年联合国互联网治理柏林论坛”或“2020年信息社会日内瓦世界峰会”上继续讨论《宣言》相关细则[15],《宣言》还入选2019年度“中国科技资源管理领域十大事件”[16]。《宣言》最主要的观点是强调公共经费资助产出的科研数据应尽可能在全球范围内共享重用[17-18],从全球环境治理角度而言,有必要让我国科学界知晓、理解并践行该倡议。

鉴于《宣言》的原文内容比较松散,并未严格按照章节框架进行组织,经过仔细研读,本文将《宣言》的具体内容分为产生背景、内容体系和现实意义三个方面,基于《宣言》原文内容的解读,并结合当前国内外科研数据管理理论研究与实践进展现状,提出相关思考,以期为我国科研数据管理研究与实践提供参考。

2 《宣言》的产生背景

2.1 全球问题解决需要数据驱动

当前,人类依然面临资源短缺、气候变化、耕地退化、水资源污染、生态系统脆弱、粮食安全等全球性可持续问题。近年来,联合国先后发布了《2015-2030年仙台减少灾害风险框架》[19]、《2030年可持续发展议程》[20]、《巴黎协定》[21]、《新城市议程》[22]等一系列事关全人类生存发展的协议规划。要想在瞬息变化的大环境下去科学地认识、评估和解决这些全球性挑战,需要以各类观测/监测数据信息为基础进行挖掘、分析和预测。以“数字丝路”国际科学计划为例,需要获取天、空、地、海等综合性数据资源,并基于此构建可共享的地球大数据平台,应用于可持续发展的各个领域[23]。在第75 届联合国大会期间,我国向世界发布了《地球大数据支撑可持续发展目标报告(2020)》[24]。

2.2 科研数据管理面临新的挑战

尽管科技创新已进入以“大数据+大科学=大发现”为驱动模式的科学大数据时代[25],但要使科研数据真正驱动科研发现,仍面临数据体量限制、数据归一化处理、数据共享与重用等现实困境。联合国环境规划署在《全球环境展望 6》(2019年3月)中指出“必须依靠有效、有据可依的环境数据信息来帮助全球实现可持续发展目标(SDGs)之环境目标的实现”[26]。再以可持续发展目标(SDGs)的推进与评估为例,需要跨多个领域组合和重用多样化的数据资源,这对在充分尊重隐私的前提下保证数据的互操作性且负责任地管理数据提出了巨大挑战。除此之外,科研数据管理还在隐私安全[27]、道德伦理[28]、产品研发[29]、知识产权[30]等方面面临诸多问题,尤其是数据属性边界模糊不定、数据分布鸿沟仍在加剧、数据产品污染依然严重、数据作用功能异化等伦理问题对科研数据资源价值的进一步开发发起了挑战[31]。

2.3 科研数据开放共享全球实践

开放科学倡议呈现出全球性趋势,科学共同体期望从科学研究过程的早期阶段就获得与支撑科研成果相关的数据,包括原始数据、初加工数据、数据处理过程、数据处理工具等。2012年7月,欧盟委员会宣布将在地平线2020 计划战略的部分领域开展科研数据开放共享试验[32];2014年8月,联合国秘书长任命了“可持续发展数据革命独立专家咨询小组”,该小组将围绕如何缩小数据差距向联合国秘书长提供咨询意见[33];2017年,有学者对318 本学术期刊进行了调研,结果显示21%的学术期刊明确将数据开放作为论文出版的限制条件[34],另据欧委会调研结果显示[35],截至2019年10月,全球26 个主要国家的149 家科研资助机构中有27.6%明确要求科研数据开放共享,14.5%鼓励科研数据开放共享;全球2 416 个数据存储库中有2 281 个明确表示完全开放共享,120 个数据库可以有条件共享。

3 《宣言》的内容体系

3.1 科研数据管理十条核心原则

《宣言》的核心内容包括十条细化原则,表1展示了各条原则的核心内容。

表1 《宣言》的十条核心原则

3.2 国际科研数据相关政策声明

在附录部分,《宣言》列举了若干国际上科研数据政策声明清单,共计55 部,其中部分政策声明系同一文件的不同年代或机构版本,去重处理后共得到相关政策声明50 部,这些政策声明代表了当前国际社会对科研数据管理的主张与呼吁。纵览这些附录声明,可以发现一些显著特点:

(1)从发布时间维度来看,这些政策声明基本涵盖了开放共享理念的不同发展阶段,2010年之前相关政策声明数量较少,2011~2015年间政策声明数量最多且在2014年达到峰值,2016年之后以每年政策声明数量稳定在3 篇左右;(2)从制定主体维度来看,政府部门、非政府组织、公益科研项目等机构是绝对主力,所发布的政策声明数量占总数的70%,基金会、科研机构、高等院校等机构虽有所参与但数量较少,基本处于被管理状态;(3)从主题领域维度来看,这些政策声明既针对原始数据资源、数据产品、数据基础设施,又针对科技期刊、科学研究成果、研究过程等,既涉及全科学领域,又针对生物、气候、气象、空间、人文、政府等特定学科领域。

4 《宣言》的现实意义

4.1 《宣言》的理论意义

《宣言》的主体内容可分为背景介绍、意义阐述、核心原则等部分。与其他类似政策倡议相比,《宣言》一是从形式上突破了传统严格的章节框架组织体系,二是花费大量篇幅介绍时代背景、阐述现实意义并附以政策目录,这种新颖的结构组织形式为后续类似政策提供了参考。纵览全文,《宣言》提及的热点词汇包括全球挑战、可持续发展、数据驱动、FAIR 原则、隐私保护、开放共享、公共资助、公益性、知识产权、数据管理计划等,这些语词都是当前开放科学大趋势下国内外科研数据管理学术研究的热点话题。从附录中可以看出,《宣言》肯定了许多国家和国际组织的前期工作,尤其是欧洲、北美洲、南美洲、中国等已发布的数据政策和正在进行的项目计划[36],在理论层面阐明并提出了一套适合于新开放科学范式的推进公共科研数据领域多边合作的十条核心原则[37]。由此可见,《宣言》充分剖析了当前面临的世界环境,明确了科研数据管理与开放共享在科技创新中的重要作用,是国际科技组织在新的时代背景下对全球在科研数据政策和技术方面实践成果的思考。

4.2 《宣言》的实践意义

面向科学生产鸿沟、可持续发展目标实现、数据隐私伦理侵犯等全球性挑战,《宣言》从多层面、多角度给出了解决意见,在实践层面进一步推动了科研数据管理各项举措的落地实施[38]:在政策制度层面,《宣言》强调不断发展的标准规范和伦理制度能够提升科研透明度进而有助于高水平的研究[39];在态度立场层面,《宣言》认为科研数据应该具备全球公益属性,应当遵循“开放为常态,不开放为例外”原则在全球范围内尽量开放共享,尤其鼓励公共科研数据的全球合作;在具体操作层面,《宣言》强调了数据管理计划的重要性,并从可发现、可获取、可互操作和可重用四个角度对科研数据管理提出了要求,这是推动FAIR 原则迈向实践的重要举措[40],尤其是提出的全球数据联盟想法具有广泛的社会意义[41];在对策建议上,《宣言》强调采用新政策和新方法并进行全球范围内协调和实施,对研究数据和相关的基础设施、工具、服务和实践而言十分必要。由此可见,《宣言》是一份具有全球性、前瞻性和创新性思维的指导性政策文件。

5 《宣言》的落地实现

5.1 《宣言》的现实困境

尽管《宣言》为全球科研数据管理描绘了美好蓝图,但要想将蓝图真正落地实现,在诸多方面还面临现实困境:(1)在数据可“获得”方面,真正获得“有效”数据成为新的科研诉求,如何确保研究人员从纷繁复杂的数据中获得真正有用的数据值得思考;(2)在数据“公益”性方面,需要努力在保护数据生产者的合法权益和保证数据使用效果的公益性中间找好平衡点;(3)在数据“FAIR”化方面,要想实现全面“FAIR”化就必须保证可发现、可访问、可互操作和可重用都能实现,这在现实环境下存在一定困难;(4)在数据“开放”性方面,一是数据的开放程度和等级难以把握,二是“尽可能”开放的边界划分模糊,三是开放效果难以评估;(5)在数据产权方面,数据所有权归生产者所有还是保存者所有,归基金资助者所有还是监管机构所有,不同利益相关者之间的权责比例如何划分;(6)在数据管理计划(DMP)方面,是否要求所有参与者都必须提交DMP,DMP涉及的时间跨度如何把握,DMP 完成进度如何评估;(7)在数据设施建设方面,是否有必要建设,怎样避免与现有其他基础设施功能定位重复,谁投资、谁运行、谁收益;(8)在全球合作方面,是否已设计可行的合作方案,是否有相关成功案例可借鉴,如何保证弱势群体的数据权利得到保障。

5.2 《宣言》的实现路径

针对《宣言》落实面临的现实困境,本文认为应该从如下几个方面入手探索科研数有效管理的实现路径:(1)建立数据管理激励机制[42]:充分调研科研数据利益相关者需求,分析识别影响科研数据管理的关键因素,合理划分不同参与者权责利益比例,设计能够充分调动利益相关者积极性的激励机制,营造起人人了解科研数据、人人参与数据管理、人人共享数据资源的良好文化氛围。(2)提升科研人员数据素养[43]:一方面信息服务相关机构或科研数据管理经验丰富者定向提供涵盖科研数据生命周期和科研项目生命周期的数据素养教育培训,包含数据获取意识、数据获取技能、数据判别技能、数据处理技能、数据伦理道德、数据知识产权等,另一方面数据素养贫困者主动就薄弱环节加强学习锻炼。(3)加强数据生命周期管控[44]:通过描述性元数据、管理性元数据、操作性元数据、功能性元数据对各原则进行描述,通过元数据获取协议或应用程序接口实现跨系统的元数据获取,通过制定数据管理计划、数据描述标准、效果评价体系实现FAIR 效果的治理与监测。(4)运用新兴数据管理技术[45],运用爬虫技术实现数据自动化采集,运用Tag 技术实现数据标记,运用机器学习技术实现数据组织分类,运用大数据处理框架搭建数据基础设施,运用AR、VR 技术实现数据产品开发,运用DMP 工具实现数据管理全流程监督,运用区块链技术实现数据隐私保护、权责确权、溯源追踪。(5)设置数据资源费用标准[46]:在提供数据资源的同时,将数据生产成本向公众透明公开,由监管机构根据市场行情出台相应的费用参考指导价,适时引入拍卖模式或竞标模式在合理使用价格范围内完成数据资源交换,针对群体疾病预防、地震灾害救援、气候变化预测等特殊应用场景可免费提供。

6 对我国科研数据管理政策的思考

6.1 我国科研数据管理政策现状分析

我国的科研数据管理实践始于上世纪80年代[47]。1981年,首次在学术论文中出现“科研数据”一词,1984年,我国正式成为国际科技数据委员会会员国之一。2001年11月由中国气象局发布的《气象资料共享管理办法》拉开了我国科学数据管理政策制定的序幕,2004年7月出台的《2004年-2010年国家科技基础条件平台建设纲要》则是我国科研数据管理和共享工作实施的重要里程碑[48]。在随后的十多年间,我国的科研数据管理政策不断丰富完善,表2展示了2001年以来国内各年度代表性的科研数据管理政策。

表2 我国科学数据管理代表性政策

由表2可知,我国的科学数据管理政策体系已初具规模,这些政策为我国科研数据的有效管理和共享指引明了方向。但与《宣言》所认可的国际科研数据相关政策声明相比,我国科研数据管理政策尚存在不足之处:(1)参与群体较少,政府部门、行业机构、科研院所、数据共享平台等是政策制定的绝对主体,但高等院校、重大科研项目、高科技企业等科研数据生产单位以及基金资助单位、行业协会等科研数据资助单位较少参与;(2)学科覆盖不足,基本分布在气象、水利、地震、医药、林业、测绘、国土、交通等应用型学科领域,而较少关注基础科学领域(如物理、化学等领域)以及社会科学领域(如经济、人口、政务等)的数据;(3)社会声誉较低,尽管各类政策数量众多,但除了《科学数据管理办法》发布后得到国内外社会广泛关注外,其余政策较少如欧盟《通用数据保护条例》(GDPR)般汇聚全球目光;(4)成熟程度不高,不少政策包含“暂行”、“试行”、“意见征求稿”、“方案”等字眼,说明政策主体对政策的成熟度尚不能确定,造成政策约束力下降。

6.2 我国科研数据管理政策完善策略

面向国内外科研数据管理态势,针对我国科研数据管理政策现状,本文认为应该从以下方面入手进行优化完善:(1)完善政策体系:密切关注国际科研数据管理最新实践进展,及时对标分析我国科研数据管理区位,邀请相关各方积极讨论,权衡不同利益相关者诉求,制定与学科发展相适应的科研数据管理规划体系并配套专门实施细则、行业技术标准规范等[49];(2)推进广泛参与:建立动力机制,加强治理合作关系[50],邀请既得利益者分享科研数据管理经验,邀请领域技术专家进行科研数据管理技能培训,提升广大科研群体和社会大众对科研数据管理的知晓度和认可度;(3)加强宣传推广:通过科研成果出版、科研项目合作、参与国际会议等方式积极展示我国在科研数据管理尤其是政策方面的实践进展,充分运用新媒体宣传推广科研数据管理典型案例,努力形成营造“自由、开放、合作、共享”的科研数据管理氛围[51];(4)促进落地实践:认真研读政策原文内容,积极领会政策精神内涵,加强理论对实践过程的指导与完善[52],设置科学合理的科研数据管理实践指标体系并构建评估模型[53],探索适合我国国情的科研数据治理经验。

7 结语

尽管目前已有诸多科研数据管理全球性倡议或政策,但CODATA 依然积极推动《宣言》发布,这一方面是因为现存科研数据管理相关政策具有局限性,另一方面是新的时代背景对科研数据管理提出了新的要求,更重要的是大规模的全球性挑战要求我们进行多边和跨学科合作。尽管《宣言》具有广泛的理论和实践意义,但不可否认,《宣言》仅仅从时代趋势角度为全球科研数据规划了大方向,具体如何落实还需各主体国家/地区根据自身实际情况准确把握。

2018年3月,我国正式出台了《科学数据管理办法》,这为我国科研数据管理活动奠定了实践基调[54],随后各地方政府部门、科研院所、高等院校、企业、数据中心等主体从不同层面推动实施[55]。《宣言》以CODATA 北京会议为契机,与国内开放科研数据大趋势相呼应,将继续在全球范围内广泛传播。当前,以开放科研数据为核心内容的开放科学运动正在全球范围内火热进行[56],现在是时候在坚实的研究数据政策基础上采取行动了。相信在全球科研共同体的努力下,开放科研数据的实践将更进一步,也将会涌现出更多具有广泛科学和社会价值的中国故事。

猜你喜欢
宣言数据管理政策
政策
房地产导刊(2022年8期)2022-10-09 06:19:34
政策
房地产导刊(2022年6期)2022-06-16 01:28:40
企业级BOM数据管理概要
定制化汽车制造的数据管理分析
海洋环境数据管理优化与实践
青春宣言
文苑(2020年10期)2020-11-07 03:15:48
CTCS-2级报文数据管理需求分析和实现
助企政策
政策
华人时刊(2019年21期)2019-11-17 08:25:07
柔软宣言