谢鹏亚 邸月宝 任 真 ,
(1.中国科学院文献情报中心,北京 100190;2.中国科学院大学经济与管理学院信息资源管理系,北京 100049;3.国家自然科学基金委员会计划与政策局,北京 100085)
在大数据时代,数据已成为构建现代国家和社会的基础要素之一,对促进经济社会发展有着重要的基础性作用。加强对数据的管理、开发、利用对于构建新发展格局、建设现代化经济体系、构筑国家竞争新优势具有重要意义,而这其中数据资源的开放共享是其重要一环。
开放数据指的是科学数据的开放共享,在“数据革命”时代有助于各国打破数据孤岛,促进数据的流通,从而使数据在更广泛的范围内发挥最大效用。一些国家的数据开放程度较高、开放规范性较强,可以为我国的开放数据实践提供启示与借鉴。肖敏等[1]基于英国、加拿大、法国和中国的政府数据开放发展历程,对我国开放数据提出了政府政策、数据平台建设、数据隐私保护、数据资源建设四个方面的策略;朱建平、冯冲等[2]对比了美国、英国、加拿大、法国、日本的政府数据共享政策与法律法规、机构与岗位设置等内容,为中国政府数据共享提供了对策建议;翟军等[3]分析了爱尔兰的开放数据战略、技术框架和平台建设情况,为我国政府数据资源的开放共享工作提供了一定的参考;除了研究各国政府的开放数据进展,也有针对科学资助机构开放数据政策的研究。胡明晖等[4]重点分析了英国开放数据的政策内容、政策特点以及对我国的政策启示,提出加强我国国家自然科学基金委员会开放数据管理的政策建议。虽然德国在欧洲开放数据浪潮中的相关实践处于领先地位,但是我国现有研究缺少对德国开放数据领域实践的分析。
我国近年来日渐重视开放数据的发展,党的十九届五中全会审议通过的《中共中央关于制定国民经济和社会发展第十四个五年规划和二〇三五远景目标的建议》[5]提出“建设国家数据统一共享开放平台”的任务目标。国家决定组建国家数据局,专门负责协调推进数据基础制度建设,统筹推进数字中国、数字经济、数字社会规划和建设等工作。国家自然科学基金委员会推出大数据知识管理服务门户[6],使科研人员可以根据感兴趣的研究方向对项目及成果进行检索,从而更好地了解研究领域的研究进展,借鉴同行研究经验,有力推动了科学基金项目和成果数据的开放交流。2018年,我国首次在国家层面出台《科学数据管理办法》[7],共包括三十三条内容,其中在第十条提到建设科学数据中心的必要性,指出科学数据中心是促进科学数据开放共享的重要载体,其主要职责中包含保障科学数据安全,依法依规推动科学数据的开放共享。2019年提出在原有国家科技资源共享服务平台的基础上,建设“国家高能物理科学数据中心”等20个国家科学数据中心。
然而我国开放数据目前还面临一些发展局限[8],例如我国科学数据共享的资源类型比较单一;科学数据相关主体间缺乏互动;开放数据质量较低;机构数据库互操作性不强;此外,对数据安全和相关数据主体权益的有效保障机制还较为缺乏,在开放数据的安全监管和伦理规范等问题上有待进一步强化。
面对大数据时代海量的信息和数据,如何推动数据的开放和共享已成为世界各国密切关注的议题。德国是开放数据实践领域积极的先行者,早在2006年就颁布实施《联邦信息自由法》,在法律层面允许公众自由获取联邦当局官方信息。2013年颁布的《电子政务法》极大地促进了德国开放数据的发展,《电子政务法》的颁布也使得德国成为欧洲甚至国际上针对开放数据立法的先锋。欧洲开放数据的官方门户网站记录了欧洲各国的开放数据集,其中德国的开放数据集数量位列欧洲第一,德国的数据开放程度位于各国先列。近年来,德国联邦政府出台一系列政策推动开放数据的工作,尤其在新冠肺炎疫情爆发之后,德国制定了进一步促进数据向全球开放的措施,面向公众提供与新冠肺炎疫情相关的出版物和数据。
德国在开放数据领域有很多成功的实践,在国家层面和机构层面制定了与开放数据相关的政策。本文对德国及欧盟各大开放数据官方网站进行搜集调查,并展开了广泛的文献调研,分析了德国的开放数据战略、开放数据政策以及开放数据基础设施和平台的建设情况。分析德国在该领域的政策和举措,有利于把握当下开放数据领先国家的发展态势,为制定我国可持续的开放数据发展路线和应对方案,改进和完善我国的开放数据实践提供启示。
德国联邦政府密切关注开放数据的发展,在战略层面上将开放数据视作提升国家创新实力、建立社会全面互联的必要因素。德国相继推出了《开放数据战略》和《数字化战略》,将开放数据提升到了国家高度。在开放数据的实践中,为了推动数据的开放共享,德国发布了一系列的政策来规范数据的访问和维护、元数据的交换以及数据使用过程中的署名等问题。
2021年7月,德国联邦政府制定了为期五年的《开放数据战略》[9],将开放数据视为德国创新实践的成功因素,提出应大力提高联邦政府提供开放数据的质量和数量,激励企业界、学术界和社会提供更多的开放数据。《开放数据战略》表明,德国在开放数据的过程中不但支持数据的开放,提升数据开放的深度,同时促进政府与社会各界用户之间的联系,提高了数据开放的广度,并且注重开放数据的质量,促进负责任的数据使用。
《开放数据战略》包含了三个行动方向的68项措施,以改善联邦政府的开放数据生态系统,促进开放数据的提供和使用(表1)。
表1 《开放数据战略》的三大行动方向Tab.1 Three Action Directions of Open Data Strategy
2022年8月,德国联邦内阁通过了由联邦数字事务和交通部(Bundesministerium für Digitales und Verkehr,BMDV)提交的《数字化战略》[10],提出全面建立互联、可持续的数据文化是未来几年科研领域的关键任务,构建了到2025年数据政策的总体框架。一方面促使科研数据跨领域、长期服务于科学、经济和社会,从而促生新的创新潜能;另一方面促进以研究为目的的数据广泛应用。
《数字化战略》的第四章节指出了战略的三大行动方向(表2)。其中,在第二大行动方向中的“科学与研究”指出,通过建立分散、网络化数据空间,实现“国家研究数据基础设施(Nationale Forschungsdateninfrastruktur,NFDI)”数据库的开放和系统化。《数字化战略》指出应改善公共行政数据和科研数据的可用性,以便民间社会、企业界、学术界和联邦行政部门能够更好地利用这些数据,确保开放数据的可持续发展。该战略也提出了开放数据基础设施方面的行动目标,在所有联邦部门建立并整合数据实验室,加强联邦行政部门的数据处理能力,为数据分析提供合适的工具和资源。同时该战略还强调,开放数据要注重数据安全、保护联邦机构的隐私。
表2 《数字化战略》的三大行动方向Tab.2 Three Action Directions of Digital Strategy
由于各种原因,跨部门、跨域边界的集中数据维护几乎不可行且意义不大,因此,分布式数据维护是比较常见的方式。2018年6月,德国信息技术规划委员会决定从2019年开始,将DCAT-AP.de定义为德国开放数据门户(GovData)之间交换元数据的共同约束标准[11]。DCAT-AP和DCATAP.de是一个RDF词汇表,德国元数据标准DCAT-AP.de以欧洲层面的数据交换标准DCATAP为基础,符合DCAT-AP标准,并且适应德国开放数据的实际情况。DCAT-AP.de规定了如何分布式管理维护数据,以及如何在GovData门户中为德国相关地区提供数据。
DCAT-AP.de标准由三个部分组成:1)规范。该规范为进出GovData门户的通信及欧洲数据门户和GovData门户之间的通信制定了语义规则,并结合德国情况对欧洲数据交换标准DCAT-AP进行相应延伸扩展。2)统一资源标识符(Uniform Resource Identifier ,URI)。根据URI规则限制通信伙伴的URI命名范围。3)公约手册。针对GovData创建了DCAT-AP.de公约手册,以进一步提高互操作性,通过规则统一与GovData的通信。
《德国数据许可-署名》(2.0)[12]是由GovData门户与联邦政府、联邦各州和市政机构合作制定的一项关于德国行政数据统一使用条款的建议。该文件在满足数据开放的基础上,提出了数据使用过程中的“署名”要求,解答了开放行政数据的常见问题。
《德国数据许可-署名》(2.0)的主要内容包括以下三个部分:1)适用对象:数据、元数据。2)用途:复制、打印、展示、修改、编辑和传输给第三方;与自己或其他来源的数据合并,形成独立的新数据集;与内外部业务流程、产品和应用集成。3)使用规范:用户必须确保源注释包括:提供者名称、注明并规范该许可协议的名称以及对数据集的引用;更改、编辑、新设计或其他修改必须在来源注释中标明。
为推动向公众开放数据,增加政府透明度,德国联邦政府从2017年起制定《开放政府行动计划》[13],每两年修订一版[14,15],至今已制定了3版(表3),以此挖掘政务数据潜力,激发社会创新活力,提高公共服务成效,增强社会和经济价值。同时,兼顾开放数据的有关政府规划、重点项目,既把开放数据作为政府的义务和国策,又上升为“塑造德国未来”的高度。
表3 《开放政府行动计划》中与开放数据相关的内容Tab.3 Contents Related to Open Data in Open Government Action Plan
目前国际上针对开放数据进行立法支持的国家并不多,只有德国、美国等少数国家立法保障数据的开放,在国际和国家层面都尚需更加清晰的文献共享和数据重用立法。
德国是较为领先地颁布法律促进公共行政数据开放的国家,而且专门设置了联邦信息自由专员监督法律的实施。《联邦信息自由法》(Informationsfreiheitsgesetz,IFG)[16]于2006年1月1日起生效,是德国联邦一级关于信息自由的核心法律,赋予每个人无条件从联邦政府获取官方信息的合法权利。IFG共包括15章内容,其中在第十二章“联邦信息自由专员”中规定,任何人如果认为IFG规定的获取信息权受到侵犯,可向联邦信息自由专员提出上诉,有利于法律的规范实施。该法一方面保障了公众获取官方行政数据的权利,另一方面也对政府提出了公开行政数据的要求。
《开放数据法》的前身是德国于2013年7月颁布的《电子政务法》(E-Government-Gesetz,EGovG)[17],《EGovG的颁布使得德国成为欧洲甚至国际上针对开放数据立法的先锋。德国联邦政府通过颁布法律,为开放数据的发展保驾护航,EGovG构成了联邦政府积极提供开放数据的重要基础。该法的目的是通过消除联邦法律的障碍,促进与行政当局的电子通信,使联邦、州和地方当局能够提供更简单、更方便用户和更有效的电子政务。2017年5月,德国联邦议院决定对EGovG进行修订,修订后又被称为《开放数据法》,以适应“开放政府计划”所确定的目标[18]。在联邦政府数据的提供和公开方面,《开放数据法》规定,联邦政府应使为完成公法任务而收集的或由第三方代表收集的未经处理的机器可读数据能够通过可公开访问的网络检索。
德国的开放数据设施和平台既作为开放数据实践过程中的成果,又能反过来推动德国开放数据的进程。GovData门户、数据存储库、科学数据能力中心等基础设施和平台作为开放数据的第一线,在社会层面最终实现数据的开放共享。
GovData是德国的数据门户,其宗旨是促进公共行政数据的透明、公开和自由使用。联邦政府、地方政府等行政部门可通过GovData这一开放数据的国家元数据门户提供公共行政数据,行政人员、公众、企业和科研人员可以通过GovData访问德国各级行政部门的数据和信息。截止到2023年1月15日,GovData门户中包含77397条政府开放数据记录[19],其中有来自联邦政府的公开数据,也有来自慕尼黑、汉堡、不来梅、柏林、萨尔州等16个州的相关公开数据。GovData门户对于数据的管理非常规范,可查询到德国各个地区的政府开放数据记录,便于公众了解和掌握政府的开放数据信息,并利用这些数据进行应用创新。
德国数据存储库环境既复杂又高度联合,许多大学和科研机构控制着自己的数据存储库。re3data(Registry of Research Data Repository)[20]于2012年由德国研究联合会(Dentsche Forschungsgemeinschaft,DFG)资助创建,汇总了各个国家的研究数据存储库。re3data提倡共享文化,增加研究数据的可见性和可访问性。据re3data统计数据显示,截至2023年2月12日,德国共有491个此类存储库,数量远远超过仅有97个研究数据存储库的中国。由此可见,德国研究数据的长期保存能力和获取研究数据的能力较我国领先,且汇总研究数据存储库的平台建设也较为完善。DFG从2020年开始资助为期三年的“re3data-社区驱动的研究数据存储库开放参考”项目,该项目的目标是将re3data作为研究数据存储库的参考平台,与开放数据的其他服务和基础设施连接起来。此举有利于在学术界建立可信的知识库,也能够充分发挥并持续激发研究数据的价值,提升开放数据的社会效益。
根据欧洲开放数据的官方门户网站(data.europa.eu)显示的数据[21],德国开放数据集的数量在欧洲国家中位列第一。数据集的来源非常广泛,包含来自萨克森州立国家统计局、北威州数据库、莱茵兰-普法尔茨州立统计局等各个机构的数据集。数据集按照其内容可归为“农业、渔业、林业和食品”、“科学与技术”、“环境”等13类,具体类别及所涉数据集的数量如表4所示。
表4 德国各类数据集的数量Tab.4 Number of Various Datasets in Germany
2017年4月,德国科学信息基础设施委员会(Rat für Informationsinfrastrukturen,RfII)[22]发布《关于加入国家研究数据基础设施的目标和先决条件的讨论文件》,建议创建旨在连接、增强和补充现有基础设施的国家研究数据基础设施。NFDI的目标是,一方面系统地管理科研数据,长期提供公共资助研究的数据库,并使数据库易于查找和访问;另一方面,将制定和建立数据管理标准,保证数据在国内外均可公开获得。为了实现这些目标,德国科学联席会议(Gemeinsame Wissenschafts Konferenz,GWK)于2018年11月同意在十年内每年为NFDI的发展提供高达9000万欧元的资金,其中90%的资金由联邦政府提供,10%由各州提供。为确定资助规则,DFG与GWK协商后任命NFDI专家委员会,只有获得NFDI专家委员会明确资助建议的机构才能获得资助。NFDI专家委员会将对所有提案进行比较评估,并向GWK提出资助建议。最终由GWK做出拨款决定,DFG根据GWK的决定发放资金。
科研人员数据的采集、处理、存档及共享能力直接影响开放数据的进程,为进一步增强学术界科学数据处理技能,提升科研人员数据共享能力,德国联邦教育及研究部(Bundesministerium für Bildung und Forschung,BMBF)资助建立了科学数据能力中心。2022年6月,BMBF通过资助建立科学数据能力中心来加强德国科学和研究领域在处理科学数据方面的能力[23],作为联邦政府数据战略和BMBF研究数据行动计划的一部分。建立科学数据能力中心的目的是教授科学数据技能,让科学家线上进行数据的合作和跨学科分析以及开发新的数据科学方法。在科学数据能力中心的帮助下,将促进研究数据使用的变革,并推动数据创新。通过这种方式,数据技能可以更高效地引入德国研究领域。
近些年,以德国为代表的西方国家在推动开放数据发展方面逐步形成了一定的共识,开放数据也由理念逐步走向实践。德国开放数据的实践覆盖政府、科研机构等各层级,开放的理念也贯穿于开放数据项目的全过程。德国开放数据领域基础设施和平台建设较为完善,注重开放数据过程中的安全问题。德国在基础设施建设方面有很多实践,有众多开放存储库(Open Archive Initiative,OAI)和一些OAI服务提供商,还设有专门为数字存储库提供技术支持的组织。在新冠疫情这一重大突发公共卫生事件爆发后,德国密集出台了开放数据方面的政策和措施,为加强全球学术交流合作,推动各国共同攻克疫情难关发挥了重要作用。
相较之下,我国在开放数据领域起步较晚,近年来在数据领域基础设施和平台建设方面进展迅速,但在数据领域的体系化布局方面亟待加强[24],涉及多重利益主体的统筹协调能力仍显不足。而推进我国数据基础制度建设,正是国家组建国家数据局的重要考量之一。因而,充分借鉴德国在开放数据领域的实践经验,将有助于我国数据基础制度与政策的研究制定,有助于我国开放数据领域基础设施与平台的建设,有助于促进我国开放数据事业的健康发展,对此,提出如下三点建议。
开放是科学发展的内在属性,开放数据的发展既符合科学发展的自身需要,也符合社会对科学发展的外部需求。本研究在尝试梳理德国开放数据领域理念与实践的过程中认识到,开放数据的建设和发展是一个复杂的系统工作,在利益主体方面涉及政府、高校、科研机构、科学资助机构、出版机构、图书馆、科研人员和社会公众等多重行动主体,在建设要素上涉及制度建设、基础设施建设、管理平台建设、人才队伍建设等多个方面,亟需加强我国开放数据领域的体系化思考与研究,特别是要研究清楚西方国家推动开放数据发展的背景和目的,以及我国在开放数据领域作为后发者的优势和不足,充分探讨和明晰我国在推动开放数据发展中的最终目的和核心利益,使开放数据能够有效推动全民科学素质的提升和基础科学的发展。
开放数据基础设施包括虚拟的或物理的共享研究基础设施[25],比如国家研究数据存储库、科研数据和源代码的开放数据平台、创新试验台、开放实验室等。基础设施和平台的建设对于开放数据事业的长期可持续发展至关重要,国家已就构建国家科研论文和科技信息高端交流平台作出重要部署。但目前我国的实践中仍存在开放数据领域基础设施利用率较低、同领域不同组织机构间数据互通共享程度不高的情况,容易出现数据领域基础设施的重复建设以及“数据孤岛”等问题[26]。未来应围绕相应开放数据领域基础设施和平台的建设目标,强化需求导向和目标导向,加强调研交流,充分借鉴国际上关于开放数据领域基础设施和平台的建设经验,逐步形成我国开放数据领域基础设施和平台建设的中国方案。
只有足够了解数据的用途并具备一定程度的数据开发与应用能力,才有能力设计形成高效易用的底层数据。培养数据管理与应用人才队伍,形成有效开发利用数据的能力是做好数据开放的前提。未来我国应继续加强数据科学领域人才培养,推动数据管理与应用领域的国际合作和人才交流,充分吸收国际先进经验,提升我国数据开发利用能力和效益。同时,还应进一步加强国内外数据安全相关的法律规范等制度研究,提升我国对开放数据的安全保障能力建设,在开放数据的同时有效保障我国的数据安全。
致谢感谢中国科学院科技战略咨询研究院葛春雷老师在德文资料搜集方面提供的帮助。
作者贡献说明
谢鹏亚:收集整理资料,撰写论文初稿;
邸月宝:审校全文并重点就论文第四部分提出重要修改意见;
任 真:提出研究主题、设计论文框架、修改论文全篇。