国外档案数据开放研究——基于政府数据开放平台的调查

2022-05-30 18:10:20唐长乐武亚楠
档案管理 2022年5期

唐长乐 武亚楠

摘  要:档案数据的开放是推动档案数据开发利用,发挥档案数据价值的重要环节。文章以英、美、法、澳等十个国家的政府数据开放平台为调查对象,运用网络调研法,对平台中档案数据的开放情况进行调查,并围绕数据数量、数据领域、数据格式和许可协议四个方面对档案数据开放情况进行研究。在此基础上,总结国外档案数据开放的特点,得出对我国档案馆开放档案数据的启示。

关键词:档案数据;数据开放;政府数据开放平台

Abstract: The opening of archival data is an important link to promote the development and utilization of archival data and give full play to the value of archival data. Taking the government data open platforms of ten countries such as Britain, the United States, France and Australia as the survey object, this paper uses the network survey method to investigate the openness of archival data in the platform, and makes a study on the openness of archival data from four aspects: data quantity, data field, data format and license agreement. On this basis, this paper summarizes the characteristics of foreign Archives data opening, and draws enlightenment for the opening of Archives data in our country's Archives.

Keywords:Archival data; Open data; Government data open platform

我國从2012年起,相继出台了《促进大数据发展行动纲要》[1]《国家信息化发展战略纲要》[2]《公共信息资源开放试点工作方案》[3]《“十四五”推进国家政务信息化规划》[4]等一系列的法规政策来推动政府数据开放,充分体现了国家对于政府数据开放的重视。

档案数据开放是“档案机构将收集保存的所有原始数据向公众开放”。[5]在政府数据开放的大背景下,档案部门作为政府的基础性职能部门之一,应积极融入政府数据开放大局,强化档案数据支撑,满足社会对多样化数据资源的需求。实际上,2016年国家档案局发布的《全国档案事业发展“十三五”规划纲要》中就提到了“要制定档案数据开放计划,落实数据开放与维护的责任”。[6]2021年出台的《“十四五”全国档案事业发展规划》中提出了公布开放档案目录的目标要求[7]。地方层面上,《福建省“十四五”档案事业发展规划》中提出要“依托省公共数据资源开放平台,拓展与民生紧密相关的档案数据开放维度”。[8]可见我国的档案部门已经意识到了档案数据开放的重要性,但还缺乏实践层面的推进机制。

目前,我国对于档案数据开放的研究主要集中在档案数据开放的法律和政策、推进路径、价值实现等方面,例如英美法系的国家档案数据开放法律与政策进行调研[9];档案数据开放的推进路径[10-12];政府数据开放背景下档案数据价值实现的可行性[13]等。但目前缺少基于已开放的档案数据本身,对档案数据开放实践进行研究。[14]2014年12月,国际档案理事会加勒比地区分会第十届大会就以“档案与开放数据”为中心议题,讨论了档案工作者在数据开放中的角色。国外的政府数据开放平台的建设也早于国内,不少国家的档案馆也参与到了平台中,积累了一定的档案数据开放经验。

本文借鉴国外档案数据开放的研究和实践经验,基于国外政府数据开放平台,以美、英、法、德等十国在平台上开放的档案数据为调查对象,以期为我国档案数据开放提供参考,提升我国档案数据开放的水平。

1 研究设计

1.1 调查对象。在调查对象的选取上,本文通过对比各个国家的档案工作发展水平,并结合开放数据晴雨表第四版中各个国家的排名情况确定可纳入调查的国家。其中“开放数据晴雨表(ODB)由万维网基金会在奥米迪亚网络(Omidyar Network)的支持下制作,旨在揭示全球开放数据计划的真实情况和影响,分析全球趋势,并使用结合背景数据、技术评估和二级指标提供有关政府和地区的比较数据”。[15]通过比较分析,本文最终选取英、美、法、澳、加等十国档案馆在政府数据开放平台上发布的数据集作为调查对象,如表1所示。

1.2 调查内容。本文选取数据数量、数据领域、数据格式、许可协议四个方面作为调查内容。其中数据数量体现了一个国家档案数据开放的规模和水平;数据领域是档案数据开放主题内容的体现;数据格式是描述档案数据集保存和开放的编码方式和规则;许可协议规定了利用者和再利用者可以利用哪些档案数据资源以及受到哪些限制。

1.3 调查方法。本文对英、美、法、澳等十国档案馆在政府数据开放平台上发布的数据集进行访问,围绕数据数量、数据领域、数据格式、许可协议四个部分的内容进行调查、整理、统计和分析。

2 调查结果

2.1 数据数量。对数据数量的调查主要围绕开放数据集总数、开放档案数据集总数、开放档案数据集占比和档案数据容量展开。截至2021年12月25日,10个国家在政府数据开放平台上开放的数据集情况如表2所示。

(1)开放数据集总数是指一个国家在政府数据开放平台上开放的数据集的总量,目前各个国家的数据集总量均已破万,其中美国开放数据集数量最多,达到337304个,排名第一。最少的国家是澳大利亚,共计13100个。(2)开放档案数据集总数是指各国国家档案馆在政府数据开放平台上开放的数据集总和。调查发现,目前英国、美国和俄罗斯开放的档案数据集总量处于前三,其次是加拿大、荷兰、法国与韩国,另外澳大利亚和德国的开放数量相对较少,目前只开放了2个数据集。(3)开放档案数据集占比是指开放的档案数据集在平台开放数据集总数中所占的比例,调查发现,目前俄罗斯位于第一位,占比0.144%,英国紧随其后,占比0.098%,最少的为德国,占比仅为0.004%,可以看出,虽然各个国家已经积极参与到档案数据开放中来,但是目前各国开放力度差异较大,总体的开放规模相对较小。(4)档案数据容量是指在一个开放档案数据集中可供下载的数据资源条目,目前英国的档案数据容量最大,达到488条,其余国家的档案数据容量均在100条以内,其中澳大利亚和德国的档案数据容量仅为个位数。

2.2 数据领域。国外档案数据开放的领域主要是涉及两个方面,一是机构和业务工作领域的数据,二是馆藏资源领域的数据,如表3所示。

(1)从各领域数据集数量来看,目前多数国家开放的数据集主要集中在机构和业务工作领域,如英国开放了47个数据集,俄罗斯和加拿大分别开放了36和20个,占档案部门开放数据集总数的八成以上;在馆藏资源数据开放上,美国所占比例较大,开放了31个数据集,韩国开放了8个数据集,约占开放数据集的三分之二,新西兰开放的数据集中,有3个馆藏资源数据的开放。

(2)从数据领域主要涉及的数据集内容来看,目前国外开放的档案机构和业务数据中,内容大多涉及本国档案馆的档案清单、目录、展览、工作计划、发展目标、招标活動、财务管理等数据,除此之外还有档案馆工作人员的信息、客户对于档案馆的满意度等方面的数据;在开放的馆藏资源数据中,主要是一些馆中保存的法律法规、重要文件、政府公报以及一些特色馆藏,例如军人档案数据、世界杯档案数据等。

2.3 数据格式。调研发现,一个数据集可能包括多种不同的格式,如美国国家档案馆发布的“修订美国:美国宪法修正案提案,1787年至2014年”(Amending America: Proposed Amendments to the United States Constitution,1787 to 2014)数据集中,就包括HTML和CSV两种不同的数据格式。对所有数据集的数据格式进行统计,按照每类格式出现的次数进行排序,保留数量在3个及以上的数据类型,结果如图1所示。

CSV格式的数据集数量最多,达到97个,HTML、XML、XLS、JSON、PDF、XLSX格式的数据集数量介于10~40个之间,而ODT、ZIP、API、SPARQL和ODS等格式的数据集数量较少,均少于5个。可以看出,目前国外档案数据开放的主流格式是CSV格式,CSV格式的数据集以纯文本形式存储表格数据,是一种通用且相对方便的数据格式。而RDF和SPARQL虽然是采用W3C标准开放的数据,但在各国的应用中还相对较少。表4是各国档案数据开放的格式统计,以及一个数据集中可下载的数据资源是否为单一格式的统计。

可以看出,各个国家档案数据开放的格式比较丰富,主流开放格式是CSV、XML以及XLSX等格式。

目前大多数国家的数据集在开放时以只提供一种可供下载的格式的情况居多,有两种及两种以上的下载格式的数据资源相对较少,只有法国90%以上的数据集同时提供两种及以上的格式;英国的单一下载格式达到33个,而两个及以上的下载格式仅有13个;美国、俄罗斯与英国情况相似;荷兰仅有1个数据集同时提供两个及以上格式,韩国则是2个。

2.4 许可协议。“许可是一种准许机构和个人再利用受到版权或者数据库权保护的资源的一种机制。”[16]在各国档案数据开放许可中,根据调查发现,美国、澳大利亚、新西兰、荷兰采用非政府组织制定的知识产权许可协议。[17]其中比较通用的是CC许可协议(Creative Commons license),如澳大利亚的档案数据开放使用“Creative Commons Attribution 3.0 Australia”(澳大利亚知识共享署名3.0协议),可以以任意形式复制、发行,或者修改和商用,但是要给出适当的署名,提供指向该许可协议的链接,同时标明是否(对原始作品)作了修改,可以用任何合理的方式来署名,但是不得以任何方式暗示许可方认可署名者及其使用方式。[18]

美国在采用知识共享CC零许可证(cc-zero)的同时,个别数据集未提供许可证信息,但注明如果这项工作是由美国政府的官员或雇员作为其公务的一部分准备的,则它被视为美国政府工作。而英国、法国、加拿大、德国则根据本国的实际情况来制定政府数据开放许可协议。如法国政府Etalab部门制定了政府数据开放许可协议“Licence Ouverte”,可以对数据进行复制、传播、再分发、改编和商业利用,但是要求用户使用开放许可协议下的信息时必须提供署名来源。[19]韩国大部分开放的档案数据集使用范围无限制,个别的数据集使用CC许可协议(Creative Commons License)和自定的Public Nuri协议。俄罗斯的档案数据开放未提供任何版权协议信息,但是给出了开放数据使用条款,来规范数据资源的使用。

3 国外档案数据开放的特点及启示

3.1 国外档案数据开放的特点。根据前述分析,国外档案数据开放的特点主要表现在以下四个方面。

第一,开放意识较强。总体来看,国外在档案开放的数量上远超国内,且都积极参与到政府数据开放中来,70%的国家开放数量达到十位数以上,整体开放意识较强。第二,开放内容丰富,涉及领域广。国外各个国家开放的数据集中,除了档案馆开放档案的清单、档案业务信息等机构和业务工作数据外,还包括馆藏的联邦历史法规、社交媒体数据、文化电影、退伍军人档案数据等社会公众广泛关注的高价值数据资源或特色馆藏数据资源。第三,档案数据开放格式丰富,且以主流开放格式为主。国外英、美、法、加、荷的开放格式都达到了5种及以上,英国的开放格式达到了9种,美国有8种,满足了开放格式多样性的需要。其他开放格式低于5种的国家,也保证了至少有两种的开放格式供利用者下载。第四,许可协议完善,代表性和参考性较强。国外的数据许可协议可以具体到每一个数据集的许可情况,对每个数据集采用何种许可协议给予明确标注。

3.2 对我国档案数据开放的启示

3.2.1 提升数据开放意识,提高档案馆数据开放参与度。我国目前档案数据开放无论是在开放数据集的数量和质量上,与国外相比都有一定的差距。就开放数量来看,截至2021年12月,开放最多的是广西区,广西壮族自治区档案馆在广西壮族自治区公共数据开放平台开放了30个数据集,其次是浙江省档案馆在浙江省政府数据开放平台上开放了25个数据集,其他大部分省份如天津、河南、重庆等的开放数据集均为个位数,如重庆市档案局在重庆市公共数据开放系统上只开放了1个数据集。

对此,第一,档案馆应该充分认识到其在数据开放中的重要性,增强自身的数据开放意识,从实践层面出发制定相应的档案数据开放政策和办法,积极与政府相关部门对接,加强与社会公众的沟通,了解社会公众的利用倾向,加快档案数据开放的实践步伐;第二,档案工作人员也应提升自身的数据开放意识,积极了解国内外档案数据开放现状,学习先进经验,与自身的馆藏状况相结合,提高档案馆在数据开放中的参与度。

3.2.2 贴合公众数据需求,优先开放高价值档案数据。档案馆作为我国数据资源的宝库,保存的档案数据资源在数量、种类以及内容上都十分丰富。2016年国家档案局发布《全国档案事业发展“十三五”规划纲要》就提出了档案数据开放的目标要求。[20]但是,目前我国档案馆开放的档案数据更多的是机构自身的业务管理类数据,对涉及民生领域或比较有特色的馆藏历史文化数据开放较少。因此,贴合公众数据需求,扩大高价值数据集的开放,优先选择最有价值的数据集,是需要着重考虑的问题。

首先,档案馆可以选择馆藏资源中涉及目前社会公众比较关注的民生、教育、就业、住房、交通、医疗等方面的高价值数据集进行开放。其次,档案馆还可以结合自身馆藏特点,开放一些特色馆藏资源相关的数据,例如一些历史文化类的数据集,这类数据承载了重要的历史记忆,具备较高的文化价值,开放这类数据对于公众进行数字人文的研究助益颇多,也能为档案馆进行特色馆藏资源的开发带来更多的创意和可借鉴的优秀案例。

3.2.3 优化开放数据格式,充分发挥开放数据价值。我国档案部门在政府数据开放平台上开放的档案数据在数据格式上仍有待优化。首先,开放格式单一。截至2021年12月,目前开放格式最多的省份是浙江省,拥有5种档案数据开放格式,北京2种,海南、贵州等省份仅有1种数据开放格式;其次,可机读的结构化数据格式偏少。

在我国开放的档案数据中,部分数据资源的数据格式是PDF格式。根据Tim-Berners基于数据格式提出的开放数据五星评级模型对数据集的开放程度进行评级,发现国内很多省份仅得到了两星。因此,我国在进行档案数据开放时要增强数据格式的多样性和机器可读性。

具体而言,第一,对尚未开放的档案数据,档案部门要做好准备工作,要尽量为用户提供多样化机器可读格式的数据格式,尤其是CSV、RDF、JSON等高结构化机器可读数据;第二,对于已开放的档案数据,档案部门可借助自动化的格式处理工具,将具备较好结构化基础的数据转换为上述格式;第三,针对特殊领域的档案数据,可根据实际情况,提供特殊的利用格式;第四,要加强开放后档案数据的维护,定期筛查和接受用户反馈,持续优化数据格式,提升数据质量。

3.2.4 重视数据许可协议,保证开放数据利用最大化。截至2021年12月,对我国省级政府数据开放平台中各省档案馆开放的数据集中涉及的许可协议情况进行调查,以浙江省、广西区、山东省、北京市和河南省为对象,发现目前我国的档案数据开放在许可协议方面,并未参考或遵循国际上通用的许可协议内容和格式,只是在网站服务协议和网站声明中进行了比较笼统的解释。而国外的数据许可协议可以具体到每一个数据集的许可情况。

档案部门应重视数据许可协议的使用,结合自身的数据资源特点、开放获取的权限,从开放许可的原则、对象、用户的权利和义务等方面出发,引用或者扩展制定符合数据资源特点的许可协议,形成权责明确、边界清晰、合理合规、有据可循的开放利用体系,在合理范围内保证档案数据利用的最大化,最大限度地发挥数据价值。

参考文献:

[1]中华人民共和国中央人民政府.国务院关于印发促进大数据发展行动纲要的通知[EB/OL].[2021-12-2].http://www.gov.cn/zhengce/content/2015-09/05/content_10137.htm.

[2]中华人民共和国中央人民政府.中共中央办公厅、国务院办公厅印发《国家信息化发展战略纲要》[EB/OL].[2021-12-2].http://www.gov.cn/xinwen/2016-07/27/content_5095297.htm.

[3]中华人民共和国国家互联网信息办公室.中央网信办?发展改革委?工业和信息化部联合开展公共信息资源开放试点工作[EB/OL].[2021-12-2].http://www.cac.gov.cn/2018-01/05/c_1122215495.htm.

[4]中华人民共和国中央人民政府.国家发展改革委关于印发《“十四五”推进国家政务信息化规划》的通知[EB/OL].[2022-1-6].http://www.gov.cn/zhengce/zhengceku/2022-01/06/content_5666746.htm.

[5]洪伟达,马海群.我国开放政府数据政策的演变和协同研究——基于2012—2020年政策文本的分析[J].情報杂志,2021,40(10):139-147+138.

[6][20]国家档案局中央档案馆.国家档案局印发《全国档案事业发展“十三五”规划纲要》[EB/OL].[2021-12-2].https://www.saac.gov.cn/daj/xxgk/201604/4596bddd364641129d7c878a80d0f800.shtml.

[7]国家档案局中央档案馆.中办国办印发《“十四五”全国档案事业发展规划》[EB/OL].[2021-12-2].https://www.saac.gov.cn/daj/toutiao/202106/ecca2de5bce44a0eb55c890762868683.shtml.

[8]福州市档案局(馆).福建省档案局 福建省发展和改革委员会印发《福建省“十四五”档案事业发展规划》[EB/OL].[2021-12-2].http://daj.fuzhou.gov.cn/zz/zwgk/ghjh/202111/t20211117_4245604.htm.

[9]王协舟,尹鑫.英美法系国家档案数据开放法律与政策调研及经验借鉴——基于文献?文本和案例的省思[J].档案学通讯,2019(04):48-57.

[10]马海群.档案数据开放的发展路径及政策框架构建研究[J].档案学通讯,2017(03):50-56.

[11]陈展.档案数据开放推进路径探略[J].浙江档案,2019(01):20-22.

[12]吕颜冰.论档案部门参与开放数据建设的问题与途径[J].档案管理,2016(01):20-23.DOI:10.15950/j.cnki.1005-9458.2016.01.008.

[13]董聪颖,金轶莹.政府数据开放背景下档案数据价值实现研究[J].山东档案,2020(05):7-10.

[14]Borglund E,Engvall T.Open data?:Data,information,document or record?[J].Records Management Journal,2014,24(02):163-180(18)

[15]THE OPEN DATA BAROMETER[EB/OL].[2022-1-21].https://opendatabarometer.org/barometer/.

[16]迪莉娅.政府数据开放许可适用研究[J].圖书馆,2014(06):91-93+96.

[17]宋烁.政府数据开放许可使用进路[J].江西社会科学,2021,41(09):201-210.

[18]Attribution 3.0 Australia(CC BY 3.0 AU)[EB/OL].[2022-01-09].https://creativecommons.org/licenses/by/3.0/au/deed.en.

[19]Licence Ouverte/Open Licence[EB/OL].[2022-01-09].https://www.etalab.gouv.fr/licence-ouverte-open-licence.