代林序 熊小芳 陈淑涵 王思琪
摘 要:文章通过分析美国国家档案与文件署在政府数据开放运动背景下进行档案数据开放行动的阶段性历程,从中解析出其实践策略为:面向数据开放管理数据资产、打造综合治理的数据开放平台、以用户为中心优化开放数据以及兼顾开放与隐私建立数据安全保障。基于此,结合对我国实践现状的分析,从数据开放政策、数据资源建设、数据治理结构和数据用户服务四个方面提出相应的实践策略,以期为我国档案机构参与开放数据提供参考。
关键词:档案数据;档案开放;政府数据开放
分类号:G279
Research on the Practical Strategies of Archival Institutions in Opening Archival Data: Taking the National Archives and Records Administration (US) as an Example
Dai Linxu1, Xiong Xiaofang1, Chen Shuhan1, Wang Siqi2
( 1. School of Public Administration, Sichuan University, Chengdu, Sichuan 610064; 2. Management School of Tianjin Normal University, Tianjin 300387 )
Abstract: This article analyzes the history of the National Archives and Records Administrations archival data openness initiative in the context of the government data openness movement, and its practical strategies: managing data assets for data openness, building a comprehensive governance data openness platform, optimizing open data with a user focus, and establishing data security safeguards that balance openness and privacy. Based on this, and combined with the analysis of the current situation of relevant practices in China, the corresponding practical strategies are proposed in four aspects: data openness policy, data resource development, data governance structure and data user service, in order to provide references for the participation of archival institutions in data opening in China.
Keywords: Archival Data; Archival Opening; Government Data Opening
随着数据在社会治理、科学研究、商业创新等活动中的价值日益凸显[1],政府数据开放运动在全球范围内迅速展开。档案主管部门、综合档案馆等档案机构作为政府数据开放运动的数据贡献方与专业行动的引领者,也在积极探索将档案以数据形式向社会公众开放,即档案数据开放行动的实践路径。例如,《全国档案事业发展“十三五”规划纲要》提出“要制定档案数据开放计划,落实数据开放与维护的责任”[2]。目前全国各地在开放档案数据方面有着一定规模的实践,如北京、浙江、廣西、山东等地区的政府开放数据平台上,已发布了数量可观的档案数据集供公众下载和使用,但档案机构参与政府数据开放仍存在多重挑战,如何从档案机构的职能出发平衡开放与安全,构建参与政府数据开放的系统行动策略,充分释放档案数据价值仍有待进一步探索。
理论层面上,有关政府数据开放背景下档案机构进行档案数据开放的研究主要聚焦于三个方面:一是明确政府开放数据与档案机构的关系,研究基于实践经验的梳理,分析政府数据开放与档案工作的共通性,认为档案机构作为公共管理机构和服务机构,是数据开放与维护的责任主体[3-4];二是探析档案机构参与政府开放数据的行动路径,相关研究以实践调查为依托,围绕主体协作与定位、顶层设计与规划、资源数据化与开放等维度展开探讨[5-7];三是融合政府数据开放理念与方法,推动档案管理及档案事业发展转型与提升,如在数据化及开放数据的背景下实现档案服务创新[8]、档案数据价值实现[9]及档案数据资源的重新整合[10]等。然而已有研究多聚焦于具体且复杂的数据开放活动,对于档案数据资源的开放机制是什么、应如何构建等问题,尚需进一步研究。美国国家档案与文件署(以下简称“NARA”)自2010年起就积极探索档案数据开放工作,结合美国开放政府、数字政府、开放数据等战略目标推出阶段性发展计划,在制定档案数据开放方案、创新档案数据开放工具、促进档案数据开发利用等多方面展开规模化行动,取得了显著成效。由此,文章以NARA为例,通过网站调研、政策文本分析等方法对其行动内容进行梳理,分析其实践策略,以期为我国档案机构参与开放数据提供参考。
1 NARA档案数据开放的基本行动内容
1.1 面向开放的数据资产管理
面向数据开放的资产管理要求机构将数据与其表示形式分离,构建具备互操作性和开放性的数据资产体系,NARA已有的相关行动体现在以下两方面:
(1)夯实开放数据资源
其一,充实数据资源。NARA通过梳理内部资源、收集用户反馈、定期更新数据资产等多种方式厘清并持续丰富机构数据资产。在内部资源方面,nARA梳理了包括在线网站Archives.gov上可用的资源和该机构在线公共访问系统上的历史数据集,对馆藏资源中可开放且有开放价值的数据资产进行梳理与统计,做到“应开尽开”,尽可能扩大开放清单中的数据资产数量。在用户反馈方面,NARA考虑了包括美国公众与内部员工在内的开放数据使用者的建议。对外设置了用户建议反馈渠道;对内鼓励员工对数据资产进行内部提名,并设置“公开提名”以识别机构内部通信网络上的数据资产。在数据更新方面,NARA通过本机构的资本规划和投资控制流程,定期识别与信息系统相关的新数据资产,促进数据资产的定期更新,为数据资产数量与质量的可持续性提升奠定基础。[11]其二,丰富数据资产元数据。NARA主要从增加元数据字段与更正数据描述两个方面来丰富资产元数据,以促进数据资产可发现、可管理。一方面,NARA收集用户对于NARA数据资产元数据的补充及纠正意见,丰富公共资产元数据的描述;另一方面,NARA与数据资产所有者合作,了解数据资产更为具体的内容,为相关数据增加关键字标签、更正数据的描述以及添加当前通用的其他元数据字段,丰富数据资产元数据并提升数据质量。
(2)优化开放流程
其一,基于利用需求确立开放优先次序。为了促进机构数据资产的充分利用,NARA强调通过收集用户反馈的方式,明晰用户对数据内容、数量、质量等多方面的需求,以此确定不同数据资源的开放次序。具体而言,NARA主要通过网上互动的方式获取用户的回应。例如,NARA在博客上发表了关于确立优先开放数据集的意见征询,获得了部分公众与内部员工的回应;其后又在社交平台上发布相关帖子,得到了许多用户关于数据资产的需求意见[12];最后在綜合用户需求与机构数据资产具体情况的基础上,确定了机构将会优先开放的高价值数据集。其二,开发辅助性工具深化数据开放。借助Web API这一轻量级、网络友好的开放数据工具,NARA对当前在线公共访问系统进行了现代化改造,确立了至少两个面向用户的系统,并根据高价值数据集开发了相应的API。如,NARA开发API用于查询国家档案馆目录数据集,该数据集包含所有可用的档案资源描述信息、数字档案资源及其元数据、所有NARA网页和公众参与痕迹(标签、转录和评论等)。[13]开发人员可以基于此界面更加高效地筛选数据子集并创建应用程序,同时还将大大提高NARA与维基百科、美国数字公共图书馆等第三方平台共享政府档案数据的能力。
1.2 打造综合治理的数据平台
(1)建立数据治理架构
为了应对开放数据涉及的各要素、各流程、各维度的综合复杂性,NARA重视对数据治理架构的建设,建立了数据治理委员会(Data Governance Board),以指导机构如何将数据作为战略资产进行管理,使得用于数字服务和数据管理的资源配置达到最优。其涉及开放数据的职能包括:确定NARA数据治理和管理的定义与框架,并提供相应的培训和指导;指导并开展数据开放、利用服务的建设;围绕档案数据开放、利用,信息技术的创新应用等主题提出法律、道德等层面的建议。
(2)积极应用可共享的数据基础设施
由于分散化数据资产管理与设施采购给机构带来了资金亏损,开放数据平台运转的稳定性受到了极大影响。为了维持开放平台的稳定性,NARA整合了机构内的移动设备及无线服务协议,在数据治理委员的监督下计划与政府机构采取统一的共享服务。[14]由此,NARA作为公共部门在建设在线平台Archives.gov的同时,也持续向Data.gov等政府数据开放平台提供开放数据集,设备和协议在政府机构范围内的统一也有助于数据平台上的统一发布与维护。
1.3 对接用户优化数据开放服务
(1)立足用户需求打造高标准数字服务工具
一方面,了解用户需求,确定提供数据服务的优先取向。NARA在网站上推出了一个“开发者”网页,这一互动社区鼓励使用者就NARA的开放数据、开源和API行动及作用等进行对话。此外,NARA开辟了多种吸纳用户意见的渠道,包括opengov@nara.gov电子邮件信箱、NARations博客以及GitHub账户反馈库。另一方面,把握移动服务趋势,为用户提供便捷的数据服务。为了快速向移动平台过渡,NARA启用了至少两项面向用户的优先服务,包括本馆网站和在线公共访问系统(Online Public Access)的移动端优化,涵盖当前离线提供及在线提供的服务。为了便于用户的数据获取,扩大数据的访问和使用,NARA充分利用移动设备特征和网络技术的潜力,确保所有域都可以在移动设备上轻松访问和使用。
(2)分析用户反馈以提升数据服务质量
NARA基于用户的反馈信息,全方位优化开放数据服务。一方面,应用来自网站分析和在线调查等来源的用户数据,创建了代表档案数据用户的八个角色:好奇的探索者、教育者、档案管理员、历史爱好者、博物馆参观者、科研人员、退伍军人。[15]这些角色不仅可以帮助NARA了解用户的需求和偏好,还推动了NARA员工与用户产生更多共鸣。在进行用户角色开发研究时,NARA的数据来源总体包括以下内容:预见调查反馈(角色、目标、挫折、开放式反馈)、分析(行为、人口统计、技术)、传入的电子邮件、个人的采访、以前为在线平台Archives.gov重新设计开发的角色、社交媒体(人口统计、人气、评论)。另一方面,确定科学的用户反馈分析方法与举措:NARA充分使用来自网络和社交媒体分析、在线用户满意度调查以及来自用户电子邮件的数据;采访经常与以上用户类型互动的工作人员,以获得他们的见解和反馈。
2 我国档案机构数据开放的行动局限解析
政府数据开放运动持续推进发展,我国档案机构也投身于数据开放运动中。在实践层面,档案机构向地方政府开放数据平台提供开放数据已取得部分可观的成绩。经过初步调查,我国31个省级行政区域(港澳台除外)中已有15个省级档案机构参与并在政府开放平台中发布和更新数据。对我国档案机构开放数据现状进行分析,发现仍存在以下问题亟待解决:
2.1 档案数据开放政策有待明确
档案数据开放作为复杂命题需要完善的政策体系,从而为档案机构指明行动方向,并引导其最大程度地发挥档案资源在数据开放运动中的价值。一方面,档案数据的开放以档案开放为基础,目前我国有关档案开放的政策已较为成熟。2022年7月1日,国家档案局发布了最新的《国家档案馆档案开放办法》,就档案开放的目标、原则与要求,开放程序与实施细则等内容提出了明确规定。然而,档案以数据的形式开放有着怎样的行动要求、档案数据开放的前端管理工作应如何调整和优化、档案数据开放与政府数据开放如何协同推进等具体问题还需要针对性的政策阐释。另一方面,档案工作融入国家大数据战略,推进档案数据治理,促进档案管理现代化等在现有政策中已有明显趋势,但主要集中在数据归档、数据管理等环节,而如何推动档案数据资源的开放和利用、加快档案开放工作的转型升级等还需要进一步部署。
2.2 档案数据治理体系尚需健全
系统的档案数据治理体系是保障档案机构在数据开放运动中正确发力的重要基础。然而作为政府开放数据行动中重要的参与方与管理方,档案机构未能很好地发挥自身优势,提供管理经验,具体体现在部分省级档案局和档案馆之间分工不明确,导致平台上的档案数据处理长期处于停滞状态,阻碍了档案数据开放的发展进程[16],从而出现地区之间开放程度参差不齐,开放数据范围局限于省市或部门之间,难以满足用户的档案利用需求等状况。因此,档案局馆之间如何建立高效的合作关系、档案机构与政府数据开放部门之间如何形成良好的协作模式、如何根据档案资源和数据开放的特质建立健全明晰的治理体系等有待进一步解决。
2.3 档案数据资源建设仍需推进
目前在政府数据开放运动中,我国档案机构是重要的数据提供方,而在数据层面,开放数量和质量是两个核心评估指标。[17]数量上,各档案馆向政府数据开放平台提供的数据集数量受各地档案数据化建设程度影响较大,开放档案数据集的数量差异也较大,其中广东省开放的数据集最多,目前可检索到129个档案数据集,湖南省最少,仅能检索到一个数据集。质量上,目前我国档案馆提供的开放数据集更多的是机构自身的业务管理类数据,档案数据资源开放较少,部分地区发布了与民生密切相关或具有地域历史文化特色的馆藏档案数据,但总体数量相对不足[18],且存在部分档案馆提供的数据格式单一,难以满足用户多样化需求的问题。因此,持续关注并推进档案数据资源建设,探究人工智能、OCR识别等多元数字技术在档案数据化领域的应用,是加强档案数据开放力度,提升档案数据开放质量的重要途径。
2.4 档案数据利用服务尚待开发
档案数据的开发利用服务有助于加深用户对于档案数据的理解、满足用户的利用需求、充分挖掘开放档案数据的价值。目前档案机构主要通过政府数据开放平台发布档案数据集,但大部分平台都缺乏以档案机构为数源单位开发的应用成果,也无法了解这些档案数据具体的利用方向[19],因此档案数据的价值何在,档案数据可以应用于哪些领域,用户利用档案数据的方法和工具有哪些等缺少具体的示例,有待开发针对性的档案数据利用服务。档案服务的准备方面,目前档案数据的提供还未深度契合用户的需求,档案资源的利用主体及需求方向还未充分纳入档案馆数据开放的计划中;由于数据的非人工识别性,用户对于数据的充分理解及开发利用存在一定的难度,如何针对不同层次的用户提供针对性的配套服务还需要进一步思考。
3 我国档案机构数据开放的行动方向展望
3.1 综合全程规划的数据开放政策部署
政策导向和规划引领历来是我国档案工作前进的重要动力[20],但国家层面尚未提出针对档案数据开放的行动计划。NARA对接国家开放政府及数字政府战略提出开放数据要求,以体系化的政策统筹与推进数据开放,我国同样要关注政策的重要性。政策内容体系的建设可从如下几个方面展开:首先,应在宏观层面明确档案数据开放为档案开放工作要务,将档案数据开放作为重点工作之一。其次,为实践确立细化的行动依据。应依据开放数据的特点,制定档案数据开放行动计划,覆盖数据组织与管理、数据开放与利用、数据安全与质量维护等方面的行动规范或办法。例如,档案数据的开放鉴定、开放流程和权限、开放范围的划定等环节应综合考虑数据开放与安全等因素,制定符合档案事业发展方向的规范。最后,落于每一个档案机构的具体行动中,就开放数据主体、应开放的数据、开放的时间节点等形成具体的行动计划。
3.2 强化数据资源的基础建设
档案数据资源的建设是档案数据开放的先决条件。参考NARA的实践,结合我国现有的实践基础与战略规划,档案机构的数据资源建设可设定为:一方面,加快档案数据化建设,扩大档案数据资源来源。一是馆藏纸质档案与数字化资源的数据化。由于数据化工作量较为庞大,档案机构可优先将涉及民生、历史等社会利用价值较高的档案进行数据化,满足公众需求。二是原生数据态档案的移交接收。当前我国有关电子文件及其元数据的归档已有相当程度的规范,但针对数据态档案的接收尚缺少针对性的规定。随着数字时代的发展,档案原生数据资源将逐步成为档案数据资源的主力军,需确保原生数据的保存规范。此外,应考虑未来档案数据来源的扩展,将数据环境下政务活动中生成的各类业务数据等纳入档案数据归档范围,丰富档案数据来源。例如,机关内部的档案机构可辅助大数据局的工作,主动参与到单位的数据管理工作中,将档案管理要求嵌入数据管理及业务活动前端,明确数据生成管理、价值鉴定、长期保存的规范和方法。另一方面,提升档案开放数据的质量。我国综合档案馆利用政府数据开放平台开放的数据类别及质量参差不齐,主要体现在公众需要的数据资源开放程度不足、开放数据集元数据提供有限等。因此,档案机构应积极响应国家的开放政府行动,持续更新档案数据资源及业务类管理数据,为公众挖掘档案价值及办理相关档案業务提供便利,并自觉接受公众监督;还应加强档案数据建设,通过不断丰富元数据、嵌入新兴技术等方法,将馆藏档案资源建设成条目丰富、开放形式多样的高价值开放数据集,进一步推动档案社会价值的实现。
3.3 面向开放数据的治理结构搭建
档案数据是政府数据治理的重要内容,档案机构是重要的数据治理部门之一[21],建立档案数据治理体系是大数据时代的应有之义。如同NARA在内部成立数据治理委员会,我国可采取如下行动:一方面,档案机构应建立内部的数据治理结构,设定明确的数据治理目标。需确立数据治理权责,设置数据治理机构或协作组织承担领导统筹、监督指导、落实执行的数据治理工作责任,厘清档案数据治理的定义和内容,制定数据管理制度和标准,以规范具体行动;确定档案数据治理的内容,整合处在数字化、数据化各进程中的档案数据资源,结合档案数据结构化、半结构化的特性及档案数据的内容价值设计管理及开发方案。另一方面,档案机构需融入政府数据开放的整体行动,与政府数据开放部门建立协作关系,服务于国家大数据治理。应厘清政府数据开放与档案数据开放、档案开放的关系,确定档案机构在政府数据治理中的角色定位,积极参與数字政府、数字社会、智慧城市等政府数据治理实践,以此嵌入到政府数据治理结构中;此外,还应对接档案开放与政府数据开放之间的方法和要求,在政府数据开放的行动框架下结合档案资源的特点、融合档案管理理念梳理针对性、具体化的治理内容,加强档案开放与政府信息公开工作的衔接、深化政府开放数据资源整合。
3.4 响应多元需求的数据用户服务
在开放档案数据的过程中不断响应用户需求,是促进数据开发利用的重要途径,NARA的做法于我国而言具有一定借鉴意义。一方面,应多维度调研用户的数据利用需求,依据用户的需求制定档案数据开放计划。在调研内容层面,应了解用户的档案利用偏好与兴趣方向以作为数据优先开放的参考;对政府开放数据平台上已有的档案开放数据服务展开调查,了解用户对档案开放数据的满意程度,遇到的问题及改进建议,帮助档案馆更加精准地构建档案数据开放平台。在调研方法层面,档案馆可采用“定量”的方法对用户线上线下的利用情况、浏览足迹进行追踪,得到用户的利用偏好与兴趣方向;采用“定性”的方法向用户发布调查问卷、开展线下访谈或者设计用户调查类游戏[22],在保证隐私安全的基础上获取用户的社会身份、兴趣偏好、对档案利用服务的满意程度及改进建议等。由此在方法与内容多维度结合的基础上构建档案机构开放数据的用户结构,并在此基础上进行需求预测,制定档案机构的数据开放规划。另一方面,应关注多元化用户的重点需求,并对其重点需求给予精细化、智能化的回应。据调查,我国的档案用户按照职业性质可被划分为技能型、研究型、艺术型、生产型、服务型和其他六大类。其中研究型和服务型用户占比最高[23],档案馆在开展数据建设时,应重点关注这两类用户的数据需求,对民生类档案及编研类材料应考虑优先数据化并开放。服务方面,档案馆可参考“分众服务”的模式,将尊重档案用户多元化的社会身份、专业背景、档案利用需求作为档案开放数据创意服务的重要突破点。[24]
4 结 语
本文以美国国家档案与文件署为例,分析其档案数据开放的发展历程及各阶段行动的特点,探究了档案机构参与数据开放行动的实践策略,并结合当前现状从政策、资源、平台、用户四方面提出在政府开放数据背景下我国档案机构进行开放数据行动的启示。然而,以NARA为例的探索仅为共通性难题的解决提供参考,落实到我国政府数据开放背景下档案机构的数据开放行动中,还需具体考虑我国的政策环境、档案资源数据化水平、开放数据平台建设状况等,通过深入调查研究,对如何推出系统策略进行进一步探讨。
注释与参考文献
[1]王海洋.政府数据开放场景下个人信息匿名化研究[J].情报理论与实践,2022(12):84-91,137.
[2]国家档案局印发《全国档案事业发展“十三五”规划纲要》[EB/OL].[2022-08-19].https://www.saac.gov.cn/daj/xx gk/201604/4596bddd364641129d7c878a80d0f800.shtml.
[3]董芳菲.开放数据环境下新西兰档案馆的角色定位及其启示[J].档案与建设,2018(10):24-28,23.
[4]肖秋会.俄罗斯联邦档案署的开放机制建设与开放数据方案[J].档案与建设,2017(4):21-23,35.
[5][19]唐长乐,王明明.我国档案数据开放研究——基于政府数据开放平台的调查[J].浙江档案,2022(1):44-47.
[6]何玉颜.档案部门参与政府大数据治理的路径研究[J].浙江档案,2018(8):23-25.
[7]许晶晶.档案部门参与开放政府数据运动的现状、问题及策略[J].兰台内外, 2020(9):8-9.
[8]万玉侠.政府数据开放型档案服务创新策略的研究[J].现代商贸工业,2018(34):39-40.
[9]董聪颖,金轶莹.政府数据开放背景下档案数据价值实现研究[J].山东档案,2020(5):7-10.
[10]季文菲.政府数据开放共享背景下的档案信息资源整合策略[J].兰台世界,2018(3):41-44.
[11][12][14]National Archives. Digital Government Strategy – Milestones [EB/OL]. [2022-09-18]. https:// www.archives.gov/digitalstrategy/milestones.html#anchor2.2.
[13]National Archives. Available Datasets from the National Archives [EB/OL].[2022-09-18].https://www.archives. gov/open/available-datasets.html.
[15]National Archives. Digital Personas [EB/OL].[2022-09-18]. https://www.archives.gov/digitalstrategy/personas.
[16]杨艺璇. 综合档案馆档案数据开放对策研究 [D].西安:西北大学,2022.
[17]郑磊,关文雯.开放政府数据评估框架、指标与方法研究[J].图书情报工作,2016(18):43-55.
[18]唐长乐,武亚楠.国外档案数据开放研究——基于政府数据开放平台的调查[J].档案管理,2022(5):109-112.
[20]赵跃,邢琳悦,段先娥.档案数据化的困境分析与策略研究[J].兰台世界,2021(4):33-38.
[21]刘越男.数据治理:大数据时代档案管理的新视角和新职能[J].档案学研究,2020(5):50-57.
[22]苏君华,牟胜男.用户画像视域下档案馆精准服务:内涵、机理及实现策略[J].档案学通讯,2020(2):58-66.
[23]闫静,朱琳,张臻.档案用户利用需求及对策研究——基于各级国家综合档案馆用户利用需求问卷调查[J].档案管理,2022(2):93-97.
[24]李子林,王玉珏.档案多元论视域下档案文化创意服务研究[J].档案与建设,2017(12):16-20.