舒怡娴 王思琪 熊小芳 代林序
(1.华中师范大学信息管理学院,湖北武汉, 430079;2.复旦大学文献信息中心,上海, 200433;
3.四川大学公共管理学院,四川成都, 610064;4.中国人民大学信息资源管理学院,北京, 100872)
我国于2015 年发布的《促进大数据发展行动纲要》指出,要大力推动政府部门数据共享,稳步推进公共数据资源开放。此后,国家及地方陆续发布政务数据、公共数据共享开放的专门政策,推动并引导实践发展。档案界也积极响应并参与到政府数据开放行动中,于2016 年和2021 年分别发布的“全国档案事业发展五年规划”文本中也强调了档案部门要制定档案数据开放计划,完善配套工作制度。北京、福建、海南等各省市明确将档案数据资源建设和开放写入自身的“档案事业发展五年规划”中。政府开放数据行动开展至今,我国档案部门参与数据开放的进展情况、发展方向等问题日益引起关注,有待通过全面调查获得解答从而推进行动优化。
研究层面,已有学者围绕档案部门参与政府数据开放行动的现状展开调查[1-3],但总体而言相关研究成果较少,仍存在较大探索空间,例如调查维度可以更全面、系统,调查对象的范围可更加广泛。目前我国档案部门参与政府数据开放行动主要依托政府数据开放平台,因此针对政府数据开放平台的调查研究与档案数据开放研究是相关的两个研究领域。政府数据开放平台的调查研究主要从平台构建、平台数据、平台用户三方面展开[4-6],涉及到平台相关的政策法规、在线服务功能,平台内的数据接口、数据质量、数据应用,以及用户的价值感知、满意度测量、互动等诸多方面。档案数据开放研究主要从两方面展开,在管理层面探讨档案数据开放的宏观架构、制约因素以及如何落地等问题[7];在人文层面聚焦数据伦理、个人隐私等规则[8]。综上所述,目前针对我国政府数据开放平台的调查较为全面翔实,但缺少对于档案这类特定领域的垂直调查,易因整体情况而掩盖局部问题;而针对档案数据开放的研究虽涉及法律法规分析或开放平台调查,但相对而言较为粗略。由此可见,作为档案部门参与政府数据开放行动的空间基础和内容基础,政府数据开放平台和档案数据开放在现有研究中的融合度依然不够,在指标构建的系统性方面仍存在较大提升空间。
综上,为更加全面系统地了解现阶段我国档案部门参与政府数据开放行动的情况,本文对23个省级和副省级政府数据开放平台展开调查,以期反映当下问题并提出优化策略。
开放政府数据强调两个层面的含义:一是公众利用数据的基础,重心在于“开放”,即政府数据本身应具有及时性、全面性、可访问性、可用性、可比性和互操作性等基本要求;二是公众利用数据的成效,重心在于“利用”,侧重于数据开发利用的效率及其产生的经济与社会价值。同时,配套的政策法规对行动的实施具有一定的指导作用,能够更加规范地促进档案部门在政府数据开放行动中的效能提升。因此,本文将调查框架的一级指标设置为三个板块:政策环境、数据基础、数据利用。
政策环境部分,因预调查发现各地明确针对档案部门参与政府开放数据行动的政策较少,故从档案开放、档案数据化两方面进行补充调查。结合上述两类政策的制定情况,综合判断各地是否有鼓励、计划、执行档案部门以数据形式开放档案的实践趋势或规划,从而分析政策支持程度。数据基础和数据利用部分的指标设定主要参考开放数据学院与万维网基金的“全球开放数据晴雨表”[9]、郑磊及其团队的“中国开放数林指数”[10]等已有的政府开放数据评估体系以及部分文献,具体调查框架见表1。
表1 档案部门参与政府数据开放行动指标框架
在此基础上,本文从我国省级行政区域和副省级城市中筛选出可获得有效数据的23 个政府数据开放平台作为调查对象,在访问各平台统计相关指标的观测值的基础上,通过北大法宝法律数据库、国家档案局政策法规库、中国政府网、各省(直辖市)政府官网、各副省级以上档案部门官网及网络搜索引擎收集相关政策文本进行分析研究。
目前我国档案部门参与政府数据开放行动的相关综合性政策较为完善,在行动指南和行动基础层面均有覆盖且具备一定创新性。本文共收集到39 份档案开放相关的政策文本和17 份档案数据化相关的政策文本,其中22 个地区均发布了包含档案开放的相关政策,同时已有12 个地区陆续推进档案数据化相关政策,见表2。从行动指南层面看,各地在档案事业整体发展规划中明确档案开放任务,在档案管理规范中初步提出档案开放原则及要求,并系统制定档案开放实施细则,三大工作方向的地区覆盖率(涉及地区/地区总数)分别为65%、39%、65%,部分地区更是紧跟大数据浪潮,强调新兴技术的应用,如《浙江省档案事业发展“十四五”规划》等强调应鼓励大数据、人工智能等技术在档案开放工作中的创新应用,提高档案开放服务智能化、高效化、精准化水平。从行动基础层面看,现有的档案数据化政策在推进档案数据资源建设、规范档案数据资源管理、促进档案数据资源开放共享等方面提供了一定指导,例如《江苏省“十四五”档案事业发展规划》面向地域特色文化的传承与宣传,明确提出整合重要人物、名镇名村、方言语音等档案数据资源,构建档案记忆库;《北京市“十四五”时期档案事业发展规划》提出依托政务数据汇聚共享平台或者协同建设档案数据共享中心,实现各级各类档案馆数据资源的互联互通,促进档案数据在政务服务、城市治理等领域的应用等。然而,当前仍缺少档案部门参与政府数据开放行动的配套政策,在政策的数量、质量和针对性方面均存在较大完善空间。
表2 各地政策内容覆盖情况
一方面,国内档案数据开放相关政策数量较少,法律法规的支撑较弱。虽有上位类法律法规供为参考,但由于档案数据本身具有一定特殊性,开放的标准也应与其他类型的数据有所不同。在开放的过程中缺乏专门的政策作为支撑,易造成档案数据开放工作推进困难的局面。另一方面,档案数据资源开放的针对性政策仍不充分。数据时代的来临,促使档案数据资源开放逐渐嵌入档案工作的具体内容,但目前有关档案数据资源开放的政策规范大多基于跨部门的共享利用业务需求展开,鲜有政策立足于档案开放利用的场景。而档案开放利用的针对性实施办法,除国家层面于2022年7 月发布的《国家档案馆档案开放办法》外,还尚未在地区层面推出,且其中的内容并非面向档案数据。针对性政策的欠缺不利于形成持续的档案数据资源开放运行机制,因此为推进档案数据开放工作日趋规范化和标准化,档案数据资源开放的顶层设计亟待完善。
目前我国档案部门参与政府数据开放行动中数据基础建设的总体数量较为可观,基本的数据属性得到了有力保障。从全面性上看,各地共开放API数量达127个,开放数据集达308个,类型主要集中在历史领域,如民国、清代、新中国成立后等不同时期的历史档案专题数据,古籍档案、家谱档案、地方志档案等特色专题档案数据集,以及少部分档案部门在业务活动中产生的管理类数据集,各数据集均提供了标题、关键词、更新日期这三类基本的元数据条目。从可获取性上看,70%的平台在用户注册登录后均可直接下载数据集,批量获取的覆盖率已达34%,所有开放的数据集均无需付费。从可用性上看,绝大部分地区包含了对全民无条件开放的档案数据资源,各地平台在数据格式上也已基本实现XLSX、CSV的全覆盖,同时部分地区还提供JSON、XML、RDF等格式下载。然而,各地的档案数据资源建设水平仍呈现出较大差异,在档案数据的开放质量、档案数据的价值实现等方面仍存在问题。
一是档案数据的开放质量参差不齐。一方面,各平台能够检索到档案部门开放的数据集和API在数量上差距较大,在发展上具有不平衡性。另一方面,开放平台现有档案数据资源的类型仍较为单一,部分地区平台上的档案数据全部为历史类,而部分地区平台上的档案数据全部为业务类,因此档案数据可在主题与要素上作进一步拓展。
二是档案数据的价值实现受到制约。目前档案数据的关联性仍有待加强,从互操作性的调查结果上看,仅有26%的平台为数据的关键元素提供了唯一资源标识符(URI),要求所有参数均需进行URL编码,同时编码时遵守RFC1738。URI的缺失不利于档案数据的规模化使用。这与开放环境下要求的规范化和标准化仍有一定差距。同时,各平台档案部门开放的数据集更新频率仍较为缓慢,从及时性上看,更新频率一年一次的占比高达74%,每日更新的仅有重庆市、海南省、哈尔滨市、广州市。对于需要定期更新的业务类数据,仍有部分平台未按其承诺的更新频率对数据集进行更新。这不利于用户对有关数据的后续利用与跟进,在一定程度上制约了档案数据价值的充分发挥。
目前我国档案部门参与政府数据开放行动中,数据利用的技术体系较为完备。平台上的数据集能够获得的平台支持比较充足,21 个平台为用户提供了对政府开放数据的分析与可视化功能,其中浙江省更是推出了“数据图谱”;数据纠错和意见反馈渠道也已基本实现各地全覆盖,这也为档案部门所开放数据集的利用提供了良好技术支撑。然而,数据利用的“软实力”并未得到提升,不论是对平台功能的使用,还是对于数据集的应用推广,均呈现出疲软态势。
一是平台针对档案数据缺少互动反馈。数据纠错板块的设置虽具有一定的互动交流功能,但各平台上鲜有用户对档案数据的纠错或档案部门给予的回复,使得这一功能颇似一个“空壳子”。同时现有平台互动方式多为单一用户与平台之间的交互,针对档案数据缺少各方的互动反馈,群体智慧发挥不足,对档案开放数据的利用易造成限制。
二是档案部门在平台上所开放数据集的应用与推广强度较弱,且各地差异较大。浙江省拔得头筹,其数据集的浏览量和下载量最高,分别为323545 和10701,但其他绝大部分地区的浏览量和下载量均未过万。同时,档案数据资源公开的优质应用与推广成果仍较为匮乏。除了浙江省使用浙江历史名人库开发了“游在浙江”平台,山东省第二届数据应用创新创业大赛中使用了山东高校生源综合素质评价档案数据外,再无档案数据集的其他应用案例。这可能与档案开放数据类型覆盖面单一、档案部门的推广意识与能力欠佳等问题存在一定关联,制约了档案数据的有效盘活与应用。
在政策的制定上可参考政府数据开放的相关政策标准进行顶层设计,协同构建档案数据开放政策的总体目标,明确档案数据开放的责任主体与职责权限,统一档案数据开放的标准与尺度。
一是档案部门应与政府部门协同推进政策措施,形成多元主体间的合作模式。在权责划分上应找准角色定位,明确自身作为政府数据开放行动执行者的身份,积极发挥自身专业特色,在保证档案开放数据的真实性、可靠性、完整性、可用性等方面提供更多专业策略与方法,积极参与档案数据开放的安全与质量监管、档案数据开放的权利与保护机制等相关政策的建构与完善。
二是档案部门应统一档案数据开放规范并推进其标准化地工作,在档案数据开放主体、分级分类、开放重点、开放需求等方面制定更多实施细则,通过科学的制度设计为档案开放数据资源的规模化与标准化建设奠基,从而保障档案数据在政府数据开放平台上的安全有效。
各地档案部门应积极打造“人工智能+档案”新标杆,夯实数据基础。一是加强档案开放数据的规模化建设,可以引入人工智能技术中的模式识别技术和信息抽取技术,通过基于深度学习算法的OCR技术对档案进行文字的识别和抽取,提高纸质档案转化为档案数据的效率与准确率,批量扩充档案开放数据的数量、丰富档案开放数据的类型,从数据基础层面为政府数据开放行动提供规模化保障。
二是加强档案开放数据的标准化建设。档案部门应不断提升对档案开放数据质量的把控效果,同时借助多种技术手段增强档案开放数据的可关联性、可溯源性。[11]例如可以通过智能算法框定档案数据结构,检测档案数据质量。尤其对于具有较高价值的档案数据集,档案部门可采用数据挖掘技术、知识图谱等对其进行更多探索,使档案开放数据具有更强的可用性与互操作性,从而更好发挥档案开放数据辅助档案部门科学决策或开展相关工作的价值。
三是要增强档案开放数据的可理解性。例如在档案开放数据的互动反馈中,有用户提及部分字段不全的问题,但经管理员考证,未开放字段是源于档案数据自身具有的保密性等特质。据此,一方面可以积极采用可逆脱敏、混合脱敏等数据脱敏技术对敏感部分进行隐蔽遮挡,尽可能多地展现字段的内容,以增强用户对数据的完整性感知;另一方面,可以对档案开放数据补充更加全面完善的解释说明,充分考虑到社会公众对档案数据的认知程度,通过完善数据的背景信息增进用户对档案开放数据的理解与认识。
四是要提高档案人员自身的技术意识与资源意识,深刻认识前沿技术对档案数据资源建设的赋能效果,融入政府开放数据浪潮,充分学习人工智能、大数据、区块链等技术,拓展计算机与数据科学领域的知识,不断提升深度挖掘档案开放数据的能力,主动参与到档案开放数据资源的建设中来。
为促进档案开放数据的社会化利用,一是要增强对公众需求与用户体验的关注,提高档案开放数据服务质量。档案部门要积极开展用户需求调查,接受社会各方的反馈意见,了解公众需要的档案数据形式和内容,从而依托评估结果,优先开放高价值和大需求量的档案数据,并开发出更符合利用者需求的档案数据应用成果,激活档案开放数据的社会价值。同时,可以通过提供交互式档案数据服务,实现公民需求与档案部门之间的耦合互动。
二是要拓宽档案开放数据的应用渠道,增强对档案数据利用的引导性。档案部门可以在开放平台上设计一些档案数据的应用案例进行推广,或提供一些指导性的工具、手册,阐明档案开放数据的利用方式和可行性实践场景。此外,可以在开放数据应用创新竞赛中运用更多档案数据作为案例或定向数据集,对档案开放数据资源进行推广与宣传,凸显档案数据的多元价值,创新档案开放数据的利用形式。
三是要潜移默化地培养社会公众的档案数据意识,提升公众的档案数据素养。可以通过定期举办数据素养教育活动倡导社会公众主动学习档案数据开放相关知识,积极宣传档案开放数据的价值与意义,培养公众了解、搜集、评估和利用档案开放数据的能力。