林伟宏/浙江省档案馆
当今社会已经进入大数据时代,世界是互联的,资源是互通的。档案工作机构的理念、目标、方式、手段也应当主动求变,才能更紧密、更高效地融入大数据治理、融入数字化变革,才能在大数据时代占据一席之地。大数据与档案两者之间的异同和关系、大数据怎么形成档案、档案怎么形成大数据不是本文讨论的重点,本文重点讨论的是省域范围内如何构建一个整体上的档案大数据。
本文所指的档案大数据包括档案资源大数据、档案管理大数据、档案开发大数据等。如图1所示,档案资源大数据是指档案工作中存量数字化、增量电子化所形成的大数据;档案管理大数据是指档案管理过程数字化所形成的大数据;档案开发大数据是指档案编研、知识挖掘等开发利用过程中形成的大数据。
图1
某个机构或个人拥有的数据够多、数据量够大,通常来说这个机构或个人拥有的就是大数据。但是,究竟多少数量以上、多少容量以上才能称为大数据,并没有明确的指标。现在,大多数档案机构都分别拥有大量的档案资源数据。经过多年来的档案信息化建设,一般每家档案机构都有几十万条、几百万条、几千万条目录,几十万页、几百万页、几千万页、几亿页全文。再加上数字档案馆、数字档案室、档案利用服务平台等系统中形成的大量档案管理数据,以及数字形式的档案编研、档案展览等开发成果,可以说每家档案机构都拥有档案大数据。但是档案机构的大数据是否互联互通,有没有一个整体上的档案大数据,是我们必须回答的一个问题。
笔者认为,除了寄存、征集等有特殊约定要求的内容,以及有涉密管理要求、不宜联网使用的内容外,档案数据作为公共数据,整体上可以形成一个区域性档案大数据的概念(图2)。在全国范围内,所有档案机构的可联网使用的档案数据整体就是一个全国档案大数据;在一个省的范围内,所有档案机构的可联网使用的档案数据整体就是一个省域的档案大数据。
图2
结合浙江省近年来的实际工作,特别是结合浙江省档案数据共享中心建设,笔者对构建省域档案大数据、实现共建共享有如下粗浅的思考。
这是建设主体问题,要明确由单一主体建设到联合主体建设。国家档案馆、机关、国有企事业单位档案室,从机构性质看,应该是公共档案资源的管理者,履行公共档案资源的收集、保管、利用职责,当然也是档案数据资源的管理者、档案大数据的建设者。但是,它们不是档案数据资源的所有者,档案资源是国家的,档案数据资源也归国家所有。按照《关于加强数字政府建设的指导意见》(国发〔2022〕14号)国家构建开放共享的数据资源体系的要求,以及《档案法》建设档案信息资源共享服务平台,推动档案数字资源跨区域、跨部门共享利用的要求,这些档案机构都应该积极参与档案信息资源共享服务平台的数据资源建设,而不应该抱有“我的资源我舍不得拿出去”的想法。所以,构建省域档案大数据,平台的建设可以由省里统一完成;资源的建设不同于以往各地数字档案馆、数字档案室建设,资源建设的主体不再是一家档案馆、一家档案室这样的单一主体,而是区域内的各家机构的联合主体。这些档案机构既是省域档案大数据资源建设的主体,也是各自所提供的数字资源的管理主体。各个主体根据档案的实际情况履行利用管控、开发等职责,同步形成档案管理大数据、档案开发大数据。
这是发展规划问题。省域档案大数据肯定不同于原先各个档案机构各自在局域网构建自己的档案资源库、资源池,更应该强调规划先行。档案工作有自己的特殊性,档案有开放的、有限制的,有涉密的、有敏感的,有涉及知识产权的、有涉及个人信息的,有条目信息、有全文信息。构建共建共享的省域档案大数据,肯定不能眉毛胡子一把抓,必须要按照分类分级、先易后难、统一标准等原则逐步实施,而且不能越过安全保密、意识形态等红线。档案大数据的应用也要根据实际分成不同等级:社会公众可自由获取、档案机构工作人员可按权限查询、仅限数据提供档案机构工作人员可查询及权益相关用户匹配等不同等级。
这是数据汇集问题。主要指的是档案数据资源在符合法律法规、政策规定的前提下,尽可能多地从档案机构的局域网搬迁至政务网络(一般是政务外网),从而实现档案机构间的互联互通和远程访问。放在政务外网上的档案数据资源,还可以根据实际开放和控制情况,向互联网提供一定数量的信息。当然,这些档案资源能够从局域网搬出来,必须要经过一些必要的处理,包括档案开放审核、数据脱敏脱密、细化数据颗粒度、草稿正文分离等基础工作,工作量肯定是不小的。各地档案馆经过努力可以汇集共享的档案资源大致可以划分为:馆藏开放档案资源、民生档案资源、可开放的专题档案资源,以及非密档案脱敏目录、档案编研成果、档案网上展厅等。档案资源从局域网复制到政务外网,可以直接上传到浙江省档案数据共享中心项目平台,也可以放在各档案机构在政务外网上部署的区域数字档案管理服务一体化平台(图3)。但是如果放在区域数字档案管理服务一体化平台,需要实现和省档案数据共享中心的系统对接。
图3
这是数据治理问题。档案数据资源从局域网搬到政务外网后,将会暴露出一些原来外界看不到或者想不到的问题。如,数据标准不统一、格式不规范、差错比例高等。可以说,联网环境下省域档案大数据的构建过程,必定同时是问题数据纠正补齐的过程。因此,浙江省档案数据共享中心在数据汇集的推进过程中,允许各档案机构先把尚有质量问题的数据汇集上来,再开展数据治理。治理过程中,数据提供方(各档案机构)和档案数据共享中心平台建设方(省档案馆)可以双向发力,批量地或逐个地通过技术手段或人工方式排查问题、纠正错误、补齐缺漏,从而逐步提高整体数据质量。
这是数据共享问题。长期以来,档案机构对档案资源偏向于不共享,习惯于“一对一”提供服务,甚至觉得“我的档案不共享才体现我的资源有价值”。但是,大数据的理念截然相反,要共享才能挖掘价值。因此,档案大数据在构建中要树立共享导向,档案目录、档案全文、编研成果和网上展厅等,都要尽可能地实现共享,具体实践中可以根据实际情况采取自由获取、管控利用等不同的分层共享方式。通过资源共享,可以进一步完善档案便民利用服务机制,发挥档案数据集中优势,提高在线利用用户体验;也可以促进联合编研、协同办展等馆际协同业务;还有助于形成规模效应、集聚效应,有利于档案资源从信息向知识的提炼挖掘。
省域档案大数据的直接来源是省域范围内所有档案机构的可联网使用的档案数据,初始来源包括实体档案存量数字化,数字档案增量电子化,以及档案管理开发过程数据的积累沉淀等。当前,档案载体正处于纸质载体向电子载体转换的重要时期,电子文件单套制管理必然是电子文件管理模式调整的目标和方向。相比而言,存量纸质档案数字化早一天、晚一天对汇集来说只是时间问题,增量电子文件、电子信息更容易散失、损毁,增量电子化归档、数字化管理开发对汇集来说会关系到数据有还是没有的问题。因此,档案机构尤其要善于从办公系统、业务系统等外部大数据中找出最重要、最关键、最有价值的数据,以适当的形式形成档案资源大数据,还要善于从档案管理开发过程中积累沉淀形成档案管理大数据、开发大数据。
各档案机构形成各自的档案大数据后,构建省域档案大数据的步骤是:筛选—汇集—治理—共享。
首先,做好筛选。确定好需要汇集的档案资源的类型和标准,包括文书档案、科技档案、会计档案、业务档案要汇集哪一些类型,未开放档案是否需要汇集、是否能汇集,汇集档案目录还是档案全文,档案全文数据中的草稿和文件办理单是否要去除,各地档案开发成果是否要汇集等。全省各档案机构按照统一标准从各自资源总库中筛选出可共享资源。
其次,开展汇集。各档案机构按照统一技术要求对共享资源进行数据处理和转换,汇集上传至省级档案信息资源共享服务平台。相对来说,档案机构中档案馆更为全面、更为专业,档案室数据更广泛、更新鲜,省域档案大数据构建初期可以先汇集档案馆的大数据,条件成熟时再扩大到档案室的大数据汇集。
再次,进行治理。治理是从容缺容错到完整规范的过程。进行治理,一方面使平台上汇集的共享资源提高数据质量,另一方面推动各档案机构档案管理日常业务实现标准化、规范化。
最后,实现共享。以共享的理念和方式构建省域档案大数据,提升档案机构从档案大数据中挖掘知识的能力,推动方便人民群众的档案利用体系建设,打造泛在可及、智慧便捷、公平普惠的档案数字化服务体系。