陆国强/横店集团控股有限公司档案馆
在计算机科学和互联网技术迅猛发展的工业3.0社会,新一代的信息技术在生产生活领域的应用不断深入,促使社会生活及不同行业的生产组织方式、工作流程等都发生了重大变革。《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》中指出:“加快数字化发展,建设数字中国”“以数字转型整体驱动生产方式、生活方式和治理方式的变革”[1]。这表明中共中央国务院在战略上高度重视社会的数字化转型与新时代背景下的数字化建设,各行业的数字化转型工作是建设中国特色社会主义现代化的重要组成部分。与此同时,档案数字化建设也开始被广泛关注,《“十四五”全国档案事业发展规划》指出:“新一代信息技术广泛应用,档案工作环境、对象、内容发生巨大变化,迫切要求创新档案工作理念、方法、模式,加快全面数字转型和智能升级。”[2]由此可见,档案工作的数字化转型是数字中国建设的必然要求。同时也是档案管理事业进一步发展的必由之路。在档案管理的对象和方式发生巨变的情况下,怎样在数字化建设的基础上,进一步提高档案资源利用效率,怎样将大数据、区块链、云计算等互联网技术整合统一进档案数据化管理,以实现档案资源数据化利用、转存和共享等,是我们亟需思考的问题。学者赵跃认为大数据背景下档案管理数据化是档案数字化的新阶段,认为“档案数据化”是档案部门以用户、业务需要为导向,将数字档案资源转换为可阅读、分析和处理的档案数据资源的过程[3];学者王小云提出档案信息与档案载体以数据化表达形成分离,从而实现档案信息的确定性、独立性以及可交换性,档案数据化是档案信息价值进一步被挖掘的前提[4]。各位学者对档案数据化的具体定义不尽相同,就学界对档案数据化研究的共识而言,档案数据化对新形势新时代背景下的档案工作转型与发展都有着重要的意义。
笔者认为档案数字化转型在面对新兴计算机技术的背景下,对档案资源进行数据化处理,降低档案数据的颗粒度,是档案数字化建设的发展方向。在梳理档案的数字化与数据化概念的联系和区别的基础上,本文尝试分析档案数据化过程中的难点和堵点,并提出档案数据化的策略与建议,以促进档案信息资源的深度开发,推动档案管理现代化事业的高质量发展。
数字化概念自20世纪90年代被提出来[5],经过30多年的发展,档案管理的数字化转型建设已经取得了长足的进步。以浙江省为例:自“数字浙江”建设开展以来,全省档案馆贯彻落实 “档案登记备份战略”,开展室藏重要档案数字备份,目前全省已完成80% 以上存量馆藏档案数字化。全面开展政务服务等重点领域的电子化归档工作,提出政务大数据归档管理的基本思路和实施路径,研发部署全省政务数据归档交换平台,同时接入各类业务系统(含浙江政务服务网和市统建的政务服务网)221个,其中接入省级平台34个,目前累计电子归档达1亿件[6]。由此可见,档案数字化工作主要可以分成两个部分内容:一是对已形成的纸质档案的数字化转换及对正在形成的文件的电子化归档,建立档案目录数据库和档案全文检索数据库;二是针对档案管理工作的各个环节的数字化改造。
档案管理的根本目的是实现更好地利用档案资源中的海量信息,为领导决策、社会各方面提供有效利用服务提供辅助。数字化管理一体化平台及档案资源管理的数字化建设的逐步推进,将是实现档案资源利用从传统的纸媒阅读利用转变为精细数据利用的基础[7]。档案数据化的核心在于进一步细化电子化档案的信息颗粒度,使得信息颗粒度重组为计算机可识别语义的精细化数据,目的在于充分挖掘和利用数字化的档案信息资源。
档案数字化转型过程中针对档案资源的数字化提法,实际上采用的是“二进制语言数据”的定义,将原有的档案资源利用OCR文字识别技术将纸质档案的文字内容转换成数字化版本,同时进行元数据的著录;而档案数据化概念本身还有数值型数据、原料型数据和结构化数据的区别[8]。档案数据化是对档案数字化更进一步的细分,核心要素是利用计算机技术连同数据科学降低档案信息的颗粒度,解决传统档案管理过程中 “粗放”“碎片化”“信息单一”等问题,并在实现智能化管理精细化信息资源的同时,由原来的逻辑型数据库提供简单的信息查阅、利用方式,转变为由相关性主导的大数据关联模式。
可见,档案数字化概念有广义和狭义之分。广义的档案数字化涵盖档案数字化和档案数据化,不同的阶段有不同的侧重。狭义的档案数字化是形成数字化档案的过程,数字化档案只是档案数字形式复制品,而档案数据化是档案管理部门面对人工智能时代的精准化、智能化服务需求,致力于解决档案内容信息碎片化问题,构建多元主体协同参与的档案数据生态,推动粗粒度档案文档服务向细粒度、智能化档案数据服务转型。
就档案管理数字化建设的成果来看,当前的档案管理数字化主要集中在档案资源由原来的传统载体转变为数字载体,档案的收集、管理由传统的纸媒文件收集保管转变为电子文档的自动收集归档,但在对已实现的数字化档案资源利用方面,并没有取得突破性的进展。问题主要集中在还未实现计算机可读、可理解的数据粒度层级管理与开发,尤其是研究型用户全面多元的利用需求仍无法被满足[9]。我们说,档案数据化是档案数字化建设中的“高级阶段”,而档案资源数字化后要实现数据化利用,则关键在于如何降低数字档案的信息颗粒度,实现计算机可识别,这是推进档案数据化工作,实现档案利用朝精细化、智能化方向发展的难点和堵点。目前要推动档案数据化工作,主要面临以下困境:
传统的档案管理思维主要强调“收得齐、管得好”,小而全的传统档案思维延伸出档案开放问题决策上的保守倾向,对于数据化利用来说,档案资源的开放是智能化利用的前提和基础。此外,由于长久以来的档案管理工作过多地强调档案的保密性,档案的开放与共享容易受到“多做多错,封闭安全”的保守思维的影响,因此“怎么用”这一环节似乎只停留在档案查阅和编研阶段。然而在数据化时代中,海量的档案都是可被串联成具有相关性的信息资源,可以做到档案信息利用的“精确化”和“智能化”。
现有的档案数字化工作主要依赖于OCR文字识别技术,但由于年代、个人字迹、语言习惯、语种、印刷方式等等诸多原因的影响,OCR识别成功率虽然一直在稳步提高,但实际上仍有一些无法被识别的文件需要人工转译。其次是对其他载体,例如照片、录音、图像等传统概念中已经“数字化”的档案进行数据化提取的难度较大,甚至可以说,并没有一个普遍适用的方案可以解决这一问题。再次,对已形成的数字化档案进行归档过程如何保证电子档案的“四性”,主要是真实性、完整性、可用性、安全性等,如何使用技术手段进行保证,似乎有许多方案,但究竟哪种方案更好,更具有一般性,更值得推广,并没有定论。同时对已实现数字化的档案资源,数字化向数据化转换程度较低,数据化利用程度不高。要进行数据化利用,原有的以档案逻辑关系为主导的数据库并不能做到档案信息的智能化管理和利用。这一困境反映出的更深层的问题在于,客观上档案管理人员普遍存在学历水平还不够高,学术背景单一等问题,对于高学历和拥有计算机科学、数据科学背景的档案管理人才严重缺乏,在技术和发展潜力上掣肘档案数据化工作的推进。
政策导向和档案事业管理规划一直是档案事业发展的重要动力。尽管在宏观层面上,国家对“数字化”建设足够重视,2021年《“十四五”全国档案事业发展规划》上指明“档案信息化建设进一步融入数字中国建设,新一代信息技术在档案工作中的应用更为广泛,信息化与档案事业各项工作深度融合,档案管理数字化、智能化水平得到提升,档案工作基本实现数字转型。”然而如何真正实现档案资源数据化、智慧化利用,国家层面缺乏顶层设计、统筹安排和政策引导,各级各类档案馆对于推进档案数字化缺乏积极性与主动性。从档案管理数据化推进工作来说,管理决策层缺乏对档案数据化建设的认识,对档案管理数据化的人力物力支持都比较薄弱。因此,档案管理部门在数据化建设上存在起步晚、起点低、发展动力不足等困境。
面对档案管理新形势下产生的新问题,就要用新思维新技术去解决。笔者认为主要可从“思维转变”“技术利用”“政策引领,项目推进”等角度尝试推进档案数据化工作。
要推进档案数据化工作,首先要求档案工作者摒弃不敢开放的保守思维和“小而全”的资源独占思维,推动“存取”思维向“开发”思维的转变、数字化思维向数据化思维的转变[10]。着眼于数据时代的社会需求与用户需求的变化,通过数据化以及智慧档案建设来推进档案开放利用的深度与广度,提升档案业务工作智能化水平,面向未来、面向社会积极寻求新的职能拓展与服务转型,这就要求档案管理部门在掌握海量档案资源的基础上,将原先的“存取”思维优先转换成“开发”思维,这是档案资源进行数据化利用的第一步。其次,对于已经开展数字化工作并取得一定成绩的档案管理部门,要着眼于档案“数字化”向“数据化”利用思维的转变,可以说档案资源的数据化利用是顺应社会发展潮流,符合档案管理科学发展规律的必然趋势。
在我国档案事业改革与转型的十字路口,国家档案局等各级档案事业管理部门需要对档案数据化的发展前景有清晰的认识,统筹推进全国智慧档案建设工作。建立健全档案数字化建设标准,出台实施细则。同时,地方基层档案机构也要努力寻求档案工作与大数据战略以及智慧社会发展的融合,通过一时一地的具体项目数字化建设和数据化应用契机,推动档案数据化建设进程,实现宏观上跟着政策走,具体实践过程中也有充分的发展动力。
一方面要积极寻求复合型档案管理人才,档案管理人员的学科背景最好结合计算机科学、互联网技术与数据科学等理工学科。通过相应的学科特点发挥档案管理数据化建设的积极性。通过人才集聚效应,争取管理部门对档案数据化建设的重视,获得更多的财政支持。由人才带动,政策引领的方式形成“破圈”效应,不仅要在档案管理学界破圈,更要将档案数据化利用后的档案精细检索、智能检索推向社会各行业,在多方面形成良性循环互助推动。一方面,地方档案馆要充当排头兵,将档案数据化工作过程中形成的可行推进路径规范化,形成编写档案数据化标准与指南的参考案例。另一方面,要通过人才建设的方式,引入新兴技术以解决档案工作中现有的难题。例如针对传统的数据库服务器在面对增量巨大存量日增的档案数据时出现的依赖网络带宽、资源调动速度缓慢、物理数据中心维护成本过高、现有的OCR文字识别技术无法有效降低档案数据颗粒度等问题,可以引入云计算、区块链、人工智能和大数据相关技术。通过整合一系列新兴技术,不仅在档案信息的安全保密基础上实现档案数据化利用,而且可以进一步实现“智慧档案”管理,更可以根据需要快速启动档案资源,节约存储成本以及共享难度,并且通过整合档案数据后形成数据湖,依靠大数据技术实现对现有档案数据进行条目之间的相关性分析、项目可行性分析、更精准地预计投入产出比等,真正做到精细化智能化利用档案数据,对单位决策提供帮助。
总的来说,档案数字化转型与数据化建设各有侧重点,档案数字化注重档案的基础工作环节的数字化转变,而档案数据化则更强调对档案资源的数据化分析利用。未来是“数据为王”的时代,随着计算机技术的快速发展,对档案资源的数据化利用是档案管理事业跟上时代潮流的必由之路,也是档案管理事业发展的必然要求。因此,针对当前存在的三大困境:思维保守、技术落后、发展动力不足等,本文从宏观角度提出了相应的策略,为档案事业管理部门提供参考,以期档案管理部门能抓住转型与改革的契机,推动档案资源数据化进程,实现创新档案管理技术和服务的智能化,数字档案资源数据化,最终实现档案资源利用成果最大化。