赵 跃 邢琳悦 段先娥
近年来,数字人文、计算档案学、智慧档案馆、人工智能等“数据”驱动的研究领域成为档案学研究的热点和前沿,正推动档案“数据”范式的兴起[1],并引发档案界人士对档案“数据”价值的广泛关注[2][3],呼吁要推动档案数字化向数据化的转变[4-6],因为只有将档案数字资源转化为“数据态”,才能进行数据的关联、挖掘和分析,实现档案资源的数据价值[7];还有学者基于创新档案服务模式、实现智慧档案馆面向计算的全媒体档案信息管理等需求,提出要推动档案数字化向数据化、语义化的转变[8-9]。这些成果的纷纷出现,寄予了档案界对大数据时代突破档案信息资源深度开发瓶颈、创新档案服务模式以及推动档案管理业务流程智慧化的迫切希望[10],但其研究内容更侧重于对档案数据化概念、意义等基本问题的探讨。近年来,有学者虽零星提出一些面向数字人文推进数据化的思路[11-12],但尚无学者专门关注如何推进数据化。本文通过分析档案数据化面临的问题,进而提出档案数据化的路径与策略,以期对实践部门推进档案数据化有所启示。
近些年来,数据驱动和技术赋能似乎成为档案事业发展和档案学研究的方向标。无论是数字人文学科的渗透,还是作为超学科兴起的计算档案学,都让档案学者因档案馆馆藏丰富的档案资源而感到欣喜。但实际上,我国档案领域与数字人文或计算档案学领域的协同几乎处于萌芽状态,距离实现数据驱动和技术赋能还较远。笔者认为,档案数据化是档案部门以用户需求和业务需要为导向,将数字档案资源(包括数字化转换形成的数字档案资源和归档电子文件)转换为可供阅读、分析和处理档案数据资源的过程[13]。但档案机构要实现这一过程的转变,仍面临诸多困境。
1.思维保守,创新乏力。档案工作中的保守思维在改革与转型的当下,已成为阻碍我国档案数据化进程的一堵厚墙。这种保守思维首先体现在档案开放领域。长期以来,档案保密与档案开放的矛盾及其博弈造就了极强的安全保密观,却并未带来档案开放的突破。在现行的档案安全工作中,档案机构往往强调运用法律、政策、行政、制度、技术、设备等各种手段来确保涉密文件和档案的安全,形成了严格的档案安全责任制,各级档案馆领导对安全问题非常重视,对档案的解密、开放问题持小心谨慎的态度。有学者发现:档案馆在保密和开放的执行和把握过程中,博弈“权衡利弊取其轻”占据了主导地位,即宁可紧闭大门不出事,也不能因为开放档案后不可预料的结果而受到法律的严惩[14]。在“公开危险,保密安全”的保守思维驱使下,档案管理部门普遍存在着“保密过度而开放不足”现象[15],严重影响档案开放水平。
保守思维还体现为部分档案机构“小而全”的资源独占思维。有的机构认为档案是自家资源,不愿共享,发布在互联网上意味着失去了对核心资源的绝对控制权与主体地位[16-17]。当前,全国各地已建成的各级各类数字档案馆数量和规模可观,但从共享的角度来看,只不过是一座座“资源孤岛”,档案资源的可获知性和可获得性并未取得突破性进展。很多档案资源很难通过网络,尤其是互联网获取。部分档案馆虽在网络发布档案开放目录,但仍要求查档者到其馆藏所在地查阅、摘抄、复制。总之,不可否认,档案特有的政治性、秘密性、敏感性规定了档案信息资源必须得到有效管控[18],但过分强调档案安全保密,造成档案安全工作与档案开放工作的失衡,就会在一定程度上阻碍档案开放进程。档案开放工作的龟速发展,加上资源独占思维及其共同作用下导致的“重存轻用”工作机制,严重阻碍了档案事业的改革和创新,也阻碍当前档案数据化推进。现有的档案思维模式和工作机制下,档案数据化极有可能陷入“可为而不能为甚至不敢为”的窘境。
2.统筹依赖,动力不足。政策导向和规划引领历来是我国档案工作前进的重要动力。2016 年发布的《全国档案事业发展“十三五”规划纲要》提出“全面推进档案资源存量数字化、增量电子化、利用网络化”的档案信息化目标。不仅如此,规划中还提到要探索与大数据行动的融合——“建立开放档案信息资源社会化共享服务平台,制定档案数据开放计划”。尽管国家层面首次创造性地使用“档案数据开放”的概念,但此处“档案数据”更多是指目录数据,而非从档案内容中提取的数据。2019 年底国家档案局发布的《纸质档案数字复制件光学字符识别(OCR)工作规范》(DA/T 77-2019)提出,“档案OCR 应纳入数字档案馆(室)资源建设范畴,统筹规划、有序实施,逐步实现常态化”。该规范同时还提出了档案数据化后的几个应用目标场景,指出“档案OCR 应科学开展,有利于实现档案信息检索和计算机辅助编目、编研开发、数据挖掘”。这对推进我国档案数据化工作具有重要指导意义,尽管如此,国家层面也尚未提出推进档案数据化的行动计划,如何解决档案数据化与数据化后应用之间的脱节,实现数据化、语义化、智慧化与应用场景开发的一体化发展,仍需国家层面的政策引导与统筹推进。一直以来,受自上而下档案管理体制的影响,我国地方档案机构对国家层面的统筹规划形成了很强的依赖性。由于国家层面还没有明确的关于档案数据化的政策动向,因此很多地方档案机构也缺乏探索档案数据化道路的主动性与积极性。
值得一提的是,近年来,浙江省在档案部门融入大数据、“互联网+”等新兴趋势中进行了大胆且有益的探索,在档案事业的改革与转型中成为典范。2018 年9月,浙江省委办公厅、省政府办公厅联合印发《关于加快推进新时代档案资源建设的意见》,在加快推进档案资源建设数字化转型方面,提出要推进档案数字化成果全文识别,2022 年底前,全省各级各类国家综合档案馆完成馆藏重点档案数据化,省、市、县(市、区)直属机关和国有企事业单位完成与“最多跑一次”改革相关的专业档案数据化[19]。显然,在推进“档案资源”向“数据资源”[20]的深刻变革与数据化转型当中浙江省已经完成了顶层设计,但档案数据化工作并不等同于“数字化成果全文识别”,因此,如何进一步统筹推进档案数据化还有待在实践中进一步探索完善。尽管我国地方档案事业的发展中有浙江省这样的“改革先锋”,但国家政策与规划层面对档案数据化行动的不确定性,也使得地方档案部门探索档案数据化动力明显不足。规划缺失、动力不足以及由此带来的地方档案部门领导重视程度低、缺乏相应的经费支持,成为当前推进档案数据化面临的一大困境。
3.人才不足,技术薄弱。一直以来,档案信息化人才紧缺,尤其是具备计算机等专业背景的技术型人才的严重缺乏,已经成为档案信息化建设的瓶颈。大数据时代的到来,档案部门对数据库建设、数据分析、数据挖掘、知识组织、人工智能等方向的技术型和复合型人才的需求更甚。而当前的档案专业人才现状却不容乐观:一是档案人才专业结构、年龄结构和层次结构的不合理。我国现有档案专业人才年龄偏大、高学历人才偏少、现代技术人才严重不足。二是档案专业人才技能不高。据统计,按照档案专业程度来看,全国各级档案行政管理部门和综合档案馆现有专职人员中硕士研究生以上学历的比例仅为0.39%[21]。三是信息素养和信息挖掘能力极弱。大部分档案工作人员信息素养偏低,对档案信息资源的收集、挖掘和综合分析能力弱[22]。人才结构的失衡,尤其是管理型、技术型、业务型人才配置的失衡,已经成为阻碍档案工作改革与转型的重要因素,也是档案数据化工作缺乏动力的重要原因。
档案数据化工作不仅面临人才紧缺的困境,在档案数据化技术层面同样面临巨大的挑战。经过十多年的不断发展,纸质档案、录音录像档案数字化已经形成一套比较成熟的技术解决方案,光学识别(OCR)、语音识别(ASR)等技术也逐渐运用到档案数字化当中。尽管如此,目前档案数字化技术也仅仅实现了对数字档案的目录检索、全文检索,很多隐藏在档案内容中的关系及知识并没有得到有效的揭示和呈现,例如,情感关系、人物关系、时空关系、语言与语义特征、公文用语特征、公文程式特征等。因此,档案数据化开发与应用将涉及数据库开发、知识组织与知识发现等众多领域的技术方法。例如,文本编码、语义描述、本体建模、自然语言处理、文本分析、可视化技术、机器学习技术等。然而,上述很多技术并未应用到档案部门。在数字化阶段,大多数档案机构通过外包的方式来解决人才与技术不足的困境。但从目前来看,不仅是档案部门对档案数据化技术把握不足,很多第三方公司对档案数据化技术解决方案的准备同样不足。因此,档案数据化开发的人才紧缺与技术不足的状况,给档案数据化开发项目的部署与实施带来巨大的挑战。
4.开发不足,服务被动。当前,以检索、编研为核心的档案信息资源开发深度明显不足。档案部门拥有大量有价值的“一手资料”,且档案编研工作早已成为档案部门的常规性工作,但始终难以突破“有编无研”的瓶颈。档案数字化曾为档案信息资源开发带来曙光,因为它既强调将档案信息从档案实体剥离并存储在数字载体上,也强调对数字化档案的重新组织并实现序化与内容的开发。但当前我国档案数字化实践往往只关注前者,也就是实现“模数转换”的数字化加工。伴随着档案数字化工作的不断推进,不少档案机构已进入“后数字化”阶段,管控着大量以PDF、图片等格式保存的数字档案资源,但这些资源大多停留在简单的组织、检索、利用层面,内容层面的开发与挖掘还未引起足够重视[23]。可见,档案数字化虽提升了档案部门的存取能力,但未能突破档案编研的困境。
另一层面,档案服务创新离不开档案资源开发端的努力,档案资源开发的程度将直接影响档案服务的能力和质量。档案数字化虽实现了为档案制作数字化副本和网络环境下的档案获取,但并没有从根本上改变档案服务的被动性。数字化后的档案文本存在两方面缺陷:一是数字化文本仍然需要用户有意识地进行检索,没有建立档案信息间完整的联系;二是数字化文本中的信息依然只能依靠人的阅读,才能转化为有用的信息。此外,档案公共服务平台建设水平的低下同样是造成档案服务被动的因素,档案机构多将档案网站平台定位为“政务型”平台开展建设,网站服务偏向于政务类、业务类信息发布与信息服务,基于档案资源而提供的主动服务和知识服务明显不足。近些年来兴起的档案社交媒体服务平台和移动服务平台虽在一定程度上拓展了档案机构主动服务的渠道,但其针对档案资源所提供的服务方式和服务质量并未得到较大的提升,未能拓展档案数据服务与知识服务的功能。总之,档案资源整合与深度开发的不足,档案公共服务平台和能力的局限,对档案数据化的推进造成一定的影响。
档案数据化工作都是通过相关项目的开展来驱动的。马里兰州档案馆奴隶制遗产项目在2001 年发起之初,其实想要通过案例研究利用马里兰州立档案馆的档案来讲述奴隶的故事和非裔美国人在马里兰取得的成就。但随着项目的开展,为了利用新兴的检索工具改善用户的阅读体验,项目组又启动了数字化项目,通过扫描、转录、数据整合、清理和存储,实现了数据化流程,并通过后期的数据可视化、数据分析等,提供基于网络的呈现和利用[24]。另外,上海图书馆从2014 年起探索基于关联数据技术的数字人文项目建设模式,其建设过程的首要步骤就是实现各类资源的数据化[25]。通过这些项目的驱动,在项目完成过程中施行数据化工作,达到推进档案数据化的目的。除了上述专题档案开发项目与数字人文类项目,档案部门还可探索并适时发起智慧档案建设项目、计算档案学研究项目、开放档案数据项目、知识服务项目等,通过这些项目来驱动档案数据化的开展。针对档案数据化相关项目在档案机构的实施,笔者提出以下策略建议。
1.转变思维方式,做好档案数据化规划。推进档案数据化工作,首先要求档案工作者摒弃不敢开放的保守思维和“小而全”的资源独占思维,推动“存取”思维向“开发”思维的转变、数字化思维向数据化思维的转变。着眼于数据时代的社会需求与用户需求的变化,通过数据化以及智慧档案建设来推进档案开放利用深度与广度,提升档案业务工作智能化水平,面向未来、面向社会积极寻求新的职能拓展与服务转型。在我国档案事业改革与转型的十字路口,国家档案局需要对档案数据化的发展前景有清晰的认识,适时将档案数据化纳入未来“十四五”档案信息化建设规划以及“十四五”时期国家重点档案保护与开发规划当中,统筹推进全国智慧档案建设工作。地方档案机构也要努力寻求档案工作与大数据战略以及智慧社会发展的融合,发挥积极性,充当排头兵,积极争取地方政府和财政的支持,探索档案数据化的可行路径与实施方案,尽快研制档案数据化标准与指南。
2.发掘业务需求,明确档案数据化目标。明确的目标是档案数据化项目走向实践的重要牵引力,而在明确档案数据化目标之前,应开展需求研究,充分发掘档案数据化的业务需求。当前,有学者阐释了档案数据化对于突破档案信息资源深度开发瓶颈、创新档案服务模式以及推动档案管理业务流程智慧化等方面的重要意义[26]。笔者认为,档案部门应认识到档案数据化的意义,全面检视改革与转型时期档案工作的“痛点”与“创新点”。首先,梳理哪些“痛点”可以借助档案数据化更好地解决。例如,能否通过档案数据化解决档案开放鉴定人力不足与效率低下的问题,实现基于档案内容的智能化鉴定,通过对涉密信息、敏感信息和隐私信息的批量标注、比对与划控,提升档案开放鉴定效率[27-28]。其次,梳理哪些“创新点”可以通过档案数据化来实现。例如,能否通过档案数据化进一步带动以“开发”为导向的知识化和智慧化进程,充分挖掘各类型各专业档案的数据价值,进而拓展档案服务方式,实现档案信息服务向数据服务、信息服务、知识服务、智慧服务的“全对象”“全层级”服务的转变。总之,无论是提升档案鉴定、档案编研等常规工作的效率,还是拓展档案服务方式,都是档案数据化的业务需求,档案部门应以业务需求为导向,明确档案数据化项目的目标,致力于实现档案工作的精细化与智能化水准,带动档案数据化项目走向实践。
3.引入成熟技术,促进档案数据化开发。档案数据化开发不仅仅是数字化后数字媒体的内容识别和简单的元数据著录,而且是在数字化的基础上,以“需求”与“目标”为导向,进一步推进数字档案实现数据化、知识化和智慧化的过程。例如,面向数字人文的档案数据化开发就是要按照知识单元的方式来组织领域知识,从而构造一个模拟领域应用的知识环境。要做到这一步,通常的“文本化”是不够的,虽然文本化能够支持基于字符匹配的全文检索,但字符串还不是严格意义上的数据,必须把字符串所表达的人名、事物名、时间、地点等析取出来,赋予独立的标识符。本体技术、语义网技术(关联数据)等是专门针对知识单元(语义单位)提供解决方案的技术,在数字人文等领域已有成功的应用[29]。当前,档案机构在推进档案数据化、知识化和智慧化方面并未形成技术体系,众多档案机构并不具备档案数据化开发的技术能力,且众多第三方档案服务提供商并没有成熟的档案数据化开发技术解决方案。因此,亟待引入数据管理、知识组织、数字人文等领域的成熟技术,促进档案数据化开发。例如,自然语言处理、ETL 技术、文本编码、语义描述、本体建模、图数据库、多媒体搜索、语义搜索、关联数据、名称实体抽取、API 数据服务等[30]。当然,不仅仅要关注上述底层基础技术,还要关注数据组织平台建设相关技术方案以及数据间的互联互通技术方案(共享与互操作)等等。
4.寻求广泛合作,挖掘档案的多元价值。由于档案机构在数据挖掘、自然语言处理、数字人文、知识组织等领域人才、技术的严重不足,加上档案部门支持资金的薄弱,档案机构在档案数据化建设当中,同样可以积极寻求馆际合作、拓展跨界合作,跳出传统的合作圈子或合作思路,寻求新的合作伙伴和合作方式。当前,档案部门在档案数据化开发当中,最需要寻求的合作伙伴无疑是计算机科学、数据科学、人工智能、数字人文等领域的机构,甚至与从事数字艺术、文化创意等方向的机构或团队合作,依靠内容、技术、设计、创意的跨界与融合来推进档案数据化开发。这方面,NARA 的“二战”日裔美国人拘留营档案的数据管护项目、马里兰州档案馆的奴隶制遗产项目都是寻求合作的典型案例。首先,可以与拥有较强技术实力的研究机构合作,包括数字人文、大数据、人工智能、数据科学、计算机科学等领域的相关研究机构,寻求专家知识支持和技术力量的加入,通过合作项目或横向课题等合作形式推动档案数据化相关项目的设计;其次,可以通过与掌握丰厚财力、人力、物力资源的商业机构合作来推动智慧档案开发、管理与服务;此外,在不同地区之间,可以在国家档案局的组织下“统一标准、协同行动”,通过档案机构纵向与横向的共建共享,将中国档案开放平台打造成为国家级开放档案数据平台和国家级数字人文研究基础设施。
5.探索档案众包,充分利用公众的力量。公民众包的兴起让公众参与档案工作从“线下”走向“线上”,在档案信息资源开发工作中受到国内外广泛关注。2016年,上海图书馆启动盛宣怀档案众包项目,将盛宣怀家族1850 年至1936 年间包括日记、文稿、信札、电报、账册、电文、合同、章程等在内的档案发布在自建的众包平台,吸引公众完成元数据著录与全文转录任务。英国伦敦大学学院“斯莱德档案项目”(Slade Archive Project),借助大众标引进行元数据库的构建和完善。众包在解决开放档案数据化这一“劳动密集型”工作上具有独特优势,它可在数字资源转化为数据资源的过程中发挥积极作用,为深度开发档案信息资源(例如,档案编研、知识发现与决策支持)提供数据基础[31]。有学者指出,档案机构可鼓励公众参与,例如,通过抄写将文档或地理历史地图数据化;对传统档案进行编目、标记和分类;评论或讨论档案内容,添加背景信息(如个人经历或记忆)来替代叙述和解释[32]。尽管当前我国档案机构尚未有成功的众包项目问世,但不可否认的是,众包必然是互联网环境下带动档案数据化的一条重要且可行的路径。参考聂勇浩和董子晗[33]提出的档案信息资源建设众包实施框架,档案机构在推进档案数据化众包项目中设计层面要顺应国家政策与机构战略目标、选择适当的任务内容与形式,在运作层面需要考虑平台的搭建与质量控制机制,管理层面则应当建立参与者的激励机制与成果的评估机制。
6.重视人才兴档,提升档案数据化能力。人才问题尽管是个老生常谈的问题,但面对档案数据化趋势,其已成为推进档案工作数据转型亟待解决的问题。面对档案机构人才结构的失衡,当务之急是引入并培育技术型人才,面向计算机科学、数据科学、情报学等学科招聘一批专业技术人才,或者通过内部岗位调整以及在职人才培训,提升档案机构开展档案数据化的能力,缓解过渡时期档案机构人才结构失衡的矛盾。从长远来看,要改革档案学人才培养模式,才能改善人才需求缺口。在数据时代,培养具有技术、业务和管理能力的复合型档案专业人才已是共识。有学者指出:数据时代的档案工作者要成为具有交叉学科背景的复合型人才,需要具备网状知识背景结构,既需通晓档案专业知识,也要不断提高运用数据挖掘、文本分析、可视化与数据设计等数字技术及工具的能力[34]。当前,国外档案教育已经开始关注新兴技术,例如美国西蒙斯学院档案与保存专业学生在档案馆实习中掌握数字人文技术[35]。档案高等教育和档案中等教育改革,也应重视在课程体系建设中加入计算档案学、数据科学、数字资产管理等学科和领域的相关理论课程与实习实践课程,并且重视发挥高校数字人文实验室、人工智能实验室等在档案学专业创新性人才培养中的作用。
7.保障档案安全,解除档案开放的隐忧。档案开放是档案数据化工作的重要前提,也是制约档案工作数据转型的重要因素。2020 年新修订的《中华人民共和国档案法》明确规定,要提高档案开放的效率,将档案开放的期限由30 年缩短为25 年。《全国档案事业发展“十三五”规划纲要》也曾提出“制定档案数据开放计划”。这些举措流露出档案部门要扩大开放与利用,改变档案管理保守、保密形象的趋势,但也对档案部门带来巨大的压力,不仅仅包括前文所述的开放鉴定工作的压力,还包括对档案安全问题的担忧。从档案开放走向档案数据开放,不仅仅是档案开放形式的变化,还意味着开放内容的数据化、开放平台的网络化,而这无疑将为档案部门增添新的“安全风险”。因此,档案部门若要推进档案数据化项目,必先做好档案开放鉴定工作以及档案安全保障工作,识别档案数据化项目以及档案数据开放等工作所带来的安全风险因子,评估风险大小,依据评估结果采取相应的风险防控措施,做好安全保障。只有这样,才能解除档案开放的隐忧,档案部门才能以更加开放包容的新姿态融入数据时代,推动档案数据化项目走向实践。
当前,我国档案事业正处在改革与转型的十字路口,档案法规的修订、数字转型的倒逼、新兴技术的驱动、机构改革的推动等,让未来几年的档案工作充满新机遇,又面临新挑战。面对机遇与挑战,变革与创新是必然趋势,也是发展之道。档案部门作为历史信息资源的最大拥有者,亟待抓住改革与转型的契机,创新管理技术与服务模式,推进数字档案资源数据化、语义化和智慧化进程。因此,笔者认为,档案数据化开发或档案数据资源开发就是通过数据化、语义化和智慧化等手段,将数字资源开发成数据资源的过程。本文分析了档案数据化走向实践面临的困境,提出了档案部门推进档案数据化的策略,希望能够引起档案部门对档案数据化的关注,推动档案数据化工作突破困境,走向实践。