■ 徐钦梅/福建警察学院
■ 戴 敏/福建省档案馆
按传统整理方式,档案以“卷”或“件”的形式存在。从人们写作阅读的思维习惯来看,一份公文或一篇文章即是一“件”。案卷则是为了方便管理和利用,把内容或逻辑相关的档案进行归类形成的聚合体。随着计算机技术引入档案工作,人们开始从数据维度审视档案工作。早期计算机分析处理能力不够强,相关的技术和工具也尚未产生,当时计算机对档案工作的主要作用体现在按传统整理方式建立相应的目录和原文数据库以提供利用。进入21世纪,随着大数据、人工智能等技术不断迭代发展,档案工作逐渐打破以“件”为最小处理单元的传统思路。档案尤其是其内容文本,不应仅仅满足于数字化管理,更应实现数据化管理,融入“大数据”集合,为各类服务提供数据支撑。为此,新时代档案工作者必须要在新的数据视角下探索档案数据化管理。
传统意义上的档案不同于其他信息的特征,在于其“原始记录性”,强调其记录性和保存价值。随着计算机技术的发展,大量自动化或半自动化的设备本身即具有记录功能,逐渐扩大了记录的外延。广义上,数据是指对客观事物的逻辑归纳,是表示客观事物的未经加工的原始素材,经过加工成为信息。由此可见,数据也具有原始性(当然,数据的原始性与档案的原始性还有所不同,数据的原始性主要是指其未经过分析处理,而档案的原始性是指其在记录上是第一手的,两者的区别在于数据的原始性更加原始,因为一般而言档案还经过了人为或设备的分析处理),同时数据背后是对事物的理解,因此数据是有逻辑关系或规则的。在计算机科学中,数据又特指所有能输入计算机并被计算机程序处理的符号的介质的总称。由于计算机存储和处理的对象日益广泛,因此客观世界基本可以映射进计算机的虚拟世界,同时以数据形式收集整理的各类信息资料可以借助计算机技术进行分析处理。
因此档案属于广义的数据,而且是一类重要的数据。除了其原始记录性以外,档案不同于“离散”的数据,它是经过整理的、有专门机构及人员管理的规范数据,这无疑为档案实现数据化管理提供了便利。档案数据与电子档案是同一事物不同颗粒度的概念,但档案数据的范围更广泛和复杂,它还包含了档案相关的数据以及非电子形态存在的数据。同时,随着档案从“数字化”到“数据化”进程的加快,档案以计算机领域的数据为形式进行处理也日益普遍。而数据形式的档案与文档形式的档案虽然可能同样是“数字态”(区别于“模拟态”,即模拟信息),其根本区别在于底层颗粒度的不同。与物理世界的开发取决于可操作的最底层物质结构一样,信息的颗粒度直接影响虚拟世界信息处理的效率和层级[1]。因此,档案数据化管理意味着档案数据工作由传统到粗粒度的文档管理逐步过渡到细粒度、智能化的数据管理服务,更好地实现档案管理内部的现代化和外部的精准高效化。
随着大数据、人工智能、物联网等数据技术应用的日益普遍化,档案的来源也呈现数据化趋势。如福建省在全国率先推行电子证照应用,电子证照数据源源不断生成,其基本模式为“证照模板+数据库”。证照模板相对固定,这样就不用存放大量的非结构化证照图文,而且在利用上数据化的证照信息更便于检索、统计、分析[2]。类似的还有电子发票、工程档案、医疗档案等。数据化带来的便利性使得前端文件管理和系统建设已经数据化了,而档案管理却相对落后,无法满足政府部门“放管服”改革和大数据发展等的战略要求。因此需要推进档案数据化管理,实现数据时代文档管理的“一体化”及档案管理对象和档案管理模式的匹配,推动新时代档案工作高质量发展。
随着人民群众对个人权益和文化生活的日益重视,以及档案工作服务中心大局的作用日益凸显,档案服务也日趋多元化,精准的定制化档案服务成为人们对档案服务提出的新的现实要求。目前传统的档案服务存在以下问题:一是未能实现精准服务。查询利用的工具主要是档案目录,摘要和全文较少,因此很难在海量数据中准确找到所需数据,如利用者想要利用文件中的某个信息点,而该信息也可能存放在多份文件中,传统的服务方式是通过检索文件目录信息查找到这些文件,再让利用者逐份查看确认,这种做法既低效又不准确。此外,由于文件的开放控制是基于整份文件进行划分的,这也限制了利用者对文件中某些开放信息的使用。二是未能实现智能化知识服务。传统服务方式只能把档案原文调出来,让用户自行分析整合信息,而不能基于数据和用户需求智能生成定制化信息和进行知识服务,这在编史修志、文化研究或其他档案信息深度开发利用中弊端尤为明显[3]。这类问题导致的档案服务中需求与供给不匹配现象,可称为档案服务供需失衡。
因此,要解决档案服务供需失衡的现实问题,提升档案服务水平,需要实现档案数据化管理,在此基础上开展以数据为颗粒度的档案信息服务,这样不但可支持全文、全库检索,也支持关联信息的推荐,还可生成满足用户需求的定制化信息,具有重要的现实意义[4]。
从大数据对档案管理工作带来冲击开始,档案数据化管理就日益为档案工作者重视。但现有研究主要是关于档案数据资源的,部分涉及档案服务,关于档案数据化管理的文献较少。总体来看,这些文章主要是将档案数据化管理作为档案工作的前沿方向进行研究,从思维、范式、转型或某个视角进行阐述,较少探讨实现路径,未提出较为系统完整的实现路径[5][6][7]。
综合文献来看,目前档案数据化管理在实践层面不够充分,主要在电子发票、电子证照、工程档案、科研档案等本身来源就已数据化的电子档案中开展。制约档案数据化管理的主要问题在于:一是未完全实现从数据思维的视角收集和管理档案。如一般要求将电子文件转化为图片或者版式文档的档案数据,这类档案数据从人类阅读的角度看可能较为直观,但从计算机分析的角度则较为不便。二是以数据为颗粒度的电子档案标准未能尽早确立,绝大部分相关标准依然是以“件”为主体而非以数据为主体考虑问题,尚未脱离将文件作为整体的管理思维,这导致档案数据虽然在利用方面更有优势,但在凭证性上得不到相关方面的支持,因此其服务范围受到限制。三是传统手写体档案的OCR识别率较低,提取数据文本多需要人工配合,工作效率较低,往往只能针对某类特别重要的档案开展专项工作。
档案工作的最重要模型之一即“收管存用”,实现档案数据化管理的关键在“收”,重点在“管和存”,目的在“用”。实现路径的要点是通过制定策略,运用计算机相关技术和工具自动进行数据治理,在治理过程中优化升级档案数据,为利用提供各种便利。具体来说,档案数据化管理的实现路径包括以下几个方面。
档案是经过整理的规范数据,但问题在于符合何种条件的数据才能称为档案。数据背后有一定的逻辑关系,单纯一个数值序列,如2米、1米、0.8米,并不能让人明白是什么意思,但若告知是一个桌子的长宽高,这些数据就产生了意义。因此,面对数据的集合,要先理清其中的逻辑关系。传统使用的文件或表单都有一定的制式,就代表着背后的逻辑关系。
新修订《档案法》第三十七条的“来源可靠、要素合规、程序规范”,明确了电子档案的法定要求,但要具体落实档案数据的凭证性,就必须事先定义符合什么样逻辑描述的档案数据可以称为电子档案。由于各种类型的档案数据背后的逻辑关系是不同的,需根据业务实际进行定义,因此在确认档案数据凭证性地位的同时,必须同步明确各类型档案数据逻辑关系的相关标准。其关键点在于找到一种通用语言来描述档案数据的逻辑结构,且这种语言必须足够简洁,具有足够的扩展性,可以定义任何类型的档案。因此,推荐采用XML(可扩展标记语言),它本身就是为了“提供统一的方法来描述和交换独立于应用程序或供应商的结构化数据”而创设的,因此具有良好的通用性和可扩展性,理论上可定义任何类型的数据结构。
那么,是否可认为一份XML即是电子档案呢?笔者认为是完全可以的,它可以满足新修订《档案法》第三十七条“来源可靠、要素合规、程序规范”的十二字要求,只要是在相关机构的规范系统中生成的,采用了一定的技术手段,并有着相对齐全完整的元数据和内容数据,在逻辑上就能自足。应对数据篡改的风险可采用数据摘要、签名、时间戳、区块链等防篡改技术,与原始文件是何种格式并无关系。尽管传统上一般仅考虑用XML来传输数据或者标记元数据,档案的内容主体则认为仍需要用版式文件固化,但这是从人为阅读的角度思考档案数据带来的结果。XML如何展示取决于阅读器,尤其是从一般文本数据应用处理的场景来看,XML完全足够且可支持全文检索,如需展现为通常阅读的版式,只要在阅读程序中定制相关的模板,按阅读习惯进行展示即可。真正有保存价值的档案信息可完整存放在XML中,这样就能保证在收集和整理阶段大部分档案直接以“数据态”形式存在,也能减少后期通过OCR等识别工作提取档案数据的工作量。
对于图像、音频、视频等媒体档案,由于其价值本身就在于其媒体性,如图像承载的是一幅书法作品,那么,即使能识别该书法的文本数据,使该书法便于查找利用,也必须保留其媒体数据的原始样貌,否则便失去了作品本身的价值。因此一方面要运用人工智能技术不断提高OCR识别的准确率,另一方面这类档案无论提取的数据信息再怎么精确,原始的媒体仍需保留。可采用将媒体数据原封不动地存放在XML的一对标签里的方式,对其他类似媒体档案的特殊档案也可采取这种做法。这类档案在长期保存时要关注原始数据格式定期转换为当前通用格式的问题。同时,媒体档案确实存在内容识别的难题,但随着技术的不断成熟,可不断提高内容识别的准确度,如图像识别等技术可以帮助我们在电影的某一帧中标记相应的人物信息等。因此作为档案部门,可先按原貌进行接收保存,待技术成熟时再进行相应的数据处理和开发。
“治理”一词原本多出现在公共管理领域。从管理学角度,治理是指规范多元主体参与管理,从而弥补单一力量的不足。在数据化条件下的档案管理必然是多元主体协同参与的档案数据治理。档案数据治理是档案全生命周期管理的各类档案治理主体基于一定的行动规则对档案数据进行科学、规范、高质量管理的过程。在大数据时代,档案数据治理的主体不仅仅是档案部门,更延伸至社会各类组织,因此基于档案全生命周期梳理治理主体,并适当放权、多元中心化,由管理本位转换至治理角色,强调协同治理,是档案数据治理应有之义。
收集是档案数据治理的源头,也是关键环节。在确认档案数据的凭证性地位和保持媒体档案的原始性样貌基础上,收集和治理应双管齐下,贯穿整个档案管理生命周期。在收集的同时就开始治理,将治理发现的问题主动反馈给收集主体,尽可能在前端解决问题。这里包含两个问题:一是传统的数字档案,主要是数字化副本,由于提出了“档案即数据”,急需转型;二是新兴的档案数据或称数据档案,一方面要扩大传统档案数据的“归档”范围,另一方面需要通过计算机技术和工具进一步挖掘和提升其价值。
当前档案数据治理应基于数据层面进行分析处理。传统数字档案的治理还会是一个重要的工作,问题不仅仅在于格式的转换和统一,还在于传统数字档案由于未实现全流程监管或无法监管到位,必然存在错误数据、误差数据或数据丢失等问题。这些问题往往在利用时才会发现,而这时从事前期工作如数字化工作的人员已经离岗,追溯整改较为困难。
因此解决第一个问题,必须强调档案数据的全流程监管和数据采集。但目前无论是在档案部门内部,还是在档案室和档案馆之间,都存在工作或系统衔接的问题,这样反而无法全流程都按照一套标准贯彻执行下去。除了开发相应的系统打通全流程之外,还需要行政手段落实多元主体参与责任,相应工具(如检测工具)辅助数据标准执行等。特别是软件工具,可以直接内嵌数据标准,部署在前端,倒逼前端治理,减少监管成本。而对于已出现的数据问题,要充分运用技术和工具进行检测,主动发现数据当中存在的问题并整改。
关于第二个问题,尽管目前已有不少相关技术工具,但人的理念是决定是否运用这些工具的前提,因此必须要先有数据采集和开发的理念,在治理主体中达成相应的合约或共识,才会在文档生命周期中根据主体责任和义务适时对标收集相关数据,才能在治理中不断优化提升各类档案数据。特别在大数据时代,强调“全数据”属性,因此应当将与数据档案相关的数据也纳入收集范围。档案治理主体应培养数据化管理思维,基于不同的项目合作共建,利用数据持续训练优化档案人工智能“大脑”,积累其“知识库”,使其在应用中不断更新迭代,实现档案数据治理。
任何数据管理都必须基于数据的有效保存,而确保档案数据的长期保存更是档案部门的天职。当前,由于新的数字档案爆炸式增长及其类型日益多样化,其长期保存管理模式也日益复杂化,而长期保存管理模式,一则涉及保存的格式和数据组织形式,二则涉及保存的软硬件环境和相关介质。档案部门急需找到一种通用的、脱离依赖关系的保存格式。这种摆脱依赖性的格式必然是简单的,如上文提到的XML,以及我们常见的TXT格式。至于其他展现时即相当复杂的格式,如DWG、WRL、DXF等格式,必然随着时代进步和需求变化而不断进化。长期保存对于档案数据而言,还必须理清其逻辑关系,满足“格式开放、自包含、自描述、自解释”等要求。综合来看,XML更符合大部分档案长期保存通用格式的要求。如上文所述,XML展现形式可在应用层面实现,而底层数据依然采用最原始简单的格式,这就需要档案界和计算机界对此有相应的约定。
同时,部分不得不定期迁移的数据(即无法或不宜用通用格式表达的数据),不但要进行迁移,而且需要定期更新成当前格式,否则随着时间流逝,可读性会逐渐衰减。一般来讲,新旧更换都有一定的过渡期,在对所存放的文件格式及内容认识的基础上可以定制转换策略,进行定期更新。过去认为保存能读取原文件格式的阅读器是一种方法,但由于底层操作系统也在迭代,需要保存的内容日益增多,难以落到实处,因此只有定期迁移和更新,才能保证数据是永“活”的。随着理念的成熟,相应的数据迁移转换工具和基于人工智能对数据状况进行分析的工具也会逐渐开发出来,用于批量的格式转换和预判数据是否需要进行迁移。
数据要在使用中验证其可用性,因此对数据的适当使用和整理有利于数据治理,但过度或者不当的使用,会带来数据保存的风险。传统的观念一般认为,档案数据相对生产数据为“冷”数据,而在大数据时代,档案数据不宜再视为“冷”数据,但其长期保存中的备份却应当保持相当的稳定性。因此,在保证数据永“活”的前提下,配合采用多种介质备份的方式,整合不同介质的存储特性,为档案数据长期保存提供保障支撑。由于“数据态”档案数据来源广泛,因此在长期保存之前,可通过大数据相关技术进行“数据清洗”,减少无效档案数据的存储占用。同时引入监测和比对机制,可实时发现数据修改,确保数据与当初进入存储池时完全一致。这种监测目前主要基于数据摘要技术,可进一步基于数据内容,运用人工智能进行更深度地监测。由于数据本身在不断更新,因此数据除了保证和入存储池时一致以外,还要定期在管理库和长期保存库之间做相应的摆渡,但不宜过于频繁,以免干扰数据保存本身的机制。
以数据为颗粒度的档案信息服务能有效解决当前档案服务面临的现实问题,实现这一服务也是档案数据化管理的最终目的。因此在做好档案数据“收、管、存”的基础上,应进一步做好“用”:一是基于数据分析准确按需按权服务,即根据用户的自身情况和实际需求,综合分析该数据在此场景下是否可对该用户进行开放,判断该用户是否有权限获知该数据,做到“应知方知”,确保档案数据利用的安全,同时做到“应知可知”,不因整件或整卷档案的开放控制属性影响其中可对用户开放的档案信息的获取。二是定制化生成和推送用户所需信息,即根据不同的用户需求,智能地组织整理好所需要的信息,包括内容和对应的多媒体,在语义理解的基础上,转化为当前的语言进行回应,同时可引入VR、AR和3D展示等技术,丰富数据展现形式,实现人性化互动。三是跨区域统一共享服务。目前虽然各地陆续建成了数字档案馆,但数据孤岛的问题依然突出,这严重制约着档案数据服务的成效,特别在大数据时代,数据的汇集关联可能会产生新的有价值的数据。档案如能按标准生成,基于统一的交换格式,则天然地具有可共享的特性。因此共享除了行政方面的干预之外,数据标准的统一尤为关键。以数据为颗粒度定义档案数据标准,在共享时会更具优势。由于数据在提供利用时更为准确,安全性更有保障,也为其在互联网等公共网络上的利用提供了便利,如不用在网络上传输整份档案数据原文,只需要反馈用户所需的数据或具有凭证性的码即可。同时,基于数据颗粒度开展档案数据协同共建工作,建立相应共识和长期贡献机制并将其写入系统,有利于各类档案数据主体厘清权利和义务,安全共建共享,激发档案数据资源共享的动力,推动档案数据共享可持续深入发展。四是实时便捷提供档案数据服务。在“马上就办”“一趟不用跑”“最多跑一次”等政策的指引下,档案数据服务的效率也日益受到关注。基于人工智能技术,解决传统开放审核工作滞后问题,使大量有价值的档案数据得以及时开放,并通过文件和档案数据的在线统一交换共享,加速文件归档,方便用户异地查档和远程在线查档,在提升档案服务质量的同时提升档案服务效能。