张慧颖 曹玉
摘要:在《“十四五”全国档案事业发展规划》的政策背景下,从档案收集、整理、保管的档案工作业务流程视角出发,基于新一代信息技术提出档案数据资源智慧化管理路径,通过以数据化为导向的协同统一机制、以数据流通为主线的开放共享机制、以人才与技术为支撑的保障机制三个实现机制,来全面高效地对国家综合档案馆馆藏资源进行智慧管理,深入挖掘档案资源的潜在价值,为用户提供智慧服务。
关键词:国家综合档案馆 档案数据资源 档案资源管理 智慧管理
Abstract:Considering the The 14th Five- year Plan for the National Archival Enterprise Develop? ment, and the archives business process of archives collection, sorting and storage, this paper offers the intelligent management path of archives data re? sources based on the new generation of information technology. Through the implementation mechanism of data-oriented coordination and unification mecha? nism, open and sharing mechanism with data circula? tion and guaranteed mechanism supported by tal? ents and technology, the national comprehensive ar? chives can comprehensively and efficiently manage the collection resources, reach the highest potential value of resources, and provide intelligent services for archives users.
Keywords:National General Archives; Archive da? ta resources; Archives resource management; Intelli? gent management
(一)政策背景
《中华人民共和国档案法》第十条规定中央和县级以上地方各级各类档案馆的职责是“负责收集、整理、保管和提供利用各自分管范围内的档案”。《“十四五”全国档案事业发展规划》(以下简称《规划》)将提升档案管理的数字化、智能化水平设为发展目标之一,提出了“加快推进档案信息化建设,引领档案管理现代化”及推进档案资源体系建设的主要任务。同时,《规划》对档案资源建设和档案信息化建设提出了更高的要求,多次提出档案收集、整理和保管任务,从战略层面明确档案资源建设是贯穿于档案工作流程中的主要角色,新一代信息技术的应用是档案资源建设走向现代化的重要工具,能加速数字转型和智能升级。
《规划》在档案资源收集方面对移交、征集、采集做出了明确指导,要求“增量电子化”,对电子档案应收尽收,并推动电子文件单套制归档。在物理空间的限制下,云端存储电子档案及档案数据顺应了时代发展的要求,推动档案工作数字化转型。在档案资源整理方面,《规划》对档案数字化成果的语音、文字识别的指示,本质上是对档案资源开展数据化工作;通过加强档案资源质量控制,来挖掘档案数据资源的潜在价值,统筹档案专题数据库建设。档案数字资源的备份和异地保存是保障档案数字资源安全的有效途径,档案信息化建设可加强档案保管的安全监控,健全档案资源安全体系,推动数字档案馆的智慧化升级。
(二)研究现状
自2013年杨来青以青岛市档案馆为例,首次提出智慧档案馆的建设构想[1]后,各地档案馆随之加快了智慧化建设进程。智慧档案馆的目标是满足用户的智慧需求,其建设的重点为智慧服务及智慧档案。[2]国内档案学者对档案智慧服务的研究多是着眼于信息技术对智慧服务的影响,对最重要的馆藏资源却是一带而过。在档案馆的建设与升级过程中,过度关注信息技术的应用是“智能”而非“智慧”。莫家莉等[3]构建了“3层7子系统”的智慧档案馆顶层架构模型,并从需求牵引、协同竞争、循环反馈、开放式创新驱动和主导转换五个方面阐明架构运作机理。唐霜[4]提出了档案整理2.0模型,即“档案资源数据化——档案历史及逻辑整理——原始索引信息创建——信息再生产”的档案整理构想。杨茜茜[5]在数字人文视野下提出了“构建还原历史的概念模型——档案数据深度处理——历史关联可视化”的历史档案资源整理与开发的路径。
档案资源管理在理论探讨层面的研究取得了多方面的成果,学者们能够基于多种技术视角对各行业的档案管理进行信息化構建,明确在信息化时代中对档案资源进行电子化、智慧化管理的重要性。但现阶段的研究在档案工作的业务流程中较为理想化,将人工智能、云计算等技术应用于档案管理平台的相关研究中更多的是对技术功能的陈述,少有结合实际情况对档案数据资源管理的实现路径进行档案工作协同研究。
浙江省档案馆凭借其规范的系统建设、先进的技术应用,构建了数字档案资源体系,在全国范围内率先通过全国示范数字档案馆测试。[6]苏州市工商档案管理中心扩大档案征集范围,开展档案编研开发,于2017年10月完成的“近现代中国苏州丝绸档案”入选联合国教科文组织《世界记忆名录》。[7]因此,笔者以浙江省档案馆、苏州市工商档案管理中心以及最先提出智慧档案馆理念的青岛市档案馆为对象开展网络与实地调研,充分了解实践层面的建设现状,以提出档案数据资源智慧化管理的合理化路径与实现机制。
档案馆传统的工作流程,主要是面向实体档案,接收立档单位形成的档案后按来源、时间等特征分类整理并保管于库房。部分档案馆虽已实施“双轨制”,保管电子化、数字化的档案资源,但仅支持计算机阅读的数字化档案资源仍是“重藏轻用”理念的延伸,无法被计算机理解和处理。在大数据环境下,海量异构的档案资源极大程度上推动档案工作流程和思维的转变。[8]本文以《规划》为背景,在档案收集、整理、保管的传统业务工作的基础上,应用智慧工具,以档案资源数据化为开端提出档案数据资源智慧化管理路径。
(一)档案收集智慧化
档案收集作为国家综合档案馆丰富馆藏资源的重要来源之一,是实现档案数据资源管理智慧化的开端。根据不同的收集对象,从面向机关、团体、企业事业单位及其他组织的档案移交工作、面向社会及个人的档案征集工作和面向互联网的档案采集工作三个方面实现档案收集智慧化,如图1所示。
1.档案移交。在电子档案的移交接收过程中,云技术是实现馆室一体化的基本要求,立档单位通过政务云与档案馆建立联系,按照相关业务标准,以远端操作的形式完成档案的移交工作。在结合相关政策及标准的要求下,以元数据管理技术明确规定归档的元数据类型及相应约束性、字段类型等,规范立档单位的归档格式,实现档案资源数据化,从源头上控制档案数据资源的质量。电子档案移交系统中提供文字识别功能,自动录入立档单位的扫描版档案资源,并分类著录电子档案元数据的固定模板中,实现移交档案标准的统一,便于后续电子档案数据管理工作智慧化的开展。
2.档案征集。在云技术的支持下,通过官方网站建设专题档案征集模块,实现在线与离线状态下的档案接收工作。借助移动互联网技术建立移动终端平台,开设档案征集功能,主动面向社会公众设立档案征集服务,拓展档案征集渠道,丰富档案资源。在线下场景中,使用“讯飞档案机”“讯飞智录”等智能终端、智能感知设备[9],利用人工智能和物联网技术征集档案并存于云端,以高效地完成档案收集工作。
3.档案采集。移动互联网和通讯技术的快速发展,使人们倾向于直接在互联网上发布信息,且部分信息具有一定凭证作用和保存价值,国家综合档案馆应及时采集并鉴定、整理、保存,以完整记录专题事件。大数据技术可实时关注重大活动、突发事件,并跟踪网络热点,实现对网络信息的智慧感知。面对异构的信息资源,应用“数据魔方”理念,将爬虫、API技术等多种数据采集技术组合,灵活应对多样的数据源[10],有针对性地爬取相关新闻及公众反馈数据,并通过数据清洗、数据分析得出具有真实性、完整性的电子分析报告,根据相关标准及时归档。
(二)档案整理智慧化
结合相关研究基础及《规划》中的要求,本文将从档案资源数据化、档案资源质量控制、特色档案资源建设三个方面实现档案整理智慧化,如图2所示。
1.档案资源数据化。对于馆藏实体档案和数字化档案资源需要以档案数据化作为档案整理工作的开端。目前,OCR技术已普遍应用于档案数据化的实践中,该技术能够快速、高效地对纸质全文进行文字识别,实现对档案内容的全文检索。对于外文语种记录的档案资源,应用机器翻译技术,自动将外文档案翻译成中文,并自动著录中外双语元数据,保存于数据库中,提高档案检索的查全率。除纸质档案外,国家综合档案馆还保管了大量其他载体的档案资源。对于实物档案可采用3D扫描技术,来获得物体的三维信息,并详细著录相关元数据,保存到对应的数据库中,以便实现档案检索、虚拟展厅、自助展览等场景。[11]图像、音频、视频档案数据化需要运用人脸识别、文字识别、语音识别等技术,对其中的人、物、字、语音进行识别,提取档案中的重要信息,还原历史事件经过。
2.档案数据质量控制。档案数据质量控制是对档案数据完整性、准确性、规范性、关联性等质量问题,进行识别、检测、分析、预警、整改,以控制档案数据出现质量问题的因素,提高档案数据质量。[12]在纸质资源模糊、字体难以辨认等各种因素的限制下,OCR技术识别的正确率仍有缺陷,对全文检索的查全率和查准率有一定影响。另外,因档案的专业性较强及其原始记录的本质属性,要求对外文档案要严格翻译出其原始含义,而机器翻译技术虽能做到语句通顺,但仍存在领域识别困难、专业背景知识不足等问题,因此机器翻译尚不能独立运用,还需要人工干预。[13]
在开展档案数据质量控制工作前,国家综合档案馆需充分考虑档案资源的特性,在规范和体系的指导下,开发适用于档案资源的数据质量控制工具。首先,在国家综合档案馆发展规划中明确档案数据质量标准,规范档案数据质量控制范式;其次,成立专题项目组,丰富不同类别档案资源的语言规则和知识基础,在字、词、句等语言、语法和专业知识上建立规则库;再者,在项目、课题科研过程中,总结案例,用以标注语料,完善语料库;最后结合ETL理念,基于规则库、语料库,在神经网络算法的支持下,提高OCR技术、机器翻译技术的准确率,实现对档案资源的抽取、清洗、转换。针对已经数字化的档案资源数据质量问题,一方面要重視在利用过程中发现的问题,另一方面,利用OCR等技术识别数字化成果并与数据库中已录入的数据进行对比,如发现数据不准确不完整,则发出预警,及时通知数据管理人员进行修正。
3.特色档案资源建设。特色档案资源建设是将档案数据资源存放于相应的数据库中,借助新一代信息技术对计算机可识别的档案数据进行提炼、整理、开发、挖掘的深层次处理过程,实现知识的增值和延伸。在海量的历史档案资源中,文本挖掘、机器学习等能够促进深度开发,以关联数据技术形成知识关联,将不同要素串联成知识图谱,以多元化视角完善历史事件的原始面貌。[14]如对以新冠疫情、郑州大水为例的突发事件,健全规范的收集、整理、保管工作机制,建设专题数据库,并应用自然语言处理、文本挖掘等技术从国家、社会、个人等多角度还原事件经过,分析事件影响,保存事件凭证,强化应对突发事件的档案整理及开发利用,以在类似事件发生时及时警醒并提供文献参考和决策支持。
(三)档案保管智慧化
在大数据时代背景下,档案的保管对象从单一的实体档案转变成实体与电子档案的并行,国家综合档案馆的建设重点不再只局限于档案库房,还将电子档案、档案数据资源的保管与存储纳入重要关注范围。因此对于电子档案、档案数据资源的保管需要建立长期保管系统,以在长时间内对电子档案、档案数据进行存储、维护。苏州市工商档案管理中心建立的电子档案长期保存系统,接收并保存立档单位移交的电子档案,系统能够监管人员对电子档案的操作,在增加、删除、修改出现问题时及时恢复原始信息,以防电子档案的原始性遭到破坏。
档案的保管期限决定了档案开放的时间,在档案开放的相关政策要求下,基于深度学习模型,融合背景知识,从鉴定方法和算法中入手,开发档案保管期限管理工具,能够有效提高保管期限划分的准确率,为档案数据资源的保管和开放共享提供决策支持。[15]在云技术的支持下,建立异地备份中心,实时动态保存档案数据并定期迁移备份,达到对档案资源全生命周期的长久保存和有效恢复档案数据的目的,保证电子档案及档案数据资源的安全。如浙江省档案局成立的省电子政务数据灾难备份中心承担了重要电子档案与档案数字化成果、馆际数字档案资源的备份,防止自然灾害和网络灾害造成的档案数据资源泄漏带来的损失。
档案数据资源智慧化管理路径是在以数据化为导向的协同统一、以数据流通为主线的开放共享、以人才与技术为支撑的运行保障的基础上实现的,本文从上述三个方面阐述档案数据资源智慧化管理实现机制。
(一)以数据化为导向的协同统一机制
档案资源的数据化是实现智慧管理的基础,也是提供智慧服务的首要条件。大数据时代,档案管理的理念发生了改变:从实体档案的收集、整理、鉴定、保存、开发利用走向档案数据的采集、处理、维护、服务。[16]彼时数据并非仅是数字或文本,更是一种资产,具有不可估量的价值。档案智慧服务是在新一代信息技术的支持下实现的,其核心是借助智慧工具对档案资源的开发利用和深度挖掘,以智慧化的方式感知、汇编档案资源中潜在的知识成果,是知识服务的升华。
智慧工具的应用是在数据化的基础上实现的,国家综合档案馆要以档案资源数据化为导向,一是加速档案数据资源的量化建设,二是各部门共同协作,在档案数据生命周期的全过程处理工作中,严格按照元数据管理相关标准统一档案数据类型、格式等信息,提高档案资源结构化、半结构化、非结构化数据的质量,简化以文本挖掘为主要技术工具的信息抽取处理环节,为档案资源的智慧管理和深度开发奠定基础,从而实现以档案用户需求为导向的智慧服务。
(二)以数据流通为主线的开放共享机制
在档案数据环境混乱、档案资源开放争议等因素的影响下,档案部门存在滞后的“数据孤岛”现象,各自掌握着不完全、不对称的档案数据,致使档案工作效率低下,影響档案研究、开发利用等进程。
以数据流通为主线的开放共享机制要求国家综合档案馆依据全国统一的管理办法,规范档案资源的元数据著录法则,运用云技术、大数据技术打破空间和时间壁垒,优化档案数据环境,实现跨地区、跨层级、跨部门间的元数据管理统一,保证档案数据的流通。同时,国家综合档案馆要全面整合档案数据,完善档案数据共享的标准与制度,明确档案数据的开放共享是在社会参与理念下的协同合作,促使各个领域的社会公众参与到档案的收集、利用和监管工作当中,并以合作、外包等方式与不同组织、团队、个人建立联系,以多元化视角挖掘档案资源,实现协同共赢,促进档案事业的发展。[17]如浙江省档案馆开放民生档案API,联合浙江省民政厅推进婚姻登记档案数据共享,将查档服务纳入补办结婚证业务流程,构建业务协同新方式,实现部门间数据共享与业务协同。
(三)以人才与技术为支撑的运行保障机制
档案工作者既要具备历史、档案、法律等专业知识素养,又需要一定计算机操作技术、翻译能力等。目前,国家综合档案馆普遍存在编制不足、人手不够等问题,甚至无法自主招聘工作刚需的专业对口型人才。针对人才缺失的问题,国家综合档案馆通常以与高校或其他组织合作、招聘编外工作人员等方式来解决,但如此方法治标不治本,难以从根源上解决缺少人才的问题。
机器学习等新一代信息技术的应用能够帮助档案工作人员完成繁杂无意义的工作任务,从而有余力投身到档案事业的进一步建设当中。国家综合档案馆应以进阶学习为目标,通过学科交叉培养的方式对在编工作人员进行培训,完善工作人员晋升标准,鼓励在职人员提升学历,提高其技术素养、知识素养等,同时要明确数据化、数据质量控制、数据标记等档案工作技术需求,理性选择数字技术工具[18],以适应大数据时代下档案馆工作的转变。
技术设备的安全保障是档案数据资源智慧化管理的支撑,因涉密档案数据的特殊性质,需要严格按照档案防控体系进行保密工作。在档案数据资源的管理流程中均存在安全风险,为防止档案数据泄露、破坏、入侵,国家综合档案馆要利用加密技术、防火墙技术、入侵检测技术等,智慧防控档案数据安全问题。另外,对档案数据进行异地备份,提高云服务器的可靠性,一旦检测到盗取风险,立即销毁相关档案数据资源,以防对社会公众造成有害影响。同时,服务器、存储设备、备份机等基础设备也是档案数据资源安全存储的重要保障。
国家综合档案馆丰富的馆藏资源,全面记录了历史面貌和经济、社会等发展进程,在云计算、大数据、人工智能等新一代信息技术的帮助下,对档案数据资源进行智慧化管理可以更全面、更高效地挖掘档案价值,编研成顺应现代用户使用偏好的知识成果,主动、快速、精准地提供档案智慧服务,使档案工作在相关政策的指引下走向依法管理、走向开放、走向现代化。
*本文系2020年国家社会科学基金青年项目“社会责任视角下国家综合档案馆服务能力提升路径研究”(项目编号:20CTQ035)阶段性研究成果之一。
注释及参考文献:
[1]杨来青,徐明君,邹杰.档案馆未来发展的新前景:智慧档案馆[J].中国档案, 2013, 472(2): 68-70.
[2]王素红.对智慧档案馆建设和研究热的冷思考[J].档案学通讯,2015(4):39-44.
[3]莫家莉,史仕新,许杨.智慧档案馆顶层设计研究:总体架构及运行机理[J].浙江档案, 2016, 424(8): 6-9.
[4]唐霜.信息化环境下档案整理理论研究[D].南昌:南昌大学,2015.
[5]杨茜茜.数字人文视野下的历史档案资源整理与开发路径探析——兼论档案管理中的历史主义与逻辑主义思想[J].档案学通讯,2019(2):17-22.
[6]王肖波.数字档案馆建设的创新与发展——以浙江省档案馆创建全国示范数字档案馆为例[J].档案学研究,2021(1):104-109.
[7]吴飞,卜鉴民.创新发展铿锵有力勇攀高峰敢立潮头——苏州市工商档案管理中心十年创新发展纪实[J].档案与建设,2018(1):70-72.
[8]滕春娥.大数据环境下档案工作转型研究[J].北京档案,2015,(2):17-19.
[9]中国日报中文网.讯飞智录荣获2019世界人工智能大会“创新成果”证书[EB/OL]. [2019-09-27].http://ex. chinadaily.com.cn/exchange/partners/82/rss/channel/cn/ columns/j3u3t6/stories/WS5d8c7d74a31099ab995e293d. html.
[10]程知.基于數据魔方的异构档案信息资源采集方法分析[J].浙江档案,2018(8):60-61.
[11]张嘉欣.实物档案三维数字化研究[D].武汉:湖北大学,2018.
[12]金波,杨鹏.大数据时代档案数据治理研究[J].档案学研究,2020(4):29-37.
[13]范冠艳.机器翻译在档案学科的应用研究——以ITrust北美团队最新学术成果为例[J].档案学研究,2018(3):114-120.
[14]陈海玉,向前,万小玥.数字人文视域下抗战档案资源的开发策略与路径研究[J].山西档案,2021(3):71-80.
[15]杨建梁.基于深度学习的数字文书档案保管期限智能化划分研究[J].档案学通讯,2021(4):108-112.
[16]陈雪燕,于英香.从档案管理走向档案数据管理:大数据时代下的档案管理范式转型[J].山西档案,2019(5): 24-32.
[17]迂娜.开放政府背景下档案开放路径探究[J].山西档案,2020(1):41-47.
[18]龙家庆.数字人文项目中档案数据开发工具及应用研究——以“欧洲时光机”为例[J].北京档案,2021,(3): 10-15.
作者单位:天津师范大学管理学院