关键词:档案管理系统;档案;数字化;通用化;系统
0 引言
传统的档案管理方式[1]面临信息爆炸式增长和检索查阅效率低下等挑战。随着时间积累和单位相关工作的推进,档案的数量不断增加,档案门类也越来越复杂,这对效率低下的传统手工档案管理工作产生巨大的压力[2-3]。近年来,越来越多的单位开始尝试将传统的档案管理方式向数字化档案管理转变,希望借助计算机技术将数字化融入单位的档案管理工作来提高单位的档案管理效率和档案查阅的有效性[4]。
基于此,本文结合团队在相关单位档案数字化整理上的相关实施经验,针对当前单位数字化档案管理的迫切需求,设计和开发一种面向通用化管理的档案数字化扫描管理系统,旨在通过大数据技术和计算机应用技术实现档案的数字化管理。系统设计了档案通用化管理模块来对档案信息进行标准化和结构系统化处理,从而满足各种类型的传统档案目录查询向数字化查询调阅的转变;然后通过结合高拍仪等超便携设备搭建了档案扫描模块,实现了纸质档案电子化扫描和OCR识别处理。
文章的组织结构如下:第一部分介绍了引言和研究现状;第二部分介绍了相关技术;第三部分详细介绍了系统设计和实现;第四部分对系统进行了设计与实现;最后一部分总结了研究成果并展望了未来的研究方向。通过本文的研究,该系统的实现期望可以提高单位档案管理人员的工作效率和准确性,有效地帮助单位提升档案查询调阅的工作便捷性,推动数字化档案管理的发展。
1 研究现状
如前文所述,随着社会信息化和大数据技术应用进程的不断加快,一方面数据信息的增长使得档案数量累积越来越多,给档案管理工作带来了严峻挑战;另一方面,信息化进程也给新时代下档案管理工作带来新的思路,越来越多的单位开始尝试借助信息化技术来缓解传统纸质文档“管理难、保存难、归档难、查找难”等问题[5]。但是档案管理工作依旧存在以下问题值得关注。
1.1 档案工作管理难、保存难、归档难
随着工作开展的积累,往往一个单位档案数量庞大且门类繁多,这给档案工作的归档、保存和管理带来了巨大挑战。传统的档案工作由于缺乏高效的分类和数据检索机制,常常使得档案的整理和存储工作变得异常复杂。此外,纸质档案的物理特性使得它们容易受到环境因素的影响,如湿度、温度等,这不仅增加了档案保存的难度,也缩短了档案的使用寿命。
1.2 档案调阅查询难,效率低
当下许多档案的管理依旧借助传统的档案目录和标识进行,在数量庞大且类别众多的档案调阅过程中,没有数字化支持显得尤为低效。比如用户在查找特定档案时,管理人员往往需要花费大量时间在繁杂的纸质文件中进行手动搜索,这一过程不仅耗时耗力,而且容易出错。
1.3 现有档案系统缺乏通用性、无法满足大规模数据处理需求
随着信息化进程的加快,档案数量不断增长,传统的档案数字化管理系统往往无法处理大规模的档案数据。其次,现有的档案数字化管理系统往往是针对特定单位或特定类型的档案设计的,无法满足不同单位和不同类型档案的管理需求以及大规模数据处理的需求。
2 相关技术
在传统的纸质档案管理模式向档案数字化管理模式的转变过程中,针对传统纸质文档“管理难、保存难、归档难、查找难”等问题,面向通用化管理的档案数字化扫描管理系统需要完成档案通用数据标识管理、档案管理查询管理以及档案扫描识别等档案数字化管理服务,从而实现单位对档案数据的高效管理和数字化处理,提高档案管理的效率和安全性[6-7]。其主要技术如下。
2.1 基于分布式的通用化档案数字管理模块
档案数字化的核心是实现档案数字化管理和档案电子化扫描。档案系统首先需要实现的是将纸质档案数据完成数字化处理,实现档案数据的快速查找。但是,受限于档案数量多、门类复杂、数据量大等问题,如何实现纸质档案数据到结构规整的数字化应用数据是当前档案数字管理系统普遍遇到的重要问题之一[8]。因此,为了实现档案数字管理系统对数据的维护,系统首先需要根据档案属归属按照标准的档案数据规划进行严格结构化的通用性分析,从而在保障档案基础数据化转换的准确可靠性的基础上实现各类档案通用化标识和管理,缓解档案的“归档难”“查找难”等问题。其次,由于各单位内部各科室档案门类多,档案电子化扫描上传同步过程中数据交互量大,为了缓解大数据、高并发带来的系统瓶颈问题,实现档案查阅调取及时性需求,系统采用C/S+智能客户端分布式体系结构,将档案管理系统按档案业务分类进行分割,拆分成多个共享核心数据库的独立分布式子服务器。
2.2 基于高拍仪的档案扫描和OCR 识别处理模块
基于分布式的通用化档案数字管理模块实现了纸质档案数据向数字化管理的转化。如何将原始档案通过扫描模块与档案数据关联后,识别档案全文内容并进行保存归档和全文检索,是基于通用化的档案系统关注的重点之一。因此,系统设计了基于高拍仪的档案扫描和OCR识别处理模块。首先,基于高拍仪的档案扫描功能,通过高分辨率的摄像头将纸质文档进行拍摄和数字化处理等扫描记录,但是其扫描所产生的电子档案实际上只是以图像形式存在的文件,而非真正意义上的文本文件,不利于对档案的内容进行引用、检索等。因此,系统创新性地融入了OCR 技术[9-12],OCR技术通过文字特征抽取、比对识别等技术为档案提供了一种新的著录方式,使档案条目通过计算机录入成为可能。档案处理后,工作人员可以直接从OCR后的全文中找到著录项,如题名、文号等,便于后期档案的查询和调阅,从而实现真正的全文检索。
3 面向通用化管理的档案数字化扫描管理系统的设计与实现
3.1 系统架构设计
档案数字化建设过程中存在数据量大、结构复杂、瞬时并发高等问题。为了缓解大数据、高并发带来的系统瓶颈问题,通用化管理的档案数字化扫描管理系统采用了“分布式”的建设思路,将档案管理系统按档案业务分类进行分割拆分成多个子服务器,即数据库分为档案数字化核心数据库(主要包含人员、单位以及角色授权等核心数据)及档案业务数据数据库,根据档案类别将服务拆分成多个子业务档案数字化服务器,实现对系统的分布式分离(比如业务1扫描子系统、业务N扫描子系统、档案数字化管理子系统以及系统基本管理系统)。系统分布式网络拓扑架构图如图1所示。
3.2 系统功能模块设计
针对传统的纸质档案管理模式向档案电子化管理模式的转变,面向通用化管理的档案数字化扫描管理系统主要针对档案管理者。系统基于C/S架构编程语言,采用C#+SQL Server 数据库+WinForm 控件架构,满足了多位管理者的同时性能需求,实现了通用化的档案数据管理、档案数字化扫描录入以及档案查询调阅等档案管理和电子化处理功能,为用户提供了一站式的档案数字化处理和档案管理调阅查询管理服务,以提高档案管理的效率。
1) 系统设置模块:该模块是档案管理数字化平台的基本框架,也是分布式系统结构的核心,实现了档案管理员对系统的基础设置管理,如:用户管理、权限分配以及部门基础字典等基本功能。
2) 档案类型通用标识管理模块:为了实现系统的普适性以及通用化,系统设置了10个通用属性,用户可以自行标注每一类档案的属性标记,实现档案数据结构规整化管理。管理者登录本系统后,可以根据单位档案门类情况,将纸质档案数据根据实际业务需求进行分类,然后在档案通用标识管理模块根据分类情况自定义标注不同类别的档案标识。
3) 档案数据管理模块:该模块主要是基于管理员维护的档案基础数据,可以将纸质档案目录等数据通过系统新增录入、程序导入以及第三方接口对接的方式,实现档案的数字化管理。档案基础数据维护后,用户可以根据档案类别等关键字快速查找,实现用户随时档案快速调阅,快速定位并可以下载电子化扫描的电子文件档案进行本地保存。该模块主要功能包括:档案数据维护、档案数据查询(关键字查询)、查看扫描档案以及下载档案备份等功能。
4) 基于高拍仪的档案扫描和OCR识别处理模块:该模块主要是根据档案电子化扫描的要求实现纸质档案的扫描和档案数据的管理。模块通过基于高拍仪便携办公设备完成纸质档案的扫描,扫描过程借助OCR技术将高拍仪扫描纸质档案实现档案题名及目录的识别提取和档案大小自动裁切。
3.3 系统实现效果
4 结束语
本文针对单位档案管理工作中存在的问题,设计和实现了一种面向通用化管理的档案数字化扫描管理系统。系统设计了档案通用类型标识管理、档案数据管理和查询以及档案扫描管理等模块,实现了档案的通用化管理,提高了档案管理的效率和安全性。本文的研究成果为单位档案数字化管理提供了新的思路和方法,该系统的部署可以满足单位历史纸质档案向数字化管理的转变,对推动数字化档案管理的发展具有重要意义。系统未来将在OCR识别精确度和移动端应用扩展等方面进一步完善,提高系统的稳定性和可扩展性,以满足不同单位的档案数字化需求。