颜丙通
(苏州市职业大学 图书馆,江苏 苏州 215104)
在新发展理念的指引下,以满足各类用户需求为中心,提供全面、系统的基本服务和特色化、精准化的增值服务为目标的“互联网+档案服务”正成为人们开发与利用档案的新模式并快速崛起。自2002年11月《全国档案信息化建设实施纲要》实施起,全国档案信息化建设先后经历了前期准备、规划布局、正式启动和全面实施四个重要阶段。在此期间,档案信息化建设在标准制定、应用系统开发、服务平台搭建、资源建设和安全管理等方面都取得了较大的进展,但同时也存在着资源共享度不高、线上事务办理能力不足等突出问题[1-2]。深究内因,档案信息资源的融合水平低是导致这一现象的重要根源。
档案应用系统中的数据主要有三种形式:①结构化数据。以关系型数据库表示和存储的二维形式数据,如dBase、FoxPro、Oracle、Access、SQL Server等数据库文件,通常包括DBF、DBA、MDB、NSF等格式。②半结构化数据。介于结构化与非结构化数据之间的一种数据类型,以树、图形式表示和存储的自描述数据,如网页、电子邮件等,通常包括XML、HTML、JSON等格式。③非结构化数据。无固定结构的数据,如文档、图片、视频、音频等,通常包括TXT、DOC、XLS、PDF、TIFF、JPEG、BMP、AVI等格式[3]。
数据质量是评价档案信息资源融合水平的决定性因素。从数据管理的全流程分析,无论是档案数据采集、著录、导入、审核、校验,还是整合、开发、利用,都在一定程度上影响档案系统的数据质量。从实践来看,档案数据著录不规范、电子文件证据价值难以认定、档案数字化副本质量不高等问题普遍存在,导致档案数据质量总体偏低,为档案信息资源融合埋下了隐患。
数据的多源性与非均衡性,以及应用系统中目录数据库结构和数据交换格式的差异性,决定了档案信息资源分布的离散化,主要表现为同一档案应用系统中数据间的分类逻辑性不强,跨平台档案应用系统中数据间的内容关联度不高,档案数据总体上呈现低耦合的“碎片化”分布。
数据的同质化是档案信息资源融合需要长期克服的难点。客观上,一方面国家对各类型、载体的应归档文件已有明确的业务规范和工作标准,各立档单位必须严格执行并接受指导和监督;另一方面现行的业务规范或工作标准间不乏相互重叠的归档内容,如城建档案馆与建设单位的建设项目档案馆藏数据重叠,不同立档单位间相同内容不同保管期限的档案数据重叠等。主观上,档案工作者在工作能力、知识背景,以及对档案业务的综合把握能力上存在差异,归档后形成的数据出现不同程度的同质化现象。
信息资源是档案工作的生命线,也是实现档案信息资源融合的根基。档案信息资源供给方应切实巩固和加强档案信息资源的总体优势,着眼于社会发展和用户需求,以供给侧结构性改革为主线,以资源建设为中心,强化职能定位,充分挖掘潜能,不断创新工作方式和服务理念,从而为社会各方面提供多元化、精准化的服务,保持持久的生命力和竞争优势。
信息化建设和资源开发是档案信息资源融合的关键技术路线,其中质量控制和数据挖掘是重中之重。一方面政府要围绕档案信息化、标准化和规范化建设,统筹解决档案信息资源的差异化分布;另一方面政府要开展档案信息资源规划和数据挖掘,优化资源分布图谱,探索“大数据”背景下档案信息资源智能索引与数字化开发的可行路径,提升档案工作者对资源的整体认识水平和综合开发能力。
集成管控和知识协同是实现档案信息资源融合共享的必由之路。档案信息资源融合应以档案应用集成系统为基础实现资源的集成管控,借助分布式信息交互网络服务平台,面向用户多元化、深层次需求,促进档案知识传播与转化,构建“互联网+”背景下档案知识协同的立体化应用场景,并加快由被动型、“点到点”、线状单维的信息服务向主动型、“面到面”、立体多维的知识服务转型升级。
根据总体目标定位,本研究从数据质量控制、信息资源规划、系统集成管控、知识协同共享、安全风险防控五个方面对档案信息资源融合进行功能设计。档案信息资源融合策略模型如图1所示。
档案信息资源的源头质量控制主要有以下五点:一是加强电子文件的采集、传输、验证与存储的管理,开展存量与新增档案资源的规范化数据著录,做好入馆数据的审核与质量校验;二是根据《数字档案馆建设指南》《企业数字档案馆(室)建设指南》等文件开展规范化建设,加快档案信息化专项工作进程;三是在信息化过程中,适时创建基于全文内容识别技术的档案信息资源基础数据库,形成档案“大数据”的资源支撑;四是在全国范围内统一目录数据库结构和数据交换格式技术标准,制订数据异构、低质、离散、同质背景下档案信息资源质量控制的系统解决方案;五是综合运用内容评估法、上下文评估法、评分评估法[4],建立数据审核校验机制和质量评估体系。
图1 档案信息资源融合策略模型
信息资源规划(information resource planning,IRP)的目的是通过信息流的畅通和信息资源的高效利用,向用户提供便捷、精准的公共信息服务,充分保障公民的文化权[5],而开展深层次的信息挖掘是达成档案信息资源规划愿景的有效举措。因此,档案信息资源融合应遵循客户关系管理(customer relationship management,CRM)理念,以IRP为指引,借助数据挖掘技术创建“需求——资源”间的关联对应关系,具体可从以下两方面着手:一是以信息化建设为抓手,深刻把握档案信息资源的专业门类、内容成分、主题分布、档案数量、价值形态等社会档案馆藏结构特征,建立健全档案信息资源基础数据库;二是做好信息重构与整合,引入语义网、决策树、神经网络等数据挖掘技术[6],创建资源间的逻辑关联和路径指引,开展主题、专题、特色等档案信息资源库建设,形成网络化、分布式的资源分布图谱,有效地解决资源的差异性和非均衡性,削弱“资源禀赋”带来的数据孤立、信息迟滞、运转低效等弊端。
系统集成的基本原理是在信息系统之间建立数据通道,实现不同信息系统之间的数据调用和相关数据同步[7]。档案应用系统集成平台通过业务流程重组、技术支撑架构、标准规范设计、管理运维措施,促进档案应用系统的集成管控,实现跨平台、跨系统的档案信息资源互通。档案应用系统集成管控图如图2所示。
由图2可知,档案应用系统集成平台可分为四个单元:①业务流程重组单元。该单元以用户需求为中心,分析梳理档案应用系统内各类资源支持的业务功能(职能),开展流程抽取和流程聚类,通过各业务流程间和流程内部的紧密协作,对面向线状单维的“点到点”单一功能需求与服务模式进行重新设计,以立体多维的“面到面”多元化功能需求与服务模式为导向,实施流程重组与优化。②技术支撑架构单元。该单元明确需求用户、利用服务、业务模块、流程集成、数据管理等子系统的技术实施方案和技术指标体系。③标准规范设计单元。该单元以档案应用系统中的信息资源为对象,明确数据模型、数据格式、数据类型、数据字段、数据接口的通用规则和方法,制定基于全国统一的目录数据库结构和数据交换格式标准。④管理运维措施单元。该单元统筹建立档案应用系统集成平台的管理机制、运行机制和维护机制。
图2 档案应用系统集成管控图
深化“放管服”,推进知识协同可从以下三方面着手:一是管理上要求各参与方理顺职能分工,明确岗位权责,优化工作流程;二是业务上要求档案工作者做好信息资源的保管、开发等工作;三是服务上要求借助档案“大数据”和云平台建设,推进专题、特色、主题、定题等档案知识库建设,以资源智能化匹配用户精准需求为技术手段,以服务满意度提升为绩效导向,构建基于信息感知、网络传输、服务交互的智慧档案馆[8]。
信息资源及其应用系统的安全运行是实现档案信息资源融合共享的重要保障。防范安全风险的主要措施如下:①建立健全信息安全管理制度,规划实施信息安全技术保障,完善信息安全基础设施;②加强档案信息化和电子文件安全管理制度建设,对照信息安全等级保护的相关要求[9],从物理安全、技术安全、管理安全出发,采用相应的安全保障技术方法(容灾备份、数据加密、权限控制等)[10];③配备必要的安全运行设施,全方位保障电子文件在捕获、存储、加工、保管和开发过程中档案信息资源的真实性、完整性和可靠性。
档案信息资源来源的多向性、质量的规范性、规划的科学性、挖掘的精准性、整合的复杂性、系统集成的交互性、运行的安全性等因素给资源融合工作带来了严峻挑战,这就要求档案工作者全方位提升自身能力,更多承担信息管理员、审核员、规划师和知识提供者的时代职责。同时,随着“智慧城市”“智慧政府”概念的提出[11],档案人员要抢抓机遇、勇立潮头、敢于担当,为促进政府综合信息服务能力提升贡献“档案智慧”。