大数据服务档案文化建设的问题与对策

2018-01-15 23:13尹哲
北京档案 2018年12期
关键词:数据服务数据库数字

尹哲

摘要:在大数据时代的影响之下,各行各业都受到严重的冲击,发生了翻天覆地的改变,档案工作也概莫能外。本文总结了大数据服务档案文化建设的必要性,并分析了档案大数据在服务档案文化建设中存在的主要问题及其原因,提出了大数据服务档案文化建设的三点对策,对未来通过大数据技术推动档案文化建设创新发展做出了预期。

关键词:大数据档案文化建设专题数据库

随着大数据时代的到来,各地档案部门和专家学者纷纷加入到大数据研究的队伍中来,档案大数据是大数据理念和技术与档案工作各个领域的深度融合。在新历史阶段提出的发展要求下,各级档案馆均重视档案文化建设,对如何利用大数据服务好档案文化建设提出了更高的要求。从目前来看,档案大数据虽然为档案文化建设提供了有力的支持,但在实际工作过程中仍存在许多问题。

一、大数据服务档案文化建设的必要性

(一)大数据是档案文化建设的源泉和基础

档案文化建设是档案事业在新时代新阶段所面临的一项重要工作。档案具备记录历史传承文化的优势,我们可以依托馆藏档案数字资源,重新整理历史文化发展脉络,充分挖掘档案背后的文化内涵。随着互联网以及大数据相关技术的发展,大数据正逐渐成为档案文化建设信息来源的重要组成部分。

(二)大数据是档案文化建设的重要展现形式

档案数字资源中所包含的照片、音视频等数字化形式正在广泛地应用于档案文化建设中,并通过互联网门户网站、政务微博、政务微信等多种方式展现文化建设的成果。

(三)大数据是档案文化建设重要的继承方式

开展档案文化建设过程中所形成的各类档案及建设成果本身,又成为档案大数据的一部分。它既然成为档案数字资源,就必须得到长期有效的保存,保证其始终处于一种可供利用的状态。

二、大数据服务档案文化建设存在的问题及成因

笔者在近年来的实际工作中发现,档案数字资源虽然在档案文化建设中起到了巨大作用,但是也存在着一些问题。总体而言,这些问题的出现,是多年来档案馆利用信息化手段对档案资源开发利用不足导致的,具体表现在以下三个方面。

(一)档案数字资源缺乏

随着各地档案数字化工作的开展,各级国家档案馆中各门类档案数字化率迅速提升,个别档案馆已经实现馆藏档案全部数字化的目标,但在实际利用过程中仍然不能满足文化建设的全部需求,出现了数据虽多但不知道如何利用的现象。这主要表现在以下三点:一是档案数字资源形式多以纸质档案数字化副本为主,照片和音像档案数字化副本由于馆藏量少或开展难度相对较高而相对缺乏;二是档案馆馆际之间档案数字资源缺乏有效共享;三是文书、照片、录音、录像等档案数据资源之间的关联程度较低,甚至出现因为不处于同一系统中而导致数据无法及时、有效地被检索利用的情况。

(二)档案数字资源缺少专题和精品

各级档案馆内馆藏数字资源多以全宗为单位组织,目录数据库多按照文书、照片、音视频、实物等门类进行建设。而档案文化建设的主题性非常强,普遍缺少一些专题类数据库以供编研或展陈部门使用,有时即使抽取了部分内容形成专题,但由于题名著录不规范或错误等原因,造成可利用率降低。

(三)档案数据形式单一

从档案数据中发掘对文化建设有价值的素材,通常采取的方法是通过目录数据库对档案题名进行检索,从中发现可以利用的内容。但是这种仅通过档案“题名”字段进行检索的方法,存在着较大的局限性:一方面存在很多档案的题名著录不规范,甚至有错误的现象,不能很好地揭示档案的内容;另一方面,数据检索的范围,往往也只限于对结构化数据的检索,而对半结构化、非结构化数据的检索与深入挖掘很少。

三、大数据服务档案文化建设的对策

(一)丰富数字资源,开展资源共享

首先,各级档案部门应该进一步加强对档案数字资源建设工作的重视,实现统一收集、集中管理、分类处理、定期维护,不断完善数字资源体系。档案数字资源门类需要更加丰富,不仅要对纸质档案开展数字化工作,而且对照片、音视频档案也应加快数字化步伐,同时还要建立各门类档案数字化成果的关联关系,以方便查阅和利用。档案部门应突破传统的不同媒介采用不同管理系统的限制,实现集中统一的数字档案馆系统;规范档案数据库及音视频、图片等非结构化数据的标准体系,制定统一的数据共享机制,以便于档案资源的开发和利用。

其次,各級档案部门应该探索建立、共享档案数字资源库。档案部门可以突破地域的局限,例如以省级或市级档案馆为单位,构建数据集中、格式规范、可供共享的档案数字资源库,集成各档案馆馆藏数据资源建立档案合集,突破时空和地域界限,达到信息共享的目的。正如中国人民大学冯惠玲教授提出的构建“以数字资源为主体,以文本、图片、音频、视频等为形式,为中华民族集体记忆的建构和传承提供文献支撑的‘中国记忆数字资源库”,是时代赋予我们的目标与使

命。[1]

最后,利用云计算平台和处理技术构建档案数据资源网,既可以用于档案数据的在线实时接收,也可以对数据进行离线和非实时性处理,成为各类档案部门提供服务的平台。当前我国信息化发展战略提出的加快推行电子政务,加强信息资源的开发利用,建设先进的网络文化,为档案大数据应用提供了重要的发展机遇。构建档案云计算网络必将是搭建档案大数据应用平台的基础工作之一。

(二)构建档案专题数据库

档案专题数据库是基于各类档案资源,通过数据采集,按照特定专题内容通过分析、筛选、加工、整理而成的,具有特定利用价值的各类档案数据集合,是系统性的档案数字资源综合开发成果,在提供档案利用方面具有较强的针对性和实用性。[2]构建专题数据库,有助于更好地管理各类档案信息资源,有效地发挥对于信息的组织和管理能力,可以为档案文化建设提供强有力的基础保障。

传统的档案数据库信息通常是分散、凌乱、不规范的,针对一些具体的管理需求和编研需求,我们可以对这些信息资源进行数据分析和重组,按照某种联系归类排序,转化为系统的、有序的、深层次的档案信息。我们可以针对不同的专题数据库制定规范的数据库字段和数据格式标准,对于收集到的不同类型的数据进行规范化处理,对内容进行筛查辨析,以确保数据的可用性、规范性和可共享性。专题数据库建设不仅要包含案卷级、文件级的目录数据库建设,还要开发档案全文数据库,涵盖文本、图形图像、实物和多媒体等多种形式。

各地档案部门可以根据各自实际情况,搭建各自具有特点的专题数据库,以便于深入挖掘档案资源。专题数据库是对数据进行清理、整合、集成并存储,按照不同门类构建的数据库,因此可以减少数据查询和访问的时间,提高数据检索速度。通过专题数据库的形式对信息进行整合,可以更加完整和准确地揭示主题。专题数据库在来源上,可以更加广泛,不仅局限于馆藏,还可以通过数据挖掘等技术补充发掘相关的数据,满足开发利用的需求。

(三)深入挖掘档案数字资源

大数据处理的关键是对数据分析整合,对于档案数据的深入挖掘和充分利用是档案大数据未来发展的核心,也是各级档案部门服务创新面临的挑战。[3]我们可以深入挖掘档案数字资源,提取有用的信息内容,在查询档案信息时进行与之相关联的内容提取和推荐,例如在查询某著名抗戰将领的档案信息时,可以通过数据分析挖掘与其相关的革命历史专题信息、抗战专题信息。另外,我们依靠自然语言处理、深度学习等统计文本挖掘算法,在用户提出查询需求时,使系统自动从档案信息资源中捕获相关联的信息,通过大数据运算、分析、挖掘,实现数据自动组织、自动推荐的目标。

我们利用大数据技术除了可以掌握用户历史上和正在进行的数据检索需求,还可以对用户未来的数据需求进行分析预测,深度挖掘数据内在关联,促进资源整合,实现档案数据资源深层次的开发利用服务。我们可以借助大数据技术手段探究用户的行为,有效发现用户的潜在诉求,基于用户行为分析并进行个性化推送。[4]例如,针对不同的用户,产生动态的推荐链接列表,甚至建立以用户名为单位的个性化数据库,采用“收藏夹”或“档案篮”的形式放入用户想要的信息、挖掘分析结果。

四、结语

新时代的档案文化建设要求我们要做好各类档案资源的开发利用,推出有参考价值、有档案特色的文化产品。我们应加强对档案资源的深度开发,通过大数据技术科学整合、加工、编研,由简单检索向专题研究提升,更好地为档案文化建设服务;积极探索“互联网+”时代服务管理模式,对传统的档案文化建设方式进行改进,推动档案服务方式向智能化、精细化、网络化转型。随着档案管理创新的不断推进,数据挖掘、数据分析技术将在档案管理中得到更加深入地运用,档案大数据技术将真正落实到档案文化建设的各个方面,真正实现档案事业的“业务提档、服务升级、战略转型”。

参考文献:

[1]冯惠玲.档案记忆观、资源观与“中国记忆”数字资源建设[J].档案学通讯,2012(3):4-8.

[2]周勇,吴筱贞.基于个性服务的高校档案专题数据库开发研究[J].档案天地,2014(10):40-42.

[3]许桂清.大数据背景下的档案行业发展[J].中国档案,2015(6):70-71.

[4]张文元,张倩.大数据技术与档案数据挖掘[J].档案管理,2016(2):33-35.

作者单位:北京市档案局(馆)

猜你喜欢
数据服务数据库数字
地理空间大数据服务自然资源调查监测的方向分析
如何运用税收大数据服务供给侧结构性改革
基于频繁子图挖掘的数据服务Mashup推荐
一种基于数据服务超链进行情景数据集成的方法*
数字变变变