档案部门大数据初探

2014-12-04 12:29钟奕思
办公室业务 2014年16期
关键词:数据量结构化档案馆

文/钟奕思

2010 年,全球数据量跨入了ZB时代,根据国际数据资讯(IDC)公司监测,全球数据量大约每两年翻一番,预计到2020 年,全球将拥有35ZB的数据量,信息数据以惊人的速度爆炸式地增长。同时,信息数据已经渗透到社会生活的方方面面,深刻影响着我们的生活工作乃至国家经济、社会发展,大数据时代已经到来。

一、大数据的概念、内涵

大数据是以目前的工具和信息处理能力无法有效采集、管理、处理和分析的信息或数据集合。一般认为,大数据包括结构化、半结构化数据以及非结构化数据和交互数据。大数据是数字化信息时代的产物。伴随着信息数据爆炸性增长、数据类型增加、信息流动速度增快,人们面临着信息数据处理难度增大的状况。

大数据的特点可用“4V”来描述:(1)Volume(体量),数据量庞大是大数据最明显的特征,数据规模往往达到PB 级。(2)Variety(多样化),大数据包括了结构化、半结构化和非结构化数据以及交互数据,而且以非结构化数据为主;不同类型数据在数据来源、编码方式、数据格式、应用特征等多个方面存在差异。(3)Velocity(速度),大数据快速动态变化,形成流式数据,要求实时处理,快速反应。(4)Vitality(密度),大数据规模庞大、增长速度快,但信息价值密度反而降低,隐藏在海量数据中的有用信息并没有随着数据量的增长相应增长,反而使我们获取有用信息的难度加大。

二、档案部门的大数据

在大数据时代背景下,档案部门、档案管理工作也受到“大数据”洪潮的影响,出现了新变化。档案部门面临着大数据带来的挑战。

(一)档案部门大数据的来源。档案部门保管的数据信息主要来源于两方面:一是档案馆(室)收集的档案资源,包括档案馆(室)接收的电子文件、数码照片、音频、视频,以及纸质档案、传统载体声像档案数字化转换形成的数字资源等。二是档案部门管理档案、开展业务过程中产生的数据,包括档案管理系统数据库文件、备份数据,档案管理系统与各业务系统对接形成的交换数据,智能库房传感器收集到的库房监控数据,档案网站、官方微博数据等。在大数据时代,各种机构在业务活动中产生的数据和信息大量增长,导致最终作为档案保存下来的文件及信息数据相应增多;档案馆(室)收集的档案资源增加,进而导致档案部门在管理活动中产生的信息数据也随之增加。档案部门保管的档案资源和档案管理信息数据增长迅速、数量巨大,这些构成了档案部门的大数据。

(二)档案部门大数据的特征。

1.信息数据量剧增。各机构在业务活动中产生的信息数据急剧增长,导致档案部门收集保管的档案资源快速增加。据统计,2008年,全国各级国家档案馆共保存档案1.93亿卷,较上年增加1769万卷,增幅达10%,而到2011 年,各级国家档案馆馆藏已达3.3亿卷,到2020 年,各级国家档案馆馆藏将达到6 亿多卷。档案数字资源和信息化档案数据增长更是迅速。在“十一五”期间,某特大型企业档案馆在信息化规划项目中统一推广实施档案管理系统,目前已建成的档案目录中心覆盖集团各单位,保存数据量高达400余万卷案卷、4000 余万件档案,馆藏存储量已由GB 向TB 级和PB级转变。随着档案信息化的开展、数字档案馆(室)的建设以及档案信息资源整合,各地各级档案馆(室)保存的档案目录信息和全文数据呈几何级数增长,存储数据量达到海量规模,形成一个巨大的档案资源库。

2.信息数据类型多样化。一方面,就档案部门管理的档案资源而言:传统的档案管理,管理对象以纸质档案为主,档案部门对档案信息的管理也是对档案实体的管理。而在现今大数据时代,档案部门管理的档案类型多样化,不但有传统的纸质档案,还有大量的数字资源。档案部门保管的信息数据范围不仅包括数字资源本身的信息内容,还包括其结构、背景信息、元数据。档案部门保管的档案信息数据范围扩大了。另一方面,从档案部门日常管理、提供服务产生的信息数据而言:随着档案信息化的开展,档案部门日常管理活动形成大量的信息数据,如档案管理系统数据库文件、备份数据,档案管理系统与各业务系统对接形成的交换数据,智能库房传感器收集到的库房监控数据等;档案部门通过网站建设、官方微博等渠道开展网络服务,与利用者进行交互交流,从中搜集到的利用者信息(如利用者的地理位置、搜索历史、搜索时间、浏览记录等数据)也越来越多。档案部门管理的信息数据来源拓宽,类型多样化。而且,档案部门管理的信息数据结构也在逐渐发生变化,非结构化和半结构化数据类型增多。网页、音频、图像和视频等数字资源在档案馆(室)藏中的比重逐渐增加,成为未来馆藏的重要来源。大量增加的利用者信息数据也将在利用服务中发挥重要作用。

3.信息数据流动速度快。以纸质档案为主的传统档案管理中,信息数据的流动往往与纸质档案实体的传递同步,信息数据的流动基本依附于实体,因此信息数据的流动速度受到限制。而在大数据时代,档案信息数据的传播、传递并不依附于载体,尤其对于数字化的档案资源,借助计算机网络传播,信息数据流动速度大大加快,甚至可以实现网络上的实时交互。

4.信息价值密度降低,有用信息获取难度增大。随着档案信息数据急剧增长、类型多样化,隐藏在海量数据中的有用信息却没有随着数据量的增长而相应增长,反而使我们获取有用信息的难度加大。我们感受最为明显的是,随着档案管理系统数据量的增大,在进行档案查询时,需要的信息容易埋没在大量的不需要的数据中,增加了查询的时间,降低检索性能。单一档案馆(室)内保存的档案信息数据格式、编码方式、应用特征等形式多样化,各馆(室)之间更是差异明显,从而形成了大量的异构数据,使得“信息孤岛”问题突出,档案信息数据共享、异构数据信息整合面临困难。档案部门与利用者网络交互产生的大量数据,以非结构化、半结构化的形式存在,如何从中提取出有用的信息、提升档案服务质量,也是我们面临的难题。

三、大数据给档案部门带来的挑战

档案部门收集管理的档案资源以及管理档案、开展业务活动过程中产生的庞大数据信息,构成了档案部门大数据的来源。这些数据信息增长迅速、类型多样化、流动速度加快、价值密度降低的特点和变化,给档案部门在档案保管、鉴定、利用等环节带来了新的挑战。

(一)大数据带来的档案保管压力。与档案信息数据急剧增长伴随而来的是档案保管的压力。目前,不仅传统档案管理会出现“胀库”,即由于库房容量有限导致新增加的档案无法正常存储到库房中,而且数字资源的保存也面临着类似的问题,常常会碰到无法向数据库中增加新的档案数据的情况。近年来,在各级档案工作评估检查中,由于档案库房紧张导致档案未能集中统一管理、整理质量不够规范的问题已时有出现。随着电子文件的广泛应用、数字档案馆(室)建设的逐步推进,各级各类档案馆(室)保管的数字资源急剧增长,存储数据量达到海量规模,对档案信息数据存储设备的存储空间、运算速度提出了更高的要求。伴随着档案管理大数据时代的到来,档案信息数据存储空间的问题日益严峻。

(二)大数据带来的鉴定难题。在大数据时代,档案信息数据总量大,而且增长速度快,尤其是电子文件以指数级的惊人速度增长。虽然我们知道这些浩瀚的信息数据中蕴藏着巨大的“金矿”,但我们想要从中“淘金”比以往针对纸质文件的传统档案鉴定更为困难。一方面,各机构业务活动形成的信息数据增加,在归档保存时,档案人员需要鉴定判断的文件量随之增大。面对着巨量的电子文件,档案人员逐一阅读每一份电子文件的原文恐怕实在是无能为力。而另一方面,大数据时代档案信息数据存储空间紧张,合理准确判断文件的去留显得更为重要。只有把好鉴定这一关,将有保存价值的文件留存下来、不具备保存价值的文件剔除掉,才能保障有限的储存空间用于保存真正具有价值的信息数据,最大限度地发挥档案信息数据存储空间的作用。因此,怎样让有限的存储空间得到更为有效的利用,也对档案人员的鉴定提出了更高的要求。合理、准确、快速地鉴定档案文件、信息数据的存毁,成为档案部门和档案人员在大数据时代面临的严峻挑战。

(三)大数据带来的信息有效利用挑战。档案作为一种原始信息记录,是国家、社会、机构历史的重要见证,在大数据时代,其价值与作用更加凸显。信息的价值在于利用,面对海量的档案信息数据,只有通过开发和利用,才能使档案信息的价值得以体现和发挥。但数据爆炸式增长和数据类型多样化,给档案利用开发带来检索难题和开发困境。

随着机构保存档案数据量的增长,在进行档案查询时,需要的信息容易被淹没在大量不需要的数据中。运用过去传统的档案检索手段,依靠手工著录、卡片检索已经难以实现海量信息检索的要求;即使借助于现代化的档案管理系统,面对海量数据时,检索性能常常急剧下降,容易出现查询时间长、响应速度慢的情况,甚至无法响应。因此,如何在大量的档案中快速而准确地找到所需的信息,是大数据时代档案利用中需要解决的首要问题。

更进一步讲,目前知识管理已经成为档案管理发展的趋势和方向,档案利用者的利用需求已不仅限于数据或文件的利用,更希望能够获得数据背后的信息以及信息蕴藏的知识。因此,档案利用服务也应由提供数据、信息转变为提供知识。然而,知识不是自然生成的,也不会简单地存在于信息集合中,需要经过抽取和挖掘才能展示出来。在传统纸质档案时代,档案数量不多,依靠人工抽取、挖掘知识还可实行,但在大数据时代海量档案存在、非结构化数据、异构数据盛行的状况下,则会变得心有余而力不足。

随着档案网络服务、数字档案馆、社交网络等兴起,档案部门收集到的利用者个人信息、检索历史、浏览记录等数据将越来越多。通过对这些数据的分析,档案部门可以更好地了解利用者偏好,推测其利用需求,这对于档案部门以利用者需求为导向、提高服务质量具有重要意义。但这些数据信息大多以非结构化和半结构化数据形式存在。相对于结构化数据,非机构化、半结构化数据的开发挖掘难度更大。要对利用者数据进行分析挖掘,档案部门需要足够的技术支持。而且,对于这些数据的应用,还会涉及到利用者的隐私问题,例如个人数据能够保存多久,保存后被用于何种用途,怎样保证个人数据不会泄露等,这些都是档案部门需要考虑和注意的问题。

因此,如何合理利用大数据,分析推测利用者需求,在海量数据中抽取和挖掘有用的信息和知识,整合异构信息,共享馆际间资源,有针对性地为利用者提供深层次的信息和知识,是大数据时代档案利用服务工作需要努力解决的问题。

档案管理迎来了大数据时代。档案部门保管和保存的信息数据数量剧增、类型多样化、流动速度加快、有用信息提取难度增大,这些给档案工作带来挑战。档案部门必须增强信息意识,重视蕴藏在海量档案信息数据中的“宝藏”,积极采取有效策略,做好基础平台建设,重视技术研发与应用,提高档案信息数据有效保存、快速鉴定、合理开发的能力,应对大数据给档案部门带来的挑战,让档案资源和档案工作在大数据时代实现价值,焕发活力。

猜你喜欢
数据量结构化档案馆
太原市档案馆牵手百年胡氏荣茶共寻文化脉络
基于大数据量的初至层析成像算法优化
改进的非结构化对等网络动态搜索算法
云南省档案馆馆藏《东巴经》
深度学习的单元结构化教学实践与思考
高刷新率不容易显示器需求与接口标准带宽
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
when与while档案馆
电力营销数据分析中的数据集成技术研究
固定资产管理系统对物流管理的促进和发展