大数据对档案信息采集和管理工作的影响初探

2020-01-01 09:14
数字通信世界 2020年8期
关键词:结构化档案管理时代

李 清

(中国船级社广州分社,广东 广州 510000)

1 大数据定义与特征

(1)数据总量大。在进入大数据时代之前,数据量达到的最大级别通常为TB,而今日大数据的数据总量可以达到ZB级别,即10亿TB,1万亿GB。规模庞大的不仅仅是数据总量,还有每年新增的数据量,预计到今年年底,全球数据总量预计可以达到50.5ZB。

(2)数据种类多。进入大数据时代,数据的类型也已经变得多样,而不再是单一的,但是综合分析后可以将所有数据类型分为三大类:即结构化数据,非结构化数据和半结构化数据。结构化数据是指存储在数据库里,可以用二维表结构来逻辑表达实现的行数据,反之不方便用数据库二维逻辑表来表达实现的数据就是非结构化数据,事实上非机构化数据是现在我们日常生产生活当中最常见到的数据类型,它包括了所有格式的办公文档、文本、XML、各类报表、图像、音视频信息等。半结构化数据,就是介于结构化数据和非结构化数据之间的数据,例如HTML文档就是一种典型的半结构化数据。数据类型的多样化向数据处理技术人员提出了同时高效处理多种不同类型的大数据的要求。

(3)价值密度低。数据的价值密度可以解释为单位数据所产生的有价值的信息量。而大数据的价值密度低的特征,通俗来说就是在一组数量规模极大的数据当中,对于用户而言真正有价值的数据或者用户真正感兴趣的数据只占其中极小的一部分。这个特征尤其在非结构化数据上体现得最为明显。

(4)处理速度快。大数据时代虽然数据总量规模大幅提速,数据类型多样复杂,然而对于数据处理时间的要求却反而更高了,这是因为在大数据处理的数据采集过程当中,大量原始数据都是有时效性的,这样一来就要求数据处理后得到的有效信息和分析结果也同样具有时效性。大数据时代数据处理工作的运行时间往往是以秒计算的,这也使得数据处理技术人员必须开拓全新的技术架构和路线,才能在指定时间内,有效地对采集的大量信息进行处理并反馈有效信息。

(5)复杂性。基于前面的四个特征,大数据的处理与分析方法和工具也必定是一个高度复杂的系统。

2 大数据对档案建立和管理工作的影响

大数据时代的到来,大数据和大数据技术在社会全行业的广泛应用,自然也引起了档案管理业界的高度关注和思考。事实上从前文所述的数据类型看,档案显然是属于非结构性数据的一种。因此按照前文所述大数据的定义,当档案所涉及的资料量规模巨大且结构复杂多样,以至于无法通过目前主流软件工作,在合理时间内达到撷取、管理、处理、并整理成为帮助本单位决策更积极目的的资讯时,档案这一非结构性数据集合就理所应当地成为了大数据,这也就是档案大数据这一概念的由来。

在档案大数据概念之上,我们还可以提出“大档案”观念。关于“大档案”观的内涵,有以下几种种观点,一种观点认为“大档案”观要求我们将社会产生的一切具有保存和利用价值的信息数据记录列入档案中,概括来说就是“一切社会信息皆可归档”;另一种观点认为所谓“大档案”其实是档案这一概念的扩大化,认为所有信息记录都能成为档案,因为所有信息记录都可以产生巨大的价值,一些曾经因其单位信息价值过低而无法作为“档案”保存的信息,在大数据时代中其价值将得以充分发挥,因为此时全部信息将被看作一个不可分割的整体。如此这些信息就完全具有了档案的属性。无论持哪一种观点,在大数据时代来临之前,普通民众对于档案的印象基本就是政府的人事和文书信息记录,这种“大档案”观念是根本没有人能想象出来的。进入了大数据时代之后,一方面大数据采集、处理、分析、应用技术给予了这一观念可行性的土壤;另一方面,新时期档案建立和管理工作要求更贴近广大民众日常生活需求,这就要求档案管理机构需要收集社会上所有有价值的各种类型的数据,真正做到包罗万象,然后将这些数据统一入档,并实施高度智能化,人性化的系统管理。

随着大数据时代的到来,传统档案信息数据发展成为档案大数据已经是大势所趋,这为这一时期档案信息化建设工作提出了全新的要求和挑战。另一方面,大数据技术应用又为档案信息化建设工作提供了强劲的技术创新动力。

3 大数据技术在档案信息领域的具体应用

3.1 大数据采集技术在档案信息采集工作上的应用

3.1.1 大数据时代档案信息采集来源的变化

一方面,中国目前是全球网民数量最多的国家,网民人数达8.54亿,网站数量达518万。如此庞大的网络人口基数使得在互联网产生的所有类型的数据总量长期持续暴涨,从而使得互联网上数据成为我国档案信息的主要来源之一。另一方面,档案信息的来源开始更多的关注广大民众日常生活的民生领域,这使得包括社交通信,消费信息,出行纪录等以往不会归入档案的琐细信息开始为档案管理人员所注意,并体现了档案服务正转变为真正面向社会民众的服务的趋势。

3.1.2 大数据时代档案信息采集内容的变化

大数据及大数据技术对档案信息采集工作的影响不仅限于采集来源,还包括采集得到的信息内容。具体而言大数据及其技术首先改变的是档案信息采集内容的容量,2018年,全国各级国家档案馆馆藏数达7.5亿卷。加之全国各级各类档案馆的扩改建工程项目目前正在逐步完工,档案馆馆藏容量势必大大增加,档案馆必然要全面完成存量数字化、增量电子化任务,以满足储存高达PB规模级别的海量信息。其次大数据及其技术还改变的是档案信息采集内容的结构类型。传统的档案信息采集工作,采集到的信息主要形式有文档,图片,音视频信息等,进入大数据时代,由于档案信息管理服务开始进入多个民生服务领域,社交应用软件即时通信等在内的新兴信息类型都成为了可以归入档案的有价值信息类型。

3.1.3 大数据时代档案信息来源采集方式的变化

此外互联网产生的数据除了总量大,还有更新快,传播广,时效性强等一系列特点,这些特点促使档案业务人员在互联网收集信息数据时采取高时效性的获取方式,也就是运用网站API,网络爬虫等技术的网络数据实时捕捉方法。

3.2 大数据存储与分析技术在档案信息管理工作上的应用

3.2.1 大数据存储技术在档案信息管理工作上的应用

进入大数据时代,和其他大数据一样,档案大数据整逐年呈幂级数增长,传统的档案数据储存设备已经完全无法适应大数据时代的需求,档案管理界与社会其他行业一样,亟需一种安全稳定高效的大总量数据的长期保存和实时迁移途径。目前数据存储环境虚拟化已经成为现实。所谓数据存储虚拟化,就是将原有的存储服务器进行软件虚拟化,然后将其划分为若干个独立存储服务空间,这样在同一台服务器上的不同的存储服务空间可以同时为不同对象提供不同类型数据存储服务,它对非结构化数据和半结构化数据是最佳存储方式。档案管理机构在为档案数据存储在选择存储方式时,要根据服务器类型数量和要处理的数据对象两个重要因素,选择适合的开放系统存储方式。

3.2.2 大数据分析技术在档案信息管理工作中的应用

在大数据时代,面对庞大的数据,尤其是其中绝大部分的非结构化和半结构化数据,如果没有从中提取高价值信息的手段,无法对数据进行有效的开发利用,那么数据的价值往往得不到实现。在这种情况下,大数据分析就是这么一种通过对数据信息进行高效精准的定量分析从分提取信息蕴含的价值的手段。对于档案管理服务机构而言,如果能够运用好大数据分析这个手段,档案管理机构还可以利用分析结果,为政府机关和社会企业提供决策意见咨询,帮助提高政府的行政效率和企业的经济效益,从而提高社会整体效益。

由于大数据的各种特征,档案管理者在维护档案数据时,数据会时常出现不一致、不精确、不完整、过时等数据质量问题。因此基于数据生命周期对档案数据资源进行数据质量管理是极具必要性的。数据质量管理通常分为数据预处理、数据存储、数据使用三个阶段。在数据预处理阶段,通过对数据实行萃取(Extract)、转换(Transform)、加载(Load)至目的端这三个预处理过程(简称ETL),就可以达到数据清洗和格式化的目的。而在数据存储和使用阶段,为满足数据存储与管理的要求,推荐使用拥有吞吐量高、可拓展性、高并发读写、实时性等特点的非关系数据库。

4 结束语

档案能够反映某一时期一个国家的社会全貌,是无价的民族和社会财富。大数据时代的到来,一方面为档案服务全面走向大众提供了一个绝佳的契机,另一方面无疑给档案管理工作提出了更高的技术与体系革新的要求。大数据时代档案管理工作将会越来越复杂,档案管理机构在日常数据管理维护工作中必然还会遇到许多层出不穷的新问题。这既需要国家和政府加强对档案建设的重视和支持,又需要各档案管理机构和档案事业工作者砥砺奋进,积极进取,有所创新。

猜你喜欢
结构化档案管理时代
事业单位档案管理的难点及对策实践
改进的非结构化对等网络动态搜索算法
深度学习的单元结构化教学实践与思考
如何规范档案管理
结构化面试方法在研究生复试中的应用
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
档案管理与企业内部控制关系的思考
e时代
e时代
e时代