胡潇潇
(山东行政学院组织人事处,济南 250014)
大数据时代下高校档案管理实施策略研究
胡潇潇
(山东行政学院组织人事处,济南250014)
大数据时代的到来,给高等院校档案信息管理带来了巨大的机遇和挑战。依据大数据技术,分析高校档案信息管理的现状,阐述大数据技术的基本特点和高校在档案管理方面利用大数据技术对档案进行信息的收集、整理以及数据挖掘的策略,建立以大数据、云存储技术为基础的高校档案信息管理中心的实施方案,探讨高校档案信息管理利用大数据技术的前景和发展方向。
大数据;档案管理;云存储;档案信息管理中心
随着信息时代的迅速发展,人们的生活和思维方式伴随着大数据时代的到来而改变着。近年来,随着社交网络、物联网、移动互联网、云计算等技术的发展而产生了大数据这个新的科技名词,大数据在学术、商业、科技等许多领域都得到了广泛的应用。面对当下大数据技术的应用,高等院校档案信息管理工作如何与“大数据”有机结合,大大提升档案的利用价值,为工作提供更多更好的信息和方便,是值得我们研究的一个重要课题。
“大数据(Big Data)”是由IT行业首先引发的网络技术革命,它的概念是由美国的麦肯锡公司最先提出来的,美国计算机研究机构Garther认为“大数据”的定义应为以虚拟化、分布式的海量存储技术为依托,实现信息的实时撷取、管理、处理的新型信息技术。根据Garther预测,大数据将在2020年成为现代信息技术的引领者,全世界的大数据容量将达到35ZB~40ZB。大数据技术不但可以存储、处理结构型与关系型信息,还可以存储非结构型与非关系型信息,并且传输速度更快、使用价值更高。大数据最主要的特点是4V特性,首先是数据量(Volumes)大,数据量远远超过了传统意义上的数据库,达到了PB量级;其次是指数据类别(Variety)多样,和传统意义的结构化数据不同,大数据来自多种数据源,包括音频、视频、图片、网页等的结构化数据、非结构化数据和半结构化数据;再是数据处理速度(Velocity)快,大数据使用云计算的手段来快速处理海量的信息,与传统的数据管理相比,最显著的区别在于可以实时提取需要的数据信息,实现高效、实用、便捷和共享;最后是数据真实性(Veracity)高,由于大数据的数据源往往是来源于最原始的业务活动,因此它受人为干扰的因素就比传统的结构化数据小得多,其真实性相对来说就比较高,更有利用的价值。
大数据时代的到来,影响并改变着我们的世界,有学者对大数据与档案管理做过系统的研究,提出档案馆需要融入智慧城市,需要大数据技术的支持,档案工作已不能满足于纸质的工作,需要进一步引进电子化、数字化程序,从而掌握数据背后的信息处理和数据储存的知识;还有学者虽指出大数据使档案管理面临从纸质化转为数字化的挑战,但都没有涉及具体的实施意见。本文将大数据与高等院校档案信息管理工作相结合,针对档案数据的存储与备份,从通过大数据进行全过程控制、构建新的档案收集、对档案信息数字化管理建立新平台的建议等方面,结合工作实际,将诸多观点综合提炼,对高等院校档案数据信息管理工作作了进一步的探究与思考。
(一)档案数据信息量巨大,查找利用难
在大数据时代背景下,高等院校里的各项工作时时刻刻都在产生着大量的数据信息,包括图片数据、网页数据、视频数据、音频数据、文本文件,等等。这些都属于档案管理的数据信息收集范围,信息量巨大。然而各个高等院校现在使用的档案管理信息系统多数为C/S或B/S的单一服务器系统架构形式,最多能做磁带或者光盘的备份。随着档案信息资源数据存储量的不断增大,如果在不引入云存储技术或者服务器集群的前提下,就可能引起磁盘物理存储容量不足,从而导致档案信息数据库的崩溃。面临这些巨量且复杂的数据,如何进行高效的管理是一个难题,我们越来越认识到对所产生的大量数据进行有效、高质量管理的重要性、迫切性和必要性,而档案信息数字化管理尤其重要。随着档案数量的不断增多,在查找、利用中很难实现需求的即时性、多样化和高效化。因此,在了解目前档案管理现状的同时,发现档案管理所存在的问题,把大数据充分地利用到工作中,实现最佳的工作方法和效果。
(二)档案数据多源异构,系统处理难
高等院校内部的档案资源数据来源广泛,种类繁杂,包含了高校内部的教学、科研、后勤等日常活动诸多业务,各部门的业务不同,产生的档案数据信息也各不相同。据相关资料记载,2012年以来,像表格、文档、音频、视频、网页等这种非机构化的电子文件所产生的数据信息,在整个校园网数据信息中,占85%以上。在纸质档案时期,所有信息是以“份”、“卷”等进行管理,对存储的地点、环境、空间都有要求,查询材料也有局限性,由于档案材料纸质管理时代的不稳定性,会出现部分资料不能有效保存,进而导致查档时遇到困难,耽误正常工作。随着时代的变迁,档案管理慢慢由纸质进化到数字管理,所有格式不同、内容各异的纸质信息都逐步转换成数据信息,这每一份数据信息都是一个重要的数据源,而且各个数据源的结构也不尽相同,构成了档案数据多源异构的现象,而现有正在使用的档案管理系统在处理这些不同数据时就显得力不从心。
(三)档案数据需求多样化,工作管理难
在大数据的引领下,高等院校各部门、各业务系统,既是档案数据信息的生产者,也是档案数据信息的使用者,都在利用档案数据信息来指导、规划、管理教学、科研、校园文化等各个方面的工作。使用者的不尽相同,对各种类型档案材料的需求也不尽相同,而现有档案管理体系已经不能满足当前工作的需求。对于这种多样化的需求,需要建立一个高科技平台做支撑,而大数据时代就为高等院校多样化的档案管理提供了一个新平台,使传统纸质档案文件中的“卷、宗”管理升级到数字档案下的“关键词、对象、字段”的精细管理,让传统的纸质档案管理发生翻天覆地的变化,使管理的手段不断创新、业务不断丰富。
(一)建立高校档案信息管理中心,设置系统总体架构
如何利用大数据信息量巨大、处理快捷、数据类型多样的特性,与我们传统的档案管理工作有机结合是一个重要课题。在大数据技术支持下,对还在使用纸质管理的高校档案信息进行重新规划,建设以大数据、云存储技术为支撑的高校档案信息管理中心,是当前最主要和最迫切的任务。档案信息管理中心是档案数据处理加工和数据分析应用的中心,在总体框架建设上要依托内外网隔离的网络架构,构建资源整合、互联互通、资源共享的统一档案数据中心资源库,构建完善的底层支撑平台。系统设计按一个基础支撑环境、两个保障体系、五个核心数据库、四大应用系统和一个顶层综合平台的架构进行(系统总体架构图见图1)。
基础支撑环境为高校档案信息管理中心建设和部署提供基础设置,包括机房运行环境、校园网、互联网、移动网络等;档案标准规范体系是建立档案信息管理中心的基础,大数据的数据格式、来源杂乱无章,如何提取、挖掘出有用的信息为我所用,必须依据一定的规则和规范进行数据清洗和提取,因此建立一套档案标准规范体系是我们档案信息管理中心的前提;档案信息安全体系则是高校档案信息管理中心建设的安全基础和重要保证。
核心数据库包括元数据库、原始数据库、综合应用数据库、主题专题数据库以及共享发布数据库,通过合理规划数据库,对上层应用提供持续的数据服务支撑,同时还满足高并发处理的性能需求。
档案数据应用系统是基础性的应用系统,主要包括档案数据云服务系统、数据决策支持系统、综合分析系统和档案数据查询系统四个方面。
顶层综合平台是面向院校各部门、各个业务系统、各用户提供综合性档案信息数据服务的高级应用系统,包括智能门户系统和移动应用服务系统。
(二)规范高校档案信息管理中心业务流程
如图2所示,高校档案信息管理中心的数据采集主要有两个途径,一个是以档案标准规范体系为基础,通过ETL(抽取、转换、加载)数据过滤器将院校的历史档案数据、各业务系统实时产生的数据和互联网相关数据加载到我们的档案信息中心核心数据库中;另一个途径是档案管理人员通过手持终端或者电脑客户端,依据一定的数据审核关系直接进行档案信息的录入。档案信息中心的核心数据库是我们一切应用的基础,它对用户提供档案数据综合查询、档案云服务系统、数据决策系统和综合分析系统服务。
(三)加强高校档案信息管理关键技术的应用
1.档案信息管理中大数据的收集。在档案信息的收集过程中,为了进一步加强档案材料收集的实效性,可以利用大数据的Hadoop,HDFS功能,利用分布式客户端的功能对数据进行收集;在抽取、转换、加载的过程中,利用分布式文件系统(DFS)和MAP技术,将相关数据上传到分布式服务器中,以确保在对海量的数据进行抽取时的速度和安全。
2.档案信息管理中大数据的存储。由于档案信息量大,数据规模庞大,结构复杂,因此必须构建分布式存储信息系统,改变现在以结构化为主体的单一存储方案,对结构松散、没有模式的半结构化数据改为采用面向文档的分布式key/value存储引擎来解决,在存储过程中,要方便增加节点,实现稳步处理,对非结构化数据采用分布式文件系统进行存储。对大量的系统碎片数据进行分类、聚类和相关性分析,并且通过SQL等技术的“数据压缩、信息抽取”等方式进行系统碎片识别,增大加强档案信息管理时识别的针对性和可操作性。
3.档案信息管理中大数据的开发利用。传统意义中的档案信息管理一直保留在档案材料的目录管理、材料分类、材料归档、材料存储和简单的数据统计查询阶段,而大数据时代档案信息管理的重要信息则利用大数据的RDBMS、HBASE数据分析与预测技术,可以实现非结构数据与结构数据的信息分类、信息聚类,通过SAAS、SOA“云服务器”与电脑、手机平台的联动,使高校档案信息的使用者能够实时地利用档案信息路径,快捷、方便地获取自己需要的信息。
图1 高校档案信息管理中心系统总体架构图
图2 高校档案信息管理中心业务流程
随着时代变迁,人类在科学技术方面不断发展进步,无论是档案材料的本身还是档案信息管理工作自身的特点,都在发生着令人瞩目的巨大变化。大数据时代给档案信息管理工作带来了新的挑战和改变。
首先,档案在其定义上的变化。和传统的纸质档案卷册不同,未来的工作中,档案是指所有有保存价值的视频、音频、文件、数据信息以及网络信息。如何使用和利用大数据,在大数据的使用中得到什么,这些基本条件都要处理好,否则就会用大量的时间来分析数据,给我们的工作带来不便。确定目标后,再利用大数据工具对档案进行数据管理。
其次,档案在其服务中的变化。在大数据时代中,档案服务会朝着开放性、先进性和多元化方向发展,档案服务以客户个性化的需求为导向,提供网络化、智慧型的服务。档案信息中蕴藏着巨大的知识宝藏,正确利用大数据的服务,可以在信息管理上获得巨大的突破,使档案管理中的知识宝藏真正得到挖掘和利用。
最后,档案信息管理技术手段的变化。在大数据时代,档案信息管理将是利用数据过滤器、网络爬虫等先进技术在云平台上建设档案信息系统核心数据库,并在此基础上安排精通档案信息管理的专业人员与大数据开发公司合作,对各种档案数据资源进行挖掘,取得决策支持,用技术手段构建各类信息服务子系统,从而全面实现技术手段向知识应用的转变。
[1]尹宝君.大数据时代档案管理中新媒体与传统纸媒的融合研究[J].兰台世界,2015(07).
[2]陈明洁.大数据时代对档案现代化影响和要求[J].档案管理,2013(06).
[3]李小晨.大数据时代背景下的档案管理探讨[J].云南档案,2013(08).
[4]刘文照.大数据时代档案管理模式的转换与创新[J].办公室业务,2015(20).
[5]兰祝刚.大数据时代下的档案工作[J].中国档案,2014(06).
[6]施永利.大数据时代背景下的档案利用服务研讨[J].商,2012(11).
编辑:鹿风芍
G271
A
2095-7238(2016)06-0119-04
10.3969/J.ISSN.2095-7238.2016.06.022
2016-09-12