高校档案馆非结构化大数据融合机制研究

2019-09-10 07:22彭柳
兰台内外 2019年5期
关键词:档案大数据

摘 要:本文针对档案馆非结构化数据存在数据来源及特点,研究如何将其与结构化数据融合,为非结构化数据分类管理寻找理论依据和技术手段,探讨高校档案馆非结构化大数据管理的解决方法。

关键词:大数据;档案;非结构化;档案管理系统

一、引言

美国信息与技术相关的公司,包括麦肯锡,国际数据公司(IDC)与IBM,在2011年提出大数据相关概念后已经有越来越多的学术机构、企业包括政府机构开始关注大数据。经过不到7年的发展,目前以“大数据”作为关键词检索国内外前沿数据库,可得到数不清的相关报告、论文和新闻。根据2015年国务院印发的《促进大数据发展行动纲要》,系统部署大数据发展的相关工作,特别提出要加强档案馆等公益设施建设,构建文化传播大数据服务平台。上述文件对大数据的定义是“以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态”。档案数据正符合以上大数据定义,因此是大数据的重要组成部分。

与此同时,国家电子文件管理“十三五”规划对电子文件的管理提升到国家治理层面。在移动互联、云计算、大数据等新技术的迅猛发展时代,各种海量电子文件的归档与电子档案的管理已成为各级档案馆(室)所必须面对的难题,其中最难把握的是对非结构化数据的管理。

二、高校档案馆非结构化数据的含义及特点

1.高校档案馆非结构化数据的来源与定义

高校是一个多学科相融合的集聚地,学校里的教学活动和科研活动均围绕着各种层次的学科和专业开展。而高校档案馆作为收集、存储、传播和利用学校各种数据的机构,需要处理的数据种类和数量都在飞速增长。尤其伴随着高校信息化校园的建设,校园内无线网络等技术的普及,档案馆接收的档案除了原有的纸质档案和声像实体档案,越来越多的WORD文件、EXCEL表格、电子邮件、HTML文档、音视频文件等结构化和非结构化的数据也在呈指数增长。高校档案馆因此进入到了“大数据”时代。

档案馆结构化数据,是指存储在数据库里,可以用二维结构表来逻辑表达的数据,由若干个层次结构明确的关联组成部分,按照一定的操作规范使用和维护数据库,主要是档案目录及原文数据,档案馆业务流程、服务、系统日志、用户信息、库房管理等方面的记录。非结构化数据是指不方便使用二维逻辑表来表现的数据,每个字段的记录又可以由可重复或不可重复的子字段构成数据库。其中,非结构化数据占档案馆大数据总量的85%以上,是图书馆大数据的主要形式。

本文针对高校各业务系统产生的非结构化多来源数据,进行融合管理研究。针对非结构化的数据,需要在充分收集多种来源信息的基础上,综合运用多种方法进行分析与判断,找出具有存档价值的信息,予以整理和保管,以备将来为教职工和其他社会人士提供利用。

2.档案馆非结构化大数据的特点

高校档案馆面临的非结构化数据存在着数据来源众多,数据格式不同,数据信息内容不重复等多种特点。这些特点可以成为非结构化数据分类管理的依据。

(1)数据来源多样性

非结构化的数据来源于校内和校外的多种活动,其中大部分都是校内产生。高校的教学、科研和管理活动产生了核心的档案信息,如教学课件、教学视频、图像、论文、专利、产品、电子邮件、网页、及时通讯信息等数据。校外产生的非结构化数据有重大活动报道网页、音频视频文件、照片、往来电子邮件、电子发票、申报信息等数据。信息来源不同的非结构化数据在档案的四性(即真实性、完整性、可用性和安全性)方面存在著巨大的差异,档案工作针对不同来源的数据应改进行分类收集、整理、存储、管理和提供利用。

(2)多数据格式的并存

由于目前多数高校已经开展数字化校园建设,各项工作的开展都离不开业务系统的辅助,而每种业务系统可能是针对不同的工作内容开发,因此这些业务系统往往生成对应格式的非结构化数据,包括版式文件、图片、二维矢量文件、三维矢量文件、XML、HTML、音频、视频、报表等。每种格式的数据类型、数据大小、通用性等均不尽相同,而且还会出现因业务系统的更替,数据格式前后不一致的可能。在当前的环境下,仍没有出现一种技术可以处理所有格式的数据。因此,高校档案馆必须根据学校的发展、用户的需求及提供服务利用的多重角度考虑,制定各种档案数据格式的存档标准,对应地进行设计标准化存储或者兼容式存储的分层级存储系统,以实现不同数据格式的自由转换,最终才能充分利用这些非结构化数据档案。

(3)数据主体特指性强

在高校档案馆中,产生非结构化数据的主体主要是档案馆专兼职档案员,在校师生及校友。还有极少量的学校外部参与者,校外参与者利用档案资源的频率远远低于前者。因而,从用户的角度有效分析档案馆专兼职档案员,在校师生及校友的数据需求,将已经产生的非结构化数据的大数据进行分类,就能够把握非结构化数据发展的规模和质量,再经过分析便可得出当前用户的需求。

(4) 数据内容不重复

与传统的档案的收集有一点不同的是,非结构化的数据内容不应重复,传统纸质档案和实物档案允许保存多份实体作为副本,但非结构化数据因为其计算机复制技术十分便捷,占用的存储空间又十分庞大,因此为了给档案系统的运行减轻冗余,原则上不应该重复。对整个档案馆的电子数据在保管过程中可以做双份异地备份。

三、高校档案馆非结构化大数据的融合机制

由于非结构化数据的以上特性,需要对数据进行融合管理。可融合的数据必须具有以下共性,一般是同一个主题的数据。数据往往会具有互补性,不同信息源的数据从著录字段上或者记录上具有互补性,以保证数据的完整性与覆盖面。将收集的非结构化数据分为3个方面:数据滤重、数据拆分、数据统计,每个方面都涉及到具体的技术细节与不同的处理方法。

1.部分非结构化数据可转化为结构化的数据

在搜集的非结构化数据中,许多都可以转化为结构化数据进行管理。如图片、XML、HTML、报表、电子邮件等静态数据,可通过截图的形式转换为JPG或PDF格式,用原文的形式存储于档案管理系统内,这样就可以实现此部分的非结构化数据与已有的结构化数据融合。

2.无法转换的非结构化数据采用特殊数据库单独管理

非结构化中的大量组成部分是音频、视频等数据,它们尽管无法保存在已有的档案系统统一管理,但与结构化的数据是息息相关的,因此需要采用特殊的数据库单独管理,并与结构化的档案信息系统对应的字段建立联系。在提取的非结构化数据时,有可能出现一个文件包括多个主题的情况,这时需要对其进行著录字段的拆分,将主题进行归类。数据查重过滤,指数据融合过程中的许多字段表达含义相同,但却说法不一,可以选用其中一个字段来代替,或者为字段另外选一个名字,例如“70年校庆”与“七十年校庆”,我们可以都确定为“七十周年校庆”,也都定位到“校庆”。经过数据的拆分、查重过滤后,我们可以利用统计软件,分析出某一时间段内高校档案利用的热点,提高服务水平。

3.需针对动态的非结构化数据开发相应的管理程序

除以上非结构化数据,还有一部分通过视频、微博、微信公众号、QQ咨询等各网络媒体产生的信息日益增加,数据的类型更加复杂,数据的融合更加重要。因为这些数据具有及时性、动态性和不确定性,目前流行的可视化软件和工具很难套用管理。针对这类非结构化数据,需要研究开发出相应的程序来管理,能够自动调整以满足动态的、不确定的特点。

参考文献:

[1]What is Big Data [EB/OL] [20141007] .Http://www.amchamchina.org/article/102

[2]郭春霞.大數据环境下高校图书馆非结构化数据融合分析[J].图书馆学研究,2015(05)

[3]沈红雨.高校非结构化档案数据的数据库管理技术应用与比较研究[J].浙江档案,2016(01)

[4]陈 臣.基于Hadoop的图书馆非结构化大数据分析与决策系统研究[J].情报科学,2017(01)

[5]李翠萍,常 娥.大数据时代数字图书馆发展浅析[J].江苏技术师范学院学报,2013年05期

[6]李小刚,谢诗艺,程 舒.大数据时代档案馆服务创新研究[J];北京档案,2013年11期

[7]黄少芳,刘晓鸿,张俊芳.论高校档案信息化与数字档案馆建设[J];中国地质教育,2013年02期

[8]郭振桥,王新玲.浅论大数据在未来图书馆服务中的应用[J];内蒙古科技与经济,2013年16期

作者简介:彭柳,馆员,中南民族大学档案馆(校史馆)信息与技术室负责人,主要从事档案数字化建设技术研究。

基金项目:本文由中南民族大学中央高校科研业务费社科专项资金项目资助(CSQ19039)

猜你喜欢
档案大数据
拓展节能档案数字化利用的探索
刍议供电单位档案管理
档案的开发利用在供电公司全面管理中的作用
浅谈北京卫视《档案》的叙述方式
大数据环境下基于移动客户端的传统媒体转型思路
新常态下高校档案工作发展研究
基于大数据背景下的智慧城市建设研究
数据+舆情:南方报业创新转型提高服务能力的探索