高校档案馆非结构化大数据融合机制研究

2019-09-10 07:22彭柳

兰台内外 2019年5期

摘要：本文针对档案馆非结构化数据存在数据来源及特点，研究如何将其与结构化数据融合，为非结构化数据分类管理寻找理论依据和技术手段，探讨高校档案馆非结构化大数据管理的解决方法。

关键词：大数据;档案;非结构化;档案管理系统

一、引言

美国信息与技术相关的公司，包括麦肯锡，国际数据公司（IDC）与IBM，在2011年提出大数据相关概念后已经有越来越多的学术机构、企业包括政府机构开始关注大数据。经过不到7年的发展，目前以“大数据”作为关键词检索国内外前沿数据库，可得到数不清的相关报告、论文和新闻。根据2015年国务院印发的《促进大数据发展行动纲要》，系统部署大数据发展的相关工作，特别提出要加强档案馆等公益设施建设，构建文化传播大数据服务平台。上述文件对大数据的定义是“以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合，正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析，从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态”。档案数据正符合以上大数据定义，因此是大数据的重要组成部分。

与此同时，国家电子文件管理“十三五”规划对电子文件的管理提升到国家治理层面。在移动互联、云计算、大数据等新技术的迅猛发展时代，各种海量电子文件的归档与电子档案的管理已成为各级档案馆（室）所必须面对的难题，其中最难把握的是对非结构化数据的管理。

二、高校档案馆非结构化数据的含义及特点

1.高校档案馆非结构化数据的来源与定义

高校是一个多学科相融合的集聚地，学校里的教学活动和科研活动均围绕着各种层次的学科和专业开展。而高校档案馆作为收集、存储、传播和利用学校各种数据的机构，需要处理的数据种类和数量都在飞速增长。尤其伴随着高校信息化校园的建设，校园内无线网络等技术的普及，档案馆接收的档案除了原有的纸质档案和声像实体档案，越来越多的WORD文件、EXCEL表格、电子邮件、HTML文档、音视频文件等结构化和非结构化的数据也在呈指数增长。高校档案馆因此进入到了“大数据”时代。

档案馆结构化数据，是指存储在数据库里，可以用二维结构表来逻辑表达的数据，由若干个层次结构明确的关联组成部分，按照一定的操作规范使用和维护数据库，主要是档案目录及原文数据，档案馆业务流程、服务、系统日志、用户信息、库房管理等方面的记录。非结构化数据是指不方便使用二维逻辑表来表现的数据，每个字段的记录又可以由可重复或不可重复的子字段构成数据库。其中，非结构化数据占档案馆大数据总量的85%以上，是图书馆大数据的主要形式。

本文针对高校各业务系统产生的非结构化多来源数据，进行融合管理研究。针对非结构化的数据，需要在充分收集多种来源信息的基础上，综合运用多种方法进行分析与判断，找出具有存档价值的信息，予以整理和保管，以备将来为教职工和其他社会人士提供利用。

2.档案馆非结构化大数据的特点

高校档案馆面临的非结构化数据存在着数据来源众多，数据格式不同，数据信息内容不重复等多种特点。这些特点可以成为非结构化数据分类管理的依据。

（1）数据来源多样性

非结构化的数据来源于校内和校外的多种活动，其中大部分都是校内产生。高校的教学、科研和管理活动产生了核心的档案信息，如教学课件、教学视频、图像、论文、专利、产品、电子邮件、网页、及时通讯信息等数据。校外产生的非结构化数据有重大活动报道网页、音频视频文件、照片、往来电子邮件、电子发票、申报信息等数据。信息来源不同的非结构化数据在档案的四性（即真实性、完整性、可用性和安全性）方面存在著巨大的差异，档案工作针对不同来源的数据应改进行分类收集、整理、存储、管理和提供利用。

（2）多数据格式的并存

由于目前多数高校已经开展数字化校园建设，各项工作的开展都离不开业务系统的辅助，而每种业务系统可能是针对不同的工作内容开发，因此这些业务系统往往生成对应格式的非结构化数据，包括版式文件、图片、二维矢量文件、三维矢量文件、XML、HTML、音频、视频、报表等。每种格式的数据类型、数据大小、通用性等均不尽相同，而且还会出现因业务系统的更替，数据格式前后不一致的可能。在当前的环境下，仍没有出现一种技术可以处理所有格式的数据。因此，高校档案馆必须根据学校的发展、用户的需求及提供服务利用的多重角度考虑，制定各种档案数据格式的存档标准，对应地进行设计标准化存储或者兼容式存储的分层级存储系统，以实现不同数据格式的自由转换，最终才能充分利用这些非结构化数据档案。

（3）数据主体特指性强

在高校档案馆中，产生非结构化数据的主体主要是档案馆专兼职档案员，在校师生及校友。还有极少量的学校外部参与者，校外参与者利用档案资源的频率远远低于前者。因而，从用户的角度有效分析档案馆专兼职档案员，在校师生及校友的数据需求，将已经产生的非结构化数据的大数据进行分类，就能够把握非结构化数据发展的规模和质量，再经过分析便可得出当前用户的需求。

（4）数据内容不重复

与传统的档案的收集有一点不同的是，非结构化的数据内容不应重复，传统纸质档案和实物档案允许保存多份实体作为副本，但非结构化数据因为其计算机复制技术十分便捷，占用的存储空间又十分庞大，因此为了给档案系统的运行减轻冗余，原则上不应该重复。对整个档案馆的电子数据在保管过程中可以做双份异地备份。

三、高校档案馆非结构化大数据的融合机制

由于非结构化数据的以上特性，需要对数据进行融合管理。可融合的数据必须具有以下共性，一般是同一个主题的数据。数据往往会具有互补性，不同信息源的数据从著录字段上或者记录上具有互补性，以保证数据的完整性与覆盖面。将收集的非结构化数据分为3个方面：数据滤重、数据拆分、数据统计，每个方面都涉及到具体的技术细节与不同的处理方法。

1.部分非结构化数据可转化为结构化的数据

在搜集的非结构化数据中，许多都可以转化为结构化数据进行管理。如图片、XML、HTML、报表、电子邮件等静态数据，可通过截图的形式转换为JPG或PDF格式，用原文的形式存储于档案管理系统内，这样就可以实现此部分的非结构化数据与已有的结构化数据融合。

2.无法转换的非结构化数据采用特殊数据库单独管理

非结构化中的大量组成部分是音频、视频等数据，它们尽管无法保存在已有的档案系统统一管理，但与结构化的数据是息息相关的，因此需要采用特殊的数据库单独管理，并与结构化的档案信息系统对应的字段建立联系。在提取的非结构化数据时，有可能出现一个文件包括多个主题的情况，这时需要对其进行著录字段的拆分，将主题进行归类。数据查重过滤，指数据融合过程中的许多字段表达含义相同，但却说法不一，可以选用其中一个字段来代替，或者为字段另外选一个名字，例如“70年校庆”与“七十年校庆”，我们可以都确定为“七十周年校庆”，也都定位到“校庆”。经过数据的拆分、查重过滤后，我们可以利用统计软件，分析出某一时间段内高校档案利用的热点，提高服务水平。

3.需针对动态的非结构化数据开发相应的管理程序

除以上非结构化数据，还有一部分通过视频、微博、微信公众号、QQ咨询等各网络媒体产生的信息日益增加，数据的类型更加复杂，数据的融合更加重要。因为这些数据具有及时性、动态性和不确定性，目前流行的可视化软件和工具很难套用管理。针对这类非结构化数据，需要研究开发出相应的程序来管理，能够自动调整以满足动态的、不确定的特点。

参考文献：

[1]What is Big Data [EB/OL] [20141007] .Http：//www.amchamchina.org/article/102

[2]郭春霞.大數据环境下高校图书馆非结构化数据融合分析[J].图书馆学研究，2015（05）

[3]沈红雨.高校非结构化档案数据的数据库管理技术应用与比较研究[J].浙江档案，2016（01）

[4]陈臣.基于Hadoop的图书馆非结构化大数据分析与决策系统研究[J].情报科学，2017（01）

[5]李翠萍，常娥.大数据时代数字图书馆发展浅析[J].江苏技术师范学院学报，2013年05期

[6]李小刚，谢诗艺，程舒.大数据时代档案馆服务创新研究[J];北京档案，2013年11期

[7]黄少芳，刘晓鸿，张俊芳.论高校档案信息化与数字档案馆建设[J];中国地质教育，2013年02期

[8]郭振桥，王新玲.浅论大数据在未来图书馆服务中的应用[J];内蒙古科技与经济，2013年16期

作者简介：彭柳，馆员，中南民族大学档案馆（校史馆）信息与技术室负责人，主要从事档案数字化建设技术研究。

基金项目：本文由中南民族大学中央高校科研业务费社科专项资金项目资助（CSQ19039）