基于大数据的高校档案管理模式变革

2015-04-02 11:52
关键词:结构化服务

谢 怡

(山东理工大学 档案馆,山东 淄博 255049)

基于大数据的高校档案管理模式变革

谢 怡

(山东理工大学 档案馆,山东 淄博 255049)

大数据时代,高校档案基本具备了大数据的特征:数量巨大、种类繁多、价值密度低、处理速度要求高等。新特征使高校传统档案管理模式下的收集、保管、利用工作环节面临着巨大的挑战:无法对档案大数据进行有效的收集,无法对海量异构数据进行安全保管与价值提纯,无法满足用户多元化、个性化、实时性、时效性的利用需求。基于大数据的高校档案管理模式变革路径主要有:构建大档案体系,扩大档案收集范围,制定数据收集标准;构建大资源体系,集成档案数据,维护信息安全;构建大服务体系,扩大服务对象,创新服务方式,优化服务质量。

大数据;大档案;大资源;大服务;高校档案

随着物联网、云计算和移动互联网的不断兴起与快速发展,数据正在以一种超乎想象的速度增长。据国际数据公司(IDC)的研究报告称,2011年全球被创建和被复制的数据总量为1.8ZB,并预测到2020年,全球将拥有35ZB(1ZB=10亿TB)的数量。[1]毋庸置疑,人类社会的信息化进程自经历了计算机时代和互联网时代后,正在迈向一个全新的历史阶段——大数据时代。大数据浪潮呼啸而来,在政府办公、企业服务、公共安全、医疗卫生、交通旅游、环境治理等不同领域展示了它超凡的功能和广阔的前景。在2013年的全国数字档案馆(室)建设推进会上,国家档案局局长杨冬权指出:数字化、网络化、信息化已深刻地影响了人们的工作、学习、生活和娱乐,数字不再只和计算有关,更使人们的生存方式发生了巨变,我们已不可逆转地进入了大数据时代。[2]高校档案管理部门作为高校教学、科研等活动历史记录和数据资源的管理者,肩负着“为党管档、为国守史、为民服务”的神圣使命。随着存量档案的数字化和增量电子档案的不断接收,高校档案数据呈现海量规模。档案大数据正使高校档案工作者在管理理论、管理观念、管理技术、组织机构、业务环节等方面面临着前所未有的机遇和挑战。

一、大数据的概念与特点

学术界对大数据尚未形成一个公认的界定。国际上比较认可的定义有以下几个:英国数据科学家维克托·迈尔-舍恩伯格等认为,大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理;[3]39权威IT研究与顾问咨询机构高德纳咨询公司认为,大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产;[4]世界著名管理咨询公司麦肯锡全球数据分析研究所认为,大数据指无法在一定时间内用传统数据库软件工具对其内容进行采集、存储、管理和分析的数据集合;[5]我国学者研究大数据概念的起步较晚,不够深入,多是对上述国外研究机构和个人所给定义的阐释。信息管理专家涂子沛认为,大数据之“大”,不仅仅意味着数据之多,还意味着,每一个数据都能在互联网上获得生命、产生智能、散发活力和光彩。[6]290张淑芳认为,大数据又称“巨量资料”“海量资料”,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理,并整理成为帮助用户筛选决策的积极资讯。[7]周美兰认为,大数据是数据对象、技术与应用三者的统一,是“数据、技术、应用”三位一体共同发展。[8]

虽然各机构、学者对大数据给出的概念不尽相同,但内涵却是基本一致的,即都涉及了业界提出的大数据的4V特点:首先,大数据体量浩大(Volume),数据量正在从GB、TB级别向 PB、EB级别飞速迈进。其次,大数据种类多样(Variety),不仅拥有传统的结构化数据,还包含着半结构化、非结构化数据,并且半结构化、非结构化数据的数量正呈快速增长态势,增长速率远超结构化数据。再次,大数据快速化(Velocity),快速化体现在两个方面,一方面大量数据无时无刻不在快速生成;另一方面运用大数据技术可以快速处理海量数据,高效响应用户诉求。最后,大数据价值密度低(Value),相对数据的海量,其中有价值的数据所占比例相对较小,急需数据价值“提纯”。

二、大数据时代高校档案特征

“数字校园”工程的开展,使计算机技术、网络技术、通讯技术渗透到高校的教学、科研、学生、管理等每一个领域,也使高校档案基本具备了大数据的特征。

(一)高校档案数量巨大

高校档案数据资源数量正在呈指数级别增长,这种爆炸性的增长,来自两个方面的原因。一是增量电子档案的快速产生。伴随着高校管理活动的开展,每天都在产生着大量的有价值的档案信息,例如,教学活动中产生的精品课程教案、科学研究中产生的实验数据、党政管理中产生的电子公文、基本建设中产生的施工文件、资产管理中产生的仪器设备使用检修记录、财务管理中产生的会计账单以及档案网站、论坛产生的大量数据信息等。二是馆藏传统载体档案数字化的积极推进。新技术的发展使高校原有纸质等载体档案的数字化成为可能,为了更好地保存原始档案材料,为广大利用者提供高效、便捷的服务,高校馆藏档案的数字化工作正在如火如荼地进行着,大量的纸质档案、照片档案通过扫描、翻拍等技术手段转化为数字档案。据统计,截至2010年10月15日,上海交通大学档案馆馆藏档案全文数字化总量为3667407页,数字化信息资源约为2PB。[9]由此可见,全国2000余所高校的档案信息数据总量是多么巨大。

(二)高校档案种类繁多

从档案类别来看,高校档案涉及党群、行政、教学、科研、设备、产品、外事、基建、出版、财会、声像、实物等十二个类别;从数据分布来看,高校档案数据产生于从事高校管理活动的每一个立卷部门,各部门之间存在“信息孤岛”,数据共享举步维艰;从数据结构来看,高校档案数据资源既有数据库、元数据等结构化数据,又有邮件、报表等半结构化数据,更多的是视频、音频、图片、图纸、文档等非结构化数据;从运行环境来看,高校档案数据是从不同的软硬件和多样的操作系统中生成的,具有异构性。

(三)高校档案价值密度低

从利用服务的角度来看,高校档案价值密度的高低与数据总量的多少呈反比。馆藏结构化、半结构化、非结构化档案数据资源虽然具有较高的历史价值,但是却长期处于“沉睡”状态,利用率较低,大部分没有发挥任何价值。例如,高校档案部门会把每位毕业生的学籍卡片、在校成绩等学籍档案永久保存,但查询的概率却是极低的。只有当毕业生面临报考研究生、调换工作、出国留学等问题时,才会来查询学籍档案材料。

(四)高校档案处理速度要求高

如今,高校档案的生成速度比互联网时代快很多,每天都有大量的原生电子档案和存量数字化档案在不断地生成,档案数据量在短时间内急剧增加。在档案大数据的包围下,用户对高校档案利用服务提出了更高的要求,即在海量的档案数据中准确、迅速查找并推送所需要的信息。如何对高校档案进行快速的处理,有效挖掘出其中的价值,为用户主动提供多元化、个性化的服务,已成为摆在高校档案人面前的新课题。

除了基本具有大数据的特征,高校档案还具有其自身的独特性,即真实性与权威性,这是由档案本身的属性和作用所决定的。高校档案是原生信息资源,原始性决定了高校档案数据具有可靠性、真实性,对于安全、电子取证、诊断等有重要的凭证价值。同时,高校档案作为高校各项管理活动的原始历史记录,与其他来源的信息资源相比较,具有较高的价值,这决定了高校档案数据具有权威性,用它进行数据分析所得出的结论,可以全面、真实地反映高校的客观实际与发展规律,为党政管理的正确决策提供可靠依据。

三、大数据时代高校档案面临的挑战

传统模式下,高校档案的管理内容可以简化为收集、保管、利用三个环节:收集主要指对各立卷部门形成的纸质和电子文件材料的征收、鉴定、整理;保管主要指对馆藏的纸质和电子档案的保存、管理;利用主要指对馆藏的纸质和电子档案的检索、利用与编研。大数据时代,这种传统的高校档案管理模式正面临着前所未有的挑战。

(一)大数据对档案收集的挑战

“小数据”时代,受信息技术和存储成本等因素的制约,我们无法将所有历史数据归档并保存,只能通过制定归档范围和保管期限等手段,人为地鉴定档案的保存价值,判断其是否需要归档。这种传统的管理模式,在当时的档案收集、鉴定、整理等各项工作中发挥了显著作用,区分了档案数据的不同价值,保持了档案之间的历史联系,方便了档案的保管和利用。但大数据时代,高校档案数量激增、类型多样,在这样的形势下,传统的高校档案收集模式将无法对海量的档案大数据进行有效的收集和科学的管理,继续沿用原有模式必将导致收集不齐全,分类不系统。面对如此海量的数据,我们该如何确定档案的归档范围,如何界定档案的所属类别,如何鉴定档案的保存价值呢?

(二)大数据对档案保管的挑战

传统模式下,高校档案部门管理的档案材料以纸质载体居多,电子档案的数量较少,主要是学校下发的党政管理文件、视频音频等材料,电子档案的存储介质以光盘为主。大数据时代的到来,使高校电子档案数量巨增,动辄以PB、EB进行计量,容量为4.8GB的常用DVD光盘显然已不合时宜,需要新的存储介质来满足档案存储的需求。档案数据种类呈多样化,文本、图像、图形、影像、声音、多媒体链接、数据库等多种结构化数据、半结构化数据、非结构化数据正源源不断地生成,且半结构化、非结构化数据占比越来越大,远超结构化数据。而现有的数据存储方案是以结构化数据为主体设计的,显然与半结构化、非结构化数据不兼容。选用何种存储方式融合异构数据,以方便高校档案的挖掘与分析,成为高校档案工作者将要经历的巨大考验。另外,在大数据背景下,随着数据量越来越大,数据类型越来越多,数据信息安全正受到越来越严峻的挑战,数据丢失、数据篡改、数据泄露、数据损坏等问题随时都有可能发生。

(三)大数据对档案利用的挑战

大数据时代,用户对高校档案利用需求从对象、载体、内容到手段都发生了翻天覆地的变化,主要表现在:一是用户多元化,高校档案部门的服务对象不再局限于学校内部,任何一个外来人员都有可能成为其潜在用户;二是载体多样化,需求的载体不再仅局限于纸质档案,而是越来越多地趋向可以方便快速查询的电子档案;三是内容集成化、个性化,用户对档案信息的需求不再满足于单一事项,而是趋向于多元的融合,不再追求信息量的广泛,而是希望在大量的信息中得到直接的、有价值的知识;四是服务便捷化,知识更新周期的缩短,科技竞争的激烈,使用户对高效、快捷的档案利用需求变得更加强烈,希望能够在一个综合服务平台上获取所需要的全部信息;五是手段自助化,互联网技术的不断成熟与发展,使用户希望能够突破时间和空间的限制,随时随地、自由方便地获取各种信息。显然,高校档案利用需求正在趋于多元化、个性化、实时性、时效性,而与之相对的利用服务却明显滞后:服务方式被动单调,以实地查阅、复制为主;服务时间仅限于工作日,档案数据资源没有上网发布,无法全天候实时异地查询;服务对象局限于高校内部和毕业校友,与社会联系较少。这种现行的被动封闭的档案利用服务模式,不能满足急剧膨胀的档案数据利用需求,导致了档案利用效率低下,诉求响应速度缓慢,档案的价值不能充分挖掘,档案的作用不能有效发挥。

四、大数据时代高校档案管理模式变革路径

鉴于高校档案已基本具备大数据特征,档案部门可以用大数据理论及技术来解决其面临的诸多挑战。

(一)构建大档案体系

所谓“大档案”,是指将国家机构、社会组织或个人在社会活动中产生的所有原始记录都视为档案,不论其价值,不论其载体。档案工作其实就是一件遗憾的工作,我们永远不知道哪份文件以后要用,不知道哪些东西对明天的人有用。[10]所以,作为档案资源信息中心的高校档案部门,必须树立大档案的观念,构建大档案体系,科学收集档案大数据,做到应收尽收。

1.扩大档案收集范围。在过去的50年中,数字存储成本大约每两年就削减一半,而存储密度则增加了5000万倍。[9]在这个数据价值远高于其存储介质价值的时代,大数据技术为我们提供了庞大的存储空间。在此技术的支持下,档案收集整理工作可以不再受归档范围和保管期限的限制,高校从事招生、教学、科研、管理等活动形成的不同载体的任何数据,都将被收集归档。也就是说,不论是高校各项活动中形成的原生档案数据,或是存量档案数字化过程中形成的电子数据,还是门户网站上的大量信息资源,一切的文件、数据、视频、邮件等都应被视为档案,都应被收集归档,形成高校档案信息资源大数据集。同时,所有档案都将以时间为序进行排列,以永久为期限进行保存。需要注意的是,在收集过程中,要做好全流程控制,尤其是前端控制,将档案管理融入到办公系统、工程项目管理等系统中,将文件、数据归档流程写入发文环节、付款环节、验收环节等,[11]以实现数据自动、实时归档。不同的立档部门产生不同的档案材料,因此在收集工作前期要根据立档部门的职责范围预测其生成的档案内容和数量,制定各部门档案收集范围,确保归档齐全完整,避免重复归档。

2.制定数据收集标准。2008年教育部颁布并实施了《高等学校档案管理办法》,但在信息化建设方面却没有专门的行政法规或者文件,高校档案建设意识淡薄,重视程度低,信息化建设一盘散沙,各自为政,缺乏规范性、专门性和统一性的引导与规划。[12]目前,高校内部各部门数字化资源标准不统一,大量的异构数据形成了“信息孤岛”,成为档案数据整合的瓶颈,严重阻碍了档案数据的共享。因此各高校应统筹规划,统一标准,制定电子文件归档管理、元数据采集、数据交换格式等方面的电子档案管理规章与制度,以规范电子档案的有序建设,保证数据资源的有效整合,破除信息壁垒,推进数据开放,实现档案大数据共享。另外,大数据时代,高校档案部门不能封闭自守、置身事外,要加强与其他高校之间、与地方之间的馆际交流与合作。同时要加强档案馆与图书馆、博物馆、互联网运营商之间在资源、技术、人才、资源建设等领域的协作与交流,打破各自孤立、互不连通的数据库之间的壁垒,充分实现数据资源共享和数据价值最大化。

(二)构建大资源体系

“大资源”是将大档案体系下归档的大量异构数据进行整合后形成的大数据集。高校档案部门在保管档案时,要引入大资源的观念,集成、整合并加工数据,形成全面、完整、统一的数据资源集成库,为档案的利用提供良好的物质基础和数据资源。

1.集成高校档案数据。针对高校档案数据数量巨大、种类繁多等特点,档案管理部门在进行数据存储时,可以采用数据集成的方式,制定统一的标准,利用云平台,将不同来源、不同种类、不同格式的数据有机集成。集成的同时要注意做好数据清洗工作,以过滤重复数据、补全残缺数据、更正错误数据。在集成后,还要进行高校档案数据资源的整合。面对结构化、半结构化、非结构化的档案数据,在实际处理中,几乎不可能有一种统一的数据存储方式能够适应所有的应用。[13]因此,应采用分而治之的策略,构建分布式存储模式,先将不同类型的数据分别存储在最适合的不同系统中,再通过建立连接多种数据存储引擎的“连接器”,搭建各存储系统之间的联接,[14]实现对各类数据之间的融通整合和集成分析。

2.维护档案信息安全。大数据时代,档案信息安全工作的重点是确保数字档案信息的原始真实、齐全完整、机密可用。为此,高校档案部门在数据公开的同时,首先,要提高全员安全意识,加强安全宣传,组织安全培训,避免因工作人员防范意识薄弱而造成的安全事故。其次,要建立安全防护体系,做到人防、物防、技防三位一体。针对信息流失、泄露等突发事件,还要制定相应的应急处置预案。最后,要应用安全防护技术。从硬件方面,要加强基础设施、数据平台的建设与维护,保障设施设备的正常运行;从软件方面,要利用多重网络安全技术,通过设置访问权限、安装预警装置、加密档案数据、异质异地备份等手段与方法,保障档案数据的安全使用。

(三)构建大服务体系

“大服务”即实现档案利用的开放性、先进性、社会化与多元化。为有效缓解高校档案利用的供需矛盾,必须树立大服务的理念,以用户需求为导向,从高校档案大数据中主动挖掘使用价值,提供网络化、智能化服务。

1.开放数据,扩大服务对象。高校档案是高校在教学、科研、管理等各项活动中产生的,其内容丰富,记录了高校的历史变迁、学生的成长经历和教学科研的创新发展等;其载体多样,包含了纸质、照片、录音、录像、光盘、磁盘等各种形式。这些资源不仅对学校的规划发展起着参谋、决策作用,对学生的学历审核起着依据、凭证作用,对教师的教学科研起着参考、借鉴作用,而且对校外的团体、组织和个人起着辐射、育人作用。因此,高校档案部门要积极、及时地做好公开档案及解密文件的现场查阅和互联网公开工作,使高校档案由学校资源转变为社会资源,在服务好本校师生和校友这个根本面的同时,积极主动地接触社会、服务公众,将服务领域从本校扩大到本地区、本行业乃至全社会。

2.运用新技术,创新服务方式。大数据时代,档案馆的传统业务将向档案资源的数据分析、数据挖掘方向转移,对大量数据的分析与处理将成为档案馆的主要业务,[15]移动互联网、云计算、大数据等先进技术,将有助于高校档案部门实现知识挖掘服务、统计分析服务、在线互动服务、移动平台服务等多维信息服务方式,以解决档案利用的供需矛盾。借助云计算、数据挖掘等技术,高校档案部门可以从海量的档案数据中,发现馆藏档案的核心价值,找出看似无关的数据之间的联系与规律,预测事物的发展变化趋势,从而为用户提供知识挖掘、统计分析等服务。如将学生的录取表、学籍表、成绩表与毕业调配表的相关数据进行关联,将有助于了解学生的生源地、专业、家庭背景、成绩等对其就业的影响,从而有针对性地开展就业指导工作,提高高校的就业率;将学校各年度的基层报表、科研统计报表、资产统计报表等各项结构化数据相关联,将有助于了解学校的发展变化趋势,为学校科学规划提出建设性的意见。借助互联网、物联网技术,高校档案部门可以搭建用户互动平台,增进档案部门与用户之间的交流,及时了解用户的利用需求,判断用户的行为习惯,推测用户的行动轨迹,以便更加个性化地服务用户、留住用户。借助移动互联网技术,高校档案部门可以推出微信平台服务,普及档案知识,提供在线咨询,推介馆藏信息,传播高校文化。

3.加强管控,优化服务质量。档案服务工作是否有效,服务质量是标准;服务是否有质量,满足用户需求的程度是标尺。[16]也就是说,高校档案服务质量的高低、服务效果的优劣主要取决于对用户需求的满足程度。因此,在进行档案服务的同时,高校还要建立以用户需求为导向的服务质量全过程监管与考核体系。首先,要做好事前预防,在全面熟悉、准确把握用户需求的基础上建立健全有关档案利用服务制度和考核指标;其次,要做好事中控制,监控为用户提供档案利用的现场服务情况;最后,要做好事后评估,通过对用户反馈信息的收集、整理与分析,及时发现并整改存在的问题,逐步规范服务流程,不断提升服务水平。

[1]王毅,赵淑梅.国有企业技术创新与档案大数据管理安全战略研究[J].档案学通讯,2014,(2).

[2]杨冬权.在全国数字档案馆(室)建设推进会上的讲话[N].中国档案报,2013-10-18.

[3][英]维克托·迈尔-舍恩伯格,等.大数据时代[M].盛杨燕,周涛译.杭州:浙江人民出版社,2013.

[4]石峻峰,周俐霞,付双双.大数据时代数字档案资源管理研究现状与趋势分析[J].信息安全与通信保密,2014,(9).

[5]James Manyika,Michael Chui,Brad Brown.Big Data:The Next Frontier for Innovation,Competition and Productivity[R].McK-insey Global Institute,2011.

[6]涂子沛.大数据[M].桂林:广西师范大学出版社,2012.

[7]张淑芳.浅议“大数据”时代下的电子档案建设趋势[J].档案管理,2013,(6).

[8]周美兰.大数据时代高校档案资源体系建设的思考[J].山西档案,2015,(1).

[9]宁燕子.大数据对高校档案工作的影响分析及对策研究[J].科技视界,2015,(1).

[10]庞宁湘.浅谈大数据时代的数据管理[EB/OL].http://www.xtda.gov.cn/HTML/2013/6/7605.shtml,2013-06-14.

[11]兰祝刚,惠英,李刚.大数据时代下的档案工作[J].中国档案,2013,(9).

[12]方凌志,付媛媛,潘红.新时期高校档案工作现状及发展对策[J].档案与建设,2014,(3).

[13]王珊,王会举,覃雄派,等.架构大数据:挑战、现状与展望[J].计算机学报,2011,(10).

[14]高茂科.对档案大数据关键环节的认识[J].中国档案,2013,(10).

[15]周枫.大数据时代档案馆的特征及发展策略[J].档案与建设,2013,(8).

[16]顼迎芳.构建大服务理念下的档案服务循环推进模式[J].档案建设,2012,(3).

G271

A

1672-0040(2015)06-0103-05

2015-06-18

谢怡,女,辽宁新民人,山东理工大学档案馆技术信息部主任,副研究馆员,法学硕士。

(责任编辑 李逢超)

猜你喜欢
结构化服务
促进知识结构化的主题式复习初探
改进的非结构化对等网络动态搜索算法
结构化面试方法在研究生复试中的应用
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
服务在身边 健康每一天
服务在身边 健康每一天
服务在身边 健康每一天
服务在身边 健康每一天
服务在身边 健康每一天
招行30年:从“满意服务”到“感动服务”