大数据挖掘管理与技术策略在高校档案馆中的应用研究*

2019-12-16 04:59蒋红健
山西档案 2019年1期
关键词:数据挖掘档案馆档案管理

蒋红健

(华南理工大学档案馆 广州 510641)

大数据挖掘技术在现实社会中已经得到初步的运用,并处在快速发展的过程中。Google翻译就是有说服力的例子,它运用大数据挖掘技术训练数据,训练的数据量达到数十亿个,改变了根据语言规则分析判断的传统翻译软件的运行模式。通过对比这两种翻译模式,我们可以看出Google翻译无论是速度还是精度远超过传统翻译软件,这从一个侧面反映出大数据挖掘技术具有快速、高效、精准的优点。正因为如此,大数据挖掘技术受到了各行各业信息技术人员的关注和重视。

万事万物都是由一系列数据所构成的,社会生活对信息技术应用的需求催生了大数据挖掘技术的发展。我们可以用数据对任何事件、任何物体进行描述,即使作为单一事件、单一物体,其蕴含的数据量都已经极其庞大,更何况社会是由无数事件和物体构成。事件和物体内部之间和相互之间存在着千丝万缕的联系。可以说,社会就是一个数据总集,大数据挖掘技术就是要挖掘出这个数据总集中数据的有机联系,通过分析数据总集的全貌推断出精准的结论,而不是采用随机抽样的方式片面了解。

一、大数据挖掘技术是实现档案管理利用目标的重要途径

档案管理之所以存在和发展,是与其存史、资政、育人的重大价值分不开的,而大数据挖掘技术则是实现档案管理内在价值的最新和极其重要的技术工具。我们收集、保管、管理档案的实质就是存史。把档案保护好是档案管理必备的前期工作,通过存史提供档案有效利用的物质基础,进而衍生到资政育人更高层次的目的,使得档案价值得以最大化地体现,实现档案管理的终极意义。

要实现档案管理资政育人的目的,必须有效管好、用好前期产生的数量多种类繁杂的大数据。高校档案馆存量档案多达几十万卷,通过数字化工作,海量的纸质档案已转化为PDF文件,而这些PDF文件多是半结构及非结构化数据。除了这些数字化工作产生的电子文件,高校档案馆还接收了各类图像、音频及电子文档。据统计,许多综合性院校电子档案容量已达几十TB。随着高校档案馆电子文件管理系统的开发、应用和发展,可以预见电子文件总量将以几何级数增长。因此,投入必要的人力、物力研究大数据挖掘技术已经是一件迫在眉睫的事情。

高校档案大数据是数据价值的富集地。相比较其它数据源,档案大数据之间的有机联系更为密切,具有高度相关性。其它数据源如网站、社交网络、微信、微博、移动通信等,其数据之间的关联是松散的,而档案则是有组织有条理地收集归纳的,其蕴藏的内在价值更大。可以说,档案大数据就是价值富矿。因此,有必要在档案管理领域率先运用大数据挖掘技术,采用泛化、动态、深入的方式,把档案大数据中的有机联系找出来、理清楚,并以亲民化的方式呈现出来,如以数据、表单或图形等可视化的方式发送给用户。

二、突破固有视野,构建全面、完整的档案大数据仓库

档案大数据仓库的构建可以把眼界放宽一些,首先要立足档案馆自身,做好最有价值数据的收集,把档案馆各门类的数据收集工作做扎实,打好基本功;其次要跳出档案馆的圈子,把与档案有关的数据纳入进来,实现大数据互联互通,形成大格局、大整合、大服务的大档案观。

(一)高校档案馆自身的数据源要充足、全面

高校档案馆首先要把眼光向内看,做到应归尽归、真实完整。要加强档案从业人员和兼职档案员的管理,做好档案收集前端介入工作。在保证档案从业人员业务熟练的基础上,提高二级单位负责人对档案资源的重视程度;加大对二级单位兼职档案员的培训力度,提高兼职档案员的业务专业度和档案收集流程的熟悉度,保证档案免于流失和遗失。同时,要从制度上保障档案大数据的收集,建立起兼职档案员的考核制度及相应激励制度,提高档案管理业绩在考核分值中的权重,形成档案数据收集的长期推动力。

其次,要分门别类地细化档案数据收集范围,消除档案数据收集容易忽略的死角。高校档案馆可以通过划分的综合文书、学籍学位、科研、基建、出版、设备、产品、实物、声像、人物等档案门类,根据以往收集的经验,判断出尚余哪些门类档案尚未收集,及时进行催办和补充,要熟悉每一门类档案的归档范围,根据归档范围推断尚未及时收集的档案,及时跟踪反馈,从而把高校人才培养、科学研究、社会服务等社会实践过程中形成的档案数据及时、完整地进行收集,谨防散失、遗漏造成档案数据不全面、不系统。档案数据有各种载体、各种格式,要确保档案的全媒介收集,除了常规的纸质档案,还有光盘、移动硬盘、磁带、录像带等各种媒介。对包括文本、表单、图像、音视频等各种媒介的档案数据及时进行格式转换,保存好高校发展历程的记忆点和值得传承的历史文化,使之成为大数据挖掘的策源地。

(二)互联互通二级单位信息系统,实现档案数据仓库扩容增值

高校档案馆要顺应信息技术的发展,突破部门界限,打通校内各信息系统,把档案数据仓库从档案馆的店面格局扩展到整个学校的商城格局。高校档案馆在做好档案信息管理系统特别是电子文件管理系统的同时,应在校办与网络中心牵头下,积极与各二级单位加强联系,以档案管理信息系统作为切入点,以点带面,使档案信息管理系统与OA、人事、教务、科研、资产设备等系统实现数据共享及互联互通,积极拓展各信息系统能够开放利用的信息容量,实现档案数据扩容和档案价值增值,使用户通过档案管理信息系统可以搜索到更大更广范围的、有价值的数据信息,满足用户多方位的查档需求。

档案数据扩容突破了原先的档案收集渠道,扩大了档案数据总量,必须利用大数据挖掘技术进行有效利用。高校档案馆要充分利用信息革命的成果,利用大数据挖掘技术管理海量的数字资源,找出这些数字资源的有机联系,把档案大数据的内在价值充分挖掘出来,使处于休眠或半休眠状态的档案通过挖掘得到价值复苏;把死档案变成活档案、档案数据变成档案资源,最大程度地提高档案利用服务的广度和深度,使大数据挖掘技术成为档案利用服务的新运行模式。

信息系统的互联互通,需要档案从业人员进行前端介入,使得档案资源体系集中有序、规范齐整。信息系统的对接需要多部门参与,包括档案馆、二级单位、校办、网络中心及各系统的开发商,经过齐心协力、通力合作才能顺利实现。在信息系统对接过程中,高校档案馆除了重视机关单位的档案资源收集外,也要注重二级学院、直属单位的档案资源收集,及广大校友提供的有收藏利用价值的学校史料。这些数据源都是档案编研的重要依据,这些信息资源集合体将构建起内容丰富多彩的校内档案大数据仓库。

值得一提的是,注重信息系统的互联互通,还可以极大程度上缓解目前高校档案馆普遍存在的库房饱和问题。信息系统的互联互通,不仅能充分保障档案大数据的质和量,还能有效解决高校档案馆经过长期积累库房容量有限的难题。高校基建增量有限,各二级单位用房需求较大,档案库房需求难以得到满足,是制约高校档案馆发展的瓶颈。档案根据规定需要鉴定保管期限,许多档案根据属性保管期限为永久保存或长期保存,而长期保存需要30年时限,导致档案销毁速度有限,档案进多出少,需要不断增加库房面积。另一个现实问题是,近年来档案进馆量激增,远非往年可比,导致库房余量剧减。表面上库房容量暂时可以应对,但库房容量很快就会告急。信息系统的互联互通是实现档案增量电子化的具体表现,通过吸收信息系统的电子资源,从技术层面强化电子档案管理,是解决馆舍面积和馆藏总量之间矛盾的最佳选择。

(三)高校档案馆、校史馆、博物馆和图书馆具有性质相似性,可以集中统管

高校档案馆的管理对象是档案,档案数据具有育人价值;校史馆、博物馆管理的是实物,实物信息也具有育人价值;图书馆管理的是图书,同样具有育人价值。因此,四者具有高度的性质相似性,都具有育人育才的文化特征。有的高校对档案馆、校史馆、博物馆及图书馆进行统筹管理,使其合而为一,充分整合,展现其育人功能;而有的高校即使各自行政独立,但之间仍存在着密不可分的联系。例如,很多图书的素材来自于史料,需要查考档案和校史馆、博物馆的实物,需要寻找历史记忆,在此基础上经过二次加工打磨而成。[1]集中统管高校档案馆、校史馆、博物馆和图书馆,将其存量信息融入到档案大数据仓库中来,用户就可以从这些价值密度高的数据资源中集中找寻有用信息。当图书作为档案大数据的供给主体之一时,将极大程度上丰富档案大数据仓库。经过集中管理,统筹利用服务,各类信息将互相补充、互为旁证,融合成大档案馆的数据供应仓库。

(四)各档案馆馆际之间协同建立搜索引擎,消灭信息孤岛

各高校档案馆之间、甚至不同行业档案馆之间可以协同建立搜索引擎,共建、共享档案大数据建设成果。在实际情况中,高校档案馆信息交流的渠道有限,各自建设、各自为政,限制了档案大数据仓库的进一步发展。虽然高校档案馆间有交流有互访,相互学习取经,但时间有限,频次低。此外,各档案馆独立建设档案信息管理系统,资源得不到共享,成为事实上的信息孤岛。因此,有必要建立档案馆馆际信息检索系统,通过联合检索使分散存在的档案信息连接成有机的整体;打破部门壁垒,使档案数据量达到一个更新的高度,使档案大数据的内涵涉及到更大的层面。

三、提炼档案大数据内在关联线索,采集档案数据价值

档案大数据由于数据量大,超出了单一服务器或现有数据库软件的管理分析能力,因此不能用传统数据管理方式运作,必须借助大数据挖掘技术。档案大数据虽然价值含量高,但所蕴含的价值在众多档案数据中随机分布,并具有动态更新的特征,需要通过大数据挖掘技术找出档案数据中的相关性,采集出用户需要的适用、有效的信息。[2]数据关联的实质就是优化,提炼出档案利用的规律、偏好和热点,建立分类标签和分类模型,从而简化挖掘流程,修正挖掘行为,避免挖掘负荷过大,保障挖掘操作的正常运转。

首先,可以从档案的形成过程中找出关联规律。档案数据虽然结构各异,既有结构化数据,又有半结构化、非结构化数据,但是档案的形成过程是可以跟踪的,档案的形成单位和形成人、档案收集整理人、档案用户与档案门类之间的关系、档案用户相互之间的关系,这些相关性把看似独立的档案文件联系起来,组成一个关联整体,对这些提炼出来的档案进行整理、分析、判断,就可以有针对性地为用户提供档案数据信息。其次,可以从档案元数据中找出关联规律。档案元数据包含着大量有价值的信息,可以折射出档案之间的相互联系,案卷或文件题名中的高频词可以归类出档案数据表达的信息要点,档案元数据表现出来的特征和因果关系可以作为大数据相关分析的依据,只要找出档案元数据中存在着的相同、相似、相关性,就可以把隐秘潜藏的档案价值挖掘出来,成为可加以利用的档案信息。此外,可以从用户信息和行为特征找出关联规律。用户在注册时将留下个人信息,包括姓名、性别、年龄、文化程度、专业类型、职业、所在地域等身份信息,这些都是档案大数据合理分类的线索。用户的行为特征包括检索或浏览特征、浏览时长、浏览档案的门类、浏览量及下载量、浏览目的、反馈意见等。可据此用统计学原理建立用户行为偏好模型,预测用户兴趣点并匹配档案数据,形成个性化的推荐界面,使用户更好地理解、评判、反馈实时挖掘结果,达到大数据挖掘精准服务和知识推荐的功能。

四、整合标准,系统规范地推进档案大数据信息系统建设

首先,高校档案馆基本以各自为战的方式开发档案管理信息系统,所借助的软件公司不同,软件公司技术力量和技术重心也不同,高校档案馆之间缺乏针对技术开发的信息交流,缺少借鉴和提升。正因为没有明确的设计规范,导致高校档案馆开发出的档案信息管理系统形式和功能各异。因此,必须加强开发设计经验的交流和推广,避免人力和财力的浪费。

其次,从档案大数据角度来看,相关标准必须进行有效整合。例如,不同的网络通信协议、不同量纲或量纲单位的数据标准、不同的数据存储格式之间必须进行有效整合,也只有通过整合,才能保证档案大数据顺利实现共建、共享。高校网络中心在配置云存储时,应有统一的逻辑和结构,各二级单位信息系统要遵循网络中心对于数据信息的规定。校内各业务信息系统的数据标准要统一,相关数据值要和基础业务数据保持一致。这是一项比较艰巨耗时的工作,但可以层层推进,一步一步解决。这项工作推进得好,才能开展各类信息的对接工作,拓展档案大数据总量,真正建立起档案大数据的资源库。

五、对档案大数据进行清洗处理,保证数据有效性

大数据挖掘技术运用于档案大数据管理,取决于档案数据的有效程度。档案信息管理系统内部及对接外部信息系统过程中都会产生大量的错误数据或冲突数据,产生数据噪音和数据冗余,需要进行清洗过滤和浓缩。比如,档案数据之间可能前后不一致,根据规则可以判定某些数据是无效的,或者因为种种原因造成档案数据缺失,或者档案数据出现了许多重复值,需要进行校验和处理。

具体处理方法建议如下:当根据档案业务规则或常规知识发现数据出现不一致性时,如属于输入方法、专门领域知识可判别等较容易纠正的问题,可由计算机自动识别纠正;如不能自动识别纠正,可归类发送至相关业务部门修改相应系统内部数据。对于数据无效性问题,如确属关键数据,可采用整例删除,否则建议采用删除变量或用特殊码代替,以保证档案统计样本的有效总量。数据缺失问题一般需要数据责任人进行手工补充。数据重复性问题可以通过合并或清除的方式来处理。

数据清洗是一个长期的处理过程,需要档案从业人员和业务系统责任人秉持责任心和恒心多角度反复清洗、反馈和处理,经过持之以恒的努力,使档案大数据的数据值保持有效可用。

六、严防网络入侵、网络泄密,保障档案大数据安全无患

档案的安全保障除了防止自然灾害、环境影响、人为因素等造成高温、高湿、虫蛀、霉变等破坏档案实体的安全风险之外,网络入侵、网络泄密等行为成为大数据时代异常重要的安全隐患。对于这类安全隐患,除了采用传统的防火墙、入侵检测、防病毒方法以外,高校档案馆多采用数据完整性鉴别方法,即通过身份控制,根据用户独立的身份配置相应权限。

根据数据加密技术的发展情况,很多数据加密技术可引起重视并加以运用于档案大数据信息管理系统。[3]例如,数据传输加密、数据存储加密和密钥管理等,这些数据加密技术是保护个人隐私和敏感数据的重要方法,确保免于暴露档案数据,免于违规使用有安全风险的档案数据,支持用户根据自身权限进行选择性访问档案数据,确保档案大数据既好用又安全。

七、运用有别于传统档案管理的分布式算法,实现档案大数据挖掘

档案大数据挖掘由于数据量过大,单个服务器难以有效计算、处理,必须借助分布式计算方法。分布式算法的基本原理是将特征矩阵划分成大量子矩阵等小单元,安排各服务器节点进行子矩阵的计算,得到各个子矩阵的计算结果,迭代至上一矩阵中,汇总到全局矩阵,从而得出最后的总结果。因此,只要档案大数据达到一定规模,必须采用分布式算法才能挖掘出有用的信息。

尽管分布式算法使大数据挖掘技术成为现实,但不建议将所有属性纳入矩阵计算。必须对档案的属性进行筛选,减少计算的工作量,减少处理时间。过高的属性分散性实质是过度地依赖大数据挖掘技术,将导致计算速度过慢甚至难以得到想要的结果。因此,在进行档案大数据挖掘操作之前,有必要先对档案属性进行整理、筛选,确保档案大数据挖掘的速度和成效。

八、利用人工智能建立语义分析数据库,增强档案大数据挖掘技术的分析判断能力

计算机只是一种机器,不可能做到与人类一样拥有复杂的语义分析知识能力,但是计算机有别于其它机器,具有特有的计算速度快的优势。近年来,人工智能的发展使得计算机语义分析能力得到极大的增强。可以说,人类的自然语言具有语义关联错综复杂的特点,包括同义、近义、反义、相关等多种类型,但是人工智能可以超出单纯使用语义规则的模式,对语义进行聚类、统计和分析,进而获得词语重组后的对应关系,并进行自动识别和标注。[4]这些语义的关联将被记录、保存、更新、丰富,从而建立起既庞大又科学的语义数据库。档案大数据挖掘技术可以利用这些语义数据库,保证挖掘过程中的准确性和科学性,使得档案大数据挖掘技术有依据、有保障。

目前,档案大数据挖掘技术可采用许多现成的语义知识库,比如各类主题词表、知网、百度百科、维基百科等,在此基础上再从网络社会中提炼语义信息,进行语义补充和更新。

九、采用成熟的开源平台,推进档案大数据挖掘技术应用程序的开发工作

MapReduce及基于此基础上开发的开源计算平台Hadoop是相当成熟的大数据挖掘编程架构,平台采用节点并发计算的方式进行挖掘、提取关键信息,可将计算任务切割到多个节点,极大地缩短了处理时间,其大数据处理规模达1TB以上,其高效处理大规模数据的能力已被世界所公认,足以满足高校档案馆大数据处理能力的现实需求。同时,高校档案馆存有大量半结构化和非结构化数据,传统平台难以读取和分析,而MapReduce及Hadoop的读取范围不仅仅包含关系数据库中的结构化数据,也包括半结构化和非结构化数据,是数据管理的重大突破,给广大档案从业人员带来了福音。

MapReduce是由Google公司开发设计,应用程序可在此平台上分布式并行计算和处理,开发者不用在多线程同步程序的编写和调试上花费精力,从而免于在系统层设计方面投入时间。MapReduce主要分成Map映射功能和Reduce规约功能,Map函数解析无序的数据,提取键值(key-value),通过对列表中的元素做计算,由Reduce函数进行迭代规约,从而对列表元素进行合并化简,直至得出简单结果。[5]

MapReduce服务器节点可高达数千个,计算性能随节点数的增加呈线性增长关系,可将大数据划分为较小的数据块,计算任务将自动在各节点上分配、执行,获取最终计算结果。如果节点沉默时间超过预定值,则定位该节点状态为死亡状态,如果节点数据因硬件或软件故障发生出错情况,该节点的数据将被迁移至其它节点。Reduce规约功能的并行性相对较差,因此将被尽可能安排在同一节点或邻近节点。MapReduce通过代码迁向数据的方式优先处理本地存储的数据,否则将把数据迁向邻近节点,从而减少数据通信,提高处理速度。

Hadoop是在GFS和MapReduce的基础上开发的,Hadoop的核心成分包括HDFS及MapReduce,通过HDFS存储大数据,而MapReduce则实现大数据的计算。HDFS支持以流的形式写文件,NameNode管理文件系统名称空间,并以DateNode标识和目标块管理客户机存取文件,使计算任务可在存储节点上得以完成,工作任务的分配及数据通信工作则由JobTracker节点完成。Hadoop作为开源技术,被许多大公司运用于Web搜索、数据分析之中,一些企业通过二次开发,成功开发出许多商业服务,使得Hadoop被广泛使用,受到大数据挖掘技术工作者的青睐。

十、运用非关系型数据库(No S QL),实现半结构化数据和非结构化数据的管理

如今,高校档案馆存有大量半结构化数据和非结构化数据,迫切需要成熟的非关系型数据库,除了档案馆之外,其它领域同样迫切需要运用NoSQL。在这样的背景下,NoSQL得到长足的发展,是数据库发展史上历史性的突破。NoSQL数据库分键值存储(如Tokyo Cabinet/Tyrant)、列存储(如Cassandra)、文档型(如CouchDB)及图形(如Neo4J)四种,各有其优势和不足。NoSQL使用键值对应数据,不需要定义表结构,每条记录属性可以不同,因此结构简单而且灵活;同时NoSQL可分布存储在多个服务器上,实现全共享架构;此外,NoSQL分布式节点可动态增删,扩展性较好,并可根据日志文件异步复制。NoSQL已被一些企业部署应用于大数据管理中,档案工作者可根据档案大数据管理的实际需要。对照四类NoSQL性能并加以选取运用,解决了长期以来困扰大家的结构化、半结构化和非结构化数据统筹管理问题。

十一、针对大数据挖掘技术的发展,高校档案馆应做好专业人才的配置工作

高校档案管理人员的专业范围已经在交叉融合,不仅有档案学专业的,还有计算机、中文、传媒、历史、工程等多种专业的。档案管理人员的实际专业配置情况证明高校档案馆确实需要复合型人才。同样,档案学也出现越来越多的交叉学科,主要偏向计算机应用和网络管理方面。随着大数据挖掘技术的发展,高校档案管理专业应当重视档案学和大数据挖掘技术这一交叉学科的人才培养。[6]高校档案馆编制的使用应逐步向云计算、大数据分析技术这类专业倾斜,档案管理将更为需要大数据挖掘技术的专家,从而跟得上档案信息化快速发展的步伐。

现有其它专业的档案从业人员要积极通过继续教育和自学钻研等渠道涉猎大数据挖掘技术,防止知识老化,努力成为既有档案管理业务知识又有现代信息化技能的多面手,适应新时代档案管理的模式转变,形成大数据管理的思维能力,在档案管理发展过程中出现热点和难点问题时能够提出科学解决方案,提高档案管理的实际水平。

十二、结语

档案大数据挖掘技术是在档案数据剧增的现实环境下,将档案数据信息挖掘为知识库的有效方式,传统档案管理运行模式无法有效收集、整理、存储、分析、判断海量数据源,从而加速了档案大数据挖掘技术的发展。同时档案管理也提出了处理储量丰富的半结构化和非结构化数据的要求,要求档案管理措施和技术策略同步更新,真正把大数据挖掘技术作为提升档案利用服务功能的重要突破口。

作为提供知识服务的趋势性技术,大数据挖掘技术日益受到大家的关注。高校档案馆要密切联系各二级单位,协作融合,共同把大数据挖掘技术运用于日常管理工作中,不断提高工作效率和服务质量。可以说,大数据挖掘技术在高校的大规模使用是可以期待和预见的。

猜你喜欢
数据挖掘档案馆档案管理
改进支持向量机在特征数据挖掘中的智能应用
关于企业档案管理体制改革的探讨
事业单位档案管理的难点及对策实践
太原市档案馆牵手百年胡氏荣茶共寻文化脉络
云南省档案馆馆藏《东巴经》
档案管理模式改革在医院档案管理中的运用
探讨人工智能与数据挖掘发展趋势
基于事故数据挖掘的AEB路口测试场景
软件工程领域中的异常数据挖掘算法
when与while档案馆