档案大数据挖掘流程与技术研究

2017-03-11 18:32张伟

兰台世界 2017年17期

关键词：数据挖掘分类资源

张伟

（辽宁省档案局（馆）沈阳110167）

档案大数据挖掘流程与技术研究

张伟

（辽宁省档案局（馆）沈阳110167）

当前，海量数据挖掘技术诞生相比其他信息技术更加契合档案管理工作的需要，尤其是在大数据时代下，通过数据挖掘技术将海量档案资源转化为知识资源，会成为今后档案管理工作一个必然发展趋势。因此研究探索大数据挖掘技术在档案工作中如何应用是档案工作者的重要课题。

大数据技术数据挖掘档案管理档案大数据

档案信息资源挖掘实际上就是要在维护党和国家根本利益的前提下，将潜在的档案信息尽可能地挖掘出来、传递出去，发挥其应有的作用，从而最大限度地发挥档案信息的经济效益和社会效益[1]5。从知识管理的角度分析，档案信息资源挖掘即开发主体（档案工作者）采用一定的方法和手段将客体（档案信息资源）更加系统化、有序化，以满足不同利用者的需求并从利用者对客体的利用中获得收益的过程。

但目前不存在针对档案行业开发的系统性专门挖掘技术，理论研究方面也需要我们档案人在实践中不断研究探索，而数据挖掘是门专业性较强的学科，其技术方法与理论基础不断延伸，我们无法全部掌握并加以实施，而是应根据档案管理自身情况，研究具有可行性的并被广泛应用的普适性数据挖掘技术。

档案信息资源的挖掘过程简单的说就是从大量数据中提取或“挖掘”知识的过程，此过程通常包括六个基本步骤：定义主题、准备数据、浏览数据、生成模型、浏览和验证模型、部署和更新模型。从档案信息挖掘角度来讲就是对现有档案数据信息进行分析，将档案信息内在之间及内与外在所包含的信息进行组合提炼，最终将所需要的结果呈现出来。此过程并非现成软件系统自行匹配就能够完成的，需要在馆藏档案有足够的了解的基础上，精心制定方案，准备整理资源、指导技术实施、部署应用等一系列程序，关键流程应包括以下几点。

一、档案大数据挖掘前期规划

首先要确定数据挖掘的预期目标与最终效果。档案部门开展海量数据挖掘与现有商业性数据挖掘主要目标定位是有所差别的；数据挖掘技术实施与平台建立需要投入大量的人力物力，筹集大量资金，目标定位不准确，可能造成的资源浪费。因此档案部门应对数据挖掘应与国家信息化事业的战略取向保持一致，应该围绕“社会效益最大化”的目标，充分了解政府、公众及当前档案工作的需求，预定哪些资源需要进行数据挖掘，需要到达怎样的质量指标，而不是盲目开展。

其次要制定方案。通常包括：确定指导思想、任务目标和阶段目标等；制定项目详细工作内容。确定资源范围、类别、规模、技术要求等。采用技术路线。确定实施或遵循的标准、使用的设备、操作方法和技术手段等。预期成果。说明项目完成总体目标，预期达到的有形或无形成果和社会效益等；风险控制。制定安全管理的实施策略和实现方法；实施组织形式。详细说明本部门和承担企业的各自分工的主要内容，确定责任与人员；项目实施预算表。项目实施所需的费用分类汇总。

再次方案论证。对方案的先进性、适用性，资金投入上的合理性、实用性，实施上的可能性、标准及制度的可操作性、风险性进行全面科学的综合分析。

然后建立组织机构开始实施。根据确定的项目目标，明确划分分解目标，列出所要进行的工作的内容，制定岗位职责标准与考核要求，使之成为有秩序、高效率、部门合理分工、密切协作的数据挖掘管理组织体系。

二、档案大数据资源收集

1.数字档案信息来源和采集范围。数据的挖掘首先是搜集有用数据，数据越丰富越好，数据量越大越好，只有获得足够的数据，才能获得确定的判断，才能产生认知模型，这是量变到质变的过程。经验由此产生，经验的积累就能产生有价值的判断，数字档案来源和采集范围主要包括以下几方面：一是传统馆藏档案数字化。是数字档案馆信息资源的最主要来源，馆藏各类载体的档案资料进行数字化处理，建设的数字化档案信息资源池。二是立档单位的数字化进馆的档案文件资料。三是具有档案性质的行业、专题信息资源库。如时事专题、科技专题会议专题、人物专题等。四是社会征集进馆的档案文件资料。五是互联网上其他具有档案价值和参考的信息。将互联网上一些零散、无序的、具有档案价值的信息征集或收集到本地，经过一定的整理、组织、加工并纳入数字档案馆资源库。

2.档案信息资源挖掘的原则。一是遵从法律和法规。馆藏档案信息很多内容涉及国家、外交、疆界、民族等方面，敏感且未解密档案信息，有信息还可能涉及商业机密、著作权、个人隐私信息等。因此开展档案大数据挖掘必须遵守国家、行业以及本地区的相关法律、法规及各种标准规范，避免失泄密。二是平台可扩展。数据是无时无刻不在扩展的，特别是网络信息资源，扩展速度超乎想象，所以数据挖掘管理必须保证自身功能的可扩展性以及容量的可扩展性，以满足数据类型的多变性和迅速增长的数据量的要求。同时，档案信息挖掘也是一个庞大而长期的工程，不能一蹴而就，需要系统规划，循序渐进，不断完善，常抓不懈的工作。不但要依靠新技术来推进，更要灵活的将数据挖掘技术与档案学理论动态结合，掌握好工作重心和档案工作的发展趋势，使档案数据挖掘工作始终处于不断完善发展之中，实现此项工作的可持续发展。三是选择性原则。馆藏信息资源数量巨大，有选择性地获取和挖掘此部分资源不仅可以节省人力、物力和财务,也可无用信息带来的负面影响。档案大数据挖掘的对象的选择应从几点着手：①特色资源。针对自身的馆藏特点，形成档案大数据资源特色。②针对性资源。挖掘档案信息要有针对性，要密切关注和分析社会动态，把握社会热点，有针对性地开发社会需要的档案信息产品。④规模化资源。档案信息资源应成系统化、规模化。小规模、零散的、单项资源通常不利于信息挖掘的准确性。③需求量大资源。档案大数据挖掘必须紧紧围绕信息利用者的活动，随时根据档案信息利用者提出的要求，以最快的速度加工处理档案信息。四是确保挖掘结果准确性。即对数据挖掘质量的控制问题。数字档案馆数据库中涉及大量的数据信息，在这些海量数据中，不可避免会存在冗长甚至错误的数据，在进行数据挖掘时，应选择适合的挖掘类型和算法，并对出现的错误数据进行修正、处理、加工。

三、档案大数字信息存储与预整理

1.档案大数据存储架构。根据前期制定的目标和规划，建立的档案信息资源仓库，通常这些数据量巨大且结构复杂多样，需要有足够的空间和选择适合的存储解决方案。而现有传统数字档案存储设备、机制及技术手段等很难满足大数据挖掘的需求，在传统的档案存储通常都在单独的存储设备上进行或采用传统网络存储系统集中用服务器存储。这些存储形式是档案大数据挖掘的系统性能的瓶颈，也是可靠性和安全性的焦点，对大数据处理技术和存储容量的可扩展性来说也已经不是最佳选择。需要考虑对整个存储架构与数字档案管理模式进行革命性的重构，并且要适当超前考虑，使存储能力的能够满足档案数据量的增长。

当前大数据存储架构通常采用分布式存储体系，分布式存储体系将大规模海量数据用文件的形式保存在不同的存储节点中，并用分布式系统进行管理。其技术特点将大的任务分解为多个小任务，通过让多个处理器或多个计算机节点参与计算来解决问题。分布式文件系统能够支持多台主机通过网络同时访问共享文件和存储目录，能够更好地支持海量数据的存储和处理。目前典型的分布式文件系统产品有GFS（GoogleFile System可扩展的分布式文件系统）、HDFS（Hadoop DistributedFileSystem，分布式文件系统，简称HDFS））等。

传统档案数据以结构化或半结构化数据为主，包括文本、音视频、动画、图像各类文件格式纷繁复杂，特别是在网络中采集的档案信息资源，格式类型更为复杂，包括公务邮件、网页、博客、微博等，格式类型有XML、HTML、各类报表等。因此应改变以结构化为主体的单一存储方案，采用分而治之的思想，使用分布式文件系统进行存储，更为适合，方便增加节点实现大数据稳步处理。

2.档案大数据信息预整理。档案大数据信息预整理主要指在数据挖掘以前对数据进行的一些前期整理。现实中档案数据有些是不完整的或冗余的，或与数据挖掘目的不一致的，或有些数据是影响挖掘结果正确性的，甚至有些信息是有害的信息，如网络中的不当言论、反动信息等。为了提高数据挖掘的质量和效率，需对这些档案大数据资源进行预整理，包括根据既定主题对现有资源进行分类、剔除冗余、填补关键信息、数据格式转换等。具体如下。

档案资源分类。大数据挖掘整理分类与档案业务管理中的分类有所不同，一般有固定模式，如文书档案、人事档案、会计档案等；进行档案大数据分析整理时的分类可以更为广泛、更多角度、更多维度进行多重分类，例如：重大事件、统计资料、人文、地理、历史等，分类方式可以更为丰富多样。档案大数据资源分类的依据主要取决于分类对象的属性或特征。

数据清理。通过填写缺失关键信息值、识别或删除偏离目标信息并解决不一致性来“清理”数据。主要是达到如下目标：格式标准化、无用或重复数据清除、错误纠正等。

数据集成。把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中，多个数据源中的数据结合起来并统一存储，建立数据仓库的过程实际上就是数据集成。

数据变换。规范化数据使其适用于数据挖掘的形式，使得信息数据能够快速、高效、准确地被计算机所识别，从而使得采集上来的数据能够更好的为应用服务。

数据归约。数据挖掘时往往数据量非常大，在少量数据上进行挖掘分析需要很长的时间，数据归约技术可以用来得到数据集的归约表示，它小得多，但仍然接近于保持原数据的完整性，并结果与归约前结果相同或几乎相同。

四、档案大数据分析模型建立

挖掘算法建立是对档案隐形和显性知识的内在和彼此关联因素的分析基础上，通常是复杂的非线性关系。主要解决要从哪些方面或角度开展档案数据分析，各方面包含什么内容或者指标，要建立怎样的数据关联等[2]4。数据分析模式建立方法也有多种，它们分别从不同的角度对数据进行挖掘。

1.分类。分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类，其目的是通过分类模型，将数据库中的数据项映射到某个给定的类别。它可以应用到档案的分类、档案的属性和特征分析、公众需求热度或兴趣分析及公众利用档案资源趋势预测等，如档案馆可根据利用人群利用档案情况进行分析，据此进行档案分类定向提供服务，更能提高档案利用率以及利用者的利用兴趣。

2.回归分析。回归分析方法反映的是事务数据库中属性值在时间上的特征，产生一个将数据项映射到一个实值预测变量的函数，发现变量或属性间的依赖关系，其主要研究问题包括数据序列的趋势特征、数据序列的预测以及数据间的相关关系等。它可以应用到档案管理的各个方面，如根据档案资源寻找和探索历史事件产生原因、发展过程、及发展趋势等，还可以用于研究档案保存环境对档案存储介质的影响，档案载体在生命周期内的阶段性变化，利用方面可以用于某类研究档案什么时间段利用最频繁等。

3.聚类。聚类分析是把一组数据按照相似性和差异性分为几个类别，其目的是使得属于同一类别的数据间的相似性尽可能大，不同类别中的数据间的相似性尽可能小。它可以应用到档案信息资源的分类工作方面，档案资源纷繁复杂，传统的分类方法需要大量的人力物力和时间，通过聚类分析可根据资源特征进行特定事件细化分类。

4.关联规则。关联规则是描述数据库中数据项之间所存在的关系的规则，即根据一个事务中某些项的出现可导出另一些项在同一事务中也出现，即隐藏在数据间的关联或相互关系。档案资源之间具有千丝万缕关联关系，加之数量巨大，不容易被我们发现和缕清，通过对档案数据库里的大量数据进行挖掘，可以从大量的档案记载中发现事物必然或间接的关联关系，找出事物内部之间与外在的关联因素，通过历史事件的分析甚至可以预测同类事物发展规则和趋势，据此可为经济社会发展提供数据参考依据，为政府、企业决策提供信息支持。

5.特征分析。是从数据库中的一组数据中提取出关于这些数据的特征式，这些特征式表达了该数据集的总体特征，特征分析正确程度决定于原始数据的完备程度和精确程度。可以应用与档案的鉴定工作，通过定义涉密、敏感信息特点，提取含有此类信息的档案资源，并进行精确划控，从而有效确保档案资源的安全、保密。

6.变化和偏差分析。偏差包括很大一类潜在知识或信息，如分类中的反常实例，模式的例外，观察结果对期望的偏差等，其目的是寻找观察结果与参照量之间有意义的差别。如档案馆可对采集的网络信息资源进行舆情分析，针对突发事件、热点事件、重大活动等信息进行提取分析，预测事件发展方向、大众关注度、舆论导向等，进而可对事件进行客观评价、正确识别，对政府决策提供信息支持，预测潜在的异常情况并及时预警等。

7.Web页挖掘。Web信息资源量无比丰富，通过对采集Web资源建立的Web档案信息资源库，进行数据挖掘分析，收集政治、经济、政策、科技、金融、各种市场等有关的信息来丰富馆藏，并进行数据挖掘分析和处理，形成各类专题资源库，为大众提供历史网络信息资源服务。

综上，建立分析模型是一个螺旋上升，不断优化的过程，通过数据挖掘结果来判断分析模型是否有效，如果结果不理想，则需要调整分析模型，对模型进行优化。

五、档案大数据挖掘平台建设

我们可以把数据的分类、融合、压缩、摘要以及数据中抽取发现知识与信息都看作是文本数据挖掘。通过这些技术使得我们在搜索档案时从大数据范围变成小范围，从而提高其效率和准确度。档案大数据系统平台总体架构应按照实际内容应用的流程实现，通过多类型数据采集平台进行数据采集，在智能数据处理平台上分析这些非结构化信息，最后在应用平台上提供数据挖掘结果供应搜索平台和自动编研平台等。以下两种主流大数据挖掘平台可以作为档案数据挖掘平台建设的参考。

1.面向服务的体系结构（SOA）。SOA（Service-orientedArchitecture，面向服务的体系结构）是近年来软件规划和构建的一种新方法，以“服务”为基本元素和核心。SOA是大数据的重要支撑技术，通过“服务”的方式支撑实现大数据的跨系统汇聚、共享、交换、分析、管理和访问。我国在SOA广泛应用实践的基础上推动了标准化工作，形成了支撑各类应用的服务技术架构系列标准，并在智慧城市、电子政务等众多信息化领域取得了成功实践，具备了支撑大数据发展的良好基础。

2.MapReduce框架。MapReduce是一个软件架构，用于大规模数据集（大于1TB）的并行运算。MapReduce框架是Hadoop的核心，但是除了Hadoop，MapReduce上还可以有MPP（列数据库）或NoSQL。当处理一个大数据集查询时，MapReduce会将任务分解并在运行的多个节点处理。当数据量很大时，一台服务器无法满足需求，分布式计算优势体现出来。MapReduce将任务分发到多个服务器上处理大数据，HDFS的重要内容就是对于分布式计算，每个服务器都具备对数据的访问能力。Hadoop高效性是因为它以并行的方式工作，通过并行处理加快处理速度；Hadoop还是可伸缩的，能够处理PB级数据。

六、档案大数据挖掘结果评价

实施数据挖掘所获得的挖掘结果，需要进行评估分析，以便有效发现有意义的知识模式。数据挖掘所获得初始结果中可能存在冗余或者无意义的模式，这是就需要退回到前面的挖掘阶段，重新选择数据、采用新的数据变换方法，甚至换一种挖掘算法。

档案大数据挖掘的过程是将信息库转化为知识库的过程，是将档案信息资源转化为有形资产的过程。经过这一过程，档案就不至于在库中“死去”，而会在社会快捷方便的使用中实现其应有的价值。

[1]许桂清.大数据背景下的档案行业发展[J].中国档案，2015（6）.

[2]陈永生.大数据背景下的数字档案馆与档案数字化建设[J].广东档案，2013（4）.

10.16565/j.cnki.1006-7744.2017.17.07

G270.7

2017-05-15