数字矿山背景下大数据归档利用体系平台建设研究

2022-11-17 07:50:16范海斌李秋香

现代信息科技 2022年20期

范海斌，李秋香

（国家能源神东煤炭集团公司，陕西榆林 719315）

0 引言

在数据档案发展领域，发达国家已经进入信息存储、信息挖掘和价值创造的时代，信息承载体的管理已经延伸到信息本身的管理，信息的存储和利用的规则研究是其重点方向。以光和电磁为存储中介的模式正在成为主流，信息解析规则也在趋向于基本的物理规则，传统信息解析规则的解析偏差在逐渐减小。

在应用层面的数据档案的研究，目前只有浙江省档案馆在政务系统上做了初步的尝试，也多集中在对电子文件本身的管理。基于企业数字工业背景下的档案管理研究，目前尚无先例可以遵循。针对煤矿企业，实现完全数字化、智慧化，进行了高度的互联网+融合的企业并不多，数字化矿山建设在行业内也是在逐步落地和完善，可提供完整的数字矿山模型供档案管理进行研究的例子不多，所以完整的电子文件归档体系和数据归档体系建设在国内尚无先例。相对而言，对结构化数据进行采集、清洗、压缩、解析等操作目前研究很少。

本文从数字矿山的结构化数据、基于煤矿传感设备直接生成和工控软件以及决策软件的数据采集汇总开始，将数据推入档案转换阶段。确定数字矿山建设背景下结构化数据的归档范围、保管期限确定的原则、分类方法、实施策略、接口规范，在此基础上完成大数据归档利用体系平台的构建。

1 平台构建包含的内容

本课题研究背景为信息时代下的档案管理转型，研究方向为基于数字矿山的建设和档案的资源化管理及大数据归档利用体系平台建设。该项目在理念和与实际应用上实践均属于填补行业空白，在研究中将新理念及多项新技术引入档案管理领域，包括资源管理、标准制定、接口规范、价值挖掘、安全体系等，产生多项创新成果。平台构建逻辑上遵循数据采集、数据清洗、数据固化、数据归档和数据利用[1]，具体如图1所示。

图1 平台界面及内容设计

2 平构建思路和方法

2.1 构建的思路

本项目主要针对现有智能矿山比较成熟的应用系统，进行具有探索性、实验性的数据研究，研究对象为电子数据，包括单一来源的工业数据，依托于现有载体的电子数据和数字化加工产生的电子档案。通过数据研究获取数据形成和分布的规律，形成规则，并通过软件开发，使用软件对数据接收、存放和利用进行技术验证，为智能矿山各业务系统大数据总体管理提供验证性数据和经验。

2.2 研究方法

本项目采用迭代改进的方法进行研究，从价值发挥和规范管理出发，在充分收集系统数据及调研的基础上完成数据归档利用的理论模型构建，根据理论模型搭建软件系统，利用软件系统验证模型结构，根据验证中发现的问题重复修正模型和系统，通过反复的实验研究，得到最符合目标要求的模型、系统。最后梳理数据，对研究过程进行总结，形成完善可行的大数据归档利用体系，进而完成大数据归档利用平台的建设[2]。

3 平台的构建

3.1 体系模型的构建

大数据归档利用体系模型的建立，从确立研究对象开始。在本课题中研究对象有两部分，一是数字矿山业务系统产生的电子文件和数据档案，二是原档案系统中的目录数据和原文。从数据的性质上区分为结构化数据和非结构化数据。

数字矿山各个业务系统的数据库类型主要为oracle 和SQL Server 等主流数据库，技术对接较为容易实现。业务系统中的电子文件有两种，一种是业务系统根据逻辑请求生成的电子文件，一种是用户上传的电子文件。电子文件格式包括DOX、DOCX、JPG、PDF、XLS、OFD 等，电子文件具备转换成符合版式文件长期保存格式的基础。

数字矿山业务系统中的电子文件需要甄别和保持和业务表的联系。格式适宜采用PDF。数据档案和实体档案的管理分开，采取平行管理的模式，数据档案补充完善分类编目规则和存储规则[3]。

基于以上研究，数字矿山大数据归档利用体系模型的构建采用构建数据容器，容纳数据档案和传统档案的结构，业务数据通过接口和容器完成信息交互，具体呈现上业务数据在容器内要完成数据档案的转换，传统档案管理系统通过底层对接的形式，完成数据的共享。最终在数据容器的基础上实现大数据的归档和利用，如图2所示。

图2 体系模型逻辑示意图

3.2 数据采集的实现

数据的采集重心是数字矿山各类业务系统中结构化数据和非结构化数据的采集。按照体系模型的规划，同时考虑原档案系统中数据的采集。业务系统的中电子文件的元数据信息，是保障电子文件“四性”的重要依据，所以一并采集。

采集的数据从类型上主要为结构化数据和非结构化数据，选用Web Service 的模式，设立数据容器，容器包含结构和数据和非结构化数据，各业务系统统一与数据容器接入集成，数据容器将数据推送至大数据归档利用平台的各项应用场景。采集部分涉及文件封装和信息交互，分非结构化数据处理平台和电子文件处理平台两个部分，协作完成信息采集工作。非结构化数据处理平台完成结构化数据和元数据的采集，形成非结构化文件，然后推送至其他应用场景。大数据归档利用平台基于SOA 架构实现与其他系统的“和谐”集成[4]。

元数据需要各业务系统进行推送，包括数据服务器相关信息，如MAC、用户等。包括结构化数据的特征信息，如表特征、相对位置、源库等。元数据信息作为电子文件和数据档案的背景和属性描述，推送时以数据流的形式进行传输，在非结构数据管理平台中转换为非结构化文件，后继提供给其他应用场景。采集时，依据数字矿山业务系统的部署特点，对多级部署应用的采集也进行的实验，采取数据纵向传播的方式，保障元数据相对集中的处理。

非结构化数据管理平台将电子文件元数据封装成XML文件，调用集成接口推送到其他应用场景。如图3所示。

图3 采集示意图

3.3 数据清洗的实现

数据清洗的对象主要是业务系统流转的数据，包括结构化数据和非结构化数据。清洗的目的是将业务数据中低价值或者无价值的部分舍弃掉，确保数据档案的形成和价值。清洗的方法是先确定价值标准和范围，通过标准适配数字矿山业务系统的数据，得到有价值的数据档案，对数据档案进行进一步分析，确定整合或者分解的必要性。清洗的流程，首先通过采集接口从业务系统接收数据，确立数据归档表，将数据归档表内嵌至清洗模块，根据归档表完成数据的价值判断，利用归档表和数字矿山业务系统数据进行比对，比对完成的数据进行格式转换。

非结构化数据的清洗分为两次进行，依据《企业电子文件归档和电子档案管理指南》《科学技术档案的一般构成》《企业档案管理指南》确定电子文件归档范围。根据归档范围进行第一级清洗，即价值清洗。完成第一次清洗后，大数据归档利用分析平台利用原档案管理系统的目录数据库，进行遍历，一一比对，和原库重复的文件，记录原档案管理系统的文件ID[5]，业务系统响应的电子文件不进行归档至此电子文件的筛选完成。

结构化数据的清洗过程较为复杂，取自数据库的数据需要解决两个问题，一个是清洗掉结构数据表中的低价值数据，一个是结果数据的存储问题。以所有待测数据单位数量为分母，以各类型数据所占数据单位数量为分子，呈现比例关系，如图4所示。

图4 数据分别比例图

基于以上结论，结构化数据的清洗步骤，首先从目标数据表按照确定的时间周期抽取数据，然后对数据进行价值判定，根据设定好的数据清洗规则，过滤无意义的数据单位，再后对过滤后的数据表按照规律进行重构，最后得到目标数据表，也就是经过转换后的数据表。

3.4 数据固化和元数据管理的实现

数字矿山业务系统的数据和文件按照清洗规则进行相应转换后，转变为具备存储价值的对象，包含电子文件和数据库的数据表。参照《版式电子文件长期保存需求》《文献管理可移植文档格式》，数据库记录、业务系统电子文件都需要转换成可长期保存的格式。为了后继档案管理和读取，选取XML 和PDF 两种格式作为数据固化的最终格式。

具体运作流程为：将在平台中建设电子档案元数据管理，元数据系统中需要有元数据的映射表管理功能，用于业务系统传递过来的数据的解析过程。它将按照预先配置好的映射关系将推送过来的JSON 进行解析后生成XML 文件，将XML 文件和归档文件按照大数据归档利用平台的要求封装到EEP 包中，推送给电子档案管理系统，并从大数据归档利用平台中获取归档状态等信息。

采集的数据按照业务系统的功能定义形成数据表，电子文件一并采集，和业务表有关联的，依照逻辑和数据表一并进行打包。数据包的形成内容包括数据表、电子文件和元数据三部分内容。结构上分为三层：第一层为业务系统元数据，第二层为打包内容和大数据归档利用平台的元数据，第三层为相应的电子文件。

3.5 电子文件“四性”和数据归档的实现

“四性”包括真实性、完整性、可用性和安全性，结合系统构建特点，分别采用方案进行。

归档环节的“四性”保障和检测，归档文件通过接口进入大数据归档利用平台，自动完善元数据并对其进行分类整理编号等一系列归档文件整理工作，完成后归档入库。由于文件归档前和归档后都是在可信大数据归档利用系统中完成各项操作，因此真实性、可用性和安全性完全可以得到保障，只需要针对归档要求对元数据和电子文件的完整性进行检测即可。

数字矿山业务数据经固化处理后，已经形成数据包，统一使用单个XML 文件表述，具备以件管理条件。分类方案基于煤炭工业企业分类规则进行拓展，介于文件的形式、格式和容纳的内容，无法直接融入原档案管理体系，在管理上适宜和原档案系统的管理库相对独立。新的电子档案盒原系统的档案的电子形式一起形成档案大数据，为保证数据的整合，在逻辑上两者适合纳入一个体系进行管理。综合研究的基础上，采取在工业企业分类规则十大类分类方式的基础上，增加一个分类，为数据档案类。其次级分类根据业务系统特点和工业生产特点，分为采掘、运输、通风、动力、排水、通信、监测、决策和其他，再次级分类根据数据特点分为管理类、采集类、行为类和其他。依照分类对形成的数据包进行整理分类和著录。

3.6 数据深度利用的实现

数据利用的目的是产生价值，在大数据形成后，如何对数据进行深度挖掘是本课题研究的主要内容。本课题构建基础搜索引擎，在此基础上添加数据挖掘规则，尝试建立学习模式，让数据的利用深度和广度具备提升的潜力。

计算机的人工智能，根据计算机原理，人工智能的本质就是穷举计算和规则学习完善的结合，对每一个场景以及其分支都预设了内容和结果。所有的数据挖掘均基于数据检索和数据分析，简单的搜索为类似于数据库的检索模式，该模式需要人为给出检索关键词，而后对检索结果分析，最后得出结果。该模式容易实现，但高度依赖人工，在缺乏角度和海量数据的情况下，很难得出有价值的结论。数据挖掘智能化的第一步就是让简单搜索具备基本的比对能力，这是开启智慧的第一步。

本课题中基础引擎为热点搜索引擎，以热点词语的多和少作为检索的两个分支，具备检索多种格式文件的能力，包括TXT、XLS、PDF 等，可以目标数据进行分词，并对分词结果按照热度进行排序。实现基本原理：先建立碰撞库，对目标数据按照字节采用冒泡发进行循环碰撞，得出单字节热点次数排序，按照排序选择确定数量的再次挖掘结果，对热点单字节进行延展扩充，单字节增加到双字节，对双字节进行重复冒泡。以此类推，可增加到三字节到四字节直至10字节。最终排序的字节去掉不符合表达方式的词语，就得到了检索内容中的热点词排序。

基于该基础引擎，我们可以从几个维度对数据进行挖掘，包括出现频率最高排序、出现频率最低排序、数据变化量排序、异常数据排序等，根据不同的数据表和应用场景，可以得出不同的结果。在热点词语排序的基础上匹配工业环境、公文基础、基本工序、场景模拟等因素，该基础引擎就可以完成进化。每一个场景的配置和每一个分支的选择，都有不同的结果，不同走向的相互搭配形成搜索的高级规则，对规则的不断优化，完成了挖掘的智能学习，数据挖掘至此有了智能。

4 结论

大数据归档利用平台的建设最终为档案工作服务，各部门利用该平台进行档案的信息化管理。档案工作人员通过此信息平台进行档案的收集、整理、保管等工作，借阅人员通过网络直接进行相关的档案查询利用工作。基于上述设计完成构建的平台，可以同时完成各系统的采集、清洗、转换、归档、利用等业务操作，为数字矿山背景下大数据的归档和利用提供了可应用的解决方案，对档案管理转型意义重大。