煤炭企业元数据采集与治理系统建设研究

2023-02-03 15:36王辉邢伟曹帅阴鹏飞史梦瑶
中国标准化 2023年19期
关键词:数据治理数据采集

王辉 邢伟 曹帅 阴鹏飞 史梦瑶

摘 要:本文介绍了煤炭企业数据采集系统的开发背景,分析了该系统针对企业数据进行元数据体系化、数据采集标准、数据质量、数据模型、主题域、数据服务、数据分析算法等数据治理体系的建设,提出了实现数据采集、数据清洗、数据存储等的方法,为数据分析系统和智能问答系统提供了行业数据服务和行业业务基础服务。

关键词:数据采集,煤炭企业元数据,数据清洗,数据治理

DOI编码:10.3969/j.issn.1002-5944.2023.19.015

Research on the Construction of Metadata Collection and Governance System for Coal Enterprises

WANG Hui XING Wei CAO Shuai YIN Peng-fei SHI Meng-yao

(Shanxi Yangmei Lianchuang Information Technology CO., Ltd.)

Abstract: This paper introduces the development background of the data collection system of coal enterprises, and analyzes the construction of data governance systems such as metadata systematization, data collection standards, data quality, data models, subject domains, data services, data analysis algorithms, etc. The paper proposes the methods of data collection, data cleaning and data storage, etc., and provides industry data services and industry business basic services for data analysis systems and intelligent question answering systems.

Keywords: data collection, coal enterprise metadata, data cleaning, data governance

1 系统开发背景

当前,煤炭行业相关企业结合生产制造模式、平台企业服务运营模式,分析梳理业务流程和系统设备,考虑行业要求、业务规模、数据复杂程度等实际情况,对企业数据和行业数据进行分类梳理、标识,基本形成行业数据分类清单。其数据分类维度包括但不限于研发数据域、生产数据域、运维数据域、管理数据域、外部数据域等[1]。

依据《工业数据分类分级指南(试行)》(工信厅信发〔2020〕6号)规定的类别,结合实际数据获取渠道和来源,在行业数据分类基础上,形成了煤炭行业的数据采集、治理、应用的生态化平台体系,解决煤炭行业数据复杂性问题。

2 数据体系设计(系统开发设计)

数据治理体系主要针对煤炭企业结构化和非结构化数据进行治理。通过对元数据管理、数据标准、数据质量、数据模型、主题域、数據服务、数据分析算法库等进行规范和设计,构建数据治理体系,并形成企业数据资产目录和数据资产。煤炭行业数据体系如图1所示。

本体系的主要业务范畴集中于数据源体系、数据汇聚标准建设、数据质量控制、数据模型库设计。

2.1 数据汇聚标准建设

系统的规范化流程为煤炭企业用户提供数据全流程及业务系统接入的规范化方案,将实现特色数据全流程和业务系统的快速统一接入[2]。

系统设置多为异构数据的汇聚、抽取、清洗、转换、合并等,将数据整合统一,建立标准化的大数据平台,并对平台的数据汇聚、存储和共享的性能进行评估测试,具备较高的稳定性和可靠性[3]。

汇聚流程如下:

a) 资源提供方提供接口,实现通过接口调取业务数据库中的数据;

b) 按照选择的网络图谱配置前置机及网络安全设备并打通网络链路;

c)数据平台工具通过资源提供方提供的接口地址、用户名密码、传入参数进行服务调用获取数据,并把数据采集至前置库中;

d)数据系统把前置库中的数据采集至中心前置库中。

数据要求包括:

a) 明确每条记录中数据的主键数据项,且不能为空;

b) 每条记录中的数据需增加一个时间戳字段,以方便系统根据时间戳识别增量数据;

c) 按照目录的汇聚频率来更新数据;

d) 服务调用必须根据时间段进行数据的采集,输入参数中必须包含起始时间参数和截止时间参数。

各业务系统以增量更新的方式按规定的频率进行数据交换。更新频率应为资源提供方根据业务产生的实际频率进行定义。

2.2 数据质量控制

2.2.1 数据质量控制中的常见错误类型

(1)数据完整性错误。完整性错误是最常见的数据错误。数据不完整导致不能检查出来,严重的错误可能导致结论错误。

(2)数据一致性错误。一些数据记录的规则未按照数据存储的一致规则记录,有些数据的逻辑关系出现了错误,还有些数据在抽取转化过程中,造成了数据不一致的错误。

(3)数据准确性错误。导致数据准确性错误原因有三种:一是数据值落在定义域之外。二是系统应用控制缺失,导致录入错误未能发现。三是数据在导出、整理过程中出现的字符型数据的乱码现象。

(4)空值错误。在数据库中,空值不等同与空白或零值,其含义往往不确定。若不将空值表达成确定的值后再进行数据的汇总或分析,可能出现因为空值导致的错误。

2.2.2 数据质量控制的思路方法

(1)核对记录数。可以运用在数据采集、数据清理、数据转化等三个阶段。对采集到的数据必须进行质量控制,以排除遗漏和错误,降低由于被刻意修改的风险。将取得数据的记录数与被系统中反映的记录数核对,有原始资料的还要与纸质记录进行核对,确保取得的电子数据完整。

(2)核对总数量。一是对采集的原始数据总数量进行验证。对非结构化数据,将数据文件数量和大小,与提供的数据清单进行比对,核实是否遗漏,同时还需要核实数据是否可用、内容是否完整;对结构化数据通过核对总数量、分类汇总分项数量,与信息系统中的数据进行核对。

(3)验证数据表关键字段。对数据表中的关键字段进行一致性验证、错误值修改、空值替换、冗余数据消除、保证数据值落入定义域等处理,以提高数据质量,为下一步工作做好准备。首先核实数据表字段是否齐备,关键字段值是否缺失,内容是否存在乱码。其次通过统计计算、分类汇总等方式,核实数据表内数据是否真实可信。可采取长度核对、最大和最小值审核、孤立点检测、真实性核对、范围核对、空值替换等验证方法。

(4)验证业务规则。数据在整理标准化和分析挖掘的过程中,将原始数据中表名、字段名、记录值代码以及关联的经济含义明确标识出来,需要进行大量的查询汇总或细分、替换修改、插入数据、更新数据、删除数据等操作,每一步转换工作都有可能影响到数据的完整性和准确性,这需要有非常规范和标准的统计逻辑关系约束,所有指标的计算规则必须保证一致。

3 关键技术分析

数据采集系统的数据来源包括拟定的6大系统、互联网各类数据,经过本系统处理后,流向数据中台,提供给煤炭企业数据的分析平台。由此可见,本系统的工作要点包括数据采集和数据清洗两个业务范畴。

3.1 元数据管理技术

基于业务域分类维度,梳理一级、二级主题,形成数据资源目录。基于应用分类维度,收集数据应用相关设计文档、说明文档等,整理应用名称、模块名称形成应用业务元数据。

元数据管理是数据治理工作的重要组成部分。以元数据为抓手进行数据治理,可以帮助企业更好地对数据资产进行管理,理清数据之间的关系,实现精准高效的分析和决策。可以为数据集成、数据质量管理、数据加工整合、日常运行维护、数据安全管理和业务应用提供基础能力支持。

元数据管理通过建立元数据模块、元数据表、元数据视图实现机器自动写代码功能。如图2所示。

3.2 数据采集技术

业务系统数据库数据通过KETTEL工具抽取到煤炭企业数智化平台数据库中,如图3所示。

煤炭企业数智化平台数据库数据通过KETTEL抽取到ES数据库,如图4所示。

3.2.1 抽取物理技術

从业务系统中采集原始物理表元数据。数据包括用户、数据表名称(中英文)、数据表类型、数据标识、来源方式、表中文名等。

物理表的抽取分别依据三种维度进行元数据抽取。

(1)基于系统分类维度抽取贴源层物理表。

(2)基于业务域分类维度抽取明细数据层物理表。

(3)基于应用分类维度抽取集市层物理表。

3.2.2 数据筛选

制定有效表判断规则,梳理有效数据表,建立有效数据物理表清单。对已抽取的贴源层、明细层、集市层物理表进行自动识别,筛选出空表、备份表、系统配置表、临时表、垃圾表等无效数据表,梳理有效数据表并进行标注,形成有效数据物理表清单。

3.2.3 数据采集

(1)互联网数据—通过爬虫技术方式采集煤炭行业全网数据,采集各平台的图文、音视频数据。具有灵活性高、速度快的特点。适用于各种复杂场景数据采集的需求,为客户提供基础数据。

(2)非结构化数据—通过手机office文件、图片、语音、视频等煤炭企业数据,在输出表中定义文件格式并建立输出和字段间映射,以及存储文件的名字和位置就能导出文件。

(3)流式数据—Spark Streaming是Spark核心API的一个扩展,可以实现实时数据的可拓展,高吞吐量,容错机制的实时流处理框架。如图5所示。

Spark Streaming支持的数据输入源很多,如Kafka和简单的TCP套接字等。数据输入后可以用Spark的高度抽象原语如map、reduce、join、window等进行运算。而结果也能保存在很多地方,如HDFS、数据库等。另外Spark Streaming也能和MLlib(机器学习)以及Graphx完美融合。

3.3 数据清洗技术

对重复数据、时间日期格式、空白字符、异常字符、国家权威行政区划规范化业务系统的地理信息、文件向文本转化等内容进行清洗。

(1)针对重复数据本系统采取的首要措施为“排序和合并”即先将数据库中的记录按一定规则排序,在清洗转换阶段,对于重复数据项尽量不要轻易做出删除决策。

(2)针对时间日期格式进行转换过的时间和日期字段的数据利用标准的时间戳给予明确的数据修正标识,确保数据的可持续和可跟踪。

(3)针对空白字符、异常字符直接忽略空值、合理填充空值、常见的是会使用属性的平均值进行中位数或者众数去填充。

(4)针对国家权威行政区划规范化业务系统的地理信息对行政区划代码是国家对能够统治的行政管辖区域进行分级分层进行管辖,用信息化手段编制的对各层级行政区划编制的替代数码,按照国务院最新的中华人民共和国国务院令(2018)第704号《行政区划管理条例》规定执行[4]。

(5)针对文件向文本转化对WPS文字文件转换为文本数据;WPS表格文件转换为文本数据;WPS演示文件转换文本数据;图片格式的文本数据转化。

3.4 数据治理技术

数据治理完成后,会形成一系列供算法分析和业务服务的数据仓库。数据仓库包括词典库、索引库、配置库、规则库、业务库及其他库。

(1)行業企业词典库内容包括主题词管理-人名库、主题词管理-地名库、主题词管理-机构名录库、相关词管理等。

(2)基础与应用索引库对元数据模块管理、元数据表设计、元数据视图管理、分组管理、分类法进行库。

(3)数据治理配置库包括应用API管理、前台菜单、后台菜单管理等。

(4)数据治理规则库包括属性词管理、主题词管理、场景词管理、停用词管理、形容词管理、反义词管理、满意强度管理等规则配置库。

(5)行业应用业务库包括各类业务数据库和表单。

(6)其它模型库主要是其它业务库。

4 应用效果展示

4.1 主题域

根据数据分类清单和数据主题域分类维度,在API管理中分别建立基于系统维度、业务域维度和应用维度的煤炭行业主题域结构。

初期的煤炭主题域建设,是基于战略发展、财务、审计与风险管理、科技质量网络信息化安全4大领域(一级类目)的基础上,在建设过程中逐步完善二、三、四级类目。主题域如图6所示。

4.2 数据服务

通过建立统一的煤炭行业服务平台以满足针对跨部门、跨系统的数据行业应用。通过统一的数据服务平台来统一数据源,变多源为单源,加快数据流转速度,提升数据服务的效率。

基于煤炭行业数据平台将数据提供给上层访问调用,实现数据的应用变现和数据的闭环。

4.3 跨库检索

为优化数据迁移对多数据源关联查询性能的影响,提出一个多数据源的关联查询优化模型,使用包装器对需要查询的存储系统进行包装,为用户提供统一的多数据源关联查询接口;提出区域划分策略,以存储系统的关系表为划分粒度,构建基于多数据源关联查询命令的区域有向图,划分出查询子任务[5]。

5 结 语

本文通过构建煤炭企业数据平台的数据采集系统,对大数据体系的理念和实际理论进行了探讨。本企业特点和业务数据,通过大数据理念和处理技术首先进行了重新治理和优化,为煤炭企业数据平台的分析系统提供了必要的结构化数据支撑。理论结合实际应用,大数据数据采集和数据治理的处理,为大数据理论的实际落地提供宝贵的经验积累,为后续业务系统的收集和整理积攒了宝贵理论经验和实践经验。

参考文献

[1]工业和信息化部办公厅关于印发《工业数据分类分级指南(试行)》的通知(工信厅信发〔2020〕6号)[Z].

[2]袁雅涵,冯勇,朱辉,等.基于多源数据的快速统一监控关键技术研究[J].电子技术与软件工程,2022(6):241-245.

[3]张伟,张恩东,魏永长.多源异构大数据汇聚共享平台技术研究[C]//第十五届中国航天电子技术研究院学术交流会优秀论文集.2018.

[4]民政部门户网站.2021年中华人民共和国行政区划代码[EB/OL].(2022-03-21)[2023-05-09].https://www.mca. gov.cn/n156/n186/c110745/content.html.

[5]郭东新,张伟,徐涛.多数据源的关联查询优化技术[J].计算机工程与设计,2021(4):1006-1013.

作者简介

王辉,本科,高级工程师,从事企业管理工作。

邢伟,本科,工程师,从事项目管理工作。

曹帅,本科,工程师,从事技术管理工作。

阴鹏飞,本科,高级工程师,从事项目管理工作。

史梦瑶,本科,工程师,从事软件开发工作。

(责任编辑:张瑞洋)

猜你喜欢
数据治理数据采集
高校数据融合路径及其治理框架的探讨
基于本体的企业运营数据治理
云端数据治理初探
CS5463在植栽用电子镇流器老化监控系统中的应用
大数据时代高校数据管理的思考
基于广播模式的数据实时采集与处理系统
通用Web表单数据采集系统的设计与实现
基于开源系统的综合业务数据采集系统的开发研究
运用流程化手段提升资产管理水平
大数据治理模型与治理成熟度评估研究