华阳集团企业级数据管理体系建设与应用实践研究

2024-01-17 22:59王辉邢伟曹帅阴鹏飞史梦瑶姜志萍刘佳杨敏
中国标准化 2023年22期
关键词:数据管理体系智能

王辉 邢伟 曹帅 阴鹏飞 史梦瑶 姜志萍 刘佳 杨敏

摘 要:目前,根据不同的业务需求,数据库是独立设计和开发的。数据的异构性和不共享性限制了数据资产的有效性。本文介绍了华阳集团企业数据管理体系建设过程,描述了数据管理系统框架和数据治理系统框架,阐述了元数据、数据标准、数据质量、数据安全、数据模型、数据监管、数据生命周期管理、数据服务和数据分析算法等关键技术,重点展示了智能推荐、智能搜索、履约、智能问答、用户画像等企业数据资产与AI智能相结合的应用结果。

关键词:元数据,数据模型,算法,标准数据库,数据采集,智能检索,智能问答,用户画像

DOI编码:10.3969/j.issn.1002-5944.2023.22.021

0 引 言

随着企业蓬勃发展,华阳集团致力于科技创新、数据驱动和企业转型优化的发展战略新思路,逐步形成“一主两翼七大板块”的产业格局。在信息技术变革大潮中,华阳集团紧跟时代步伐。为了进一步提高企业市场竞争力,适应新形势下企业生产经营的管理需求,集团在各业务领域增强了现代化信息系统管理建设力度。随着管理系统建设,数据量规模不断攀升,数据的类型也呈现多样化[1]。目前,数据库根据业务需求的不同,研究和应用背景的不同,从语法、语义、模式等具有异构性的方向,进行独立设计开发,使集团级数据共享、整合与集成应用面临巨大挑战。

多年来,集团公司从全局视角下好信息这盘棋。依托华阳集团二十多年来信息化建设的深厚底蕴,2022年6月,华阳集团数据信息部针对上述问题,根据企业信息系统建设整体情况,将高度复杂的、海量的、分散的、异构的集团整体数据进行了自上而下的科学规划,依据国家八部委联合发布《关于加快煤矿智能化发展的指导意见》[2]要求,结合企业实际生产经营,借助企业已有的硬件设备包括:存储器、服务器、网络等,搭建了数据采集管理平台,构建了企业数据治理体系,建成了集团级数据标准库、标签数据库、算法库、知识库和业务数据库等数字化资源管理平台,建成了工业算法模型、图像处理、视频识别和自然语言识别的AI服务平台,为上层的业务智能化应用提供数据服务,打通了数据与智能应用之间的屏障,实现企业智能化基础。

华阳集团数据管理平台为实现企业的智能检索、智能推荐、智能协同、智能问答和用户画像应用提供了标准化的数据接口和高精度的数学算法服务,实现了企业数字化、数字资产化的历史性蜕变。

1 系统开发设计

1.1 建设目标

华阳集团企业级数据管理体系建设主要目标是实现“一个平台、两个体系、三个特征、四个统一、五个服务”的一体化数据管理全景图。

一个平台:搭建一个一体化的数据管理平台;两个体系:建立数据治理体系和数据管理体系;三个特征:确保数据的准确性、唯一性、共享性;四个统一:达到数据的统一标准、统一来源、统一接口、统一服务;五个服务:提供数据查询、数据调用、数据分发、公共数据资源、数据即时服务。

构建企业数据治理体系,依托数据管理平台,对企业各业务系统数据进行数据综合治理,最终形成企业数据资产。

搭建数据管理平台,研发智能算法,利用企业数据资产,生成数据模型和业务需求模型,实现企业数据智能检索、智能协同、智能问答机器人和用户画像等AI智能业务场景应用。

1.2 建设内容

涉及数据范围:根据企业智能应用场景将数据分为感知数据、监测监控数据、经营管控数据、外部数据、历史数据。感知数据包括MES、GIS和地质保障系统等采集的智能掘进、智能开采、煤流监控、辅运监控、通风监控、压风监控和工业视频等数据;监测监控数据主要由传感设备采集的人员定位、瓦斯监控等数据;经营管控数据指由ERP系统、SRM系统、OA系统运行过程中存储的生产管理数据、安全管理数据、OA文件数据、人力资源数据、成本数据、物资数据、运销数据、车辆定位数据、煤质数据等;外部数据是从外部数据接口采集的市场行情、煤价、气象、供应商企业信息、客户企业信息、客户舆情、行业信息等数据;历史数据指生产管理系统、经营管理系统、地质管理系统、综合自动化系统、工业视频监控系统等储存的历史数据。

涉及应用场景:基于数据治理体系框架和数据管理平台,优先建设生产管理、设备管理、安全管理、经营管理等业务智能应用场景,将数字化业务场景应用纳入数据管理体系中,建立统一的数据应用标准规范,实现数据统一性、复用性和共享性。智能应用场景包括智能检索、智能推荐、智能协同(合同履约)、智能问答、用户画像等应用。

数据管理和数据治理的区别:数据管理和数据治理建设内容有很多重叠部分,但数据管理在范围上讲包含数据治理。数据管理包括多个不同的领域,其中最显著的领域就是数据治理。DMM数据管理成熟度模型中数据治理是其中一个数据管理分类。数据管理协会(DAMA)[3]在数据管理职能框架中认为,數据治理是数据管理的子集。数据管理中要保证一个组织已经将数据转换为有用的信息,这项工作所需要的流程和工具就是数据治理工作。

数据管理体系:数据管理体系建设是个系统化的工程,涉及众多源系统的交互。数据管理体系涵盖包含数据标准管理体系、数据管控体系、数据技术服务体系、数据质量要求、数据安全要求等内容。数据管理体系架构如图1所示。

集团企业级数据管理体系主要通过数据汇聚整合、萃取加工、服务可现及价值变现,建立贯穿数据接入、数据存储、数据汇聚层、数据开发和数据服务的运行管理机制;提供标准的数据规范制度和管控流程,实现数据变资产并服务于应用的总体目标。华阳集团企业级数据管理体系建设思路如图2所示。

数据主题域:据数据主题域分类维度,在API管理中分别建立基于系统维度、业务域维度和应用维度的主题域结构。数据主题域元数据分别为主题域一级分类、主题域二级分类。其中主题域一级分类、主题域二级分类基于两种不同维度有相应的变化。

本期主题域建设,会在生产、安全、经营、企业、专家、管理六大领域(一级类目)的基础上,在建设过程中逐步完善二、三、四级类目。

数据治理体系:集团数据治理体系实施以DCMM数据治理体系[4]为指导,结合行业实践,形成了“盘、规、治、用”的实施方法论,搭建了一个合理高效的业务数据监管体系,降低了企业业务运营成本,依托数据管理平台,提升了业务处理效率,改善了数据质量,为企业管理决策进行赋能。数据治理体系主要内容包括元数据管理、主数据管理、数据标准管理、数据资产管理、数据质量管理、数据安全管理等。DCMM 数据治理体系框架如图3所示。

元数据管理:元数据又称为中继数据,是描述数据的数据,主要描述数据属性的信息,是科学数据有效共享的方法之一。元数据分为技术元数据和业务元数据。元数据基本管理包括元模型管理、元数据管理和元数据分析。元数据分析功能主要实现针对元数据的基本分析功能,包括血缘分析、影响分析、实体关联分析、实体影响分析、主机拓扑分析、指标一致性分析等。

数据质量管理:主要针对数據的开发、应用和管理进行规范和指导,主要解决数据的不完整、数据格式不一致、空值和乱码,提高数据准确性和标准度。数据质量管理定义数据质量评价维度和数据质量评价体系,提供质量指标定义、质量稽核、质量问题分析和统计等功能。高质量的主数据依赖于围绕主数据构建的流程、系统和管理要求,其对应的载体为主数据管理系统。

数据安全管理:主要在传统的安全防御基础上,强化数据信息安全和数据使用安全,加强数据脱敏和加密处理,防止数据丢失、泄露和窃取,确保企业数据安全。

数据监督管理:对数据进行算法和人工校验,实现自动监控和预警监督的管理过程。

数据全生命周期管理:从数据使用规划开始,包括采集、开发、产生、建模、业务应用系统调用、更改、存储和消亡整个生命流程管理。通过对数据的跟踪,加强数据管理措施,降低数据管理成本,提高数据质量,升级数据安全,提高数据的兼容性和复用性,最终达到数据价值最大化。

2 关键技术分析

2.1 数据采集技术

本系统用到的数据采集技术主要有抓取技术、日志采集技术、数据连接技术和文件导入技术。

(1)抓取技术主要通过网络爬虫程序对网页、API等进行数据抓取,实现互联网上所有供应商和客户的企业信息及行业关注焦点新闻。

(2)日志采集技术主要对各应用程序的日志进行采集,实现数据使用的跟踪。

(3)数据库连接技术是使用标准的数据接口协议和数据接口,从企业内部各业务系统中,收集非结构化、半结构化和结构化的数据,且将这些数据存储到数据中心。

(4)文件导入技术,是通过文件导入器将各种格式的文件导入数据中心。

2.2 元数据管理设计

元数据管理是数据治理工作的重要组成部分。以元数据为抓手进行数据治理,可以帮助企业更好地对数据资产进行管理,理清数据之间的关系,实现精准高效的分析和决策;可以为数据集成、数据质量管理、数据加工整合、日常运行维护、数据安全管理和业务应用提供基础能力支持。

元数据管理通过建立元数据模块、元数据表、元数据视图实现机器自动写代码功能。元数据管理如图4所示。

2.3 数据标准设计

数据标准是为企业建立的一套符合自身实际,涵盖定义、操作、应用多层次数据的标准。

数据标准可以划分为两类,即基础性标准和应用性标准。前者主要用于在不同系统间,形成信息的一致理解和统一的坐标参照系统,是信息汇集、交换以及应用的基础,包括数据分类与编码、数据字典;后者是为平台功能发挥所涉及的各个环节,提供一定的标准规范,以保证信息的高效汇集和交换,包括数据采集方法、数据清洗、数据资产管理、数据生命周期管理、数据安全管理等。

2.4 数据质量控制

主要关注数据记录、关键字段和业务规则三个方面的数据质量控制。

系统核对记录数据主要在数据采集、数据清理、数据转化三个阶段,将取得的数据记录和数据总量与系统中反映的数据进行核对,确保电子数据完整性。对于非结构化的数据,系统将用文件数据量和大小与数据提供清单进行对比,核实数据的可用性和完整性。对于结构化的数据,系统将核对总数量和分类汇总项数量。

系统验证关键字段采用字段长度核对、最大和最小值审核、孤立点检测、真实性核对、范围核对、空值替换等验证方法对表字段的完整性和乱码进行检验。

系统业务规则验证是指利用业务专业标准和业务逻辑,设计一套有效的勾稽检查算法,对系统收集的业务数据进行逻辑校验的过程。

2.5 数据资产管理

数据资产管理数据提供方通过数据资产管理进行数据资产的信息录入,对资产进行分类产生主题数据。

在交换任务的事前、事中和事后都提供实时数据资源管理来保证数据交换的质量。以元数据为核心,通过共享、使用、管理和开发实现数据资产的闭环管理,全面支撑大数据应用。

2.6 数据模型设计

数据模型设计是指从企业业务的视角,对企业业务活动相关数据采用统一、规范的定义和数据建模方法构造模型。

数据仓库:主要存储来自源数据系统的明细数据,基本不做数据加工,设置字段命名注释等,均需要跟源数据系统保持一致。

数据仓库数据结构与生产数据的源业务系统保持一致,承担源业务系统数据全量存储职能。数据通过数据平台提供的数据同步工具进入数据仓库,只存放当前或接近当前的数据,如果需要的话还可以对数据仓库中的数据进行增、删和更新等操作。

3 应用实践及效果展示

华阳集团企业级数据管理体系确保了业务数据的唯一性、准确性和共享性,为企业业务应用系统和AI智能应用服务提供了来源统一、接口统一和标准统一的业务数据。

3.1 AI+搜索引擎

AI与搜索引擎的结合让搜索引擎更加智能化,如智能推荐、智能搜索的AI应用。

3.1.1 智能推荐

智能推荐实现了针对用户经常搜索、关注及浏览的内容,进行详细数据分析;根据用户偏好,智能推送用户关注内容和各种数据。智能推荐如图5所示。

3.1.2 智能检索

智能检索可以通过个人信息、企业信息、业务信息、行业新闻和行业政策等信息的关键词、主题域和数据类型等进行信息检索,并按照相关度或时间进行排序,实现了结构化数据和非结构化数据的搜索。AI巡检机器人可以通过5G网络将海量感知数据上传至云端,从而在云端进行智能化的故障识别与检测。智能检索如图6所示。

3.2 AI+主数据

A I与主数据应用实现了智能协同,如合同履约。合同履约针对集团内部所有合同的执行、支付和查询进行全业务流程的跟踪和监管。

3.3 AI+服务

AI与服务应用实现了人机交互,如智能问答。

智能问答:AI应用服务通过构建知识图谱和语言模型,深入理解用户需求和语义,建立人机对话应用场景,管理智能机器人进行语音问答,使机器人针对智能问答中丰富的使用词进行复杂管理,增强智能机器人对未知问题的学习。

3.4 AI+行业

AI与行业结合引领行业变革,如用户画像。用户画像:用户画像又称用户角色,作为一种勾画目标用户、联系用户诉求与设计方向的有效工具,在各领域得到了广泛的应用。实际操作的过程中往往会以最为浅显和贴近生活的话语将用户的属性、行为与期待的数据转化联结起来。作为实际用户的虚拟代表,用户画像所形成的用户角色并不是脱离产品和市场之外所构建出来的。形成的用户角色需要有代表性,能代表产品的主要受众和目标群体。用户画像的主要作用表现在:产品定位:通过用户画像可以了解目标用户的需求、行为和特征,从而帮助产品定位,确定产品的功能和目标用户群体。

用户需求挖掘:通过用户画像可以挖掘用户的潜在需求和行为特征,从而帮助产品开发团队更好地了解用户需求,改进和完善产品。

产品优化和改进:通過用户画像可以了解产品的缺陷和不足,从而帮助产品团队发现问题并进行优化和改进,提升用户体验和产品质量。

4 结 语

本文基于企业级数据管理体系建设及应用实践,分析了数据管理体系建设对于企业生产经营的重要意义,阐述了构建企业数据管理体系的整体技术架构和实施方案,总结了集团数据资产应用到AI智能服务最前沿的实践经验。

参考文献

[1]张科利,王建文,曹豪.互联网+煤矿开采大数据技术研究与实践[J].煤炭科学技术,2016,44(7):123-128.

[2]国家发展改革委,国家能源局,应急管理部,等.关于印发《关于加快煤矿智能化发展的指导意见》的通知[EB/OL].(2020-03-05)[2023-04-13].https://www.gov.cn/zhengce/zhengceku/2020-03/05/content_5487081.htm.

[3]数据管理协会(DAMA国际).DAMA数据管理知识体系指南[M].北京:机械工业出版社,2020.

[4]数据管理能力成熟度评价模型:GB/T 36073-2018[S].

作者简介

王辉,本科,高级工程师,从事企业管理工作。

邢伟,本科,工程师,从事项目管理工作。

曹帅,本科,工程师,从事技术管理工作。

阴鹏飞,本科,高级工程师,从事项目管理工作。

史梦瑶,本科,工程师,从事软件开发工作。

姜志萍, 本科,高级工程师,从事项目管理工作。

刘佳,本科,工程师,从事项目管理工作。

杨敏,本科,技术员,从事软件开发工作。

(责任编辑:张瑞洋)

猜你喜欢
数据管理体系智能
企业级BOM数据管理概要
定制化汽车制造的数据管理分析
海洋环境数据管理优化与实践
构建体系,举一反三
CTCS-2级报文数据管理需求分析和实现
智能前沿
智能前沿
智能前沿
智能前沿
“曲线运动”知识体系和方法指导