数据治理在航空电子企业信息化中的研究

2023-08-19 11:18张红博
现代工业经济和信息化 2023年6期
关键词:可视化架构体系

徐 瑞, 张红博, 邢 亮

(1.航空工业西安航空计算技术研究所, 陕西 西安 710000;2.西安翔迅科技有限责任公司, 陕西 西安 710068)

0 引言

企业在信息化实施过程中,建设了大量的异构系统,产生了大量的数据。如何在拥有这些海量数据的基础上挖掘有用信息、提高运营效率,数据治理是关键技术。这些异构系统基于不同的开发语言、不同的底层数据库,运行在不同的平台上,系统彼此分离、数据源相互独立,运行业务完全封闭,数据难以在系统之间交流、共享和融合,造成企业信息化各自为营的烟囱效应,从而形成信息孤岛。信息化在支撑企业业务发展到一定阶段后,迫切需要对各信息系统进行整合,打通信息孤岛,满足企业内部之间,企业内部和外部的信息交互需求,从而助力企业整体战略目标的实现[1]。数据治理是解决上述瓶颈问题的有效手段,可以为多源、异构、跨界数据应用夯实基础,确保数据资产管理活动始终处于规范、有序、可控的状态,将海量数据应用于决策、营销、成本节约和产品创新上。

数据治理是指将数据作为企业的重要核心资产和资源而开展的一系列活动,是对数据的全生命周期进行管理。在信息化实施过程中,由于各个业务系统分散建设,数据也分散于不同的系统中,缺乏统一的标准和规范,并且各个系统的数据存在冗余和矛盾,导致企业存在大量的数据,但数据利用率却很低。企业的数据问题可以集中归结为数据不一致性、数据冗余、数据不完整和数据不合规四个方面。数据治理通过对企业数据架构进行规划,建立统一的元数据标准,提升数据质量,控制数据使用权限,产生不同维度的数据服务,从而为企业的战略目标落地提供支撑[2]。而企业数字化转型,构建数字化企业,更要基于数据驱动。数据治理作为信息化发展过程中的必经阶段,也成为当前信息化研究的热门课题。

1 数据治理方案概述

航空电子类企业在信息化建设过程中,由于大量的业务数据分散在ERP、PDM、OA 和HR 等不同应用系统,业务部门关注的数据信息散落在各个业务系统中,导致科研交付、研制生产和物资配送等方面的信息无法关联展示,从而无法对项目执行过程中各类信息进行整体的协调控制。因此,需要通过数据治理手段,建立科研、生产、物资等主要业务流程全信息集成的数据报表,以便适时掌握项目进度、生产进度等统计信息,提升决策支持能力。

数据治理从实施方案上来讲,主要分为分析、设计和执行三个不同的阶段[3],在不同的阶段有不同的任务和行动项,如图1 所示。

图1 数据治理实施方案

在分析阶段,主要进行项目调研和分析,明确通过数据治理达成的任务和目标。

在设计阶段,主要工作是数据管理体系的构建实施。数据管理体系主要工作在于打造数据标准体系。具体包括构建数据管理的组织体系,明确各类业务数据由哪些业务部门进行负责。构建数据业务模型,设计统一的数据编码体系,明确数据的私有属性和交换属性。构建数据管理的质量标准体系,明确数据的验证范围和验证方法。

在执行阶段,主要工作是数据交换体系的设计实现。数据交换体系工作主要从技术层面入手,通过数据采集、数据清洗等技术手段,实现各个业务应用系统的数据对接,形成数据的自由流动以及数据的规范使用和运维[4]。最后,通过数据分析,形成数据分析报告、数据报表和图表等,为企业领导决策提供科学、精准、高效的数据支撑。

2 数据治理分析

在数据治理实施过程中,首先需要对企业内部的数据情况进行调研和分析,明确不同业务数据的源头。如在人员方面,企业人员、组织结构数据的源头是HR 系统,而其他应用系统作为人员数据、组织数据的使用方,需要及时获取人员信息的更新情况。在产品数据方面,企业产品数据的来源是PDM系统。在客户信息方面,客户数据的源头可以是CRM系统。在供应商信息方面,供应商数据的源头可以是ERP 系统,在项目信息方面,项目数据的源头是项目管理系统。

其次,要进行具体的数据分析工作。主要从以下几个维度展开,如表1 所示。

表1 数据治理质量维度

数据完整性:确保业务系统中的数据正确完整,例如,人员信息的工号必须有值且唯一,当人员离职后,该信息可以参照映射到其他业务系统中,确保其余业务系统对该用户关闭。数据冗余性:针对同一个业务实体信息,在不同的应用系统中,分别对该业务实体进行维护,导致存在一对多的数据冗余对应关系。数据及时性:当数据发生变更时,是否应该在规定的时间范围内,将数据变更及时同步到相应的业务系统中,主要针对的是业务数据的动态属性,如产品的库存信息、人员的在岗信息等。数据一致性:当企业中人员组织机构发生调整时,需要同步更新到其他应用系统中,确保数据访问的一致性、正确性。

最后,要设定数据治理的目标和计划,该目标和计划以解决业务部门的痛点为主,而不是单纯的以数据作为落脚点[5]。如提高物料信息盘库的准确率、实现所有产品信息的状态实时更新显示等。通过实现一个个小目标,助推企业的数字化运营大目标落地实现。

3 数据治理设计

数据治理设计阶段是在前期分析阶段的基础上构建数据标准体系和数据模型体系[6]。数据标准体系的设计是从宏观出发,依据企业组织架构,搭建符合数据治理要求的数据架构,从数据的全生命周期出发,根据不同部门岗位对数据的生产、使用、存储情况,设计符合企业内部数据需求的管理体系,确保数据治理工作有章可循[7]。数据模型体系是在数据标准体系的基础上针对具体的业务领域和数据环境,从微观层面对企业内部不同属性的数据进行分类。针对基础类型的字典数据,确保数据的分类编码准确无误。针对动态生成的业务类型数据,对其属性进行细化,并赋以不同的权限进行控制[8]。针对指标层面的数据,则进行汇总计算。企业的数据标准体系设计和数据模型设计如图2 所示。

图2 企业的数据标准体系设计和数据模型设计

从数据标准体系设计到数据模型的设计是数据治理首先进行的重要工作,通过开展一系列数据治理设计工作,可以为数据治理和数据应用工作打下良好的基础,从而保障数据质量。在数据标准的设计过程中,首先从整个企业组织层面考虑组建数据管理组织,包括数据管理制度、流程,然后确定设计组织内的相关职责,以及不同岗位人员对各类数据的维护、审核流程。在数据模型层面,从业务域到数据主题,再到数据实体、数据属性,对数据进行层层分解梳理、提炼数据标准,就可以设计出针对不同业务领域的数据模型。如在设计领域,针对产品数据,提炼出设计业务相关的数据对象。实体的数据都有相应的属性信息,需要把它的每一项属性信息从业务角度、技术角度和管理角度进行统一梳理,归纳出与实体之间的关系,形成数据的整体模型[9],如图3 所示。

图3 数据的整体模型

4 数据治理实施

数据治理实施主要包含数据采集技术、数据清洗技术、数据导入技术以及数据可视化技术[10]。

4.1 数据采集

数据采集技术分为实时数据采集技术和非实时数据采集技术。实时数据采集主要强调了数据采集的时效性,强调系统能够实时完成数据入库。非实时采集基于传统的数据仓库技术,完成数据从面向事务类的OLTP 数据库到面向分析类OLAP 数据库的转换。数据治理层面的数据采集主要面对的是非实时采集方式[11]。下面就介绍一种典型的基于Web 异构系统的数据采集技术。

当前,企业信息系统架构主要采用浏览器、服务器模式,是基于B/S 架构的系统架构方式。采用的具体技术架构比较多样化,有基于Java 语言的Java EE技术架构,基于C#语言的Net 技术架构,或者基于Python 语言的Django 架构。而浏览器/服务器架构系统访问技术建立在超文本传输协议HTTP 之上,HTTP 是一个基于请求与相应模式的、无状态的、应用层的协议,建立在TCP 协议的连接之上。一次完整的HTTP 请求过程,从TCP 三次握手建立连接成功后开始,客户端按照指定的格式开始向服务端发送HTTP请求,服务端收到请求后,解析HTTP 请求,处理完业务逻辑,最后返回一个HTTP 响应给客户端。数据采集技术通过构造基于HTTP 协议的HttpClient 数据访问器访问应用系统的URL 地址,通过Get 方式执行请求获取响应状态,并且将响应信息中的消息正文从网络数据流中读取出来[12]。整个数据采集方案架构如图4 所示。

图4 数据集成应用系统基本架构图

HttpClient 是利用Java 语言实现的支持HTTP 协议的客户端编程开发工具包,实现了HTTP 的访问方法,并且可以通过对HTTP 返回的状态码进行判断,当返回的状态码正确时,即取得响应内容。其抓取应用系统返回信息可分为5 个步骤进行。

1)构建HttpClient 类的实例:

HttpClient httpclient=newHttpClient();

2)创建Get 连接方法的实例,实例通过URL 地址访问应用系统请求资源:

GetMethod getMethod=new GetMethod(“应用系统URL 地址”);

3)调用第一步创建好实例的execute 方法,获得状态响应码:

Int statusCode=httpclient.executeMethod(getMethod);

4)根据状态响应码进行判断,200 代表请求已成功,读取响应内容:

System.out.println(“response=”+getMethod.getResponseBodyAsString());

5)释放连接:

GetMehod.releaseConnection();

4.2 数据清洗

针对从其他异构系统采集上来的数据,往往会存在数据质量问题,如数据不一致、不完整、不合规或数据冗余。因此,下一步的工作即是数据清洗。在数据清洗过程中,最重要的工作是建立一套数据的管道工具——ETL 工具[13]。将采集来的数据通过这个数据的管道工具,完成抽取、转换、加载映射的过程,从而生成符合治理要求的干净数据。管道工具加载数据的策略包含流水式加载、全量加载、增量加载和拉式加载等。

ETL 工具可以自己开发,互联网上也提供了许多开源产品。如Kettle,是一款国外免费开源的、可视化的、功能强大的ETL 工具,纯Java 语言编写,可以在Windows、Linux 和Unix 服务器上运行,具有高效稳定的特性。Streamsets 是一个大数据实时采集ETL 工具,可以实现不写一行代码就能完成数据的采集和流转。通过拖拽式的可视化界面,实现数据管道(Pipelines)设计和定时任务的调度。数据源支持MySQL、Oracle等结构化和半/非结构化,目标源支持HDFS、Hive、Hbase、Kudu、Solr 和Elasticserach 等。创建一个Pipelines管道需要配置数据源(Origins)、操作(Processors)和目的地(Destinations)三个部分[14]。

4.3 数据可视化

数据可视化作为数据治理的成果,主要是将汇集好的正确、一致性的数据通过图表报表的方式向用户进行展示。在可视化领域,也有很多成熟的优秀的产品。ECharts 是一个使用JavaScript 实现的开源可视化库,可以流畅地运行在PC 和移动设备上,兼容当前绝大部分浏览器,底层依赖矢量图形库ZRender,提供直观、交互丰富、可高度个性化定制的数据可视化图表。Echarts 图表库提供了丰富的折线图、饼图、地图以及仪表盘展示方式。开发过程的具体实现步骤为:首先为图表准备Dom 容器,通过Script 标签引入Echarts 库文件,采用init 方法初始化图表。在Option中配置图表的公共选项,组件选项和数据选项,通过setOption 方法生成图表。并且Echarts 数据可视化部分通过setInterval 方法实现周期为1 s 的图表刷新,实现数据显示的实时性[15]。

经过数据治理后,针对某航空电子企业展示的产品数据,依据不同产品类型在不同的研制状态分别进行统计效果展示,如图5 所示。

图5 统计效果

5 结语

本文通过对数据治理在企业信息化中的应用进行研究,提出了一种从分析、设计和实施三个层面出发、三步走的数据治理战略。数据治理工作是在信息化总体目标和规划的设计指引下进行的,与数据架构、企业战略目标密切相关。通过对数据治理管理体系和技术体系的研究,为企业日益增长的数据使用需求做出了有益的探索。数据治理打通了企业价值链各领域流程,支持企业系统间的紧密集成,高效支持企业的业务运转,并为企业实现透明化管理、高效决策打下了坚实的基础。

猜你喜欢
可视化架构体系
基于FPGA的RNN硬件加速架构
基于CiteSpace的足三里穴研究可视化分析
基于Power BI的油田注水运行动态分析与可视化展示
功能架构在电子电气架构开发中的应用和实践
构建体系,举一反三
基于CGAL和OpenGL的海底地形三维可视化
“融评”:党媒评论的可视化创新
LSN DCI EVPN VxLAN组网架构研究及实现
一种基于FPGA+ARM架构的μPMU实现
“曲线运动”知识体系和方法指导