面向工业大数据的数据质量评价系统设计与实现

2024-04-14 18:17唐虎强李宁闫淮岩陈瑞军
信息系统工程 2024年1期
关键词:数据治理数据质量质量评价

唐虎强?李宁?闫淮岩?陈瑞军

摘要:工业大数据资源存在产生源点多、频率高、数据量大、数据结构复杂等特点,而传统的数据库技术无法满足企业对数据质量管理需求。针对企业历史、增量、实时感知等海量多源异构数据,提出一种高时效、精准化、多维度的数据质量评价方法,构建一套可灵活配置、具备高效数据处理性能及高可扩展性的数据质量评价系统解决方案,满足企业对海量数据质量自动化管理的需要,推动数据治理体系的完善。

关键词:数据质量;质量评价;数据治理;大数据技术

一、前言

数据治理是企业数据化转型的首要战略重点之一,而数据质量是数据治理中重要的一把标尺,高质量的数据对企业管理决策、业务支撑都有极其重要的作用。目前工业企业数据资源存在多种来源,包括历史信息系统、智能感知设备、第三方供应商等,这些数据存在着产生源点多、频率高、数据量大、数据结构复杂等特点,为数据质量的准确评价带来新的技术挑战。数据质量管理的目的是通过提升数据的完整性、准确性和真实性,为企业提供坚实、可靠的数据基础,提升数据的使用价值,对企业的日常经营、精准营销、管理决策、风险管理等领域发挥积极有效作用。

现阶段,企业为了保证数据质量主要采用信息系统内部设置数据质量校验规则与人工辅助巡检相结合的方式,但是依然存在着较多数据质量问题,典型的有记录不全、数据遗漏、数据错误、多义字段、矛盾值、违背业务规则、无法关联等。主要原因可以归纳为以下几个方面:一是由于没有从数据资源的战略高度对数据质量进行统一完整的定义,导致数据的分析评价没有统一可靠的标准;二是数据质量分析主要采用传统数据库技术实现,无法满足对海量高吞吐数据实时分析的需要;三是数据质量还停留在定性评价,不能实现精确的量化评价,导致数据质量考核缺乏可信的数据依据,大大影响考核力度;四是数据质量控制分散在各个业务信息系统内部,无法快速响应业务变化的需要[1]。

二、全局数据质量评价指标体系定义

数据质量评价指标是企业进行数据质量度量的一种途径和标准,企业数据质量管理组织需要从企业数据治理的全局高度出发,结合现实的业务需要,构建涵盖数据一致性、准确性、完整性、及时性等质量特性的评价指标体系,实现从传统、局限在信息系统内部的质量管理向横跨多个业务的、全局性、一致性的质量管理转变。为了避免单个指标涵盖面较大难以定量分析的问题,可针对企业内部每一个质量关注点,定义细粒度的质量评价指标。如针对企业关注的异常数据,分别定义数据缺失率、数据误差率、数据重复率、数据迟到率等指标,通过存在异常数据的记录与总记录数的占比来计算具体的指标值,有效降低数据质量分析的难度。

数据质量评价指标通过执行质量约束规则来计算。质量约束规则描述了数据体应遵守的质量要求,如数据长度、精度、格式等。系统通过执行质量约束规则来检测数据体中存在违反质量约束规则的数据项/数据记录,为汇总计算指标值提供数据基础。为了降低系统执行的复杂度,质量约束规则的定义通常是比较单一的,因此一个数据质量评价指标往往需要关联多个质量约束规则。系统在计算该指标时,依次执行多个规则并将每个规则检测的结果按照需要进行汇总,最终计算得到指标值。

三、数据质量评价模型定义

由于数据来源和应用场景的不同,工业大数据往往存储在不同的数据库中,包括传统的关系型数据库、时序数据库、消息服务器、HDFS数据库等,这种数据的多源异构性给数据质量的统一管理和分析带来很大技术挑战。

(一)数据对象模型定义

为了构建一体化的数据质量管理机制,将质量评价过程中由系统独立计算的数据体定义为一个基本的数据对象(如数据表、数据文件、消息主题等),描述其在质量评价过程中所需的信息,主要分为技术属性和管理属性两部分,如图1所示。

其中,技术属性描述质量评价指标计算过程中所需的信息,包括连接访问信息、数据结构信息以及扩展技术信息,扩展技术信息主要针对分布式存储系统,进一步描述数据存储格式、数据分区、数据分桶等高级信息;管理属性描述数据质量评价过程中所需的各种维度信息,包括数据分类维度、归口单位维度、扩展维度等,为后期多维度的质量评价提供数据基础。企业内部可根据数据管理体系和采用的数据库技术,进一步扩展技术属性和管理属性模型[2]。

(二)數据对象质量评价指标配置

每个数据对象对质量的关注点有所不同,根据实际业务需求为数据对象分别配置不同的质量评价指标,并为每个指标配置一个或多个质量约束规则用于计算指标值。系统通过执行质量约束规则来识别数据体中的异常数据项/数据记录,通过计算异常数据占总数据的比例得到该指标值。

进一步根据每个对象的质量侧重点不同,为质量评价指标配置异常阈值和汇总权重。异常阈值设置指标值可接受最大值,超出该值表示该对象数据质量出现异常,触发系统异常处理机制,发送数据质量异常事件消息等;汇总权重用于计算该对象的质量评分,质量评分计算方法为该对象下所配置的各个指标值加权计算获得。

四、构建多任务的指标计算机制

面向企业高吞吐实时数据、海量离线数据的高效质量评价需要,构建多任务的指标计算机制,由系统高并发调度执行,提升数据质量评价的效率。按照数据对象中指标的计算方式将指标集划分为一个或多个子集,分配给不同的任务,进一步根据任务计算的数据量大小、优先级等为每个任务配置执行服务节点数、节点最大CPU核数、节点内存等资源,防止多个任务执行过程中抢占资源导致任务执行超时、失败等现象。数据质量评价服务是任务执行的主体,针对不同数据来源、不同数据结构、不同应用场景计算需要分类构建多个质量评价服务。系统根据任务配置的服务名,将任务提交给相应的服务执行,实现对多源异构数据的统一处理。指标计算任务模型逻辑结构如图2所示。

(一)指标计算任务调度机制

为了满足多场景下的数据质量评价需要,构建多策略的任务调度执行机制。任务按照调度策略分为流式任务、固定周期批式任务、自动触发批式任务三种类型,分别面向离线质量分析、准实时质量分析、实时质量分析三种应用场景。其中,流式任务初始由任务调度器创建任务实例(单例模式)提交执行,后续不间断地按照预定义的时间窗口自动执行,每次仅计算当前窗口内的数据。流式任务执行流程如图3所示。

固定周期批式任务由任务调度器预生成今日任务执行计划表,按计划依次创建任务实例提交执行;自动触发批式任务由任务调度器监测该数据对象的数据更新消息,即时创建任务实例提交执行。批式任务执行流程如图4所示。

(二)指标计算任务执行结果维度模型构建

根据企业对多维数据质量报告的需要,在指标计算任务执行过程中,自动构建指标计算任务执行结果维度模型。维度模型中的事实表主要记录任务处理的数据对象标识、数据体信息(分组标签、起止时间位置、总记录数)、执行结果(异常数据记录数、评价状态)、关联维度标识等信息。其中,评价状态标记当前记录是否有效,当数据起止时间位置区间内的数据被重新执行后,需将原有记录的评价状态置为无效。维度模型中维度表的数据根据主要来自数据对象模型中预设的维度集,按照分类存储到多张维度表中,包含时间维度、分类管理维度、归口管理维度、扩展维度等,后期可根据自身实际需求增减维度表或维度表中的字段[3]。

基于指标计算任务执行结果维度模型,通过预聚合的方式将数据质量报告所需的所有维度组合及相应的指标值计算出来并持久化保存,多维度建立快速查询索引,以实现秒级的多维分析查询,避免系统大量重复计算数据质量报告中的指标。聚合过程中首先获取各个维度的取值空间,进而计算各维度值组合的取值空间,通过并行计算方式分别计算取值空间的指标值。当维度个数较多或维度取值空间较大时,维度值组合的取值空间会变得十分庞大,为了减少计算工作量,可采用构建数据立方体(cube)技术进行优化[4]。

五、系统技术实现

通过建立一套贯穿数据采集、处理、融合、应用等数据治理各个环节的数据质量评价系统,实现方案配置、实时监测分析、评价报告生成、问题告警的一体化工作流程,满足企业对海量数据质量自动化管理的需要。

系统整体采用模型驱动架构技术构建,企业质量管理人员根据具体的业务需求配置质量管理所需的业务语义形成业务模型,系统基于业务模型自动解析执行实现质量评价过程。系统采用微服务技术框架,针对不同数据来源、不同数据结构、不同应用场景的构建不同的数据质量评价服务,通过spring cloud微服务框架统一注册管理,任务调度器根据服务名路由调用指定的服务执行具体的任务。系统进一步采用插件技术将复杂的异常数据识别算法规则封装成为插件由系统动态反射调用执行,面向特有的、复杂的质量评价业务需求提供二次开发能力,实现系统的高可扩展性[5]。

系统采用spark、flink、kylin等分布式大数据计算技术实现高吞吐实时数据、海量数据历史数据的高效分析计算,采用yarn资源管理器实现资源的配置管理。为了实现质量评价结果的快速查询统计分析,采用elasticsearch、hbase、doris等分布式数据库技术持久化存储任务执行结果数据。

六、结语

本研究主要针对工业企业产生的多源海量数据质量难以被评价的问题,提出从企业数据质量管理的全局考虑,构建细粒度的數据质量评价指标体系、面向多种存储结构并具备高可扩展性的数据质量评价模型,数据质量评价方案配置、实时分析、评价报告生成等为一体的技术解决方案,满足企业对海量数据质量自动化管理的需要。本研究提出的质量约束规则主要通过管理人员根据业务需求手动配置,主要面向结构化、半结构化数据,针对质量约束规则自动生成、图像等非结构化数据质量检测将作为下一阶段的研究内容。

参考文献

[1]江洪,王春晓.基于科学数据生命周期管理阶段的科学数据质量评价体系构建研究[J].图书情报工作,2020(05):19-27.

[2]刘书密,田亚鹏,鲁彦男,等.智能制造中的质量管理数据标准化研究[J].电子技术与软件工程,2020(16):169-170.

[3]刘书志,刘晓雷,李静静.一种基于微服务架构的数据质量评价系统的设计与实现[J].电脑知识与技术,2022,18(29):94-97.

[4]黄心宇.数据质量评价模型的建立和实现[J].商场现代化,2008(08):396-397.

[5]刘金晶,王梅.大数据下的数据质量评价指标构建实践[J].计算机技术与发展,29(10):46-50.

作者单位:唐虎强、闫淮岩、陈瑞军,红有软件股份有限公司;李宁,克拉玛依职业技术学院

责任编辑:张津平

猜你喜欢
数据治理数据质量质量评价
基于本体的企业运营数据治理
云端数据治理初探
浅析统计数据质量
金融统计数据质量管理的国际借鉴与中国实践
浅谈统计数据质量控制
BP神经网络在软件质量评价中的应用研究 
“中职+应用本科”会计专业人才培养质量评价体系的构建
技工院校校级领导职业素养的建设及质量评价研究
大数据治理模型与治理成熟度评估研究
大数据时代城市治理:数据异化与数据治理