数据质量评估模型探讨

2021-08-31 08:05谭志远宫云平
广东通信技术 2021年8期
关键词:完整性优良率数据处理

[谭志远 宫云平]

1 引言

随着大数据处理技术的蓬勃发展,基于海量数据的存储、处理、挖掘分析得到了充分的技术保障,基于海量数据的挖掘分析结果将直接影响企业的决策和市场竞争,而数据质量的好坏将直接影响数据挖掘分析的结果,劣质的数据将可能给企业决策和市场竞争带来难以预估的伤害。因此为了高效支撑企业数据的价值挖掘,数据质量的全面评估迫在眉睫。那么我们该从哪些方面对数据质量进行评估,如何体系化的评价所使用数据的质量是否满足数据挖掘的需要呢?

2 数据质量管理与评估

数据质量评估是数据质量管理的主要内容之一,那什么是数据质量管理呢?参考业界权威DAMA(数据管理学会)在《DAMA 数据管理的知识体系和指南(DAMADMBOK)》一书中的定义,即数据质量管理是指通过管理和技术手段,对数据处理全过程每个环节的数据质量进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平提升数据质量。

结合DAMA 对数据质量管理的定义,以及我们实际工作需要,对于数据质量管理,我们可以这么理解即在数据处理的全生命周期(数据生成、数据采集、数据传输、数据处理、数据使用等)中,通过技术和管理手段,始终围绕着数据质量的提升开展相关工作。在这个过程中,首先必须梳理清楚,从哪些方面或者维度去识别数据质量问题,这些问题该如何评估,如何通过一个可以量化的方法或指标去评估,在此基础上构建数据质量评估体系,从而结合监控及告警系统对我们所关注的评估指标进行监控及预警。

2.1 数据质量评估维度现状

不同单位、组织或个人在结合自身实际需要的情况下,提出了不同评估维度(或称度量维度),如表1 所述。

表1 不同组织/单位提出的数据质量评估维度对照表

DAMA 提出的数据质量评估维度主要包括:准确性、完整性、一致性、时效性、精确度、隐私(访问控制和使用监控)、合理性、参照完整性、及时性、有效性等。

百度百科在数据质量管理(DQM:Data Quality Management)中提出的数据质量评估维度主要包括:完整性、规范性、一致性、准确性、唯一性、关联性。

国际货币基金组织(IMF)在其通用性数据质量评估框架(DQAF:Data Quality Assessment Framework)中提出通过相关性、准确性、可靠性、适用性、可获得性等五个维度来评估数据的质量。DQAF 更注重对统计活动进行全面质量管理,而我们更关注数据本身的质量,但其对过程质量的管控值得我们借鉴。

业界相关公司提出的数据质量评估维度,如普元信息技术股份有限公司在其大数据中台软件数据质量平台中提出采用关联性、正确性、完全性、一致性、合规性等维度来评估。

2.2 数据质量评估维度繁多带来的问题

从表1 可以看出,各组织/单位从不同的出发点考虑,对数据质量评估的角度是不一样的,且差异较大。诚然数据质量评估的维度越多越能更好、更全面地评估数据质量的好坏,但是太多的评估维度,给我们实际操作会带来极大的不适应。主要问题如下。

(1)太多相似的度量名称,容易混淆,不利于数据质量评估工作的开展,如及时性与时效性,合规性、有效性和规范性等。

(2)部分度量维度其实际评估目的是一致的,或者在实际操作中判断数据好坏的手段或方法是类似的,其实没必要拆分那么多维度,因此这类度量维度完全可以合并。例如准确性、合规性、规范性、精确度等几个维度,其目的都是为了判断数据是否准确,在判断数据是否准确的手段上,都是基于数据处理程序在数据处理过程中借助约定好的规则库,对数据进行校验是否符合预先配置的规则等。

(3)部分维度属于主观判断无法通过软件客观分析,缺乏可操作性。如:合理性、适用性等。

(4)每项评估维度都必须耗费资源去评估,在满足业务开展需要的前提下,减少非必要的评估维度。

2.3 数据质量评估维度的选取

高质量的数据最基本的要求是所使用的数据务必是客观真实情况的反映,数据是准确的、完整的,不同数据间相同内容表述是一致的,在某些对数据时延要求严格的场景还需要评估数据处理时延是否是满足及时性要求。因此,在满足可操作(能客观评估,非由人主观判断),避免维度命名混淆,合并可基于相同规则评估的维度的前提下,重新整合上述各类评估维度,仅采用准确性、完整性、一致性和及时性等4 个维度来评估数据质量。重新整合并划分评估维度如表2 所述。

表2 评估维度重新整合表

2.4 数据质量评估维度的定义

在参考不同组织和单位对数据质量评估维度及其定义后,结合现阶段大数据挖掘分析对数据质量的要求,重新对数据质量的准确性、完整性、一致性和及时性定义如下。

准确性:指数据的准确程度。数据记录的信息符合业务或技术定义、标准、规范;数据处理过程严格遵循相关业务、技术定义的规则,没有进行人为篡改和调整。准确性方面的评估指标,可根据实际评估需要制定,如:关键字段合规率,关键字段非空率等。

完整性:指端到端的数据处理过程中数据完整程度。主要包括信息实体不缺失、属性不缺失、记录不缺失、字段不缺失等。完整性方面的评估指标,如:文件数完整率,记录数完整率,时间粒度完整率(如:某天中各小时的数据是否完整)。

一致性:指在业务定义一致性的情况下,关联数据间的逻辑关系是正确和完整的,差异原因可解释、可追溯。主要体现在各系统遵循企业或行业数据规范标准,同一信息主体在不同系统中相应信息属性是相同的;业务定义相同的信息主体原则上在跨专业系统的取值是相同的,差异原因可解释、可追溯。一致性方面的评估指标如:某字段的关联率,字段值在参考数据中的覆盖率等。

及时性:指数据处理的及时程度。主要包括在规定时限内(满足相关规范或业务处理要求),完成数据的刷新、处理、提供等操作。及时性方面的评估指标如:数据处理及时率等。

3 构建数据质量评估模型

在开展某项数据挖掘工作时,将可能涉及多种类型的数据,把这些不同的数据看成一个数据集,在评估这个数据集的总体质量是否满足我们业务开展的需要,我们可以制定一个KQI(Key Quality Indicators 关键质量指标)指标来评估数据集的总体优良率是否满足业务要求。参考下图1 所示,把业务总体KQI 指标再细分到这个数据集中每项数据的KQI 指标,每项数据再根据评估需要逐级向下分解到具体的KPI 指标(Key Performance Indicators 关键业绩指标),而每个具体的KPI 指标由基础的统计指标计算得到。

3.1 数据质量评估模型

评估模型从层次上划分为三部分,分别是:基础性统计指标、评估维度指标(准确性、完整性、及时性、一致性)、优良率指标(含总体优良率指标),层次关系如图1 所示。

图1 数据质量评估模型示意图

3.2 评估指标编号规则

为便于指标引用针对图1 中各层级指标进行编号(如图2 所示),把指标分成两级,一级指标用一个字母(实际可根据需要用能增加识别度的缩写或其他简称,此处仅举例)代表指标的类型(如:A 代表基础性统计指标,B代表准确性相关的指标,C 代表完整性相关的指标等),二级指标用四位数字对指标进行顺序编号。如:基础性统计指标,可以用A_1001、A_2001、A_3001 等表示。

图2 指标编号规则

3.3 基础性统计指标

针对各评估维度(如:准确性、完整性、一致性、及时性等),结合评估期望,制定其基础统计指标,举例如表3 所示(实际应用过程中,可根据需要扩展,此处仅提供示例)。

表3 基础性统计指标命名举例(不局限如下指标)

3.4 评估维度指标

根据前面确定的4 个评估维度,分别制定各维度对应的评估指标(如表4 所示)。例如:评估数据的准确性,制定“关键字段值准确率”的评估指标;评估数据的完整性,制定“处理文件数完整率”和“文件按时间序列完整率”(具体可根据需要命名);评估数据的一致性,制定“数据关联率”和“数据覆盖率”;评估数据的及时性,制定“文件处理及时率”和“文件处理平均时延”等指标对数据进行评估。

表4 评估维度指标应用举例(不局限如下指标)

3.5 优良率指标

优良率指标主要包括:各数据项的优良率指标和数据集的总体优良率指标。数据集中各数据项的优良率指标和数据集的总体优良率指标,都可以有多种计算方法(如表5 所示),如:平均优良率(对各维度指标取平均值)、加权优良率(根据考核或评估侧重点,不同维度指标赋不同的权重)、最低优良率(多个维度指标取最低值),具体可结合实际需要选择不同的计算方式。

表5 优良率指标举例(不局限如下指标)

3.6 指标模型应用

在实际开展某数据集的质量评估时,可参考如上指标模型的构建方式,根据评估侧重点,选取相应的维度和评估指标进行综合评估,举例如下:

总体优良率指标(Z_0001)=数据A 优良率指标(Y_0001)*权重A+数据B 优良率指标(Y_0002)*权重B。其中权重A+权重B=100%。

数据A 优良率指标(Y_0001)=权重1*准确性指标(B_1001)+权重2*完整性指标(C_1001)+权重3*及时性指标(E_0001)+...。其中权重1+权重2+权重3+...=100%。

其中及时性指标,如:统计A 数据文件采集及时率(E_0001)=A_4003/A_2002*100%,其中公式中涉及的基础性统计指标包括:采集文件总数(A_2002),采集时延符合要求的文件数(A_4003)。

4 结束语

本文通过分析业界数据质量评估现状,从实际出发依据可操作性、避免混淆等原则,确定4 个数据质量评估维度,在此基础上提出数据质量评估模型,并结合实际应用给出模型应用示例,希望读者在进行数据质量评估过程中有所启发。

猜你喜欢
完整性优良率数据处理
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
豆粕:美豆产区干旱威胁仍未解除,大豆优良率持续偏低
ILWT-EEMD数据处理的ELM滚动轴承故障诊断
石油化工企业设备完整性管理
外固定架在开放性胫骨骨折患者中的应用及疗效分析
莫断音动听 且惜意传情——论音乐作品“完整性欣赏”的意义
精子DNA完整性损伤的发生机制及诊断治疗
基于希尔伯特- 黄变换的去噪法在外测数据处理中的应用
Matlab在密立根油滴实验数据处理中的应用
谈书法作品的完整性与用字的准确性