路劲
(云南电网公司信息中心,昆明 650051)
数据(Information Data):是指信息系统在应用过程中通过采集、分类、录入、储存、统计分析、统计检验等产生的定量和定性的数据。数据质量指满足某种定义和规则要求指标的数据,通常从以下五个方面对数据质量进行约束:
数据规范性:数据的定义和取值是否满足相关规范要求,如数据类型、数据精度、字符长度、数据格式、取值范围、唯一性、编码等方面是否满足规范要求
数据准确性:数据值是否真实反映业务情况,或数据是否被准确记录。
数据完整性:业务所需的关键数据项是否在系统中有定义,关键数据项是否被采集。
数据及时性:数据是否在规定的期限内获取、录入、更新、加工、删除。
数据一致性:不同系统或同一系统内不同表单的相同数据项取值是否一致,关联数据之间的逻辑关系是否正确和完整。
图1 数据质量提升过程
如图1 所示,数据质量提升过程通常包括五个主要环节:制定规则、校验分析、问题量化、数据整治、总结分析,形成一个闭环过程。在实际运作过程中,数据质量提升往往遵循一个螺旋上升的过程,通过阶段性的分析整治提升,逐步推进整体数据质量。
数据作为一种特殊而极其重要的资源,与物理资源相比具有其独特的性质:
1)数据有生命周期:计划、获取、存储、共享、维护、应用、消亡等不同阶段,各生命周期阶段对数据质量可能存在不同维度的约束指标要求。
2)数据的不稳定性:数据容易受到外界环境动态变换的影响,诸如企业战略调整、生产经营目标的变更、管理制度的改革、工作流程的变化等都可能导致数据的变化,而数据的变化意味着数据质量的约束指标也可能需要随之改变。
3)数据的增长性:随着业务活动的开展,大量的新数据会被产生,对于新产生的数据,其数据质量是缺乏评估的,需要动态的对新生数据进行评估确认,以保证其合规性。
一方面,数据的上述变化特性,决定了数据质量的治理需随数据的变化而变化;另一方面,数据质量提升的过程本身也是一个周期性调整的过程。因此,在数据质量校验实施过程中,如何确保校验规则的动态可调整将是至关重要的。
问题数据的追踪与定位,是整个数据质量提升过程中的关键所在。作为问题分析与整治的前提条件,如何有效按照数据质量约束条件有效识别出不合规的问题数据,是数据质量提升需要解决的首要问题。
2.1.1 支持校验规则动态配置
为了确保数据质量切实有效提升,数据质量管理平台必须满足数据动态治理这一基本要求。数据质量管理平台借助校验规则库的思想,实现数据校验的动态调整。在数据质量管理平台中,校验规则项作为最基本的数据质量约束指标,统一存放于校验规则库中。用户可以根据实际的数据校验需求,新增校验规则项添加至校验规则库中,或是对已有的校验规则项进行修改调整。每次执行数据校验时,从校验规则库中按需选取规则组成校验模型,通过执行引擎对校验模型的调度执行,实现一个批次校验规则对数据的校验。通过对校验执行前规则项的维护调整,达到按需动态校验的目的。
2.1.2 松散耦合的非侵入式扫描
数据质量管理平台的定位,在于协助各业务系统识别出其内部的问题数据。在数据质量管理平台对各业务系统数据进行校验的过程中,不可避免的会与各业务系统产生交互。为了降低数据质量管理平台和各业务系统的耦合性,数据质量管理平台将采用非侵入式的扫描方式来执行数据校验。在执行数据校验扫描时,数据质量管理平台不需要在目标系统中植入任何程序,通过标准协议实现对目标系统数据源的直连,进而开展数据校验扫描。通过使用标准访问协议,降低对目标系统的依赖性,提高数据质量管理平台的通用性。
图2 数据质量管理平台技术架构
支持自定义规则的动态配置,能够以松散耦合、非侵入式的方式,实现对任意业务系统数据源的校验扫描,是数据质量管理平台最大的技术特点。在设计上,数据质量管理平台主要由数据层、功能组件、连接适配器、应用界面四部分组成。
数据层主要由规则库、缺陷池、连接源等数据组成。规则库是动态校验的基础保障,规则在实现上体现为SQL 查询语句模板,数据校验的业务规则通过SQL 语句的查询条件体现。缺陷池存储扫描出来的问题数据详细信息,为问题数据整治提供参考依据。连接源存储了供连接适配器使用的标准协议访问参数。
功能组件主要由报表管理、数据源管理、规则管理、执行管理、调度引擎组成。报表管理负责根据扫描出的问题数据记录项生成统计报表,以便用户对数据质量进行宏观决策。数据源管理、规则管理提供了对数据层中的连接源和规则库进行维护的功能。执行管理可以将一批规则组合为一个数据校验模型,并通过指定数据源构成一个校验任务。调度引擎是功能组件中的核心部分,它通过解析执行管理设置的任务信息,按照任务设定完成目标系统数据源的数据扫描,并将问题数据写入缺陷池中。
连接适配器是实现松散耦合的非侵入式扫描的关键所在。数据质量管理平台通过连接适配器,建立与目标系统数据库的直接连接。在此基础上,调度引擎根据任务信息中存储的数据校验模型,执行对应的校验规则SQL 语句,从而找出业务系统中的问题数据。
图3 数据质量管理平台使用流程
数据质量管理平台的典型应用场景主要由准备阶段和使用阶段构成。在准备阶段中,需要完成数据校验基础信息的录入。首先,通过数据源管理功能,完成目标系统数据库连接参数的设置;其次,通过规则管理功能,将需要校验的业务规则编制为对应的SQL 模板,存入规则库中。
在使用阶段,首先通过执行管理对本次扫描任务进行配置,确定连接适配器使用的数据源数据源,选择需要使用的校验规则组成数据校验模型。在完成任务的设置之后,即可开始 执行校验。校验完成后,校验出的问题数据会被存入数据质量管理平台的缺陷池中,同时数据质量管理平台会根据缺陷池信息生成数据质量报表,供用户分析决策使用。
综上所述,针对业务数据动态变化的特性,以动态校验技术为核心,搭建了数据质量管理平台。借助该平台,用户可以使用自定义的校验规则,以松散耦合的非侵入式方式实现对业务系统数据的校验扫描,有效识别出问题数据,为业务数据整改及数据质量有效提升奠定基础。
[1]陈勇成,赵传征、广西电网公司营销基础数据质量评价管理系统设计分析、《广西电业》、2012.4 (总第144 期)、P29-P32
[2]杨玺,谭健聪,张俊、数据质量管理在电力安全生产信息系统中的应用、《电子世界》、2013 (22),P234-P235
[3]卢绍年、浅析企业信息化建设与数据质量、《广西电业》、2013.3 (总第155 期)、P88-P89
[4]郑芒英、数据质量管理平台的研究及应用、《宁波职业技术学院学报》、2013.1 (第17 卷第1 期)、P105-P107