黄智敏
【摘要】作为一种战略资源与生产要素的数据资源正在逐渐成为社会正常运转的基础,成为企业的生命线。企业运营效率主要依赖于数据获取的可靠性和及时性,因此,数据质量成了企业的IT执行官们最关心的问题之一。本文主要研究企业的数据质量管理。首先对数据质量管理的重要性和现状进行了介绍,指出了企业中存在数据质量问题的普遍性,以及数据质量问题给企业带来的损失。然后,介绍了数据质量的有关理论,包括了质量管理的发展简史和数据质量概述,在这部分主要叙述了数据质量的概念以及其他一些和数据质量管理相关的因素。再次,探讨了企业现有的数据质量管理的方法及企业数据质量管理中存在的问题,通过对现有方法的分析对比并结合企业数据管理中存在的实际问题,选定全面数据质量管理TDQM,并在此基础上提出了数据质量管理的框架模型。最后是对该框架的介绍,该框架模型主要建立在数据清洗技术、数据仓库技术以及全面数据质量管理理论之上,意在解决企业中的数据质量问题。
【关键词】数据;数据质量;数据质量管理
【中图分类号】F830.49 【文献标识码】B 【文章编号】2095-3089(2017)35-0005-02
一、数据质量管理的基本理论
20世纪40年代以前,质量管理的主要方法就是质量检验,各个企业一般都设有专门的质量检验部门,有一支专门的质量检验队伍,通过检验来确保产品的出厂质量。这种方式可以保证出厂产品的质量,但是这是一种事后检验把关,质量状况即成事实,如果全是不合格产品,则必须全部重新制造,难以在生产过程中进行控制。而且这种方式在检验时要求全数检验,比较费时,也比较费工,成本也很高。这种方式最大的不足是发挥不了一线工人的积极性,不能使他们参与到质量管理的過程中来。到目前为止,质量检验任是企业进行质量管理的重要手段之一。要进行数据质量的管理,首先要搞清哪些是数据质量问题。从表面上来看,这个问题很简单:只要是因为数据质量不高而造成了损失,就可以认为是数据质量问题。但是在实际的应用中,这个界限却很难划分。例如,由于缺少某项数据而导致无法得出所需的数据分析结果就不是数据质量问题。那么如何来定义这个界限呢,最简单的定义是:由于正在使用中的数据的数据质量不高而造成损失,就可以被认为是数据质量问题。这个定义的要点是正在使用的数据,即已经存储在业务系统中的数据。这个要点指出了与现有数据无关的内容,并不在数据质量管理的范围内。在实际的应用中,要进行数据质量的管理首先就要区分清楚哪些是数据质量问题。
二、企业数据质量管理中存在的问题
目前企业在数据质量管理中存在的问题,既有管理方面的也有技术方面的。存在的问题有下面一些。
1.数据质量问题范围划分错误
许多企业在管理数据出现问题时,并不能分清哪些是数据质量的问题。那么什么是数据质量问题,由于正在使用中的数据的数据质量不高而造成损失,就可以被认为是数据质量问题。这个描述为数据质量问题制定了一个前提条件:正在使用的数据,即已经存储在业务系统中的数据。在实际的工作中,企业的工作人员往往将一些与现有数据无关的内容作为数据质量问题来考虑,如找出现有系统中缺少的数据,这个不是数据质量管理要考虑的范围,但是在实际中往往会出现这种错误。如果企业搞不清数据质量问题的范围,那么就不可能真正解决数据质量问题。
2.数据质量的判断标准的问题
数据质量判断标准是:适合当前使用的数据就是高质量的数据。虽然定义很简单,但是到了实际的应用中却是很麻烦。
首先,什么是高质量的数据,不同的人又不同的定义。例如,对管理客户的联系信息的人来说,高质量的数据是指准确的地址、邮箱之类的客户联系信息;对于客户经理来说,高质量的数据是指准确的客户来往记录;而对于从事科学研究的人来说,高质量的数据是指清晰的描述数据之间的关联关系。这些事例不仅说明数据质量标准必须根据每一个具体的案例来定义,而且同时也说明数据质量标准都是以满足应用要求为目标的。所以实际的工作中具体定义高质量的数据时会有一定的问题。
其次,数据质量的标准的制度不仅仅是技术部门的事,也需要业务部门的紧密配合。数据质量标准时技术和业务协作的结果,在实际工作中,不但需要与业务部门沟通,检查业务规则的合理性和实效性,而且还要与技术部门密切合作,对数据质量业务标准涉及的每一个数据项,都进行数据质量调查,并随时在两个部门之间进行沟通协调,才有可能形成最终的数据质量标准。然而很多企业未能意识到这点,在这些企业数据质量标准的制定仅仅是技术部门的工作。
3.数据分散问题
如前所诉,在企业尤其是大型企业中一般存在许多个应用系统,企业的数据可能以多种方式存在于不同的应用系统当中,并且被不同的应用系统所维护。而这些数据中的一些是为多个系统所共享的,但是由于采用的技术和平台以及数据库的不同,企业的数据往往是以不同的格式存在于各个应用系统之中的,这就使数据的共享出现了问题。许多企业往往能够意识到建立应用系统的重要性,但是对于建立一个数据集成平台以解决数据分散问题的重要性却认识不够。这导致了许多企业不能有效解决数据在不同系统之间共享的问题,增加了数据管理的难度和数据管理的成本。
三、数据质量管理框架设计
1.数据质量管理框架的构建
(1)数据质量的六大基本要素是否满足,所谓六大基本要素是指:
完整性:主要包括实体不缺失、属性不缺失、记录不缺失和字段值不缺失
四个方面;
唯一性:指主键唯一和候选键唯一两个方面;
一致性:指统一数据来源、统一存储和统一数据口径;
精确度:指计量误差、度量单位等方面的精确程度;
合法性:主要包括格式、类型、域值和业务规则的有效性;
及时性:指数据刷新、修改和提取等操作的及时性和快速性。
(2)如何从用户视角衡量数据质量,重视用户对数据的满意程度;
(3)如何建立基于CWM标准的元数据管理功能平台,支持数据质量管理,为将来全网共享元数据奠定基础;
(4)如何建立数据质量监控手段,及时发现、报告、处理经营分析系统数据质量问题;
(5)如何通过建立有效的数据质量管理体系来保障和提升数据的价值。
2.数据仓库
第一层是本模型进行数据质量管理的关键层,该层以数据仓库为数据的存储介质,通过存入数据仓库来改善数据质量,因此在该层中数据仓库是重点,本节将重点介绍数据仓库。企业利用数据仓库,可以在了解商业环境的基础上来看待生成的信息和事实,接着就可以利用商业技巧以及对该事实的经验来提取知识,最后企业可以利用所提取的知识作出判断或决策。企业使用数据仓库可以更好地支持下面的决策:
(1)利润增长分析通过研究数据仓库中的历史数据来进行历史趋势分析,从而了解产品销售、服务与收益之间的关系。
(2)改变竞争的基础从数据仓库的历史数据中收集客户信息,从而正确地进行市场定位,更精确、全面地满足客户的需要。客户的满意能加强他们和企业的关系。这种关系可以使得企业在与其他企业竞争中自身变得更加强大。
(3)客戶关系管理通过数据仓库的应用,增加对客户实际情况的了解,可以指导市场部门与客户保持适当的联系,避免令人感到厌烦的多余的联系。
因此在企业的数据质量管理中建立数据仓库是必要的。当数据从源系统或其他数据来源中提取出来时,应该先经过数据变换,才能将它送到数据仓库中。对数据进行变换的目的有两个:首先,改进数据仓库中数据的质量:第二,提高仓库中数据的可用性。
3.逻辑层
(1)建立全面数据质量管理环境。这是全面数据质量管理的第一步,也通常是最难的一步。企业应该有专门的数据质量管理部门,负责积极引导企业,从企业文化、企业制度体系、人才培养与训练系统等方面,为建立全体员工参与的数据质量管理环境创造条件。在建设全面数据质量管理环境时,建设人员应该和其他部门的人员紧密合作,协调沟通有关问题。同时要建立完善的数据质量管理标准,促使质量管理系统建设、使用和管理的专业人员及用户,能够在系统设计建设、实施使用和管理的全程,相互协作,共同为提高数据质量而努力。
(2)制定全面数据质量管理的实施计划。该计划包括数据质量管理的总体目标和方向;达到目标应采取的方法和策略;测度数据质量管理计划完成的情况。通过对计划的管理和对目标的分解细化,保障全面数据质量管理顺利地得以实施。计划实施的前提。
(3)全面数据质量管理措施的实施。实施全面数据质量管理,首先要制定全面数据质量管理的战略规划,把握总体方向,并分析确定数据质量需求、确立标准。然后,根据分析结果,找出低质量数据的产生原因,选取适当的时机,制订可行的数据质量改进方案,并制定每个方案的具体的可执行计划。最后,选择相应的改进方案并执行。该过程可以概括为定义、测度、分析和提高。
(4)全面数据质量管理过程的评估。评估能够使数据质量管理过程不断优化,数据质量不断提高。要合理制定数据质量评价指标体系,适时对数据质量进行评估。通过对数据质量问题发生的时间、地点、频率和种类进行统计分析,回答错误发生在哪个环节、哪些错误的发生比较频繁、如何改进数据质量等关键问题,对一些严重错误进行定位,对频发错误进行研究,对管理漏洞进行分析,从而掌握现行数据质量管理过程中存在的不足,研究相应的改进措施,实现管理过程的循环往复和不断优化。
四、小结
本章所给的数据质量管理框架为三层架构,主要基于数据仓库和全面数据质量管理思想进行建设,旨在提高企业的数据质量,从而提高企业的效益。模块之间有一定的联系,逻辑层和物理层提供第一层的数据质量管理所需的要素。同时模块之间也是相互独立,可以直接引入比较成熟和有效的工具,例如数据清洗工具、质量问题分析工具等;而且,对应于企业分层次的质量管理,可以定义不同层次的数据产品及其质量要求,有利于系统的逐步完善。
参考文献
[1]宋敏,覃正.国外数据质量管理研究综述[J].情报杂志,2007.
[2]张根保.数字化质量管理系统及其关键技术[J].中国计量学院学报,2005.