黄俊超HUANG Jun-chao
(空军勤务学院研究生大队,徐州 221000)
管理信息系统是以人为核心因素,由计算机技术、设施及其他信息手段组成,并用于管理信息的系统[1],其运行需要充足、全方位、高质量的数据作为保障。然而,伴随着管理信息系统的广泛使用,所产生的数据愈来愈多,许多数据已经超出了管理与控制的范围。“数据丰富,信息贫乏”问题时常发生,原因之一就是数据质量差,导致数据不能有效地被运用,进而降低管理信息系统的效率,甚至造成严重决策失误。
当前对数据质量的研究中,数据清洗、数据修复、数据标准化、数据质量控制等方面都取得了长足的进展,然而许多学者都认为数据质量评价是基础,是对数据质量现状的准确反映。近些年来数据质量评价指标体系、评价模型等方面的研究不断增加。本文对管理信息系统数据质量的定义与维度、数据质量评价指标、评价方法进行全面梳理,以期能够为管理信息系统数据质量相关研究的学者提供一定的借鉴。
理清数据质量的定义与维度是评价指标体系的建立的基础。数据质量的研究起源于1980 年初,稍滞后于信息系统发展[2]。起初人们将数据质量理解为数据准确性,随着信息技术的发展,准确性这一概念已不足以清晰完整描述数据质量。1999 年,Kuan-Tsae Huang 等人对数据质量作了较简单的定义:满足用户需求和期望的程度[3]。同样的,卢本新[4]对数据仓库中的数据质量定义为能够满足客户需求的数据占比。齐艺兰[23]给出了ERP 系统的数据质量定义:ERP 系统中的数据满足最终需求的程度。
信息系统的使用者通过对数量大、种类多、属性不同的数据进行分析处理从而获得信息,进而用于辅助决策,因此在信息系统中,数据质量的定义偏向于“满足程度”的概念的同时更强调多维化。尽管因为数据质量针对对象不同,不同对象要求不同,研究者们仍没有对数据质量有精准的、恰当的定义,但一般认为,数据质量通常分解为具体的数据质量维度[5-6]。数据质量维度为度量和管理数据的质量提供了一种途径和标准[7]。陈远[8]认为对数据质量定义的把握不应仅仅局限于输入端的正确与否,而是对信息系统在开发、使用过程中数据的正确性、准确性、不矛盾性、一致性、完整性、集成性六个方面的描述。赵宇[9]通过对多篇文献的整理认为信息系统中的准确性、时效性、完整性和一致性被满足的程度是当下学者对数据质量定义较为一致的观点。刘向民[10]认为信息系统数据内在质量反映在数据真实性、数据完整性、数据精确性、数据时效性、数据可用性、数据可信性、数据逻辑一致性上。
综上所述,目前对数据质量定义主要是面向使用方的,强调“适合使用”的程度。管理信息系统中数据具有数据量大、时效性强、数据关系复杂、多源化、系统安全系数要求高的特点,数据的应用又格外强调数据的准确性、时效性、一致性、完整性和安全性。因此结合研究者们对据质量定义以及管理信息系统的特点,可以给出如下定义:管理信息系统数据质量是指数据在准确性、时效性、一致性、完整性和安全性等各个维度中,数据实例能够满足最终需求的程度。
要想进行评价首先要理清楚评价的方面,数据质量评价指标体系的建立遵循科学性原则、系统性原则、可扩充性原则[11],并以数据质量的定义与维度为基础,是进行数据质量评价并做出正确判断的实践依据。各个领域中由于评价目标和评价方法各不相同,研究者所建立的评价指标体系也不尽相同。表1 展示了21 世纪以来不同学者对于信息系统数据质量评价指标的界定。
表1 数据质量评价指标
通过对以往文献研究发现,数据质量的评价指标能够进行分类,可划分为数据的基础要求、数据内容、效能作用三个维度。每个维度包含评价指标如图1 所示。
图1 数据质量评价指标维度划分
数据基础要求维度中的评价指标是指系统在设计之初对数据的精度、形式等进行的约束,是最基础、最广泛使用的指标。主要评价指标有规范性、完整性、表达形式合理性等。规范性是指数据符合格式要求、值域约束等强制性标准的程度;完整性是字段数、记录数等满足要求的程度;表达形式合理性用于评价数据的各项特征、表达方式符合要求的程度。
数据内容维度中的评价指标是对现有数据本身具体内容的评价。主要评价指标有准确性、正确性、真实性、逻辑一致性等。准确性是指数据反映真实值的程度;正确性与准确性概念有所区分,是指数据在所界定的范围之内,有些数据虽然是准确的,但并不一定能够准确反映现实情况;真实性为数据反映真实情况的程度;逻辑一致性指字段与表映射是否异常、同一字段上下文表述是否一致。
数据效能作用维度中的评价指标是对已有数据能够发挥作用的评价。由于数据质量的定义是指数据实例能够满足最终需求的程度,所以该维度的评价指标较多。主要评价指标有时效性、可访问性、可维护性、全面性、安全性等。时效性为数据在预期时间内能够被正确使用的程度;可访问性是指数据可用的程度以及检索速度的高低;可维护性为数据能够按照管理者目标进行更新、修改的程度;全面性是指相对于数据总体或全体相关对象的数据覆盖程度;安全性是指数据在使用维护过程中是否存在丢失、被盗的可能。
数据质量评价方法是数据质量评价的核心部分,合适的评价方法能够快速、准确反映出所存在的数据质量问题,得出可靠的结果。国内外关于数据质量评价方法的研究层出不穷,通过整理归纳,可将常见的评价方法归纳为以下5 类。
第一类是国外较为典型的评价模型[23]。一是国际货币基金组织提出的数据质量评价通用模型(DQAF)是对统计数据质量进行定性评价的一种方法,为数据质量评价提供了一个通用的框架,囊括了数据质量评价的绝大多数维度[24];二是麻省理工学院TDQM 项目组所研究的信息管理质量评价(AIMQ)方法[25],提出了信息质量评价以及差别分析判断方法,并且能够进行数据质量提升,实用性较强。
这类方法较为经典,但仅适用于部分领域。DQAF 模型面向统计数据,操作简便,实用性强,但尚未有国内学者将其引进应用,AIMQ 强调将数据看作产品,更侧重于管理方向。
第二类是传统直接评价法,将现有数据与各项评价指标进行比对,运用简单数理统计计算来进行,如简单比率法、缺陷扣分法、加权平均法、最小或最大运算方法。
刘伟[26]根据简单比率法,基于质量约束规则,构建了对完整性、一致性、时效性、准确性评价的元数据算法模型。荀挺[27]基于统计学原理,从多个角度提取数据质量的评价指标对数据质量综合分析与评价。王军玲[15]依据数据质量评价定量指标,给出了数据质量缺陷等级,以逐层递进的方式,采用线性内插法、算术平均法、加权平均法等算法,分别计算目标数据集的一级、二级质量指标,最终得到数据集整体质量的评分。
这类方法以数据质量问题作为切入点进行评价,对质量问题的反应较为灵敏,并且易于量化,运算简易,并且加入加权统计的思想后,其使用起来更加灵活,所以应用较为广泛。但不足之处在于由于缺陷的定义本身具有模糊性,对缺陷与非缺陷之间的灰色地带无法进行准确评价,并且这种刚性的量化方法会导致结果偏于严重化。同时,其对指标体系的依赖性强,若指标体系存在缺陷,得出的评价结果将不尽人意。
第三类是不确定理论评价法。鉴于上述缺点,研究者们使用不确定性理论来进行数据质量的评价,主要包括粗糙集理论、模糊综合评判法等。
宋俊典[28]提出了一种面向多维度数据质量的模糊综合评价方法,采用德尔菲法和层次分析法对各指标赋予权重,确定隶属度函数和特征向量,并进行模糊转换和模糊计算,最终根据最大隶属度原则得到质量评级。Davod[29]使用模糊AHP 方法评价数据质量各个维度。胡小静[30]对空间数据进行评价,针对其不确定性的特点,提出了多层次模糊综合评判的方法。
该类方法的基本思想是假定对事物的状态以及状态的变化方式缺少准确的判断[31],将评价指标量化、客观化。所以在面对不确定、复杂、综合性强的问题时,该类方法具有较为明显的优势。
第四类方法是组合模型评价方法。所有评价方法都有可能存在局限之处,采用具有互补性的方法建立组合模型来进行数据质量的评价,能够弥补各种方法的缺陷,突出各类方法的优点,使评价的结论更加精确可靠。
王帆飞[32]在确定质量等级后,利用加权平均的缺陷扣分法得到数据的质量得分,最后评价出数据集的质量等级。庄广新[33]提出了基于层次分析法与灰色聚类分析的道路交通流数据质量评价方法,确定权重后,采用灰色系统理论白化权函数建立各指标关联度矩阵模型。杨栋枢[34]通过构建基于熵权与层次分析法的电力企业运营监控中心数据质量组合权重评价模型,并通过实际数据验证了评价模型的有效性。
第五类是基于元数据的评价方法。元数据是包含数据基本信息的数据,是对数据各个方面进行最基本描述。元数据的应用使得数据更易被查找、管理和使用,因此很多学者如刘伟[26]、李天阳[35]、黄刚[36]、张董强[37]都提出通过建立元数据模型进行数据质量的评价。
该类方法首先建立各评价指标的数据质量约束规则,再设计各个实体的约束规则元模型,然后建立评价算法元模型进行评价,利用元数据的基本特性进行数据质量评价,体现了灵活性、通用性的特点。在使用中只需简单维护元数据,便可以实现任何数据库及任意数据质量评价约束的数据质量评价。但在评价算法的选择上较为简单,刘伟提出了两种评价算法,一种是简单比对法,从数据质量的几类关键特性出发,计算出每类关键特性的错误数据个数,与数据总数的比值,最后得出问题发生率;另外一种就是属性加权法,考虑到每个关键特性对于数据的重要性可能不同,为了区分不同关键特性所占的比重,使用加权算法进行评价。上述学者在研究中普遍使用一些定性指标进行人工打分评价,在数据量大、数据关系复杂的情况下,人工打分评价可能导致评估结果不尽人意。
基于所掌握的相关文献,对管理信息系统数据质量的研究进展进行梳理归纳。首先对数据质量的定义与维度进行梳理,其次从数据质量评价指标、评价方法两个方面对管理信息系统数据质量评价的研究内容进行整合。研究发现,当前针对管理信息系统数据质量评价指标、评价方法的研究取得了一定成果,但仍存在一定不足:①数据质量的定义是研究数据质量的基础,但当前对于管理信息系统数据质量的定义仍然较为模糊,不同学者有不同的看法,尤其是针对管理信息系统领域,还未有统一的标准;②由于研究领域不同,对数据质量评价指标的认识存在较大差异,不同评价指标虽然字面不同,但意义差别并不大,且繁杂的评价指标体系不利于进一步的评价,可能会造成评价结果失真;③基于元数据能够更加准确、快速地进行评价,但评价算法方面还较为单一,所评价的内容层面较浅。
立足于现有研究的不足,今后的研究可侧重于以下几个方面:①深入分析各领域数据应用现状,进一步理清管理信息系统数据质量的定义与维度,为评价指标体系建立打好基础;②完善数据质量评价指标体系。针对不同研究领域建立概括性强、简洁明了、层次分明的评价指标体系,避免评价指标繁杂对评价结果的影响;③丰富基于元数据的数据质量评价方法,可采用组合方法、深度学习等算法进行评价,达到更准确的评价效果。