许永平
(湖南交通工程学院 湖南省衡阳市 421001)
最近几十年来,随着信息化技术的普及,从总部到军区、军兵种乃至各基层部队都先后建立了适合自身业务特点和需要的信息系统,用于支撑各单位的主要业务,为我军的信息化建设夯实了基础。伴随着各类信息系统应用的深入发展,各单位也推动了适应各自信息系统需要的数据资源的建设。在这种情况下,数据资源的建设是零散的,不成体系的。但是,随着信息化建设的不断推进,人们越来越认识到数据资源的开发和利用已经成为推动社会发展和进步的重要力量。数据资源的建设不应成为信息系统建设的从属,而应该独立于个别信息系统的建设从而进行整体的考虑。
当前,数据总量呈指数式增长,造成数据管理愈发困难,而对于数据集成与共享的迫切需求不断增强。而人们在需要应用数据解决具体问题时,却缺少有效的数据支撑,需要花费大量的人力和财力,采取各种手段去获取、转换和整合数据。因此数据资源建设已经成为制约信息系统效能发挥的瓶颈[1]。在这种背景下,加快形成以信息系统为核心的体系能力,近年来我军启动了一系列数据工程建设项目[2-5],开始关注规范和支撑数据从产生、维护、服务、使用、存储全过程的技术、建设和管理活动,面向体系能力,建立数据标准,共享数据资源,重视建章立制,强化安全保密,不断地深化数据建设,进一步发展了具有我军特色的数据工程基本理念。在军事数据工程建设中,有一项重要的工作就是对所建设的数据资源的质量进行评估。优质的数据资源是保证其上层应用发挥效能的基础。但是在军事数据工程建设中,往往存在着建设单位多、层级多、数据种类多、数据量大、数据质量参差不齐等特点,这就为其数据质量的评估工作提出了挑战。
具体来说,军事数据工程中数据质量的评估面临着以下一些困难,传统的评估方法无法适应这种评估对象差异巨大的情况,这就对军事数据工程中的数据质量评估提出了严峻的挑战。
(1)如上所述在军事数据工程建设中,往往存在着建设单位多、层级多、数据种类多的特点,这就表示很难建立一个统一的数据质量评估模型,并依据该模型对各单位的数据资源建设质量进行评价;然而从数据工程组织实施的角度出发,又需要对数据质量进行有效的管控,因此数据质量评估又成为不可或缺的环节,且必须遵循一定的规范和标准。
(2)数据工程涉及的数据具有种类多且专业性很强的特点,这些数据所遵循的规律和所应满足的约束条件,一般来说只能被相关的专业技术人员所理解,因此在评估这些数据的质量时,必须有相关专业技术人员的参与才能保证评估的可信度和有效性。
(3)数据工程所建设或者搜集的数据量将是海量的。在军事数据工程建设中,由于一个数据集往往能汇集广大区域范围内长时间跨度范围内的大量数据。这一特点使得由人工来对数据进行检查和评估的做法变得基本不可行,必须要通过一种量化的以及自动化的机制来减轻评估人员的负担,使其将主要精力放在发现质量问题、分析产生原因、给出解决方案等更适合发挥人类的主观能动性的工作上来。
数据质量评估的主旨是根据不同应用场景对数据质量的要求,将其转化为一系列具有可测性的测度集,对数据质量进行定性或者定量的测量,将测量结果与期望值(标准值)进行比较,从而确认数据质量状态,检查和验证数据质量控制活动[6]。
数据质量评估元模型是对数据工程中数据质量评估工作的抽象,建立数据质量评估元模型的目的是为数据工程数据质量评估体系的定义提供一个完整的框架。在元模型的语义下,数据质量评估模型是通过数据质量元数据进行描述的,数据质量评估元数据是对数据质量评估元模型结构的描述,具体的数据质量评估模型是对数据质量评估元模型的实现。也就是说,数据质量评估元模型的实例是各建设单位根据自身数据特点和需要建立的一组数据质量评估模型。
一个数据工程建设单位的数据质量评估体系由若干个数据质量评估模型组成。每一个数据质量评估模型是针对建设单位的某一个业务主题定义的质量评估描述,它能够满足建设单位对某单一类型业务对于数据质量评估的需要。各种不同主题的数据都应该有不同的质量评估模型,各种不同类型的数据(如文本数据、音频数据、视频数据等)也应该有不同的质量评估模型。
数据质量评估元模型可以表示为一个九元组:
M=< D,S,I,R,W,A,E,V ,T>
(1)其中,D 表示被检查的数据集。这里的数据可以是关系型得结构化数据,也可以是半结构或者非结构化数据。数据集的粒度根据应用的需要以及各专业数据类型的不同而具体确定。但是对于每一种具体数据而言,每次被查的数据集的粒度应该是保持一致的。对于关系型数据库来说,一个数据集通常相当于一个表或者一个视图。
(2)S 表示数据抽样方法,指的是根据指定的采样方法从数据集中获取样本数据进行数据质量评估。根据数据集的大小以及具体需要可以采用不同的抽样方法,如全部抽样、部分抽样、增量抽样等。
(3)I 表示数据质量指标。Pipino 等人指出应该从数据使用者的角度定义数据质量[7]。研究表明,对于数据使用者而言,数据质量是一个多指标或者多维度的概念。数据质量评估至少应该包含可信性与可用性两方面的基本评估指标,具体的指标如:精确性、完整性、一致性、有效性、唯一性、时间性和稳定性等[8]。在进行数据质量评估时 ,需要根据具体的数据质量需求对数据质量评估指标进行增添或相应的取舍。评估指标往往还需要不断分解为若干层次的次级指标。
(4)R 表示业务规则或者约束条件。在实际工作中,抽象的数据质量指标是难以直接、准确、全面测量的。在数据质量评估中,必须将其转换为若干数据质量测量元。所谓数据质量测量元是指能够反映数据质量规格且具有可测性的单元。由一组特征性数据测量元所组成的测度集即可反映数据质量某一方面的状况,通过不同测度集的测定,则可汇集出数据质量整体状况以及归一化的测度值。在实际工作中,往往将数据实例层或模式层的业务规则或者是约束条件作为数据质量的测量元。
(5)W 表示赋予数据质量指标以及业务规则(约束条件)的权重值。根据采用的权重模型的不同,所赋予的权重值可能是概率值、模糊值或者模糊测度值等。不同的权重模型表示对于数据质量指标之间的关系的认识不同。采用常用的概率测度表示我们假设各个数据质量指标之间是独立的,不存在相互影响的关系。而采用模糊测度[9]则表示各个数据质量指标之间可能存在相互影响关系。
(6)A 表示所采用的评估值聚合模型,指的是将数据质量指标值聚合为最终的数据质量评估值的模型,以及将基于业务规则(约束条件)的检查结果聚合为底层指标的聚合模型。如加权和模型、加权积模型、模糊积分模型等。具体采用的聚合模型与上述权重模型是是有关联的,比如采用模糊测度来表示指标之间的关系,那么就只能采用模糊积分来计算最终的评估值,而不可能采用加权和或者加权积等模型。
(7)E 表示期望值,指的是数据工程建设单位对于业务规则[10](约束条件)满足情况的期望值。该期望值的制定应该考虑数据集具体面向的应用,应用不同对数据质量的要求也是不一样的。从数据应该符合的业务规则(约束条件)出发,制定针对每一条业务规则(约束条件)的期望值,然后根据采用的权重模型和聚合模型,就能够得到每一个指标和最终评估的期望值。
(8)V 表示每一次数据质量评估活动中得到的数据集数据质量的最终评估值。通过将V 与E 进行比较,能够明确得出当前数据质量是否符合要求的结论,也是对前期数据质量控制活动的验证。
(9)T 表示时间维度,指的是数据质量评估不是一个一次性的活动。针对具体数据集的特点,考虑其变化情况,必须制定数据质量评估活动的策略,如定期评估、增量评估、按需评估等。根据不同时间点上数据质量评估值的变化,启动不同的响应活动。
在军事数据工程建设中,数据质量评估元模型表达了数据质量评估的整体框架和思路。每一个数据质量评估模型是针对建设单位的某一个业务主题定义的质量评估描述,它能够满足建设单位对某单一类型业务对于数据质量评估的需要。而若干个数据质量评估模型则可以构成该建设单位的数据质量评估体系。根据数据质量评估元模型的定义及其组成元素之间的内在关系,军事数据工程的各建设单位在定义本单位、本领域或者本专业的数据质量评估模型并在实际的评估工作中加以应用时,可以按照以下步骤进行:
(1)针对本单位、本领域或者本专业的数据进行分析,将其划分为不同的业务主题。针对不同的业务主题将分别建立其质量评估模型。
(2)针对某一主题下的数据集或者一类数据集,明确其抽样方法S,可以根据不同情况采用不同的抽样方法,如全部抽样、部分抽样、增量抽样等。在军事数据工程建设中,由于一个数据集往往能汇集广大区域范围内长时间跨度范围内的大量数据。因此,根据情况采用不同的抽样方法以满足具体的评估要求是很有必要的。
(3)根据某一主题下的数据集可能的应用场景,开发数据集的质量指标体系,在选定顶层质量维度后根据需要逐层详细分解,得到最终的数据质量评估指标体系I 并确定其权重模型W。
(4)根据某一主题下的数据集的内在特征,组织业务人员分析其应满足的业务规则或约束条件R 并给出具体的定义,将数据质量指标体系中的指标转化为具体可测的业务规则,明确其测量方法,并确定这些规则的权重W 以及期望值E。
(5)根据质量指标间的相互关系、业务规则之间的相互关系以及所采用的权重模型,选取合适的评估值聚合方法A,能够将针对业务规则R 的测量值聚合为最终的评估值V。
(6)针对以上元素,组织相关专家进行评审,并根据专家评审意见进行修改完善。
(7)针对数据种类繁多、数据体量巨大、数据规则复杂的特点,需要开发专用的数据质量评估工具,实现自动化的评估并能够生成评估报告;对于一些特殊情况,也可以发挥专家的经验和智慧,采用人工评估的方式,或者是采用人工与自动相结合、定性与定量相结合的评估方式。
(8)根据不同的评估策略,如定期评估、增量评估、按需评估等,使用数据质量评估工具进行评估,并将评估值V 与期望值E进行比较,对当前数据质量存在的问题进行分析。对于不同业务主题下的数据质量也能够根据其期望值和评估值进行横向比较。
(9)通过长期的评估数据的积累,可以对评估结果包括最终结果以及中间结果等进行时间序列分析,建立该数据集的数据质量档案,并对其今后的数据质量做出科学合理的预测。
(10)在依据已建立的数据质量评估模型进行评估的过程中,也要注意对采样方法、质量指标、业务规则、权重模型、聚合模型等要素的合理性进行不断的检查,并根据情况变化进行及时调整,保证数据质量评估模型能够正确反映被评估对象的本质特征。
本文从军事数据工程中数据集质量评估的实际需求出发,分析了数据工程中数据质量评估的特点和面临的挑战,通过对数据工程中数据质量评估工作的抽象,提出了数据质量评估元模型的概念,给出了该元模型的定义及其组成要素之间的逻辑关系,并针对其在军事数据工程中数据质量评估工作中的应用给出了具体的意见和建议。它不仅适用于结构化数据的评估,也适用于半结构化和非结构化数据的评估,能够有效适应数据工程中各种不同的评估场景,辅助建设单位建成既符合数据工程总体要求同时又体现自身数据特点的具体评估模型,为各建设单位数据质量控制工作提供有力支撑。