李 奎,张 侹,吴 娟,廖 斌,余 乐
(1.地理信息工程国家重点实验室,西安 710054;2.西安测绘研究所,西安 710054)
近年来,随着我军装备试验工作的转型与发展,各型武器装备的试验鉴定以及专项试验评估均已开展相关工作,试验评估是装备建设决策的重要支撑,是发现装备问题缺陷、促进装备性能提升、确保装备质量的重要手段。
试验评估工作中,试验数据是客观公正的基础。由于装备试验的过程环节多、参与单位多,实施过程产生的试验数据类型多、数据量大,由于受到技术、人力等的限制,数据中包含的深层次信息难以得到有效利用,数据有效获取和应用比较困难。目前,装备试验鉴定领域尚没有形成一套完整的装备试验数据采集、整编、使用和质量控制标准,试验数据质量评价与管理方面的研究还不够深入,缺少相关理论成果和技术方法研究,各类试验鉴定任务的开展面临着数据质量不高、评价标准不规范、应用效率低等突出问题,难以真正做到试验数据的综合有效利用,并将严重制约装备试验评估工作的实施。
现有的数据质量评价方法多采用模糊数据理论、“缺陷扣分法”、权重法和粗集理论,这些方法的缺点是在评价过程中难以充分利用数据的模糊性和随机性,从而影响评价结果的准确性。
为有效提高试验数据质量和利用率,确保装备试验评估工作科学合理地开展,本文采用基于云模型的方法对试验数据质量进行分析评价。首先研究了装备试验质量的内容和特点,并构建了试验数据质量评价指标,在此基础上,利用云模型理论生成了数据质量评价等级云和评价结果综合云,然后通过计算评价结果综合云与各评价等级云之间的相似性,确定试验数据所隶属的质量评价等级,最后通过实验验证了所提方法的可行性和有效性。
从试验对象角度划分,装备试验数据可以分为三大类,1)装备自身的效能数据,如战术技术性能指标数据;2)影响装备效能发挥的数据,如战场环境数据、电磁环境数据等;3)试验勤务保障数据,如试验人员、车辆、陪试装备等。从试验阶段角度划分,装备试验数据又可以分为性能验证试验数据、性能鉴定(基地)试验数据、作战试验数据和在役考核试验数据等,这些不同阶段的试验数据按照数据类型划分,又可以分为音视频数据、非结构化文本数据、结构化文本数据、各软硬件系统接口数据、图片、文档数据、装备模型数据等。
根据分析可以发现,装备试验数据具有来源多样、格式多样、内容丰富、时效性要求高等特点,并且数据模式、精度、表现形式存在较大差异。
随着研究的不断深入,装备试验数据质量的内涵经历了由单一到综合、由局部到全面的变化。作为一个相对的概念,装备试验数据质量是一个内涵丰富、具有多重维度的综合性概念,其具有较强的主观性,在不同的背景有不同的定义,对不同的用户对象有不同的评价准则,对其评价也应该根据系统的需求和数据特征来决定。从支撑和服务试验评估的角度来看,装备试验数据质量不仅需要考虑数据自身的准确性、完整性等指标要素,还要充分考虑对试验评估(即用户方)的满足度,如试验评估人员对数据的可理解性和时效性等有着严格的要求。基于此,本文认为装备试验数据质量可以定义为:装备试验数据能否准确反映装备试验活动及满足试验评估任务需求的程度。
装备试验数据质量的好坏一般难以通过精确测量的方式获得,只能通过分析数据的构成、特点和应用需求等,建立装备试验数据质量与评价指标要素之间的映射关系,即建立质量评价指标,然后通过评估的方式获得评价结果。因此,开展装备试验数据质量评估工作的一项基础性工作,就是构建科学合理的评价指标。基于装备试验数据的特点和装备鉴定定型需求,本文认为装备试验数据的质量评价指标应该包括准确性、完整性、规范性、唯一性、有效性、时效性、可理解性7 个要素,如图1 所示。
图1 装备试验数据数量评价指标
1)准确性:主要用于描述试验得到的数据与真实数据之间的符合程度。
2)完整性:主要用于描述数据的完整程度,是否存在数据残缺和记录疏漏。
3)规范性:是指数据集中的同一参数的含义、结构、属性等是否满足相关标准规范,数据记录和存储是否按照统一格式。狭义上,规范性又可以描述为数据格式的一致性。
4)唯一性:描述的是数据是否被重复记录。
5)有效性:是指数据的定义、语法规则等与其对应的描述对象相一致的程度,是否符合其定义。
6)时效性:又可称为数据及时性,主要用于描述数据是否符合更新时限要求。
7)可理解性:是指数据含义明确且易于理解。
因为影响数据质量的要素众多,装备试验数据质量评价是一个随机性和模糊性工作共存的问题。一方面,由于评价指标具有不确定性,不同的用户或应用场景,对试验数据质量关注点不同,有些用户会觉得数据的准确性最重要,但也有些用户会觉得数据的完整性最重要,这就会导致同一指标的权重值不同;另一方面,评价方法上的随机性,由于试验数据一般较大,不可能对每一个数据进行分析处理,通常采用抽样检测的方法,以抽样的结果作为整体的评价结果。因此,最后的结果不可能完全精确,只是对质量状况的随机性表达。此外,试验数据质量评价指标一般有定性和定量两种,对于定性指标来说,每个指标的定义本质上都具有模糊性,不是完全精确的;而对于定量指标来说,其评价值的确定通常受主观因素的影响,也具有一定程度的模糊性。
为解决数据质量评价过程中定性描述和精确数值之间的相互转换,以及评价过程中存在的准确性和不确定性难以有效兼顾的问题,文献[12]提出了云模型理论,该方法不仅能够从定性描述中获得精确定量数据和分布规律,而且可以把精确数值合理地转化为定性描述,有效保证了评价结果的公正客观。
云模型可以用A(Ex,En,He)表示,其中,期望Ex、熵En 和超熵He 被称为云A 的数字特征值,Ex表示模糊信息的中心值,即云的分布中心;En 表示Ex 的不确定性,可以揭示评估结果的随机模糊性;He 表示En 的离散程度和厚度,即云的凝聚度。通过Ex、En 和He 组成云隶属度函数,可以把定性描述(质量评价等级)的模糊性与隶属度的随机性相结合,构成定性与定量相互间的映射。
本文将数据质量的评价等级划分为“优”、“良”、“中”、“差”、“极差”5 个等级。而对于评价等级数值范围的确定,通常采用的方法为专家打分法。表1 为征求专家意见后得到的评价等级数值表。
表1 评价等级数值表
假设共有n 个数据质量评价等级,若每一个评价等级的数值取值范围为{min,max},则该评价等级云模型可以表示为E(E,E,H),其中:
通过第2 章的描述可知,当H越大时,对应的评价等级云越分散,评价结果也越难确定,因此,为了保证评价效果,本文选取k=0.01。
根据式(1),可以生成各个评价等级对应的云模型,具体云模型的数字特征值如表2 所示。
表2 各评价等级云模型的数字特征值
各评价等级云图如下页图2 所示,由图2 可知,各信任等级云在区间上相互分离,且均具有较好的凝聚度。
图2 评价等级云
借鉴文献[10-11]关于虚拟云的描述,本文生成了评价结果综合云。设数据质量评价指标为A={A,A,…,A,…,A},A代表第i 个评价指标,如准确性、完整性等,N 代表评价指标的个数。则待评价数据在评价指标A的评价结果云为A(Ex,En,He),由N 个评价结果云合并生成评价结果综合云A(Ex,En,He)。评价结果综合云的合并方法,一般采用以下两个步骤进行:
1)基于建立的评价指标,依次计算各指标评价结果,确定各评价结果云的数字特征值(Ex,En,He);
郝桂芹在后面捂着耳朵,变声变气地告诉他,这都不知道哇,老土了不是?那几个人,今晚一准中奖了。放烟花,是在庆贺啊。
2)将各评价结果云进行合并,生成评价结果综合云A(Ex,En,He),可以表示为:
则评价结果综合云的A(Ex,En,He)的数值特征可以表示为式(3)~式(5),其中,ω 为不同评价指标的权重:
本文通过计算评价结果综合云中的云滴对与各评价等级云之间的隶属度,确定评价结果综合云与各评价等级云之间的相似性,这样可以有效保证评价结果的客观合理,又能够保证评价结果的模糊性和随机性。
设评价结果综合云为A(Ex,En,He),N 表示评价指标的个数;评价等级云为E(Ex,En,He),i=1,2,…,K,K 为评价等级总数。则A(Ex,En,He)和E(Ex,En,He)之间的相似性可以按照下面步骤进行:
1)以En 为期望,He 为标准差,构造正态随机数En';
2)以Ex 为期望,En'为标准差,构造正态随机数x;
3)以En为期望,He为标准差,构造正态随机数En';
5)重复1)~4),直至产生N 个云滴;
若μ越大,表示评价结果综合云中的云滴与评价等级E之间的隶属度越大,两个云模型也越相关,即评价等级E最能反映待评价数据的质量状况。
评价结果综合云是由多个指标评价结果云合并而成的,对于单个指标评价结果云的生成,需要对采集到的实例数据进行数据处理,分别得到不同评价指标下的分值。由于本文的研究重点不是数据处理方法,因此,试验数据处理方法不进行赘述。
为验证本文所提方法的有效性,选取采集到的某型装备部分试验数据作为研究对象,这些统计数据共包含10 个指标,分别用TD1~TD10 表示。表3为经处理后的各评价指标评分值。
表3 评价指标分值
根据表3,利用逆向云发生器可以得到各个评价指标的云模型数值特征值,如表4 所示。
表4 指标评价结果云的数字特征值
根据表4,利用式(3)~式(5)可以求得评价结果综合云的数字特征值为A(94.083 1,0.809 6,0.213 8),如图3 所示。
图3 评价结果综合云
由图3 可知,评价结果综合云的云滴基本上分布在92~96 之间,当评价结果值取94.08 时,此时隶属度为1,此时94.08 最能代表数据集TD 的质量状况。
评价指标权重的确定,可以采用常用的层次分析法确定。基于各评价指标之间的相对重要性,构建判断矩阵,如表5 所示,其中:总目标为A,准确性(B)、完整性(B)、规范性(B)、唯一性(B)、有效性(B)、时效性(B)、可理解性(B)。
表5 判断矩阵
最终可以求得指标权重向量W 为:
根据3.3 节关于云相似性计算方法,可以计算得到评价结果综合云与各评价等级云的相似性值,具体如表6 所示。
图4 为评价结果综合云与各评价等级云的分布图。
由表6 可知,评价结果综合云在相似性上的排序分别为:优>良>中>极差>差。由图4 也可以直观看出,评价结果综合云的分布范围几乎完全介于评价等级“优”的范围内。因此,可以认为实例数据TD 的数据质量状况为:优。
图4 评价结果综合云与评价等级云的分布图
表6 评价等级综合云与评价等级云的相似性对照表
为了进一步验证基于云模型的试验数据质量评价算法的有效性,本文采用常用的模糊综合评价方法对实例数据TD 的数据质量进行评价,并将两者的结果进行对比分析。
进行模糊综合评价时,首先需要建立描述模糊集的隶属度函数,本文采用常用的三角、梯形分布来构造隶属度函数。由于本文所提的评价指标均为越大越好型,因此,采用隶属度函数三角和升半梯形。
用j 表示数据质量的评价等级,由评价等级划分可知j 分别取1,2,3,4,5,用x表示第i 个评价指标分值,用S表示第i 个评价指标的第j 级单项评价标准,用r表示第i 个评价指标对评价等级的第j级的隶属度,则第i 个评价指标的隶属度函数如下:
当j=1 时:
当j=2,3,4 时:
当j=5 时:
根据表4 中期望值Ex依次带入上面隶属度函数公式中,可以分别求得评价指标隶属度矩阵。
将4.2 节所求的评价指标权重与上面的隶属度矩阵做模糊运算,可以求得模糊综合评价的结果矩阵为:F=W'*R=[0.479 2 0.473 5 0.047 3 0 0],如表7 所示。
表7 基于模糊综合评价的数据质量等级隶属度
根据最大隶属度原则可知,采用模糊综合评价方法得到的试验数据质量状况为“优”。但是仔细对比可以发现,试验数据对应评价等级“优”和“良”的隶属度值十分接近,可以认为该评价结果较为牵强,只能依靠评估人员的经验和主观因素来判定。
与传统的模糊综合评价方法对比,本文提出的基于云模型的数据质量评价方法兼顾评价结果的模糊性与随机性,同时能够较好地避免传统方法的主观随意性缺陷,使得评价结果更可信。
本文提出了一种基于云模型的装备试验数据质量评价方法,通过对装备试验质量的内容和特点的分析,构建了合理的试验数据质量评价指标;在此基础上,对质量评价等级云、评价结果综合云和云相似性进行了详细研究,最后利用实例分析并与传统的基于模糊综合评价方法进行对比分析,证明了所提方法的有效性和可行性,并且评价结果可以较好地兼顾模糊性和随机性,避免各种人为和主观因素对最终评价结果的影响。