基于云和频繁项集的认知测试性诊断方案权衡优化

2018-05-14 15:33刘新海马彦恒侯建强
中国测试 2018年3期
关键词:数据挖掘

刘新海 马彦恒 侯建强

摘要:针对装备认知测试性智能决策问题,提出基于云和频繁项集的认知测试性诊断方案权衡优化方法。研究装备认知测试性中信息流在定性域和定量域的描述和转换方法,给出基于数据概要的中心云产生方法,实现事务数据清洗与筛选;研究基于频繁项集和新增项集的数据挖掘方法,提出基于2一范数及协方差的数据相关性分析方法,实现基于云和频繁项集的认知测试性诊断方案权衡优化的数据挖掘过程:得到基于存储层一云层一应用层一决策层的认知测试性仿真诊断与权衡优化模型,并对该模型进行补充说明。该方案可为装备认知测试性诊断方案权衡优化的智能化發展奠定基础。

关键词:认知测试性;云;频繁项集;数据挖掘;诊断方案

0引言

由于现代战争多维度、一体化、快节奏、即时精确打击的特点以及无人化作战的发展趋势,对作战装备的故障诊断与维修要求已从注重隔离故障、降低装备全寿命周期费用,转变为强调基于状态的预测性视情维修,满足装备的任务可靠性需求。

装备认知测试性的发展满足了这一要求。在装备测试性设计阶段,它不但要求装备能够提供装备自身状态、历史信息、环境信息以及后方支援系统等信息,还要能综合作战使用要求、测试性要求、可靠性要求、维修性要求、保障要素等相关因素,对装备的状态、故障发展趋势进行估计和判断,并结合任务可靠性的需求,做出维修决策。

但是,装备认知测试性的发展尚不完善,仍处于起步阶段。其中,诊断方案综合权衡优化是根据装备其履历信息、认知测试性的指标体系和特征量信息、装备保障信息以及任务环境信息等多元数据,分析装备及作战体系的当前状态,对装备的测试性、维修性、保障性及任务可靠性进行预测,并给出任务决策方案的过程。本文针对认知测试性的发展,结合云计算理论和频繁项集数据挖掘技术,研究装备认知测试性发展中诊断方案的综合权衡优化问题。

1云计算理论和频繁项集数据挖掘

装备认知测试性诊断方案权衡优化,包含大量的数据分析过程。这些数据不仅包含装备本身的测试性数据,还包括装备级联、作战体系、作战环境、历史信息、同型装备信息、相关装备信息、装备保障信息、维修履历信息、保障资源调度信息以及历史决策信息等多方面,决策所需处理的信息巨大,具有大量化、多样化和个性强等典型的大数据特点。因此,可以采用大数据思维,利用大数据技术,有效地开发这些数据,从而实现对诊断方案的综合权衡和优化。

利用大数据分析的方法可以实现装备认知测试性中信息流的大数据特征融合、机器学习、数据降维和数据流挖掘等过程。其中基于云模型的大数据相关方法,能够实现认知测试性信息流中定量数据和定性概念之间的转换,便于诊断方案的定量化分析。

1.1云和云模型

云是对定性域实现定量描述的一种方法,云模型是云的一种具体实现。设U为定量域集合,C为其相应的定性域集合,如果Vx∈U都是对C的随机实现,且x对C的确定度μ(x)∈[0,1]是有稳定倾向的随机数。

则x在U的分布称为云,x称为云滴。云理论通常用期望、熵和超熵3个特征量进行定量特征分析旧。在云计算中,通常有存储层、端点云、中心层和应用层4部分结构。其中,存储层采用分布式存储的方式,是大数据存储的理想模型:端点云则是对原始数据定量描述,产生端点云图;中心层则是对端点云进行合并运算,用于产生、存储中心云滴;应用层则主要实现对大数据的挖掘分析。

本文主要利用云计算中的分布式存储和定量化描述过程,实现装备认知测试性中对信息流的定量描述和分布式存储。然后,结合数据挖掘方法对存储数据进行中心云分层,实现对数据的挖掘分析,最终形成诊断方案。

1.2频繁项集数据挖掘

频繁项集挖掘是实现数据挖掘的有效方法之一。首先收集并清洗原始数据集(事务数据);然后统计各项集之间出现的次数,一般可取出现频率靠前的项集作为频繁项集。为提高频繁项集的求解效率,常采用Apriori算法进行优化。结合Apriori的频繁项集挖掘算法包括事务数据清洗、1项集求解、k项集迭代求解的过程。

事务数据清洗是根据任务条件和实际环境,过滤不需要或者不符合要求的原始数据。

1项集求解是扫描每条事务数据记录,分解出每一项,并计数1,最后统计每一项出现的总次数,取靠前的项集作为频繁1项集。

k项集的求解中,k项集的生成依赖于k-1项集。若k-1项集完全自连接,则生成的候选k项集组合庞大,且容易生成部分无效k项集,降低算法效率,常采用Apriori算法对候选k项集生成过程进行优化。Apriori算法优化的基本原理如下:

1)频繁项集的任何非空子集都是频繁的。

2)非频繁项集的任何超集都是非频繁的。

生成k项集阶段,包括了连接和剪枝过程,其中两个k-1项集进行连接的条件是:它们至少有k-2项相同。

本文通过频繁项集筛选实现诊断方案的测试性、可靠性和维修保障方案与历史决策之间的学习分析过程。

2诊断方案权衡优化方法

基于大数据的诊断方案权衡优化技术在功能层面主要包括4个方面:供装备作战使用顶层要求的决策层分析、供本级状态监测使用的测试层分析、满足装备顺利完成任务的可靠性分析、维修保障方案的方案分析。

在诊断方案权衡优化中,云计算和云模型是将影响决策方案的所有定性量用定量域描述,定量域元素就组成了用于诊断方案权衡优化的云滴。当前的任务需求可以产生数据概要,用于清洗云数据池,以便产生包含有效数据的中心云数据。通过频繁项集和新增项集实现信息流数据的相关性分析,并给出合并分析相关方案。通过历史决策方案及评价指标,构造代价函数对合并分析结果进行修正,然后给出决策分析的测试性分析结果、任务可靠性分析结果和装备维修保障方案。最后,结合决策方案评价体系对决策方案进行优化和评价。

如图1所示,为认知测试性诊断方案权衡优化图。其云架构从功能上分为4层:顶层为数据存储层:第2层为中心云发生层,其核心任务在于由原始数据产生各云端的云,即端点云;第3层为应用层,基于中心云滴和频繁项集进行大数据分析和挖掘任务;第4层为决策层,用于产生诊断方案,并根据决策评价对决策进行优化校正。

诊断方案权衡优化具体过程为:首先根据当前任务需求生成数据概要,实现数据分类,用于决定数据池的容量:其次将数据概要发送至中心云端和数据池,利用云运算匹配操作产生中心云数字特征,用于最优决策特征要求:然后根据中心云数字特征,利用频繁项集和新增项集方法,调取认知测试性大数据信息,并施加数据相关性分析操作,用于数据挖掘实现决策权衡优化。

3信息流和数据概要的定量化描述

3.1信息流的量化描述

在认知测试性中,装备及其履历信息流主要包括装备的类型、生产厂家、批次、使用年限、寿命、维修履历(故障率及故障分布)等内容。认知测试性信息流主要包括装备本级的测试性指标信息。装备保障信息流主要包括维修保障力量的部署、保障代价、保障资源、保障技术要求等内容。任务及环境信息流主要包括装备需要进行的任务(教学、演习、作战等)、试用环境(温度、海拔、湿度、气压、风速、云雨等)。这些信息流都会对装备的测试性、可靠性和维修保障方案产生影响,也是云平台存储的主要数据。在装备认知测试性的诊断方案综合权衡优化中都需要进行定量化描述。

本文在进行信息流定量化描述的过程中,将信息流类型分为装备本级信息流量化和装备支援信息流量化两类。其中,装备支援信息流量化主要包含装备及其履历信息流的量化、装备保障信息流的量化和任务及环境信息流的量化。装备本级信息流的量化主要是认知测试性信息流的量化。两者的差异主要在于信息流中特征量的分布不同。

在装备支援信息流量化中,以装备及其履历信息流中的装备类型为例分析。根据作战体系的装备类型差异,对装备进行类型编号,本文编号时,根据装备统计由简到繁,由装备对作战体系功能性影响较小到功能性影响较大的原则。记云存储平台共统计了Ⅳ种装备类型,在分布式存储时,装备及其履历信息流中装备类型则按照(1,2,…n…N)进行量化描述。为了统一化描述,将装备类型信息定量描述进行归一化,则记为

对装备本级信息流的量化,以电子装备认知测试性信息流中电压值的分析为例。根据历史统计信息,确定装备正常工作时电压值的变化范围,并以正常状态下测量值的期望和方差为准构建正态分布函数。记测量值为X(x1,x2,…x1),期望值为Ex,标准差为u,那么,电压值的量化可以记为

根据第2节对云计算的分析,为更好地表示信息流的量化情况,需要对上述正态分布标准化,使得电压值的量化分布服从标准正态分布,即:

根据装备本级信息流的量化和装备支援信息流的量化方法,就可以得到分布式存储量化后的数据池原始数据信息。

3.2数据概要的量化描述

结合云计算理论和频繁项集理论,本文的数据概要是依据当前的任务及环境信息流,产生用数字特征表征的数据池筛选条件,从而实现对事务数据的清洗,产生中心云。数据概要的作用是以0和1的形式,从云平台大数据的数据池中,筛选出本次任务的关注重点和应用场景条件,表示如下:

对信息流量化产生的数据矩阵U而言,Data是与U同型的矩阵,当任务要求考虑某个信息流时,相应位置元素为1,当任务要求不考虑某个信息流时,该位置元素记为0。那么,利用数据概要对事务数据进行清洗的过程,实际上可以简化为分布式矩阵U与数据概要Data元素的点乘,那么中心云数据可记为

4诊断方案权衡优化过程

4.1频繁项集与新增项集的产生

本文频繁项集主要是根据历史决策、历史诊断及其评价所输入的数据概要产生。根据数据概要产生的过程可知,数据概要主要描述当前的任务要求和环境因素,且数据概要为{0,1}矩阵。那么,频繁项集的产生过程可描述为

为尽快实现方案的确定,本文认为元素值>1的项都可以作为频繁项集数据概要的有效值。那么,频繁项集筛选条件可表示如下:

4.2相关性分析

在完成频繁项集和新增项集筛选的情況下,实现数据的相关性分析是实现诊断方案确定的关键过程之一。本文对于频繁项集的相关性分析,采用历史诊断方案数据的期望值矩阵与频繁项集的2一范数表示,表征了当前任务频繁项集与历史决策的偏离度:

对于新增项集的相关性分析,采用新增项集的协方差矩阵表示,表征了新增项集对任务指标的影响:

通过频繁项集和新增项集分析结果的合并,可以得到诊断方案的权衡优化结果。

4.3方案优化补充

通过上述分析,基本上形成了诊断方案权衡优化的过程。但还需做如下说明:

1)本文对于数据概要未描述的数字特征采用最优方案确定,不同任务背景可视情况而定。

2)在完成了数据的相关性分析后,基本上形成了决策方案。但是还需要结合决策方案的评价标准对方案进行优化,其中评价标准和代价函数将在后续研究工作中完成。

3)针对信息流的量化问题,在不同的任务侧重点可以采用不同的分布函数表示,相关内容将在后续的研究工作中进行,本文不再赘述。

5结束语

本文针对装备认知测试性诊断方案权衡优化问题展开研究,给出了基于云计算的信息流定量域与定性域转化方法,并通过数据的相关性分析方法实现了诊断方案权衡优化的数据挖掘过程,形成了基于云计算和频繁项集的诊断方案权衡优化方法,为装备认知测试性诊断方案权衡优化的智能化奠定了基础。后续将针对诊断方案的评价标准和信息流量化的分布函数进行进一步研究。

猜你喜欢
数据挖掘
近十年国内教育数据挖掘领域的应用技术分析
数据挖掘技术在内河航道维护管理中的应用研究
数据挖掘技术在物流企业中的应用
数据挖掘过程模型及创新应用
数据挖掘综述
软件工程领域中的异常数据挖掘算法
基于R的医学大数据挖掘系统研究
电子政务中基于云计算模式的数据挖掘研究
数据挖掘创新应用
数据挖掘的系统构成与发展趋势