摘 要 飞行试验数据的参数种类越来越多、数据量也越来越大;为了对数据进行充分的分析和使用,搜寻有价值的知识结论,对使用数据挖掘技术分析飞行试验数据的方法和过程进行了汇总研究。本文首先介绍了飞行试验数据的特点和主要组成,提炼出飞行试验数据挖掘的主要过程:数据预处理、数据挖掘方法应用、结果分析;并在后续各章节结合实例对每个过程的目的、典型方法和实施依据等进行详细描述。
【关键词】飞行试验数据 数据预处理 数据挖掘方法 结果分析
1 引言
飞行试验简单而言是指在实际飞行中展开科学研究,并进行一系列的产品鉴定试验;而通过这种方式获得的数据是航空武器装备非常重要的研究资料,具有很高的学术价值,现代飞机系统愈来愈复杂,从而导致试飞数据量也不断增长。飞行试验数据是在进行实验的时候,通过现代化的工程测试技术,取得对象和复杂系统所对应的各项数据,是装备定型最为基本的依据。伴随技术的快速革新,航空武器系统逐渐体现出集成性的特点,飞行试验获取的信息类型也更为繁杂,数据量持续扩增。
试飞数据的定型鉴定作用伴随试飞项目的结束得到最大化的体现,然而其具有的科研价值尚待进一步的研究,从而为型号的优化、有关系统的进一步提升、飞行培训等奠定良好的基础。
数据挖掘涉及到多个学科领域,是近些年来研究的热点,其主要作用概括来说是能够帮助用户从海量数据中分析出所蕴含的有价值信息。在该领域内,由于涵盖了多元化的学术成果,其中主要包括自机器学习、统计学、模式识别、数据库等方面的内容,进而让该学科快速发展。现如今,数据挖掘技术已基本成熟,数据挖掘从业者的研究重点不再是基本算法的改进和概念的扩展更新,而逐渐转变为与特定专业领域的融合。针对飞行试验数据的探究,数据挖掘方法和技术无疑是最优方案。
1.1 飞行试验数据的特点
飞行试验数据的主要组成如图1所示。每个飞行架次的数据内容由按时间排列的数据帧序列组成,而每个数据帧由各类型的传输总线数据组成。连接各设备的传输总线上的数据内容和属性必须符合接口控制文件(ICD)的定义要求,这就导致:除了噪音数据,这些数据的格式可知、数值确定。确定待分析数据集的数据特点,对于数据挖掘方法的选择、使用和结果分析具有重要的指导性作用。
1.2 数据挖掘技术在飞行试验数据分析上的应用概述
数据挖掘是指从数据库或数据集内提取之前没有掌握的、蕴含一定价值的信息。其常规的流程涵盖多个部分,其中比较主要的包括数据的准备、数据挖掘、结果解释与评价等。基于飞行试验数据的特点和常规的数据挖掘过程研究,本文汇总提炼出如图2所示的飞行试验数据挖掘流程:
(1)数据预处理;
(2)数据挖掘方法应用;
(3)结果分析。
其中,数据预处理主要依据接口控制文件使用有效的数据预处理方法对原始数据展开标准化的处理。数据挖掘方法应用是最关键的一部分,概括来说就是结合挖掘任务选取最为适用的算法,进而搜寻专业人员最为关心的模式,其中比较典型的包括分类、聚类、时序、关联、偏差等。结果分析是指对之前获取的模式展开评析,从而分析出有价值的模式,并选择适用的表达方式,将获取的知识内容完成展示。
2 飞行試验数据挖掘过程
2.1 飞行试验数据预处理
现实世界的原始数据一般是含噪声的、不一致的和不完整的,因此在使用数据挖掘算法分析数据前需进行数据的预处理。数据预处理通常由四个步骤组成:数据清理、数据集成、数据选择、数据转换。具体的,数据清理通过识别孤立点、填充空缺值和消除噪声等纠正原始数据中的不一致;数据集成是把若干个数据源内的数据进行结合,然后将其储存到具有高度一致性的数据集合内;数据选择就是选择适合于特定数据挖掘方法和目的的最佳有效子集;数据转换是将数据转换为易于进行挖掘操作的存储形式。
飞行试验数据集的特点通常是多种数据类型源的、历史的、海量的。鉴于数据源基本具有明确的含义,预处理工作的重点是“数据转换”;且可针对不同的应用,选择相应的预处理方法得到适合后续工作开展的数据集。对于数据预处理的其他三个步骤,其重点主要是针对ICD文件输入错误、设备故障、数据缺乏等情况的处理。
(1)飞行试验数据清理:根据ICD文件定义对数据帧中数据的有效性进行识别,找到并去除各参数定义范围外的异常数据和孤立点;根据飞行科目表按时间段对噪声数据进行保留或平滑处理。
(2)飞行试验数据集成:在预留信息基本充足的条件下,对数据展开压缩处理,从而最大化地提高数据处理的时间效率和空间效率;对各个数据源中同类型的数据进行融合,如:GPS经纬度和即时位置经纬度,相对/绝对气压高度和无线电高度,真航向和磁航向、指示空速和真空速等。
(3)飞行试验数据选择:辨别出需分析的数据集合,缩小处理范围,提高数据挖掘的效率和质量;
(4)飞行试验数据转换:针对不同的应用可选择不同的数据转换方法,如最小-最大规范化方法:对数据展开线性变换和映射,使所有数据处于[0.0, 1.0]范围内。
2.2 不同的飞行试验数据挖掘方法应用
数据挖掘主要涵盖2类:第一类是描述性数据挖掘,是指以概要的方式展开数据的特定描述,以获取数据有趣的常规性质,应用比较广泛的方法包括异常检测、聚类等;第二类是预言性数据挖掘,展开数据分析以构建规范化的模型,然后使用模型进行预测,最具代表性的方法为分类。
飞行实验数据分析的重点为数据挖掘算法,主要选用各种数据挖掘方法找出相应表达形式的结果知识,其目标主要包括相似性搜索、趋势研究等。本节针对飞行试验数据挖掘这一特定应用,探究各类应用较广的数据挖掘方法。
2.2.1 分类、聚类和异常性分析
分类(Classification)的目的是得出特定的分类模型,这个模型可以将各数据项映射至某一目标类别;分类模型既可用于分析已有数据,也可用来预测未来的数据。其采用的方法多种多样,其中比较具有代表性的包括基于统计的算法、以决策树为核心的算法、组合技术等。
聚类(Clustering)是依照某种相似性度量原则把输入数据集的所有数据分成若干簇(Cluster),使得同一簇中的数据最大程度的相同,而不同簇的数据之间最大程度的不同。聚类不同于分类的原则是根据数据间的相互关系分析数据,不考虑已知的类标记。聚类算法按照所采用的基本思想可分为五类:层次聚类算法、分割聚类算法、基于约束的聚类算法、机器学习中的聚类算法、用于高维数据的聚类算法。
离群点(Outlier)是和数据集中的数据发生非常显著的偏离,不符合常规模式,与其他数据存在一定差异的数据。异常性分析基于离群点的概念,其依据是:在一些应用中,罕见的事件可能比正常出现的那些更有意义。
针对飞行航班数据集的特点,文[10]通过一种新的有效的聚类改进算法分析若干航班的发动机数据,用于检测飞机发动机数据的异常,通过实验数据说明其达到了定位发动机故障点的目的,为类似应用提供了良好的可借鉴之处。
2.2.2 关联规则发现和趋势分析
关联规则(Association Rule)是一类应用广泛且易于理解的关联分析规则,它能够对属性共同出现的规律进行准确的表述。即:关联规则是形如X=>Y的规则,X和Y都是属性-值对的集合;因此这种方法就是在数据集内搜寻符合特定支持度(体现结果的重要性)和置信度(体现结果的可信度)的全部关联规则。
频繁项集(Frequent Itemsets)是指频繁出现在数据集中的数据项集合。最经典的关联规则挖掘算法是Apriori算法,其核心理念是找出给定数据集中频繁发生的数据项,然后在此基础上形成强关联规则;寻找频繁项集的主要思想是用前一次扫描数据集的结果产生本次扫描的候选项集,从而提高搜索的效率。
分析参数分布规律能够对系统或设备的运行状态进行说明。对于图-1中的单个数据帧格式的数据集,可利用适当的数据挖掘方法找出存在关联的参数集合,如:某一飞行动作发生时各设备的参数间的同步速率、门限差值和滞后时间,从而达到设备稳定性、灵敏度等的判断。另外,文[11]通过Apriori算法对多架次的飞行实验数据进行处理,得到多维关联规则形式的结论,其中之一是:(仪表速度Vy>160)&&(无线电高度Hw<200)&&(俯仰角Af>5)=>进入爬高阶段,得出了符合预期目标的挖掘结果。
2.2.3 时间序列模式挖掘
时间序列数据挖掘的主要研究内容是从大量时间序列历史数据中发现有价值或感兴趣的信息的算法和实现技术,其方法概括起来可分为四种 :趋势分析、周期性分析、序列模式分析和相似性分析。
飞行试验数据的特点决定了时间序列模式挖掘是一种适用的数据处理方式。例如,飞行器运行的过程中,其复杂性和综合性导致全机系统模型难以进行预测等活动;而时间序列分析能够展开合理的分析和预测,以形成满足特定应用的预测区域。
2.3 数据挖掘结果分析
在一个飞行试验数据集上完成一个(组)挖掘算法之后,往往会得到数量较大的结果模式、规则等;然而其中只有少量结果能够发挥应用价值。通常,评估一个结果是否有价值的依据是:
(1)对于非数据挖掘专业的用户是表达方式有好的;
(2)能够对未来数据进行预测;
(3)蕴含有价值且以前未知的知识。
常用的实施方式为:应用合理的客观评价方法,根据用户的主观评价措施(需求或兴趣等)展开评价,得出有价值的结论。
表1汇总了几种典型数据挖掘方法的结果及其常用的客观评价标准。主观价值评估标准建立在用户的信念基础上,即:获得的结论对用户而言是否和信念存在一定偏离,并具备决策支持的条件;或者是通过各种科学性标准让用户确认想要认可的一个假设。
3 结束语
数据挖掘技术已基本成熟,现在的一个重要方向是其与某一专业领域的结合应用,而飞行试验数据分析有着对数据挖掘技术的强烈使用需求。为了更好地将数据挖掘技术运用到这一领域,还需指出的是:用户在数据挖掘过程中扮演重要角色;用户如何与数据挖掘系统交互,如何在数据挖掘中融入用户的背景知识,以及如何可视化和理解数据挖掘的结果是非常重要的环节;应当把背景知识、约束、规则和关于所研究领域的其他信息结合到知识发现的过程中。
参考文献
[1]党怀义.飞行实验数据聚类约简方法研究[J].计算机测量与控制,2013,21(11).
[2]维修工程评估.中国民用航空局航空器适航司,2003,2(06):10-20.
[3]赵宁社等.新一代航空电子综合化及预测与健康管理技术[J].测控技术,2010.
[4]David Hand,Heikki Mannila,Padhraic Smyth.数据挖掘原理[M].北京:机械工业出版社,2003.
[5]Theodoratos D,Sellis T.Designing Data Warejpises [J].Data Knowledge Engineering,1999,31:279-301.
[6]Han Jiawei,Micheline Kamber.DATA MINING Concepts and Techniques[M].北京:高等教育出版社,2001.
[7]R.L Kennedy Solving Data Mining Problems Through Pattern Recognition [M].1998.
[8]石杰楠.數据挖掘研究综述[J].航天制造技术,2005.
[9]张叔农,黄明晟.数据挖掘技术综述[C].中国航空学会可靠性工程委员会第十届学术年会论文集[M].北京:国防工业出版社,2007.
[10]苏志刚.基于数据挖掘的快速记录存储器数据处理技术[J].信息与电子工程,2012,2,10(01):118-122.
[11]梁建梅,孙秀霞,杜军.基于数据挖掘的飞行参数处理方法研究[J].弹箭与制导学报,2005,25(01):76-79.
[12]Keogh,E.and Kasetty,S.On the Need for Time Series Data Mining Benchmarks:A Survey and Empirical Demonstration[C].ACM SIGKDD. Edmonton,Alberta,Canada.July 23-26, 2002.pp.102-111.
[13]朱明.数据挖掘[M].中国科学技术大学出版社,2002.
作者简介
赵倩(1985-),女,河北省宁晋县人。硕士学位。工程师。研究方向为机载软件设计与开发。
作者单位
航空工业直升机设计研究所 江西省景德镇市 333001