纪 刚 史丽楠 伊 鑫 陈 曦
北京航天自动控制研究所,北京 100854
数据挖掘,是从大量、不完全、有噪声、模糊和随机的实际应用数据中,提取隐含未知但又潜在有用的信息和知识的过程。数据挖掘技术在故障诊断、生产优化、丰富知识库、决策支持等工程领域有着广泛的应用。国外在航空航天领域建立了数据挖掘工具,利用数据挖掘技术开展结构模态分析和飞行安全分析,同时也在气动优化设计、流场分析等方面进行了应用,在民用领域应用则更广泛。在国内航空航天领域,李洪提出以大数据为基础,对历次发射的测试数据为对象,挖掘故障诊断判据知识,为指挥决策提供智能辅助[1]。王文正等利用数据挖掘技术,初步建立了基于飞行试验数据的建模方法,给出了地面试验预测误差[2]。李雷等提出了基于混合概率密度统计的多策略异常检测评价算法,为运载火箭进一步故障诊断提供更加灵活的参考[3]。王晓耕等对主动段卫星的实测环境数据与地面试验数据进行了对比分析,为地面设计改进提供了依据[4]。朱向明等立足于防空导弹飞行试验历史数据,使数据挖掘和专家系统两者的优点得到综合利用[5]。胡小平等证明了数据挖掘方法适用于液体火箭发动机的故障检测和诊断[6]。袁炳南等提出了“试飞大数据”的概念,对试飞大数据技术的应用前景进行了展望[7]。王艳梅等将粗糙集理论的数据挖掘技术应用于液体火箭发动机故障诊断,较好的获取了智能诊断的知识[8]。旷典提出在发动机状态监控与故障诊断领域,引入大数据挖掘分析方法的必要性[9]。王志刚提出基于LSTM的飞行数据挖掘模型构建方法,对连续有规律的数据进行快速识别,优化了飞行动作识别能力和提取效果[10]。肇刚将时间序列数据挖掘技术引入航天器遥测数据的分析与处理、系统状态特征提取以及故障诊断与识别[11]。基于海量数据的数据挖掘技术进行故障处理以及飞行器再设计,主要集中在多次重复使用的飞机、轨道航天器方面,在大批量的战术性武器上也有所研究,而运载火箭则较少。
我国运载火箭高密度发射已成为常态, CZ-3A系列运载火箭已经实现了单一型号100发以上的飞行记录,CZ-2C系列运载火箭也将快速逼近100发发射记录,大量的飞行试验积累了宝贵的数据财富。然而,针对运载火箭飞行试验,一般较多开展的,是基于偏差、均值及最值方法的常规飞行数据分析,而大量数据之间的关联性挖掘比较欠缺。对于飞行出现故障的情况,通常采用专家知识和故障树分析相结合的模式进行。这些常用的方法在单次飞行数据分析中起到了重要的作用,但随着飞行数据激增,一些隐蔽性强的风险很难被超前预示,而一旦发现往往都造成了较为严重的后果。
以大量的飞行数据为对象,对其整体进行系统性数据分析,不仅可以预示可能发生的故障并及早预防,也可以完善模型和优化设计。聚类分析广泛应用于疾病分类、分子分组、形态分组、统计调查的分类等,它是以某种度量(如相似性)为标准,把所需分析的数据分成不同的组,使得各组之间明显不同,同组内数据尽可能具备类似特征。向谦楠将聚类方法应用于动态弹道仿真可信度检验,更准确衡量实测弹道与其仿真弹道的接近程度[12]。董旭等研究无先验数据信息,进行了加权欧氏距离聚类,效果显著[13]。运载火箭多次飞行试验之间的数据具备一定程度的可重复性和类比性,但由于动力学模型存在天地一致性的问题,使得对飞行数据的分析主要停留在指标满足与否的评价上,大量数据中隐含的,还未造成重大后果的事件难以被及时发现并加以预防。从大量的飞行数据中通过数据挖掘,发现不易察觉的隐患,达到早期预警预防的需求是迫切的。
本文从运载火箭绕心动力学模型出发,通过分析并构建特征参数的隐含关系和特征矩阵,在标称模型下研究了典型飞行数据的聚类方法,并结合实际的飞行数据,验证了方法的有效性。
运载火箭飞行数据是典型的时序数据,对其分析大都建立在动力学模型的基础上,但由于真实火箭存在复杂性和不确定性,使得对飞行数据的分析存在困难。
某运载火箭在滑行段使用姿控喷管作为执行机构进行稳定控制,飞行中多次出现沉底发动机和姿控喷管工作异常的情况,然而飞行数据中各技术指标却满足要求,可见从单次的飞行数据中甄别出差异,进而对火箭产品特性给出评估是存在难度的。只有在显示度高的故障情况下,才采用专家知识和故障树方式进行分析。表1为某运载火箭5次飞行数据,从中可以看出,序号3的飞行结果与其它有显著不同,燃料消耗量(总冲)最多,而喷管的工作次数却不是最多的,序号3除燃料消耗量数据不满足要求外,其他的数据均指标均满足指标要求。
表1 部分飞行统计数据
运载火箭在助推器分离过程中,受到分离装置产生的冲击影响,箭体姿态变化显著。在某运载一次飞行任务中,箭体角运动数据均满足设计要求,但通过落区残骸检查发现助推器分离存在问题,通过对历史数据进行复查,类似现象已经多次出现。
飞行试验数据挖掘要解决的问题,是搜寻多次飞行数据中隐性的高价值信息,并将这些有意义的信息规范化为知识,以此完成对飞行试验数据的快速分析,最终实现对产品隐患的挖掘和设计的改进。
为方便研究,将火箭假设为刚体,典型滑行段动力学模型为
(1)
其中,ωx1,ωy1和ωz1为箭体滚动、偏航和俯仰通道角速度,Jx1,Jy1和Jz1为3个通道对应的转动惯量,b3为俯仰、偏航通道控制力矩系数,d3为滚动通道控制力矩系数。
利用姿控喷管进行姿态稳定控制,为典型的非线性控制范畴,系统稳定性和精确性的特征参数,包含角偏差、角速度、喷管工作次数、喷管工作时间和燃料消耗量。利用相平面分析法,可以得到特征参数的基本关系[14]。以俯仰通道为例,考虑干扰力矩系数为正,则最大角偏差为
(2)
喷管开启一次最短工作时间为
(3)
喷管关闭一次最短时间为
(4)
燃料消耗量的估算公式为
(5)
假定在式(1)所示的标称模型下,火箭姿控系统设计参数得到了最优解,而由于环境差异或者姿控喷管实际推力的散布,通过式(1)的动力学方程、式(2)~(5)特征参数估算公式,可知角偏差最大值综合决定于姿态角初值、控制力矩、干扰力矩以及控制门限等,形成稳定极限环之后,角偏差最大值基本保持不变。姿控喷管工作次数主要表征控制力矩和干扰力矩的关系,控制力矩大于干扰力矩,且开启次数较少,控制力矩大于但接近干扰力矩则工作次数较多。姿控喷管总的工作时间是所有喷管工作时间的总和,燃料消耗量与姿控喷管工作时间存在线性关系。
火箭的飞行数据,可以反映基于特定模型对象下,火箭本体特征参数的变化,同时也隐含了各特征参数之间的关系。数据分析方法必须与飞行中特征参数的变化结合,才可以从中得到有价值的信息。
聚类分析是数据挖掘中一种非常重要的方法,利用聚类算法,从火箭飞行数据中,把具有相同属性的数据化为一类,达到甄别异常数据的目的,属于典型的分类预测。算法中的簇是一组数据对象的集合,这些数据对象与同一簇中的对象有相似属性,而与其他簇的对象有很大差异。
首先,构建一个m×n特征矩阵A。其中,n代表不同的特征参数,m代表不同的飞行试验子样。对于滑行段可选择表2所示姿态角偏差、喷管工作次数、工作时间以及燃料消耗量作为特征参数。
(6)
特征矩阵A中n个不同的特征参数反映了火箭飞行数据中某种内在的关联。角偏差、喷管工作次数、工作时间以及燃料消耗量既反映了火箭飞行中的干扰因素,同时也反映了参与控制的姿控喷管推力输出工况。式(2)不仅与极限环角偏差和极限环角速度存在联系,同时也与理论设计的门限和滞环系数有关。在理论设计确定的情况下,姿控系统一旦进行稳定的极限环,式(3)和(4)即可反映火箭控制能力与干扰的对应关系。式(5)燃料消耗量包含了总工作时间,因此式(6)的构建过程中可以忽略工作时间参数。图1给出干扰力矩系数Mbz>0且系统可控的典型条件下,式(2)~(4)的关系。
图1 典型极限环
其次,式(6)中不同特征参数量纲不同,数值大小差异也较大,为避免它们对聚类结果产生影响,必须进行数据归一化处理。在确保归一化的同时,要保留各个特征参数原有的分辨力,使用式(7)所示的均值归一化方法对式(6)进行处理。
(7)
再次,进行相似度矩阵计算,欧式距离计算表示不同飞行试验特征参数向量之间的距离,表达式如式(8)。其中,k代表飞行试验数据中不同特征参数,i和j代表第i和第j次飞行子样。
(8)
然而,式(8)的传统欧式距离只是单纯地表示2个向量之间的累积差异,却忽略了对应单个元素之间的关系。式(2)~(5)清晰地表示了最大角偏差、最短开启时间、最短关闭时间以及燃料消耗量之间的联系,可见式(6)矩阵中每行中元素之间不完全独立,直接进行相似度矩阵计算,重复性的引入元素的差异会变大聚类计算的误差。飞行数据分析中,如果将n个特征参数的重要性等同,聚类的结果不仅不能达到分析人员分析数据的目的,其结果的正确性也值得商榷。因此需要引入专家知识信息对式(8)进行改进。
燃料消耗量和总的开启时间是强相关的,单次开启时间和开启次数与系统干扰的大小相关,也与控制能力的强弱相关,多种因素不能建立直观的因果和线性关系。根据专业知识信息,考虑不同特征参数数据对差异性的体现,同时也要参考专业人员的聚类目的,将式(8)改进为
(9)
其中,wk为第k个特征参数的专家权因子,飞行数据的分析具有很强的专家知识特征,权重的分配可根据聚类的具体目标进行设置。
引入专家知识确立不同特征参数的权重,图2中给出了确立权重的基本要素。首先确定聚类分析的目标,故障类以飞行出现超差等因素作为首要目标,在设计正确的情况下,以最直接反映故障的特征参数作为特征矩阵的元素,比如角偏差、角速度以及燃料消耗量。环境类则主要以飞行中与干扰相关的特征参数进行聚类,比如工作次数、开启时间等作为首选的特征矩阵元素。当聚类目标不特别明确时,将所有特征参数作为矩阵元素时,则需要体现客观性。赋权法的种类很多,但一般需要满足特征参数选取过程中各指标之间相互独立的要求。
图2 基于专家知识的权重策略
在遵循独立、可信的基本原则下,选取角偏差、角速度、喷管开启次数、喷管工作时间(或燃料消耗量)4个特征参数,可以较全面地评价火箭滑行段的飞行品质。聚类过程中为减少人为因素,采用熵权法计算各特征参数的权重。
特征矩阵中各个特征属性参数的信息熵值
(10)
则第j项特征参数的权值为
(11)
熵权法相对于主观赋权法,优点在于可以排除人为的主观性对特征参数权重的影响,它根据特征参数的熵值中所包含的信息量不同,即指标变异性的大小来计算指标的权重[15]。在聚类目的不十分明确的情况下,对飞行数据进行基于熵权法的分析,观察不同飞行数据的分布是可行的。熵权法是基于算法的客观指标的衡量,而特征参数的选取依然起着决定性作用。
对运载火箭飞行数据进行聚类分析,将不同特征参数的组合按规则进行分类,分类结果的差异性并不能直接判定某次飞行的“好”或者“坏”,而更应该将分析人员的关注点,作为数据聚类的目的。
宋代统治者“防弊”之针对性相当具体,不幸缺乏应变机制,缺乏远见卓识。在这一政治体制长期运转过程中培养出来的习熟政务、舒卷有致的官僚受到器重,而真正以天下为己任、具有气魄的政治改革家往往受到疑忌,被认为触犯了祖宗法度。[3]523
运载火箭滑行段采用三态非线性控制,在控制能力不完全丧失的条件下,姿控喷管的工作次数和总冲基本可以反应外干扰以及部分姿控喷管故障。因此选择用各通道正、负方向姿控喷管工作次数和总冲,作为特征参数进行聚类示例计算,为了验证聚类的效果,部分示例分析也纳入了角偏差统计数据。
表2为23次类似飞行数据中,姿控喷管工作次数和总冲的统计情况,以此为对象进行聚类仿真。
表2 某型运载火箭23次类似飞行数据
第1种情况,仅考虑俯仰、偏航和滚动通道正、负方向姿控喷管的工作次数。系统设计正确的情况下,俯仰、偏航和滚动各方向喷管工作次数的权重相当,计算得到的层次聚类树状图结果如图3所示,此种特征参数的选择方式更大程度上反映了外界干扰的影响,其纵坐标反映了各次飞行数据聚类后的距离值,距离值无实际物理意义,仅表示不同簇之间的相似程度。序号6所对应的飞行任务姿控喷管推力线大幅度偏斜导致了结构干扰异常,序号5和7对应的飞行任务的结构干扰异常被证明是存在的,层次聚类结果与飞行数据分析结果一致。
图3 条件1下的层次聚类结果
第2种情况,考虑姿控喷管工作次数的同时,将燃料消耗量作为一项特征参数进行聚类。系统设计正确的情况下,姿控喷管工作次数权重与燃料消耗权重相当,计算得到的层次聚类树状图结果如图4所示,此种属性参数的选择方式在反映外界干扰的同时,也对飞行工况大幅偏离标称模型的情况进行了聚类。序号6对应的飞行任务姿控喷管出现推力线大幅度偏斜,序号3对应的飞行任务滚动通道失去了控制能力,层次聚类结果与飞行数据分析结果一致。
图4 条件2下的层次聚类结果
第3种情况,考虑姿控喷管工作次数、燃料消耗量和姿态角偏差最大值作为特征参数进行的聚类计算得到结果如图5。相比图3和4,图5中所示层次聚类树状图中的根节点序号3数值显著高于其他序号代表的数值,该飞行任务姿态角偏差和总冲均超差,与序号6以及其他代表不同飞行任务的关系,是符合实际情况的。
图5 条件3下的层次聚类结果
第4种情况,考虑姿控喷管工作次数、燃料消耗量,采用熵权法计算各特征参数的权重后再进行聚类,结果如图6所示。第5种情况,考虑姿控喷管工作次数、燃料消耗量以及姿态角偏差,采用熵权法计算各特征参数的权重后进行聚类,结果如图7所示。可以看出熵权法的计算结果与第2、3和4种情况的计算结果几乎完全一致。可见,熵权法在一定程度上做到了对于特征参数的“公平对待”,另外,基于熵权法的聚类方法在特征参数的数目发生变化时,因为特征参数数目增加,整体权重系数发生了变化,其结果也会有所差异。
图6 条件4下的层次聚类结果
图7 条件5下的层次聚类结果
仿真验证的结果表明,通过分配不同权重的选取策略以及相似度计算方法,对聚类结果都会产生影响。在专家知识的基础上,进行聚类分析的仿真结果说明,选择合适的特征参数,可以实现对多子样飞行数据的有效聚类。
结合运载火箭滑行段绕心动力学方程,提出了多子样飞行数据聚类分析时特征参数的选取策略,给出了飞行数据聚类分析的基本步骤。在结合专家知识的基础上,利用多子样飞行数据进行了聚类示例计算,验证了方法的可行性。聚类分析多子样飞行数据时,亦可结合飞行时序、交叉专业数据以及多元属性参数进行,为飞行试验数据的深入挖掘提供一种新的选择。