刘东涛
基于改进决策树的导航系统故障诊断的研究
刘东涛
(海装沈阳局驻大连地区第一军事代表室,大连 116000)
提出了一种基于改进决策树的导航系统故障诊断方法。该方法首先将导航数据的初始属性按照信息增益率进行排序,然后利用神经网络对初始属性进行裁剪处理,最后用裁剪后的属性建立最小决策树,并建立分类规则。与传统的决策树分类算法相比,此方法通过利用信息增益筛选属性,直接生成最小规模决策树,避免了决策树的剪枝处理过程。实验表明,此方法与传统决策树算法相比,时间开销更小,诊断精度也有所提高。
导航系统;故障诊断;决策树;神经网络;信息增益率
随着组合导航技术的发展前进,导航系统日趋规模化和复杂化,系统传感器组成越来越繁多,功能也越来越先进。因此,导航系统故障诊断在组合导航中的研究也显得越来越重要。在实际工程应用中,系统故障几乎不可避免,因此研究导航系统的故障监测和诊断技术对于提高系统本身的精度和可靠性都具有十分重要的意义。导航系统是由多个子系统和传感器构成。子系统或者传感器的故障会传导到导航系统,进而影响导航系统的精度和稳定性。利用大量的历史导航数据训练故障诊断模型,快速检测出故障,并识别故障类型已成为导航系统故障诊断的重要研究方向。
对导航系统中每个传感器而言,其状态可以简单分为两个状态,即故障状态和正常状态。因此,导航系统故障诊断也可以视为多个二分类问题。通过故障诊断隔离技术,判断并剔除故障子系统传感器,重构导航系统,从而可以达到提高整个系统精度和稳定性的目的。
传统方法是在组合导航数据融合过程中设置系统状态观测器,通过实时在线检测系统的状态误差来判别系统是否发生了故障[1]。实际工程应用中,组合导航在数据融合过程中存在多种不确定性非线性误差,如有色噪声、截断误差等,而建立状态观测器要求系统已知其精确的数学模型,这在工程实际中很难实现。
决策树算法作为一类常见的机器学习算法[2],易于实现和理解,对数据的预处理要求也较为简单。能处理多种数据类型,在二分类问题中有良好的表现。除此之外,它对输入缺失值不敏感,适用于处理因传感器故障而造成的导航系统数据缺失问题[3]。而且决策树算法时间复杂度较小,与其他算法相比,更能满足导航系统对实时性的要求。但是决策树算法也存在容易过拟合、类别过多时决策错误可能增加以及数据关联性太强的问题。本文针对决策树算法的缺陷,引入径向基(Radial Basis Function,RBF)神经网络算法,利用神经网络无需先验知识即可进行“黑箱”分类的特点,对决策树的属性进行裁剪,从而挑选出分类效果最好的属性来建立决策树故障诊断模型。实验仿真结果显示,该方法结合这两种学习机制的优势,提高了系统故障诊断的准确性和实时性。
决策树算法是一种在分类问题中常见的算法,属于有监督学习。表示的是一种关于属性—键值的映射关系。其核心思想是自顶向下的贪心算法[4],在每个节点选择分类效果最好的属性,循环这一过程直到该决策树能够准确地分类划分出每个测试样本。为解决过拟合等问题[5],实际应用中需要对决策树进行剪枝处理等优化处理,降低决策树规模,提高其预测精度。因此,决策树算法的核心问题主要包括两个方面:一是选取合适的分类属性进行划分;二是进行有效的剪枝处理。
训练样本数据常存在干扰、噪声、错误信息等,在决策树训练中难免会包含这些错误信息,这样容易将训练样本的自身的一些特点当作所有数据都具有的一般性质作为决策树的划分选择,从而导致决策树规模过大,这就是所谓的过拟合问题。针对这种情况,我们引入剪枝处理技术,主动去掉一些分支来降低过拟合的风险。
决策树的剪枝基本策略包括“预剪枝”和“后剪枝”[11]。预剪枝是在建立决策树过程中,对每个节点在划分前进行预估,如果此节点的划分不能提升决策树的泛化能力,则停止划分,并将此节点标记为叶结点;后剪枝是先利用训练集生成出一棵完整的决策树,然后自顶向下依据预先设定的标准对非叶结点进行考察,如果将该节点对应的子树替换为叶结点后,决策树的泛化能力得到提升,且修剪后的决策树对于验证集的分类性能与原树相比未下降的话,则将该子树设置为叶结点。循环此步骤,直到修剪结点造成决策树分类性能下降时,停止修剪。与预剪枝相比,后剪枝保留的分支更多,搜索视野也更好,因此预测精度更高。但是后剪枝策略是在完全生成决策树后进行的,且是对所有非叶结点进行逐一考察,大大增加了计算开销和训练时间开销。
导航系统传感器类型繁杂,导航数据类型多,且一定时间内的历史导航数据对故障诊断也有重要的参考意义,因此建立基于决策树的导航系统故障诊断模型之前,需要选取有效的导航数据特征作为决策树的属性划分依据。本文在建立故障诊断决策树之前对各导航传感器数据进行重要性排序,再利用RBF网络对选中的最重要的几类导航数据进行训练,考察其预测精度,之后按导航数据的重要性次序分别向两端加减一个邻近的数据属性,再进行网络模型训练及检验,并和原检验结果比较。如此反复直到找到分类效果最佳的个导航数据类型为止。
此方法与传统的神经网络属性选择方法相比,不需要对全部属性进行训练,再逐个试裁减,只需在数据属性重要性排序基础上,仅对部分数据(通常为原属性数的一半或更少)属性训练即可,这样就大大减小了模型训练的计算量。
数据属性方法很多,常用的数据属性排序方法包括信息熵法(Entropy Information Method,EI)、基尼索引法(Gini Index Method,GI)、灵敏度分析法(Sensitivity Analyzing Method,SA)、输入输出关联法(Input Output Correlation Method,IOC)等。EI算法需要计算密度函数,不适用于连续数值问题;GI算法计算开销偏大;IOC通过计算输入输出属性之间的关联性选择最优属性,能够较好地处理连续值和离散值。本文选择IOC算法,通过计算因输入样本属性的变化造成的输出结果变化的累加值来评判输入属性的重要程度。对于某个属性来说,如果由于样本值变化越大,输出结果变化越大,则说明该属性越重要;否则,说明该属性对于数据分类意义越小。输入输出关联性计算如式(6)所示:
为验证所提算法分类效果的有效性,采用某型船三月份的航行数据作为实验数据进行仿真实验,实验效果与“举手表决”等故障诊断方法效果作比较。随机抽取600组导航数据作为样本,其中75%的导航数据作为训练集,25%导航数据作为检测集,以卫导故障诊断为例,对模型进行训练和测试,具体步骤如下:
1)以卫导1、卫导2、惯导1、惯导2四个传感器的位置参数和速度参数、计程仪的速度参数这9类参数前一时刻数值与被测传感器当前时刻参数的差值作为初始条件属性,每个传感器共有两个决策属性(正常或者故障)。利用IOC算法对这9个属性进行重要性排序。通过计算9个属性的()值分别为52 103、50 105、51 521、49 556、50 156、47 855、50 156、47 855和46 045。
2)对9个条件属性重要性进行排序后,利用RBF神经网络对属性进行筛选。分别选取卫导1、卫导2、惯导1、惯导2的位置、惯导1、惯导2的速度、计程仪速度;卫导1、卫导2的位置,计程仪的速度;惯导1、惯导2、天导的位置,惯导1和惯导2、计程仪的速度;卫导1、卫导2的位置和速度等四组属性用RBF网络进行训练,四组属性的分类错误率分别为8.35%、23.33%、18.58%、33.46%。因此对于卫导位置故障诊断来说,卫导1、卫导2、惯导1、惯导2的位置,惯导1、惯导2的速度,计程仪速度,这7个属性是卫导故障诊断最佳的属性组合。
4)将选定的600组数据的75%,即450组数据作为训练数据,剩余数据作为测试数据,对改进的决策树故障诊断模型进行仿真测试。为验证算法有效性,将“举手表决”算法、传统决策树算法测试结果与本文所提算法比较,测试结果如表1所示。
表1 三种算法仿真结果比较
通过测试结果可以看出,“举手表决”法虽然时间开销小,但是测试精度较低,该算法在处理属性信息缺失情况时表现尤为不足,准确率不足70%。传统决策树算法与“举手表决”法相比,预测精度有所提高,但是在处理存在干扰噪声和冗余属性测试样本时,效率和准确度有待提高。为提高决策树的抗干扰能力,常用的优化算法包括剪枝技术或者动态调整模型的分类标准等,但是都没有从根本上解决干扰噪声和冗余属性的问题。本文所提的算法能够快速、有效地挑选出对决策树分类预测最优的属性,并建立最小规模决策树,进而在保证精度的情况下,减小模型时间开销。虽然该算法前期增加了属性筛选的计算量,但是后期建立的决策树规模最小。这避免了决策树在训练过程中因剪枝处理技术带来的计算量的增加以及剪枝标准选取不当导致的分类错误。
本文针对导航系统故障诊断问题,提出了一种基于RBF神经网络筛导航数据最优属性,从而搭建最小规模故障诊断决策树的方法。此方法结合了神经网络和决策树的优点,从实验结果来看,降低了决策树训练的时间开销,并在一定程度上提升了决策树的预测精度。与传统决策树相比,避免了对每个结点的熵计算和庞大的决策树裁减过程,因此该方法在处理大样本、高维属性的分类问题上,具有在保持精度情况下,快速生成最小决策树的优势,更适用于实际应用。
[1] 殷德全,熊智,杨菁华,等. SINS/BD紧组合导航系统故障检测算法研究与实现[J]. 导航与控制,2018,17(4):30-35+46.
[2] 刘小虎,李生. 决策树的优化算法[J]. 软件学报,1998(10):78-81.
[3] HAN S,WANG J. Integrated GPS /INS Navigation System with Dual-rate Kalman Filter[J]. GPS Solutions,2012,16(3):389-404.
[4] 刘小明,李辉,蒋吉兵. 基于故障树和神经网络的火箭故障诊断方法[J]. 计算机仿真,2010,27(7):46-50+85.
[5] 谭俊璐,武建华. 基于决策树规则的分类算法研究[J].计算机工程与设计,2010,31(5):103-105.
[6] BUNITE W,NIBLETT T. A further comparion of slitting rules for decision tree induction[J]. Machine Learning,1992,8(1):75-85.
[7] 连远锋,李国和,吴发林,等. 基于遗传PNN 网络的组合导航故障诊断研究[J]. 仪器仪表学报,2012,33(1):120-126.
[8] 赵建民,黄珊,王梅,等. 改进的C4.5算法的研究与应用[J]. 计算机与数字工程,2019,47(2):261-265.
[9] 安葳鹏,尚家泽. 决策树C4.5算法的改进与分析[J]. 计算机工程与应用,2019,55(12):169-173.
[10] 臧荣春,崔平远. 基于神经网络的假设检验故障诊断算法研究[J]. 系统仿真学报,2007,19(16):3852-3855.
[11] 周志华. 机器学习[M]. 北京:清华大学出版社,2016:73-95.
Research of Fault Diagnosis of Navigation System Based on Improved Decision Tree
LIU Dongtao
A new navigation system troubleshooting method based on improved decision tree algorithm is proposed. Firstly, the original attributes of navigation data are sorted by information gain rate (IGR). Then the sorted attributes are clipped with neural network. Finally, the minimum decision tree is built with the clipped attributed, as well as the classification rules. Compared with the traditional decision tree algorithm, this improve decision tree picks attributes with IGR, and build the minimum decision tree directly, which can avoid the node clipping deal. The experiments indicated that this algorithm need shorter extraction time, and get higher precision.
Navigation System; Troubleshooting Method; Decision Tree; ANN; Information Gain Rate
TN967
A
1674-7976-(2022)-05-334-05
2022-06-15。刘东涛(1971.02—),辽宁丹东人,高级工程师,主要研究方向为作战系统。