李刚 杜冬 翟羽佳
摘要:飞行数据分析是进行飞行品质评估的基础,通过对Garmin-1000航电系统中数据的研究,发现飞行气压高度数据存在野值的情况,通过阅读相关处理野值的文献以及根据飞行训练中的飞行特点,文章建立合适阶数的多项式拟合方程对进行高度数据拟合,由于高度数据不符合莱特准则判断野值的标准,提出利用区间平均残差进行野值判断,通过样本拟合运算的结果发现,此方法可以很好的将野值点判断出来。
Abstract: Flight data analysis is the basis for flight quality evaluation. Through the study of the data in the Garmin-1000 avionics system, it is found that there are outliers in the flight pressure and altitude data. By reading the relevant documents dealing with outliers and according to flight training, the article establishes a polynomial fitting equation of suitable order to fit the altitude data. Since the altitude data does not meet the wright criterion for judging the outliers, it proposes to use the interval average residuals to judge the outliers. Through the sample fitting operation of the results, it is found that this method can well judge the outliers.
关键词:Garmin-1000;多项式回归;飞参数据;最小二乘法
Key words: Garmin-1000;polynomial regression;flight data;least square method
中图分类号:V355.1 文献标识码:A 文章编号:1006-4311(2020)27-0152-03
0 引言
近些年随着通用航空的发展,飞行训练数据也被广泛应用,例如飞行品质的评估,超限事件判断,分析发动机数据辅助机务维修等,这些都是基于飞行数据的分析,但是飞行数据在研究时需要对数据的可用性进行研究,比如数据中常出现漏采集和出现野值的情况。野值是指在对实际记录的飞参数据的检查中发现,经常有部分参数值存在明显的异常值,而通过检查相关设备又证明工作情况未出现异常,我们把这类数据称为野值[1]。对于野值识别的研究早先姚本军提出了关联参数法,但是这种方法总体上还是从宏观的角度进行分析[1],后来康健利用最小二乘和多项式结合的方法拟合飞机油量数据曲线剔除曲线中的野值[2]。李映颖采用了多项式、RBF神经网络与最小二乘相结合的方法拟合发动机转速数据,剔除野值并利用Matlab实现[3]。王玉伟改进了经典最小二乘法对预测值和真实值之间的距离进行限定,针对拟合数据起伏较大的情况[4],效果良好。他们研究的总体的思想都是利用残差和标准差之间的数量关系进行野值判断或是对小样本数据的野值进行判断,基于的原理是当数据符合正太分布时可以使用莱特准则对野值进行判断,莱特准则是指当数据服从正态分布时可以利用残差和标准差进行野值的判断,但是通过lillietest检验(p<0.5),高度数据不符合正太分布,基于这种情况本文提出利用等区间的方法拟合数据并且利用区间残差的平均值与单个点的残差值判断野值,通过运算对比,发现可以较好的将野值点识别出来。
1 最小二乘多项式回归拟合
在闭区间内任何确定性连续函数,都可以用区间内的代数多项式按要求精度一致逼近,进行非线性拟合[6],为了更好地拟合各个点一般采取同时结合最小二乘法的思想对系数进行求解。最小二乘法在工程中处理数据被广泛引用,目的是设定一个拟合数据方程使其所估算的数据和实测数据之间的差值平方和最小[7],寻求最优的方程参数解。以m次多项式为例,求解过程如下:
1)
以时间tk为自变量,则高度时刻数据就可以用如下公式表示:
(2)
将式(2)利用系数矩阵B和时间变量矩阵X表示,转化为公式(3)
(3)
令方差为S,目标方程:
将B看做变量取极值,则式(3)的最小二乘解就是:
这就是最小二乘法的原理,利用估计出B^的对数据进行预测,残差。
2 等区间计算法
Garmin-1000航电系统是cessna-172等小飞机常装备的一款航电系统,在飞行过程中该系统会把飞行数据、发动机数据、通信、导航频率等数据都会记录在其自带的Secure Digital Card中(下文简称SD卡数据),记录的时间间隔是1秒,通过对所记录的飞行数据可视化发现在飞行高度数据存在野值的情況,并且野值奇异特点比较明显,与正常值差距大。由于飞行训练过程中一次SD卡所记录的数据是3-4小时的数据,数据量大,如果进行一次拟合将会造成数据拟合精度差导致误差对野值进行识别的情况,所以文章利用等区间的计算方法对数据进行处理。
飞行高度数据分为起飞、爬升、平飞和降落等几个阶段,在起飞和爬升、降落等阶段高度曲线是近似直线的状态,在平飞中由于气压数据的不稳定性数据呈现出起伏连绵的曲线,基于总体飞行高度曲线的状态以及防止过拟合的出现,本文选用二次多项式对数据进行分段拟合,对于二次方程方程的求解直接利用matlab中的函数即可,但SD卡中的飞行数据记录的一般是一个上午或下午的飞行数据,这会造成数据量大、维数高,如果进行一次拟合显然得出的结果会非常差而且预测精度也会受影响,所以在计算过程中设定5秒为一个间隔,先取时刻[t1,t2…t5]和其对应的高度对此阶段的回归系數行估算,然后利用所得出的系数通过拟合方程估算对应时刻的值,在计算得出的值中取中间值作为拟合方程的第3个值,接着选取下一个区间[t2,t3…t6]估算第4个值,以此类推后会得到,最后的和直接利用和进行估算。
野值判断:
最小二乘法在一个区间内进行拟合时目的是使这一区间的残差最小,导致同一区间的残差存在关联性,不能直接在预测区间进行判别。文章提出利用整体数据的区间平均残差来进行判断,假设拟合的区间为N个,则N个区间的平均值即为公式(4)所示。工程中常使用3?啄-5?啄为参考值区间,根据SD卡数据野值的特点以及本文选择的拟合阶数,本文规定当tk时刻的残差?驻H属于[-5?啄,5?啄]时判断为正常值,这个区间之外的即判断为野值,并利用相邻时刻的高度数据的中值进行代替,如公式(5)所示。
3 实现过程与结果对比
利用matlab对SD卡中的数据进行提取并处理,SD卡数据主要以csv格式的方式对数据进行储存,数据类型有时间数据类型、字符串类型和数值类型并以逗号隔开,整体数据类型多样,可以利用fopen函数和textscan函数将整体数据以二进制的方式访问读取,并matlab内置函数对数据进行计算,实现过程以某csv文件为例如图1所示。
通过以上的计算流程对高度数值进行拟合,计算得出的每秒的残差如图2所示,由于受到野值的影响在野值时刻附近的残差变成了负值。计算得出的?啄值为0.0269,大于5?啄的两个点的残差分别为351.0342和59.0428下标签分别是14:32:03和15:25:38,这两个时刻的高度分别是2201英尺和6615英尺,通过比较确实是对应野值的两个点,同时利用公式(4)对野值进行代替,得到的结果如图3所示。
4 总结
文章分析了garmin-1000系统中的SD卡中的飞参数据格式和类型,利用matlab对csv格式的数据进行提取,由于数据量大维数高的特点,利用等区间处理数据的方法对数据进行拟合。为了降低野值对拟合区间的影响以及防止过拟合选用了2次多项式作为拟合函数,利用最小二乘的方法对预测函数的系数进行求解,从结果中可以看出利用区间平均残差对野值进行判断效果良好。
参考文献:
[1]李映颖,姚本军,郑卫东,殷合香.飞参数据的野值与故障值的判别研究[J].计量与测试技术,2009,36(09):3-4.
[2]康健.一种利用飞参数据优化计算燃油量的方法[J].技术与市场,2017,24(07):126-127.
[3]李映颖,谭光宇,曲建岭,殷合香,姚海燕.飞行参数野值点的预处理[J].计量与测试技术,2008(08):17-18.
[4]王玉伟,高永.基于稳健回归算法的无人机数据预处理技术研究[J].舰船电子工程,2018,38(11):38-41.
[5]陈韦名.曲线拟合原理及其应用研究[D].长沙理工大学,2018.
[6]邸亚洲,秦永元,尚希良,曲建岭.基于多项式回归算法的飞参记录数据预处理研究[J].测控技术,2008(04):21-22.
[7]张强.最小二乘法原理及其处理方法的探讨[J].计量与测试技术,2020,47(04):75-76.
基金项目:2019年大学生创新创业项目(项目编号S201910624109)。
作者简介:李刚(1994-),男,安徽马鞍山人,硕士研究生,主要研究方向为飞行数据分析。