基于专家先验信息的轨道不平顺预测研究

2023-06-21 07:34刘文海李再帏何越磊
华东交通大学学报 2023年3期
关键词:历史数据后验平顺

刘文海,李再帏,何越磊

(上海工程技术大学城市轨道交通学院,上海 201620)

国内外学者对轨道不平顺的发展趋势进行了各类建模研究。如:学者使用多元统计方法构建了轨道不平顺与轨道结构等因素相关的预测模型[1-2];建立高低标准差随时间变化的线性轨道不平顺预测模型[3];使用灰色理论对轨道不平顺的指标结构进行预测[4];建立运量和高低不平顺的非线性预测模型[5]。以上研究均是通过建立轨道不平顺与运行时间、通过总重等变量之间确定的函数关系来预测轨道不平顺的发展趋势,未能考虑轨道不平顺发展过程中的固有不确定性。

学者使用伽马过程构建轨道不平顺的长期劣化模型[6];使用贝叶斯框架来更新轨道不平顺发展过程中的不确定性[7];使用层次贝叶斯模型作为轨道不平顺的预测模型[8];利用马尔可夫模型研究适用于不同轨道区段的资产管理策略[9];利用数理统计原理对轨道不平顺的概率分布进行分析及预测[10]。上述研究通过将轨道不平顺的劣化过程视为一个随机过程来考虑轨道不平顺发展过程中的固有不确定性,但未能将专家的经验信息纳入考虑。

学者使用SVM-MC 方法对轨道的高低不平顺建立了预测模型[11];使用BP 神经网络和其他各类机器学习算法相结合对轨道不平顺进行预测[12-15]。上述研究主要通过使用各种机器学习算法,利用轨道几何形位的检测数据训练模型来预测轨道不平顺的发展,这类模型通常需要大量的历史数据来训练模型,在缺乏历史数据时预测效果不佳。本文提出了一种能够将历史数据与专家经验信息综合考虑的贝叶斯方法来预测轨道不平顺的发展状况。

1 轨道不平顺预测模型

1.1 模型构建

短期内有砟轨道不平顺的发展趋势通常呈现出线性特征,适用于线性回归模型。考虑到贝叶斯线性回归模型可以将样本信息,先验信息全部纳入考虑。所以,本文选择贝叶斯线性回归模型作为预测模型。同时,为充分考虑不同轨道单元区段之间劣化的差异性,将某有砟高速铁路线路划分为若干个等长的200 m 轨道单元区段,并将各轨道单元区段之间的劣化过程看作是相互独立的过程[16-17],根据每个轨道单元区段独有的劣化规律建立贝叶斯线性回归模型。对于每一个轨道单元区段,模型如下

式中:is,rs,为未知参数,is为轨道单元区段s 的轨道初始质量,即轨道在捣固过后第一次轨道检测的TQI(7 项标准差的和)幅值;rs表示轨道单元区段s 的轨道劣化率,用来衡量两次捣固维修之间轨道单元区段的劣化速率;εs为随机误差项,即不包含在模型中的解释变量和其他一些随机因素对被解释变量的总影响项;ys=为轨道单元区段s 在不同检测时刻j 的已知历史轨检数据样本(j=1,2,…,n),即200 m 轨道单元区段7 项轨道几何不平顺幅值标准差之和,单位为mm;xs=(,…,)为轨道单元区段s 在不同检测时刻的捣固时间间隔,即距上次捣固维修的劣化时间,单位为月。

1.2 获取先验

本文针对某有砟高速铁路的基础设施和运行条件,编制了关于线路劣化特征的调查问卷,进行能够全面反映专家专业知识和判断的访谈。专家需要根据给定的线路状况使用变分度法来估计轨道在特定的捣固周期内捣固过后的初始质量值(is)、轨道劣化率(rs)和误差项(εs)的主观概率分布。由于不同的线路维修情况和不同的线路特征如:病害情况、轨下基础、所处线型、线路坡度、线路所处地质条件等,会对轨道捣固后的初始质量和劣化率有不同程度的影响,这直接影响专家对轨道初始质量和劣化率的判断。为了明确线路状况,需要对所研究线路的每个轨道单元区段的维修状况,线路特征进行实地调查和访问。访谈前,专家已被告知以下问题:①研究目的;②每种情况下的铁路数据是如何测量的,记录数据使用的车辆和测量系统是哪一种;③轨道检测频率;④如何以及出于什么原因使用从他们的答案中获得的数据。

1.3 模型求解

根据前文所述,该贝叶斯模型的未知参数为is,rs,,模型求解就是要根据给定的历史检测数据ys=()和xs=()来求解未知参数并根据给定的捣固时间间隔X*来预测轨道单元区段的TQI 幅值Y*。求解贝叶斯模型的常用方法有:使用共轭先验的解析解和使用MCMC 方法的数值模拟解。因为解析解获得的结果为单一确定值,无法体现轨道劣化过程中的固有不确定性,而数值模拟解得到的是一个概率分布。故本文选择MCMC中的吉布斯(Gibbs)采样算法来求解模型参数,Gibbs采样算法需要得到各参数的条件分布。设模型各参数的先验分布为:is~N(μa,),rs~N(μb,),~IG(α,β)。其中:N 为正态分布;IG 为逆伽马分布。由贝叶斯公式,is的条件后验分布可表示如下

其中:P(ys|xs,is,rs,)为似然函数,也称之为证据函数,包含了样本信息;P(is)为模型参数的先验分布,表示在获取数据之前对模型参数的认识,包含了专家的经验信息,即后验分布综合了样本数据和专家的经验信息。由式(2)可得is的条件分布为

同理可得rs,的条件分布为

得到模型各参数的条件分布后即可用Gibbs 采样对模型参数进行估计,Gibbs 采样的步骤如下:

1)输入所有未知参数的条件概率分布,即式(3)~式(5);

2)设定状态转移燃烧步数n1,需要的样本个数n2;

7)重复4)~6)步n1+n2-1 次。

2 算例验证

2.1 预测样本准备

为准确预测某高速铁路线路有砟轨道不平顺的发展趋势,这里使用了某有砟高铁线路两次捣固维修操作间2020 年11 月至2021 年5 月78 km范围内的轨检车检测数据,并得到了相应的线路维修操作记录。由于线路的各种维修操作会对轨道不平顺的预测结果有较大影响[18]。因此,通过查阅相关维修操作记录,确保所选的线路区段在检测时间范围内进行的维修作业量为最少。把经过预处理的轨检数据按200 m 一个区段计算7 项轨道几何不平顺幅值标准差之和,得到390 个200 m 轨道单元区段的TQI 值。为方便表述,依据里程顺序将各轨道单元区段依次编号为:1~390。需说明的是:所选有砟高铁线路的设计时速为250 km/h,测试车辆为高速综合检测列车,采样间隔为0.25 m,轨道检测频率为每月一次,所得样本数据如图1 所示。

图1 历史数据样本Fig.1 Historical data samples

2.2 模型验证

利用所收集的轨检数据中前6 个月的轨道检测数据作为训练数据来拟合模型,利用第7 个月的轨道检测数据做测试数据用来做预测分析,因为区段数过多,而每个轨道单元区段都有自己的先验和后验参数,限于篇幅不能全部展示,先选取4 个典型的轨道单元区段为例说明所提预测方法的流程及预测结果,随后展示全部390 个轨道单元区段的预测结果。

2.2.1 先验参数设置

根据上文所述,贝叶斯线性回归模型中使用的先验参数通过调查问卷获得,为消除单个专家的主观影响,问卷被发给126 名在铁路轨道养护维修方面拥有丰富经验的专家管理人员和工程师填写,并对问卷结果进行未加权平均用于推断先验参数的分布情况。值得注意的是,原则上调查的专家数量越多,最后数据越具有权威性和客观性,但实际操作过程中调查专家数量在50 人以上时就可以有较好的预测效果,若少数专家就能准确预测趋势,那么即使调查人数较少最后也能准确预测,考虑到专家有时可能会有估计错误,故多调查一些专家也能减少少数错误估计对结果的影响。根据调查问卷及访谈的结果,先验参数的设置如表1 所示,其中CI95 为95%的置信区间。

表1 先验参数汇总Tab.1 Prior summary of model parameters

2.2.2 模型求解

按照上文所述采样步骤,先任意取模型未知参数的初始值,并使用Gibbs 算法进行采样近似计算模型未知参数的后验分布,这一过程会针对采样的目标分布构造一条马尔科夫链,然后从任意初始状态出发沿着马尔科夫链进行状态转移,经过一定步数的转移过程后,模型参数会逐渐趋近于某一固定值,并在之后的采样过程中围绕此固定值上下浮动,此时说明采样结果收敛。故在采样收敛前采样出的一部分样本不是平稳分布的马尔可夫链所产生的,这一部分采样值一般会舍弃不用,在Gibbs 采样算法中可以通过设置燃烧步数来设定舍弃的样本数量,如果设置燃烧步数过大会导致采样计算时间增加,燃烧步数过小会导致使用的样本不是来自平稳分布的样本,经过大量试算,本文设置的燃烧步数为20 000,生成所需样本数为20 000,并以生成正式样本的均值和方差作为参数后验分布的均值和方差。最后计算出模型参数的后验分布图如图2~图5 所示。

图2 轨道单元区段273 模型各参考数的先验后验对比Fig.2 Comparison of prior and posterior distribution for model parameters in section No.273

图3 轨道单元区段275 模型各参考数的先验后验对比Fig.3 Comparison of prior and posterior distribution for model parameters in section No.275

图4 轨道单元区段279 模型各参考数的先验后验对比Fig.4 Comparison of prior and posterior distribution for model parameters in section No.279

图5 轨道单元区段280 模型各参数的先验后验分布对比Fig.5 Comparison of prior and posterior distributions for model parameters in Section No.280

图2~图5 黑色实线为模型参数的后验分布曲线,红色虚线代表模型参数的先验分布曲线,横坐标为参数的可能取值,纵坐标为频数。在贝叶斯线性回归模型中,模型里的参数被视为随机变量而不是确定的值。这些分布图显示了模型参数的完整特征,包括:对称性、中心趋势、离散度和特定值的概率。值得注意的是,该方法是可更新的,在给定新的历史样本数据集时,可能会得出具有不同结果的新模型,从图中先验分布和后验分布的对比也可以看出,该模型会根据给定的历史数据对专家的先验判断进行修正而得到综合了样本数据和先验信息的后验分布,这种方式也比较符合人类对于世界的认知过程,即通过不断获取新的样本来更新对固有知识的认知。

得到模型参数的后验分布后便可对轨道单元区段轨道不平顺的劣化过程进行线性拟合。图6 所示为4 个不同的轨道单元区段的模型拟合结果。

图6 模型拟合结果Fig.6 Model fitting results

2.2.3 模型预测

确定了模型的后验分布参数后可根据式(6)来预测第7 个月TQI 幅值,上述4 个轨道单元区段的TQI 幅值预测结果如图7 所示,图中预测值取概率分布的均值作为预测值。从图7 可以看出预测结果与实际值较为接近,满足精度要求,且不同于传统预测方法所得到的具体预测值,该方法得到的结果是一个概率分布,从概率分布中可以体现出轨道不平顺发展的固有不确定性,预测结果的概率分布覆盖范围越宽说明该结果的不确定越大,反之不确定越小预测越准确,可信度越高。为充分说明本文所提方法的有效性。图8 为390个轨道单元区段的预测结果,表2 为预测结果误差分析。

表2 预测结果误差Tab.2 Error of prediction results

图8 390 个轨道单元区段的TQI 幅值预测结果Fig.8 TQI amplitude prediction results of 390 unit sections

2.3 不同模型预测对比分析

选择区段编号为280、286 的2 个典型轨道单元区段为例,仅使用前3 个月的历史数据分别用贝叶斯线性回归模型和传统线性回归模型对后几个月的轨道不平顺发展趋势进行预测分析,其中传统线性回归模型的使用方法与文献[16]的方法相同,预测结果如图9 所示。

图9 不同方法的预测结果对比Fig.9 Comparison of prediction results for different methods

由图9 可知,在仅使用3 个月的历史数据进行预测时,因为传统的线性回归方法仅能通过历史数据对模型进行拟合,而仅凭3 个月的历史数据并不总是能真实反映轨道不平顺的发展趋势,在小数据量情况下的拟合结果偏离了轨道单元区段本身的轨道不平顺发展趋势。相比之下,贝叶斯方法可以将专家对该轨道单元区段劣化规律的先验知识与样本数据进行综合考虑,故预测出的轨道单元区段的轨道不平顺发展趋势与实际数据更加吻合。故在缺乏历史数据时,使用贝叶斯方法可以避免被信息不充分的少量历史数据样本给误导,从而提高在缺乏历史数据时对轨道不平顺发展趋势的预测精度。

为进一步说明在缺乏历史数据的情况下贝叶斯线性回归模型较传统线性回归模型有更高的预测精度,仍然使用上述两种方法分别对所选390 个轨道单元区段的前3 个月的历史数据进行模型拟合并预测此390 个轨道单元区段第4 个月的TQI幅值。模型预测结果误差分析如表3 所示,模型预测结果如图10 所示。

表3 缺乏历史数据时预测结果精度分析Tab.3 Accuracy analysis of prediction results in the absence of historical data

图10 缺乏历史数据时不同方法的预测结果Fig.10 Prediction results of different methods in the absence of historical data

2.4 不同先验对后验的影响

为探明先验对后验有何影响,本节选择了对预测结果影响较大的轨道初始质量和劣化率参数进行分析。以区段编号为273 的轨道单元区段为例,在只有3 个月历史数据和6 个月历史数据的情况下分别设置了3 组不同的先验参数。

先验方案1 为能够准确预测不平顺发展趋势的参数设置,先验方案2 将轨道初始质量参数的均值进行了偏大设置,先验方案3 将劣化率参数的均值进行了偏小设置。先验参数设置和后验参数计算结果如表4 所示。

表4 设置不同先验时的后验计算结果Tab.4 Posteriori calculation results of different prior parameters

由表4 中后验计算结果可知,在只使用3 个月历史数据时,后验的计算结果极为接近先验,即在缺乏历史数据时,先验信息起主要作用。在历史数据的使用量增加到6 个月时先验对后验的影响减小。即新增的历史数据对偏大或偏小的先验信息进行了纠正,即若专家对某参数估计结果偏大,则历史数据会对后验修正,使后验结果稍小于先验,结果最终显示为先验信息和历史数据的综合结果。这说明,在缺乏历史数据时先验信息对结果的影响较大,错误的先验信息可能会导致错误的预测结果。

3 结论

1)贝叶斯线性回归模型可以准确预测有砟轨道不平顺的发展趋势。

2)贝叶斯线性回归模型可以将专家对于各种轨道条件状态下劣化的经验信息融入到模型中去。在历史数据较少时,结合专家的经验信息,模型的预测精度比传统线性回归模型更高。

3)由于该模型本质上是线性回归模型,对于线路的劣化符合线性发展规律的区段预测效果较好,对于频繁维修的线路,TQI 幅值变化无规律的区段预测效果不理想。

猜你喜欢
历史数据后验平顺
基于设备PF性能曲线和设备历史数据实现CBM的一个应用模型探讨
基于故障历史数据和BP神经网络的接地选线方案研究
基于Simulink的汽车行驶平顺性研究
基于对偶理论的椭圆变分不等式的后验误差分析(英)
平顺植保站:开展粟灰螟防治
贝叶斯统计中单参数后验分布的精确计算方法
基于Hadoop技术实现银行历史数据线上化研究
用好细节材料 提高课堂实效
一种基于最大后验框架的聚类分析多基线干涉SAR高度重建算法
基于贝叶斯后验模型的局部社团发现