李 波,张炳森,张 宁
(1.中铁第四勘察设计院集团有限公司,武汉 430063;2.北京城建设计发展集团股份有限公司,北京 100037;3.东南大学智能运输系统研究中心轨道交通研究所,南京 210018)
现如今大客流已成为轨道交通的常见现象,这造成轨道交通的高强度运行,增加设备的使用时间,使得设备单元发生失效或故障的频率增高。自动售检票系统(Automatic Fare Collection, AFC)是轨道交通中不可缺少的系统,该设备直接服务于乘客,其状态的好坏直接影响着城市轨道交通的服务水平。尽管单从1台设备、1个车站来看,设备的可靠性较高,故障率很低,但对于形成网络的城市轨道交通系统来说,小概率的故障事件在形成工程规模后其影响比较突出[1]。
目前AFC设备检修策略主要有故障维修和定期维修[2],故障维修可以使设备的有效寿命达到最大化,但维修不及时,设备可靠性低;定期维修关键在于如何确定合适的维修周期,周期过长将导致维修不足,过短将导致维修过剩。现有设备维修策略的优化措施主要在于管理模式、管理条例、人员技能[3],这种基于固定维修模式的维修策略已愈加难以满足当下线网运营管理的实际需求。对于目前维修策略的不足,基于状态的维修策略因其能够综合考虑安全和资源有效利用,受到国内许多地铁运营企业的关注。而设备无故障运行时间作为可靠性状态的一个关键指标,可以为基于状态的维修策略提供重要的决策依据。
因此,本论文提出一种基于生存分析的设备无故障运行时间预测方法,首先对AFC终端设备故障机理进行分析,再对设备无故障运行时间进行预测,得出设备的可靠性,并以自动检票机为例,为维修管理提供新的思路。
AFC终端设备包括自动售票机、自动检票机、半自动检票机等,其中自动检票机主要由主控单元、通道阻挡装置、乘客显示器、票卡回收装置等组成,由于其结构非常复杂,故障形式多样,对设备的故障分类、故障影响因素进行分析是进行无故障预测的必要前提。
故障率曲线反映设备发生故障的内在机理和规律[4]。经过统计分析发现,大多机械部件的故障率曲线类似浴盆形状的曲线,称为浴盆曲线,如图1所示,设备经历早期故障、偶发故障期和耗损故障期3个阶段。
图1 设备故障浴盆曲线Fig.1 Bathtub curve of equipment failure
除浴盆曲线外,一些电子类元器件及复杂设备在实际运用中,故障规律往往是以下一种或几种的组合[5],如图2所示。
从定性分析中可以看出,故障率与设备部件材质有很大关系,所以在进行自动检票机无故障运行时间预测之前,首先从故障属性上将设备故障分为机械类故障和电气类故障。
除AFC终端设备自身结构设计缺陷因素之外,导致设备故障的影响因素还涉及多个方面,如客流因素、乘客行为、使用环境、维保水平等,以下结合实际故障数据对设备无故障运行时间的影响因素进行分析。
图2 现代设备5种故障率曲线Fig.2 Five failure rate curves of modern equipment
1)人员特征影响因素分析
人员对设备安全的影响至关重要,影响设备安全的人员分为内部人员和外部人员。内部人员指维修人员,维修人员的技术水平和责任心直接影响到维修彻底程度,技术水平高、责任心强的维修人员,可以使设备的可靠性达到或接近初始水平,大大提高设备的无故障运行时间,反之则降低设备的使用寿命。外部人员主要是指乘客,乘客的正常使用会造成设备磨损,高强度客流及乘客的违规操作会加速设备故障。
2)环境特征影响因素分析
环境是设备故障的重要影响因素之一,既包含外部大环境,例如降雨、地震、大风等自然灾害,又包含内部小环境,即设备的位置、运行温度、湿度、灰尘等。不同季节时设备的故障次数如图3所示,可以看出设备故障与季节因素有较强的相关性。
3)设备自身状况特征影响因素分析
设备自身质量的好坏也是影响设备故障的一个重要因素,设备自身的不良设计、安全装置的缺陷以及非正常状态运行等都直接或间接降低设备的使用寿命。设备无故障运行时间与故障次数的关系如图4所示,可以看出随着故障次数的累积,设备无故障运行时间呈现降低的趋势。
图3 不同季节设备发生的故障数Fig.3 Number of equipment failures in different seasons
图4 设备无故障时间与故障次数的关系Fig.4 Relation between equipment fault-free time and failure times
综上分析,设备的故障受到客流、环境及自身状况等影响,在进行故障预测时,需将这些特征影响因素考虑在内,并进行量化,起到准确预测的效果。
生存分析是一种对持续时间进行分析的统计技术,也称为风险模型,不仅能够探索持续时间的分布模式,量化相关因素对持续时间的影响[6],还可以预测一个事件未来某个时间点终止的概率。此外,在模型的训练速度和准确性方面,生存分析也具有良好的性能[7],因此本文选择生存分析用来研究设备无故障运行时间。
生存分析通过建立风险函数来研究无故障运行时间的分布规律。风险函数可以表示设备在进行无故障运行时间t的情况下,设备将在下一个极短时间段[t,t+△t]内结束的概率。风险函数具体变换过程如下。
对于一个随机时间变量T,其累计分布函数可以表示为:
公式(1)中,F(t)表示持续时间T小于无故障运行时间t的概率,S(t)为生存函数,表示设备无故障运行时间超出t的概率,也称为生存率;f(t)为概率密度函数,表达式为:
概率密度函数给出设备在时间[t,t+Δt]内结束的瞬时概率。根据风险函数的定义,可以得到风险函数的表达式h(t)为:
生存分析函数的关系如图5所示,在F(t)、f(t)、S(t)和h(t) 4个函数中已知任何一个,则可以推导得出其他3个函数。
图5 生存分析模型函数Fig.5 Survival analysis model function
轨道交通设备故障具有非线性及非确定性的特点,无故障运行时间受到多种自然因素和人为因素的影响。在生存分析中,比例风险(Proportion Hazards, PH)模型和加速失效时间(Accelerated Failure Time, AFT)模型是常用的多因素分析方法,前者是半参数估计方法,后者是参数估计方法,参数模型比半参数模型更为精确,且对结果的解释更加简单直观[8]。所以选取AFT模型对设备无故障运行时间进行预测。
AFT模型将线性回归模型的建模方法引入到生存分析领域,协变量是通过与时间变量的乘积引起持续时间变化,其条件风险函数和生存函数的具体表达形式为:
公式(4)、(5)中,ψ=EXP(-β'X)表示一组协变量向量,β’表示与协变量对应的一组估计参数向量的转置,β’X=β0+β1x1+…βnxn,h0(·)、S0(·)分别表示在所有协变量为零(X=0)时的基准风险函数和基准生存函数。在生存分析中,预测值一般取累积生存率曲线上的中位值,即设备故障间隔时间位于预测值两侧的概率都是50%。根据中位值预测方法,设备在经历时间T条件下的无故障时间预测值可以表示为:
公式(6)中,tMedian│T表示无故障时间的条件预测值,是在时间T条件下累积生存率所对应的时间坐标值的一半。
参数模型具有多种具体的形式(如不同的概率分布函数、变量选择),需要对各种模型的拟合优度进行比较。选取赤池信息量准则(Akaike’s Information Criterion, AIC)作为评价准则[9],它基于熵的概念提出,可用来权衡模型拟合数据的优良性,是一种准确有效的评价方法,其表达式为:
公式(7)中,L是模型的最大自然函数值,n是模型中所有参数的数目,包括协变量系数和模型分布系数,赤池信息量准则表明,AIC的值越小,模型越优。
本文选取南京地铁2号线油坊桥车站的自动检票机为研究对象,油坊桥车站设立16台自动检票机,并选取2016年全年的自动检票机设备故障记录数据作为设备无故障运行时间预测的原始数据集。
首先对故障数据进行规格化处理,在记录的全年故障数据中,对同一种偶然故障在24 h内累计达3次记为一次关联性故障;对由于未真正修复而又再次出现的故障,和原来的故障合并,记为同一次故障;故障修复后累计工作不足24 h,再次发生同一故障时,只记录一次故障。经过数据处理,共得到730条故障数据,其中机械类故障388条,电子类故障342条。选取编号1至12号设备的故障数据作为训练无故障运行时间预测的原始数据集,13至16号设备的故障数据集对模型进行性能评价,并以机械类故障为例进行建模分析。
建模过程中需要的环境特征影响因素和设备状态特征影响因素,通过系统和人工记录获得。客流特征、设备状况特征及环境特征三方面与设备无故障运行时间相关的影响因素,为模型变量的选取和赋值提供有利的参考依据。通过量化这3类特征因素得到预测模型的潜在协变量如表1所示。
表1 潜在协变量及赋值说明Tab.1 Description of potential covariates and assignments
1)模型分布函数选择
对机械故障数据集分别使用Loglogistic、Weibull、Logistic、Lognormal、Normal 5 种 常用的生存分析分布函数依次进行回归分析,得到各自的AIC值如表2所示。根据AIC值越小越好的原则,选取Weibull为基准分布构建加速失效模型。
表2 各分布的AIC对比Tab.2 AIC comparison of each distribution
2)模型参数估计
采用逐步回归法对模型的输入变量进行选择。一般常用0.05作为显著性水平的临界值,但考虑到模型要能够反映更全面的信息,在本文中认为在不大于0.1时仍然是有效的。通过回归分析剔除干扰模型的变量,可以得到无故障运行时间预测模型的协变量选择及参数估计结果如表3所示。
表3 变量选择及参数估计表Tab.3 Variable selection and parameter estimation table
根据数理统计原理,Weibull分布的概率密度函数为:
公式(8)中,λ,p分别为Weibull分布的尺寸参数和形状参数,可以推导出Weibull分布的风险函数及生存函数表达式分别为:
根据表3模型参数的估计结果,就可以得到设备无故障运行时间的风险函数、生存函数以及在经历时间T的条件下设备无故障运行时间预测值的表达式为:
为了更直观的看出设备无故障运行时间的生存规律,在设备无故障运行时间预测模型中(训练数据集的平均值)时的生存函数和风险函数如图6所示,可以看出设备无故障运行时间的风险率是单调递增的,其增长速度由缓到快,生存率曲线与风险率曲线大致呈现一种对称的关系,随着时间的运行,设备的生存率下降,当运行一定时间段时,设备生存率低于一定程度,说明极有可能发生故障。
图6 基于Weibull-AFT模型的生存函数和风险函数Fig.6 Survival function and risk function based on Weibull-Aft model
根据公式(13),对于无故障运行时间预测模型,在T=0条件下,预测值t为设备无故障运行时间预测值,选取平均绝对百分比误差(MAPE)作为模型准确性的评价指标,表达式为:
公式(14)中,n为样本个数;Xi为实际观测值;为预测值。
为了进一步验证该模型的预测性能,基于同样的机械类故障数据,在故障影响因素标准化处理的基础上,建立多元线性回归模型,进而对设备无故障运行时间进行预测,在MAPE的评价指标下,对比两种模型的预测性能。
MAPE的值越小,表明预测模型具有更好的准确性。MAPE的各种取值范围与其所表示模型准确程度的对应关系如表4所示[10]。
表4 MAPE值对应的预测准确性程度Tab.4 Accuracy degree of prediction corresponding to MAPE value
基于生存分析和基于回归分析的设备无故障运行时间预测的MAPE值分别为7.42%、12.75%,表明基于生存分析的预测模型具有非常准确的预测性能。尽管基于回归分析的预测模型也具有良好的预测性能,但基于生存分析的预测模型预测性能明显更优,能够更有效的反映设备的故障规律,为维修策略提供更准确的参考。
自动检票机设备是一个涉及到多专业的复杂设备,现在的维修管理策略存在资源浪费等缺点,引入基于状态的策略是实现科学合理维修的良好手段。本文提出的基于风险的设备无故障运行时间预测方法,不仅实现了对设备使用寿命的准确预测,也体现出设备在生命周期过程中出现故障的可能性。采用南京地铁油坊桥车站设备故障数据对方法进行估计和验证,并与基于回归分析的方法进行比较,结果显示该模型具有非常准确的预测性能,表明该方法具有较好的实用价值。