陈炜,王鹏
(1 中国移动通信集团上海有限公司,上海 200233;2 中国石油天然气管道局第六工程公司,天津 300272)
随着电信网络技术更新步伐的加快,公众和企业对高价值通信服务需求愈加强烈。高价值的服务源于高品质的网络,而高品质的网络来自于对整个网络生命周期进行有效管理。设备在生命周期不同阶段,表现出不同的质量品质和不同的成本消耗。
通信设备生命周期管理就是从设备的生产、使用和消亡的生命全过程进行管理。采用工作流的技术,将设备生命周期内各环节产生的数据流串起来,形成设备从申请采购到报废整个过程的闭环管理。也是对网络的质量和成本的综合管理。
20世纪后20年,发达国家设备综合管理学科随着工业技术的高速发展,在理论和实践方面都得到了日趋丰富和完善。其中以英国为代表的《设备综合工程学》,美国为代表的《预防性维修》,日本为代表的《全员生产维修》,已经成为当今发达国家最为先进的设备维修及管理的体系。
设备综合工程学就是以寿命周期费用作为评价设备管理的重要指标,追求设备生命周期最经济。以“无维修设计”为可靠性可维护性的理想极限。英国推行设备综合工程学的显著成效是英国的设备维修费用和设备故障大为降低。美国目前大部分的企业推行的是预防性维修体系,它的精髓在于降低设备寿命周期成本,提高设备综合利用率,以设备的“0”事故,“0”故障,“0”质量缺陷,“0”浪费为目标各级员工参与和持续的改进。
预防性维修的基本形式:定期维修,强调有计划的维护,以时间为基础,维修周期相对固定的维修(类似于维护作业计划);预见维修,以设备状态为依据,维修周期相对变动的维修方式(类似于网络巡检)。
由于预防性维修需要强大的系统和统一的平台来实现信息共享,相继出现了多款软件,基本模块包括设备管理模块,工单管理模块,资源管理模块,作业管理模块等,大部分思想都移植到了通信领域。
对一台设备来说,前三个阶段包括设计,制造,安装成本是它的一次性成本。一旦完成就固定下来,而运行维护费用将伴随着设备的运行反复发生可能是10年甚至是20年。前三个阶段实际上已经决定了设备的可靠性高低,如果未做合理的投入,最后的运行维护费用将会居高不下。
通信网络的情况同样如此,考虑到物理网络的使用期限,如果片面的压低采购成本,采用了质量不稳定的产品,则可能会大大增加运营商的运维成本。
通信设备经过多年升级换代逐渐走向统一模式。基本上采用机框加插板的硬件架构,有利于设备按需配置,以及升级和维护。对成本和故障范围控制都有较大优势。由于机框基本上采用的是无源设计模式,生命周期相对较长,决定设备生命周期长短的主要因素将由插板的生命周期来决定。
影响通信设备生命周期的主要因素包括设备采购质量,安装质量,设计合理性,运行环境,维护手段等多种因素。
如前所述,采购阶段的设备质量对设备稳定运行起着关键作用,元器件质量和使用寿命,生产工艺,生产质量控制,运输存放条件等等都会对设备生命周期产生决定性影响。
工程质量也是决定网络及设备的生命周期长短主要因素之一。
网络设计同样会影响设备生命周期。设备安装位置,机架排列,发热量高的板件是否分开放置,网络负荷是否平衡。这些都会成为影响设备生命周期的因素。
网络的运行使用环境,温湿度控制,颗粒物浓度控制,电压,接地条件,电磁辐射条件,腐蚀性其他浓度等等也都会对设备生命周期形成较大影响。
设备生命周期与故障率存在一定的有规律的联系。分为硬件和软件,有不同的表现形式。
早期故障期:新产品往往存在各种设计和制造缺陷,故障率通常较高。随着产品成熟,故障率逐步下降,直至稳定阶段。
偶发故障期:硬件故障率基本处于稳定状态。在此期间,故障发生是随机的,故障率低且稳定,是设备的正常工作期或最佳状态期。在此间发生的故障多因网络设计及设备安装调试质量不佳造成。
损耗故障期:在硬件使用后期,由于硬件元器件老化、磨损等原因,故障率不断上升。通过及时更换板卡,可以有效降低故障率。
硬件故障率在三个不同阶段表现形式详见图1所示。
分析该曲线的意义在于:便于对处于硬件板卡全生命周期不同阶段的板卡采用针对性的维护手段,如对处于损耗故障期的在役板卡实行针对性的健康度测试计划,并提前准备充足的备板。
图1 硬件故障率曲线图
对于损坏比环比增长迅速的板卡型号,在排除外部环境和使用不当原因外,应重点分析损坏板卡的平均MTTF和超期服役的板卡比例。
软件在运行和使用期间,虽然不存在硬件那样的老化和磨损问题,但存在退化问题,因此厂商在售后提供持续的软件维护工作对保障通信设备的运行质量非常重要。
早期故障期:早期故障率的高低取决于软件设计水平、检查项目数、软件规模、软件调试彻底与否等因素。
在软件的生命初期,隐藏的软件Bug会使程序具有较高的故障率,当这些Bug改正后曲线逐渐开始下降并趋于稳定。
退化故障期:由于这些软件Bug的多次修复,以及修复过程中可能引入新的Bug,所以故障率曲线呈现图中所示的锯齿状,同时曲线的底部不断抬高,从而产生了软件的退化现象。
软件故障率不同阶段表现形式详见图2所示。
图2 软件故障率曲线图
分析该曲线的意义在于:
(1)对处于软件全生命周期不同阶段的软件采用针对性的维护手段,如对于软件Bug数量环比增长迅速的设备型号,可结合MTBF环比分析,重点分析Bug数量发散的原因;
(2)对处于软件质量退化中后期的设备型号,需及时向厂商反映,提前做好软件版本升级的准备。
以传输设备为例,其质量评估体系根据故障率及软件版本升级次数以及故障修复时长等多项因素加权得出。
从表1可知相关的定义如下:
(1)一级指标产品质量缩写为P,等级级别为Ap、Bp、Cp、Dp、Ep,定性值为R(p)。(2)二级指标缩写为N(i),其中i为二级指标的序号。(3)二级指标的权重缩写为W(i),其中i为二级指标的序号。
(4)二级指标的危险值缩写为D(i), 其中i为二级指标的序号。
(5)二级指标的目标值缩写为O(i), 其中i为二级指标的序号。
(6)二级指标的定性值缩写为R(i), 其中i为二级指标的序号。定性值取值为-1,0或+1。
首先设定权重W,危险值D,目标值O;
一级指标P的等级级别(Ap、Bp、Cp、Dp、Ep)在0至2W(p)内选择;
通过数据采集得到统计值M(i);
表1 指标量化卡
确定不同厂家入网设备的占比,用X(i)表示,i为厂商编号。
R(i)计算方法
* 若M(i)≥D(i),则R(i)=-1
* 若O(i)< M(i)< D(i),则R(i)=0
* 若M(i)≤O(i),则R(i)=+1 R(P)计算方法
* 若P>A(p),则R(p)=100
* 若B(p)
* 若C(p)
* 若D(p)< P≤C(p),则R(p)=40
* 若E(p)< P≤D(p),则R(p)=20
* 若P≤E(p),则R(p)=0
通过十多年发展,中国移动部署的传输设备从单一SDH设备发展到目前PTN,OTN等多种高速率IP化设备。SDH技术相对稳定,质量稳定,但早期部署的网络逐渐开始走向生命周期后半程,随着厂商服务年限缩短,设备及备件采购都逐渐困难。PTN等IP化产品作为中国移动首选的SDH替代技术,目前还处在生命周期的前半程,同样面临故障率高,产品升级换代快,版本多等问题。如何从全生命周期管理的角度做好两种技术的平滑演进和过度成为摆在中国移动面前一个重要课题。
根据全生命周期管理的理念,对SDH这类技术和质量都相对稳定,且处在生命周期后半程的产品,需要更加关注它的故障率,通过新旧替换的方法,适当延长网络服务年限3~5年。对于PTN等新技术产品需要加大部署的力度,已经完成部署的网络应尽可能承载低等级业务,暴露问题,尽快度过早期故障期。对高等级业务可暂时保留在原网络上。通过3~5年技术成熟期,PTN等新技术逐渐稳定,SDH等老产品服务期也开始接近尾声,此时可以考虑将重要业务往PTN等新技术上迁移。实现两种技术的新老交替,平滑过渡,减少业务损伤。
本文对设备生命周期管理概念进行了定义,从多个维度对生命周期管理的应用进行了阐述,并从设备软硬件的全生命周期与网络质量的关系进行了深入分析,便于生产维护人员和厂商及时掌握设备软硬件所处的生命周期的不同阶段的特点,更有效地进行质量管理和控制。
[1] 刘盛轲. 基于全生命周期理论的设备管理信息化方案[J]. 科技创业月刊, 2010,(7).
[2] 陈坚,高飞. 电力设备生命周期管理[J]. 电力信息化, 2005,3(5).