谭毅
(湖南邮电职业技术学院,湖南长沙410015)
交换机故障分析与维护处理探讨
谭毅
(湖南邮电职业技术学院,湖南长沙410015)
为保障通信网络的畅通和交换机安全、稳定的运行,在交换机出现故障后应当迅速地作出分析处理,找出故障原因和故障点,对故障进行排除,但要能快速、准确的对故障进行分析定位,就必须了解交换机发生的故障类型以及较高的故障分析和维护处理水平。
交换故障类型;故障定位;维护处理
通信技术日新月异,通信业务飞速发展,电信市场竞争的越来越激烈,各运营商对网络运行质量的要求越来越高,如何加强对交换机的故障维护处理,保障交换机的安全运行,提高全网的运行质量,保证网络畅通无阻,已经成为各运营商、各电信公司关注的焦点,交换系统的运行维护与管理是交换网络工程技术人员的重要工作。
日常维护也称为例行维护。交换机维护的工作目的在于提供质量优良、性能可靠地交换设备,从而保证全程全网通信畅通。完善的维护功能是交换机系统高质量运行的保证。日常维护包括:预防性维护和纠正性维护两种方式。
预防性维护一般是定期执行,主要担负预防故障的任务,也就是按确定的时间周期对交换设备进行测试,发生故障及时加以解决。
纠正性维护主要是维护人员根据故障告警报告,以及打印输出的各种异常报告来发现故障,然后采取相应的措施加以纠正,使交换机恢复正常运行。
1) 系统文件后备带拷贝
交换机的系统文件包括系统程序、系统数据、局数据、用户数据和计费数据。在设备的正常维护中,局数据和用户数据要进行经常修改。为保证交换机系统发生瘫痪能及时进行人工装入,使系统尽快恢复运行,将对用户影响减少到最低,维护人员需定期进行系统文件的拷贝和复制。
2) 系统运行状态检查
系统运行状态检查的目的主要是为了及时了解设备的运行情况,是否产生告警,各种类型交换机均有自己的方法、命令来完成该项功能。
3) 例行测试管理
例行测试是对一个或多个设备进行故障检测和(或)故障定位,仅对有效空闲的设备进行测试,如果某一设备处于忙或未被激活等状态时,就不会被包含在测试中。当例行测试执行完成后,被测试的设备将直接返回至有效的服务状态,而不管测试的结果如何。
例行测试可以由操作员或系统本身安排在低话务量时运行或者立刻执行。
每个例行测试可以由若干个不同的测试手段所组成。运行例行测试时,可以使用所有的测试手段,也可以使用缺省的测试手段或使用指定的若干测试手段。
1)用户线管理
用户线管理包括:装、拆机、开放用户新业务、改变新业务等。
2) 用户小交换机线(PABX) 管理
PANX线管理包括:PABX的生成、扩充、删除、PABX连选号码、连选顺序或连选方法等。
3)中继线管理
中继线管理包括:创建路由、局向、中继组、增加中继线、删除中继线。
4) 告警信号的处理
对于交换机所产生的各种可见可闻告警信号,如用户模块、中级模块、时钟模块、外设模块、熔丝等告警信号,应根据告警的不同级别,快速处理。
5) 例行测试管理
机务员必须掌握各种例测方法,了解各种例行测试手段的基本测试情况,并按例行测试周期按期执行。并根据报告对发现的问题及时加以解决。
6) 话务统计管理
话务统计应指定专人负责,对交换机的各种话务统计报告进行汇总分析,提出解决问题的建议和方法。
7) 异常情况及故障分析
交换机维护系统能对交换机运行中产生的异常情况和故障作出详细的报告,通过打印机输出告知维护人员,维护人员应能根据报告对故障进行分析处理。
电信设备故障是指所使用的电路、主备用设备在承担业务期间,不论何种原因造成不能正常运行或质量降低的现象。
根据影响通信的范围、持续的时间和性质严重程度,故障分为:一般故障、严重故障和通信阻断等。
1)通信阻断
全部中继电路障碍或某一局向中继障碍历时大于等于90分钟;某一交换局点中断历时大于等于90分钟。
2)严重故障
系统瘫痪小于90分钟,系统自动、人工再装入;某一局向中断15分钟以上。
3)一般故障
除通信阻断和严重故障以外的其他故障。
障碍处理是维护工作的重要环节。处理障碍的维护人员应经过专业培训,具备专业知识和操作能力。
故障处理应遵循“先本端后对端,先局内后局外,先网内后网外,先抢通业务后处理故障”的原则,可采取紧急替代、迂回路由、第三方转接等措施,在最短的时间内恢复通信。
处理故障应该严格遵守相应的故障处理流程和操作规程,维护人员在处理故障时,必须对现场各种告警信息、故障显示、故障记录报告等进行认真分析处理,一般不影响正在使用业务的用户或任意扩大影响范围,并严格按照故障诊断手册、设备操作维护手册等规定的命令和操作方法进行处理。对于重大故障,应严格按照制定的应急预案进行抢修处理,并按要求及时进行障碍排除的升级制度。
属于交换设备故障,应立即检查本端交换设备的运行情况以及局数据设置情况,判明障碍发生的部位,采取相应措施进行处理。若为传输设备或线路故障,应立即通知传输部门处理,在故障处理整个过程中,双方技术人员应积极配合。
故障修复后,应详细记录故障发生时间、持续时间、故障修复时间、处理过程、故障原因等详细信息以备查。对于典型的故障应及时加以总结,有针对性地制定该类型故障的处理方法或相关的应急预案。
交换机的维护主要分硬件维护和软件维护。
交换机的硬件维护主要包括主机设备和外围设备的维护。
1)主机设备的维护。主要包括交换机的机架(后板和架间的电缆)、印刷电路板等等。
2)外围设备的维护。主要包括硬盘、磁带机、显示器和打印机等。
1)交换机软件的使用寿命一般低于硬件的使用寿命即在硬件的使用期间,软件可能要更换几次版本以增加新的业务和功能等。
2)软件维护还包括后备带的制作。后备带制作一般是每月制作一次。如果重大数据变更前后应各做一次,后备带制作后应保存一定的周期,以备查用。
3)机房中所有数据的变更,都要及时、详细做好记录。特别是对局数据和重要数据的变更,应有专人负责。
硬件设置是为减少电路板的种类,而在电路板上设置的一组或几组开关,用以定义该电路板的工作状态或在系统中所处位置,如硬件设置不正确,必会导致该电路板工作不能正常。
1)COMM电路板:MPMP、STB(单板程序不通);
2)DSNI电路:DSNI-MP、DSNI-SP(跳线器不通);
3)DT单板:75欧姆、120欧姆;
4)3G平台单板。
硬件更换后,名称相同的电路板块型号可能有多种。通常情况下,新电路板的功能一般会兼容旧型号电路板的功能,反之不行。
1) 机框问题。
2)机框、槽位用于承插电路板,这些机框、模位也会出故障,也会导致故障。
交换机的工作电压是-48V直流,通过交直流变换器将直流电压分配到每一个机架“P电源”上,机架内的“汇流条”负责向“每框B电源”供电,再配送至每层的电路板上。整个过程中,任一环节出现故障,都会造成供电的故障。
交换机的用户模块是通过局内电缆与MDF架相连,再通过MDF架间的跳线与用户侧相连,如果局内电缆内的缆芯或跳线发生了断线、混线或地气,就会造成通信的故障。
1)硬切换,双发对协议参数具体理解问题
2) HLR增加PTT选项
系统数据对某种交换机而言是所有交换机公用的数据。主要指各类软件模块所固有的数据和各类硬件配置数据,一般是固定不变的,如:程序段起始地址,印制电路板位置等。因此系统数据一旦出现错误,就会造成交换系统全方位的故障,严重时会造成交换机瘫痪。
各交换局的局数据,反映本交换局在交换网中的地位或级别,本交换局与其他交换局的中继关系,局数据对某个交换局的交换机来说是半固定的数据。所以当局数据出现故障时,也会影响交换机的正常运行。
1)用户归属地受理台。
2)用户数据是时市话局或者长市合一局的交换机所具有的数据,包括每个用户线类别、电话号码、设备码、用户新业务等,若用户数据设置错误,也会对某个用户产生影响。
交换机发生故障的原因与形式多种多样,根据发生故障的现象进行分析,通过分析找出引起故障的原因以及确定发生故障的地点,再查询故障维护手册,按照故障处理流程,排除故障,保障网络通信的畅通。
为使故障分析和故障定位工作有条不紊和有章可循,需要在故障分析中参照故障告警的级别,循序渐进。
2G—3G环境对接,实验室组网情况如图1所示。
1)流程图:基站(CI、LAC) →VMSC→移动局配置(起呼选择子) →本地网分析器入口→MSCe普通业务→GT寻址→HLRE。
2)首先在MSCE的后台OMC中的移动区编码配置中找到所在的小区号,然后在其中找到所对应的VMSC号;然后在移动局配置中的VMSC配置中可以看到DAS1(MS Origination) 中的起呼选择子;根据这个起呼选择子在号码分析中找到DAS1所对应的分析器入口,然后分析号码,如果呼叫的是本地本局的号码就分析成MSC普通业务;然后在SCCP配置中的GT翻译选择配置中分析GT1指向HLRE。它们通过SIPI的偶联把用户所拨打的MDN号码传给HLRE分析。
3)流程图:基站(CI、LAC)→VMSC→移动局配置(起呼选择子)→本地网分析器入口→本地出局业务→路由链出局。
4)在分析成本地出局业务之前的流程是完全一样的。当MSCE把被叫号码分析成本地出局业务后就根据在号码分析中所配置的路由链,并在中继管理配置中根据路由链找到所对应的路由组→路由号→PCM号再找到相对应的CIC号出局。
机房里2G的环境是MSC的2#模块MPM下面挂着129/133服务器和130服务器,HLR的2#模块CPM下面挂着129/133服务器、134服务器和140服务器。
1)启动这些服务器后,打开2GBSC和BTS、MSC、HLR的电源开关。等单板运行正常后,看指示灯。如果DTI板上的某些灯快闪就表示后面连着的E1线信号收发正常。其中2GMSC与3G对联时用了5个E1线,MSC与HLR连用了1个E1线,MSC与BSC连用了1个E1线。看对应的信号灯是否亮得正常。
2)之后回到后台,在MSC的客户端的动态数据配置—NO7MTP3人机命令—查看链路状态里看与MSC邻接的HLR、BSC、MGW的链路是否处于服务状态。经过查看,发现只有到BSC的链路是通的。原则是先解决内部问题,再解决外部问题,所以先排查到HLR的链路故障。
1)第一步,看物理上是否通,这个已通过观察灯闪的正确和接线正确确保了物理上是通的。
2)查数据配置,主要是七号中的链路配置。看MSC和HLR两个网元的链路编号和时隙号是否一致。经对照,MSC的SLC为0时,开的是TS16时隙,SLC为10时,用的TS15时隙,HLR也一样,所以问题不在这里。
3)看信令流程,消息从A口上来,经过MSCMAP、VLRMAP然后经过E1线传到HLR的HLRMAP,不过现在连链路都不通,所以这些消息都没有。当无计可施的时候,我们可以试试复位单板和拔插单板。事实上,最后就是通过拔插单板解决问题的,可能是时间长,有些板子松了的缘故。
4)链路状态都通了后,电话还是打不起来,看了VLR的失败观察,提示说:VLR无法识别,非法的ESN或MIN号。打开VLRMAP里的一条消息,发现它携带的ESN号是6931F21B,而在受理台里一号手机的ESN号是6931F211,可能是有人测业务时改动过而没有恢复,把它改成6931F21B,电话就能打通了。
发生故障的原因各种各样的,故障表现的形式也是多样的,并且相同的故障会以不同的表现形式出现。比如:连接用户的电路板发生故障,故障表现形式为:用户没有拨号音、通话杂音很大、鸳鸯号;还可表现为用户不响铃、单方通话等。用户没有拨号音的原因也可能是由于MDF接线端子接触不良,交换机的系统或者是连接用户的电路板问题等。因此,在故障发生后,进行分析和维护时要尽可能详细、全面,并且要做好故障分析、故障处理过程,探索维护方法和积累经验,不断提高交换机故障分析处理能力,保证交换机安全、稳定地运行。
[1]李大来.程控交换机操作与维护[M].北京:人民邮电出版社,1994.
[2]蒋青泉.交换技术[M].北京:高等教育出版社,2008.
[3]杨红萍,李成香,顾晓梅.交换机各做发生的类型以及分析方法[J].科技创新导报,2009(6).
[4]曹勇.浅谈交换机故障的类型及解决方法[J].中国高新技术企业,2008(3).
[5]夏虹,堵俊生.交换机故障类型及分析方法[J].天津通信技术,2003(9).
[6]韩淑英.交换机故障发生的类型及分析方法[J].内蒙古科技与经济,2008(6).
[7]刘欣刚.程控交换机故障概述及处理方法[J].科技信息(学术研究),2008(7).
Exploration on switch fault analysis and maintenance processing
TAN Yi
(Hunan Post and Telecommunication College,Changsha,Hunan,China 410015)
In order to guarantee the smooth of the communication network and the secure and stable operation of the switches,if a switch fault occurs,a quick response should be made to find out the fault causes and fault points so as to remove the fault.But to get a quick and accurate analysis of the fault location needs to know the fault types and have a higher level of fault analysis and maintenance processing.
switch fault types;fault location;maintenance processing
10.3969/j.issn.1671-9581.2014.01.006】
TN915.05
A
1671-9581(2014)01-0021-04
2013-12-18
谭毅(1982-),男,湖南株洲人,助理实验师,研究生在读,研究方向:交换技术、软交换技术、NO.7信令、数据通信。