杨宁
摘要:本文从中兴设备的一次无规律的群发性断站故障的处理出发,分别总结了故障的现象、原因及反映问题,并针对故障的产生制定了相应的规避措施及改进建议,在此基础上系统地整理了相关对应关系的资料,提出了针对此类故障的一般解决思路和方法,供大家参考。
关键词:LAPD;断站;故障;处理1故障处理过程
我公司GSM网络基站控制器采用的是中兴ZXR10-IBSC,2011年某日,某BSC下辖的罗庄汤庄等共15个基站同时出现断站,经对中兴基站网管进行告警查询,发现与其他断站障碍告警码一致,出现“站点LAPD断告警(16785414)”的同时也都出现了“机架LAPD断告警(16785409)”。于是值班人员分别查看了基站所处位置的电源、传输情况,这15个站并不在同一条传输链上或是同一物理区域内,基本排除传输和电源的故障。经检查BSC的资源分配,这15个站点都分布在同一BSC上,故对BSC级单板进行历史通知、历史告警和现网告警的查询,一条与断站告警几乎同时出现的告警引起了我们的关注,即“单板和归属模块之间的控制面通讯异常(8393985)”告警,而发生位置是IBSC中1架1框4槽位的单板,CPU序号为2,经查看设备面板框图,发现处于1架1框4槽的单板是SPB板(信令处理板),分别用于处理局间的MTP层(消息传递部分)信令、基站与BSC之间的LAPD信令及Gb接口信令。而该位置上所配置的SPB板逻辑上是用于处理LAPD信令的。从而我们通过实时的动态控制对411位置(1架1框4槽)的SPB板的4个CPU分别进行“CPU占用率查询”操作,结果四个CPU中CPU2没反应。进一步对业务中断站点进行资源的查询,发现中断基站全部位于该LAPD的下,初步判断该板故障,本着先恢复现场业务思路,对CPU2进行复位的时候,但无任何反应,故确定该单板中的CPU2出现了故障。于是本着先恢复业务,再进一步分析总结障碍的思路,我们利用备板更换了故障单板,该故障恢复。
2故障原因分析
2.1 LAPD板的工作原理
2.1.1 LAPD板与SPB板的对应
LAPD板是一个逻辑概念,它的物理单板对应SPB板(信令处理板),SPB板有下列属性:⑴对外提供16路E1/T1接口。⑵单板含有4个CPU处理单元。⑶根据板子上所加载的软件的不同,SPB板可用作逻辑单板:LAPD、信令处理板SPB和Gb接口处理板GIPB等。1)LAPD板主要完成LAPD信令的处理;2)信令处理板SPB主要完成局间信令的处理;3)Gb接口处理板GIPB完成GPRS的FR(全速率)、NS(网络业务)和部分BSSGP(基站子系统GPRS协议)处理,并完成Gb接口(PCU至SGSN的接口)功能。
2.1.2 SPB板由以下5个单元组成
⑴接口单元:与电路交换单元连接,提供E1接口功能。
⑵电路交换单元:对接口单元的电路和来自背板的电路实现交换功能。
⑶CPU单元:完成信令处理、单板管理和内部接续控制。
⑷控制面交换单元:完成控制面数据交换并提供控制面FE口。
⑸媒体面交换单元:完成用户面数据交换并提供用户面面FE口。
2.1.3 单板数据流向说明
来自E1口或背板的数据经过接口单元处理,送至电路交换单元交换,然后送至CPU单元处理,最后通过交换单元送至其他单板处理。
2.2 基站至基站控制器之间LAPD信令的处理流程
来自BTS(基站)的LAPD信令由DTB/SPB板接入,通过本资源框UIMU(用户面通用接口模块)单板上的电路交换网交换到LAPD板,由LAPD板完成LAPD信令第二层的处理,之后LAPD板再将处理完的信令消息通过本资源框UIMU单板送至处理器框中的UIMC(控制面通用接口模块)单板,再由UIMC送至CMP(处理控制板)单板,由CMP板完成LAPD信令第三层的消息处理。
2.3 LAPD板的用途及配置
⑴LAPD板的用途及配置:基站至基站控制器之间的A-bis口上所承载的信令为LAP-D信令,用来处理LAPD信令的板子为LAPD板。对于一个单机架的IBSC来说,一般配置一个资源框的2块SPB板用作LAPD板,主要完成LAPD信令的處理。而对于双机架的IBSC来说,可配置2-3个资源框,这样就可配置4-6块LAPD板。1个LAPD板便对应1个模块。
⑵LAPD板的处理容量:对于老的V2的BSC来说,一块LAPD板可支持处理40条A-bis口上的信令链路(对应基站至基站控制器间一个2M的1个时隙),假设一个基站至一个BSC只开通了1条LAPD信令,这样理论上一块LAPD板可支持约40个基站的接入,再加上冗余方面的考虑,一块LAPD板最多可支持40个载频上所传送信令的处理。对于新的IBSC来说,1块LAPD板可支持处理384条LAPD信令链路,理论上1个基站6块载频中所承载的信令消息可复用至1条LAPD信令上传送,这样理论上1块LAPD板可处理384*6个载频中所传递的信息。而实际上因1块LAPD板就对应1个模块,1个模块最大可支持512条载频,这样1个LAPD板最多便可处理512条载频中所承载的信息。
⑶LAPD板中4个CPU的分配原则:1个LAPD板中有4个CPU,对应硬件的4个芯片,在增加基站的人机命令中,我们找不到可以指定某一块SPB板、某一个CPU的命令参数,从而哪块SPB板、某一块SPB板的哪个CPU具体负责哪些基站LAPD信令的处理是系统默认分配的,并不是人工指定的。假设系统认为1个LAPD板中1个CPU最多能处理20个基站的A-bis口信令,那么我们在添加基站数据时,前面加的20个基站便由系统分配到第一个CPU负责,而第21个基站A-bis口信令便由第二个CPU负责。而且哪个CPU负责哪些站无法通过人机命令显示出来,只能通过前台ORACLE数据的方式依次导出。
2.4 分析结论
逻辑上的LAPD板物理对应SPB板,用来处理基站至基站控制器之间LAPD信令的第二层,充当着信令终端的功能,而其中4个CPU通过负荷分担的方式分别处理一部分基站的LAPD信令,由于用来处理LAPD信令的SPB板中一个CPU故障,使得该CPU所负责处理的那部分基站的LAPD通信链路中断,与该CPU相关的所有站点的信令链路中断,系统业务无法正常进行。
3故障总结及改进措施
3.1 对相关资料进行健全与完善
此类故障出现时,由于我们只有基站与数字中继板DTB的对应资料和基站与LAPD板的对应关系,缺少基站与LAPD板中某一个CPU的对应资料,在本次故障的处理中,虽然出现了一条几乎同时的告警,但由于缺少基站与LAPD单板中CPU的对应关系,仍然给故障的判断带来困难,拖延了处理时限。因此应加强基本资料的随时整理和保存备份。
3.2 加强设备的预防性维护工作,及时消除故障隐患
对于IBSC来说,1块LAPD板具有着支持384条LAPD信令链路、512条载频信息处理的超大容量,集成度高的同时的也带来了安全方面的隐患,一块SPB板的故障,将可能引起上百个站的断站。由于此类单板没有相关的主备模式可以配置,只能加强对设备的预检预修,制定相关的测试计划,在话务闲时依次把LAPD板全部定期测试一遍,便于及时发现故障隐患,将故障消除在萌芽状态。针对此类单板独特的重要性,建议在所有的IBSC机房都全部配齐必要的备件和维修工具,并定期检测,保证备板的有效性,便于出现故障时及时更换,缩短故障恢复历时。
3.3 定期检查IBSC/BSC的告警信息,及时发现设备存在的隐患
经过检查中兴网管中的历史告警,我们发现同样的“单板和归属模块之间的控制面通讯异常(8393985)”告警、同样的位置下此前也出现过一次,但是该告警瞬间就恢复了,并没有影响到断站,从而也就没有引起维护人员的注意。此次故障告诫我们应定期检查IBSC/BSC的历史告警信息,认真地对待并分析每一次告警,即使是瞬间告警也不能放过,说不定这一次的瞬断就是下一次严重故障的隐患所在。
3.4 修改LAPD单板的相关告警级别
LAPD单板的“单板和归属模块之间的控制面通讯异常(8393985)”告警为重要告警,而由于IBSC的LAPD单板独特的重要地位,为了引起监控值班人员的重视,我们修改了LAPD单板的“单板和归属模块之间的控制面通讯异常(8393985)”的告警级别,将其置为与断站相同的严重告警,便于及时发现此类故障,及时修复,减少对网络的影响。
3.5 对BSC/IBSC的常见硬件处理方法和思路进行总结,并开展培训,使每一位维护人员都能熟练掌握
以下是常见故障的解决思路:
⑴倒换复位法:对于相应的硬件告警,首先可以采用复位单板的方法来确认是否是永久性故障,还是暂时性运行故障。到前台直接插拔单板,有时候比在后台远程复位更有效。
⑵替换法:在硬件排查中,这是一个行之有效的方法。将有告警的单板和正常运行的单板交换槽位,看是否告警跟着走,就可以确定故障原因是单板问题,还是槽位、线缆的问题。也可以用备件替换。
⑶数据重新装载:单板软件、基站数据重新装载可以清除系统内部的混乱数据,有时候可以有效的解决非硬件故障。
⑷打印、信令分析:当基本的硬件排查仍无法解决故障时,前后台的打印日志,以及Abis口、A口以及GB口的信令跟踪消息,能很好的帮助我们定位故障。
⑸拨打测试:对于基站下通话异常的情况,闭塞时隙(或逐个指定载频时隙和A口时隙,进行指定中继拨打),然后依次进行拨打测试,能准确地定位故障。
3.6 对LAPD单板故障的故障现象、原因及处理步骤进行总结,并打印、在所有IBSC机房上墙,写入设备的应急预案中,便于紧急情况下及时处理
以下是详细LAPD板故障后的处理步骤:
3.6.1 LAPD单板故障
⑴故障现象:整个LAPD板无法正常运行。LAPD通信链路中断,与该LAPD板对应的所有站点的信令链路中断,基站退服。
⑵故障原因:LAPD板与MP之间的通信斷、硬件故障、时钟丢失等均会导致此告警。
⑶故障处理
1)检查LAPD板是否上电或插紧。2)检查时钟板是否异常,如果异常则首先排除时钟故障。3)复位LAPD板,观察故障是否存在。4)检查后背板连线是否有松动或异常。5)检查 ECOM板版本,如有问题重新下载ECOM板。6)如果上述措施无效,则更换单板。⑷注意事项:接触单板或部件时必须带防静电手环。
3.6.2 LAPD单板中的某个CPU故障
⑴故障现象:一块LAPD单板中的某个CPU无法正常运行。LAPD 通信链路中断,与该LAPD板某个CPU相关的所有站点的信令链路中断,基站退服。而与该LAPD板中其他CPU相关的所有站点都正常。往往出现“单板和归属模块之间的控制面通讯异常(8393985)”的告警,在“发生位置”一栏,系统会标明架号、框号、槽号及CPUNO号。
⑵故障原因:LAPD单板中某个CPU与 MP之间的通信断、硬件故障、时钟丢失等均会导致此告警。
⑶故障处理
1)对LAPD板的检查同上述“LAPD单板故障”步骤;2)对出现告警的CPU执行“CPU占用率查询”操作,看CPU的返回状态;3)对LAPD单板中出现告警的CPU进行手工复位,观察故障是否存在;4)检查后背板连线是否有松动或异常;5)重新装载单板;6)如果上述措施无效,则更换单板。
4)注意事项:接触单板或部件时必须带防静电手环。
4总结与体会
一次断站故障的出现并不可拍,可怕的是对故障的熟视无睹,只要能够及时总结故障产生的深层次原因,从而制定相应的措施予以规避,相信我们的网络会越来越坚强,各项维护指标及服务指标会越来越好。在今后的故障处理中,我们仍将坚持“三不放过”的原则,即不查明故障原因不放过、不制定预防措施不放过、不举一反三不放过,变被动为主动,不断地总结维护经验、提高维护水平,为建设联通精品网络而努力。