一种基于GPS和A设备解决BBU疑难故障的新方法

2023-11-24 21:50:46刘力荣
现代信息科技 2023年18期

摘  要:南宁市东盟国际信息园是中国电信的重要保障区域,在东盟国际信息园机房里,多台BBU均出现GPS异常告警,导致大量用户的手机无法接入小区,不能正常上网、打电话。在故障处理过程中,首先检查了GPS系统,更换了从机后,故障有所改善,但是不久后发现,并未彻底解决问题。后来,经反复探索创造了一种处理GPS和A设备故障的新方法,更换主机和从机,新增从机并更换端口,检查A设备并进行巧妙的散热处理,这个多BBU疑难故障最终迎刃而解,使用户的无线通信得以快速恢复正常。

关键词:东盟国际信息园BBU;GPS故障;主机;从机;A设备;过热

中图分类号:TN929.5    文献标识码:A    文章编号:2096-4706(2023)18-0047-04

A New Method to Solve BBU Difficult Faults Based on GPS and A Equipment

LIU Lirong

(Scene Comprehensive Maintenance Center, China Telecom Nanning Branch, Nanning  530012, China)

Abstract: The ASEAN International Information Park in Nanning is an important guarantee area for China Telecom. In the generator room of the ASEAN International Information Park, several BBUs have GPS abnormal alarms, resulting in the inability of a large number of users' mobile phones to access the cell, then they could not access to the internet and make calls. In the process of troubleshooting, the GPS system is checked first, and the slave machine is replaced. The faults are improved, but it is found later that the problem is not completely solved. Later, after repeated exploration, a new method to deal with GPS and A equipment faults is created, including replacing the host machine and the slave machine, adding a new slave machine and changing the port, checking A equipment and conducting ingenious heat dissipation treatment, so that the troublesome faults of several BBUs are finally solved, and the user's wireless communication is quickly restored to normal.

Keywords: BBU in the ASEAN International Information Park; GPS fault; the host machine; the slave machine; A equipment; overheating

0  引  言

南寧市东盟国际信息园是中国电信广西公司三枢纽及一大批重要产业基地的所在地,是中国电信的重要保障区域。2022年4月中旬,东盟国际信息园及附近一带出现大量用户投诉,经过核查华为无线网管发现,东盟国际信息园机房的多台BBU同时出现时钟参考源异常告警,即GPS告警[1],造成BBU下带的相关小区虽然在华为无线网管上显示状态正常,但是,实际接入的用户数为0,意味着这一带的电信用户已经无法正常上网、打电话[2,3]。

东盟国际信息园的建筑以大型商务办公楼为主,所以其基站形式以室内分布系统(简称室分)为主,宏站为辅。室分可以分为两大场景:住宅室分和平层室分,对于东盟国际信息园来说,平层室分可以为大型商务办公楼内部提供无线信号,宏站可以为大型商务办公楼外侧、路面、附近居民区提供无线信号[4]。因此,东盟国际信息园机房的BBU以室分BBU为主,宏站BBU为辅。在大型平层室分中,GPS系统是不可或缺的重要结构,缺少GPS系统或者GPS系统发生故障的大型平层室分,会因为无法搜星而失去正常工作的能力,导致用户无法成功接入室分小区[5]。GPS告警是大型平层室分中常见的故障,但是也属于处理难度较大的故障[6],牵一发而动全身,一旦此类故障发生,将会造成较大范围的无线信号异常,极易引发用户投诉,但是,此类故障的真正原因往往较难定位,给故障排查和处理工作带来不少的麻烦[7]。

1  分析过程

目前,研究无线通信系统GPS告警的论文较少[8],而且对实际故障的处理缺乏明确的指导意义,因而,当前亟需一种步骤明确、目标清晰、操作简便、效果明显的GPS故障处理方法,才能解决这个领域的难题。此外,东盟国际信息园机房里除了GPS告警,还存在BBU和A设备告警,需要一并进行处理干净,不留下设备隐患。综合考虑上述因素,针对GPS系统、从机、主机、端口、A设备、空调等对象,经过反复探索和尝试,本文创造了一种基于GPS和A设备解决BBU疑难故障的新方法,取得的故障处理效果较为显著,可以为通信行业其他企业提供参考借鉴。

分析和处理该故障的过程比较曲折,大致可以将该过程分为以下5个步骤:检查GPS系统、更换从机、更换主从机、新增从机并更换端口、A设备检查与散热,下面对这5个步骤分别进行介绍。

2  解决措施

2.1  检查GPS系统

首先,经过现场检查,出现故障的BBU对应的GPS及其馈线都没有出现异常情况。但是,双星授时系统的主机和从机是否能带得动东盟国际信息园机房里的20多台BBU是存在疑问的。后来,经过与督导探讨核实,该主机和从机是由中兴厂家生产的,其结构是GPS系统中的常见结构:主机连接两路GPS天线;从机上联至主机,获取时钟信号,从机的主要作用是弥补主机的端口不足,可以扩展下带更多BBU;主机和从机都具有放大时钟信号功率的作用。该从机的名称为:GPS/北斗双频时钟分配器从机,如图1所示。

2.2  更换从机

由于现场GPS系统检查和后台华为无线网管观察均未能直接发现故障原因,可以认为,从机发生故障的可能性比较大。为了验证这一判断,需要更换一台从机,然而,代维仓库和工程仓库都没有该备件可以提供,联系中兴厂家发货到达南宁至少需要两三天,这对于紧急故障处理来说是不能允许的。此时,恰好找到一台华为厂家赠送试用的双星授时系统从机,虽然不是中兴设备,但是也可以通过试用一小段时间,观察试用效果。该从机的名称为:通用卫星信号分配单元GDU,如图2所示。

当天晚上,换上该从机之后,从后台华为无线网管可以看到,东盟国际信息园机房的各个BBU的GPS告警相继都恢复了,现场也没有发现其他设备故障。

2.3  更换主从机

然而,过了一段时间之后,东盟国际信息园机房的多台BBU居然再次出现了GPS告警,经过检查,仍然无法确定其故障原因。考虑到中兴生产的主机下带华为生产的从机有可能会出现不匹配的情况,所以,只能联系中兴厂家按原来的型号寄来了一套中兴主机和从机,然而,更换这套中兴主机和从机上去之后,GPS告警并没有在华为无线网管上清除。这令排查工作一度陷入困境。

2.4  新增从机并更换端口

为了彻底查找出故障的真正原因,中国电信南宁分公司的电信维护主管与中兴厂家专家、督导、代维、施工队多方联合到现场进行研究,探讨在之前的检查中可能存在的细节遗漏。为了排除BBU数量多对GPS系统的影响,新增了一台同型号的中兴从机,并使两台中兴从机下带BBU的数量大致相同。

在现场检查中发现,主机有A1/B1和A2/B2这两组端口,从机上联的是B1和B2这两组端口,经过中兴厂家专家确认,这是错误的接法,正确的接法应该是从机上联至主机的两个ANTOUT口(即天线输出口)。按照正确的接法修改好连接之后,经过华为无线网管观察确认,GPS告警已经全部恢复了。A1/B1、A2/B2和ANTOUT端口如图3和图4所示。

2.5  A设备检查与散热

然而,解决GPS告警并不是本次故障处理的终点,在故障处理过程中,还发现有一台A设备中断了,其下带4台BBU,从华为无线网管上可以观察到,这4台BBU是刚中断不久,之前一直没有中断过,所以,这算是意外的发现。经过检测,该A设备的两个路由的收光和发光都是正常的,现场下电并重启A设备后,该A设备恢复了,但是5个小时之后,经过A设备的网管人员核实,A设备再次中断了。为了验证A设备的中断与其上联的B设备有没有关系,当天晚上0时,到江南区黄茅坪分局的B设备机房,测到从A设备过来的收光值是-20,光衰较大,可能是尾纤有故障,于是,次日上午,光缆维护员来江南区黄茅坪分局的B设备机房重新跳纤,使A设备过来的收光值达到-14,这是在正常值范围内的。但是,此时A设备依然处于中断状态,这就说明A设备中断的原因和光路没有直接关系。

为了排查A设备中断可能存在的其他关联因素,回到A设备和BBU的机房现场,在触摸设备表面外壳时发现,A设备和BBU的表面烫手,温度明显高于正常范围,按照平时的维护经验分析,温度过热很可能会影响设备的正常工作。该机房里只有两台空调,但是各种设备却很多,摆放比较密集,空调的冷风难以全面覆盖所有设备。为了能够更好地散发热量,把A设备所在机柜的门拆卸下来,并调整空调的摆放位置和风向,使冷风能正面吹到A设备,过了片刻之后,下电并重启A设备,A设备自行恢复正常了。

3  实施效果

在整个排查和处理过程结束之后,通过华为无线网管观察连续一周的告警数据后发现,东盟国际信息园机房的所有BBU没有再出现GPS告警,A设备也没有再中断过,这一带的用户都能正常接入小区,各项无线网络优化指标也均正常。经过电话回访,之前不能用手机上网、打电话的用户都表示已经可以正常使用了。中国电信南宁分公司的领导也对本次紧急故障的快速解决表示肯定。

因此,在本次故障处理中涉及的5个步骤(检查GPS系统、更换从机、更换主从机、新增从机并更换端口、A设备检查与散热)是正确的、有效的、实用的,是摸排并解决多BBU场景下的GPS疑难故障的一种全新方法。

4  结  论

通过本次故障处理实践,可以总结出以下结论和经验:

1)复杂的故障往往可能拥有简单的原因,但简单的原因往往需要专业、细致、全面、深入的方式方法才能被摸索出来,而且还要敢于不断试错、不断改进方法,面对失败不灰心气馁,要敢于从非常规的角度去思考疑难故障原因。

2)本文提出的一种基于GPS和A设备解决BBU疑难故障的新方法,主要分为以下5个步骤:检查GPS系统、更换从机、更換主从机、新增从机并更换端口、A设备检查与散热。这5个步骤是有先后顺序的,但是并不一定需要把这些步骤全部做完才能处理好GPS异常告警,只要能够使该告警得到清除,可以只进行其中的某几个步骤。

3)检查GPS告警时,可以优先检查双星授时系统的主机和从机是否有故障、是否能够带得动众多BBU,但是,如果经过更换、新增主机和从机后还是无法解决问题,可以考虑检查从机和主机之间的接线是否正确,若接线出现错误,应该及时纠正。

4)通信设计院在制作室分方案时,最好能在图纸上明确标出GPS系统的主要接线端口和线序,方便施工队准确识别。而且,绘制图纸的设计师应该在施工前向施工队做好全面、详细的交底工作,把GPS系统接线等容易忽略的细节交代清楚。

5)施工队应该加强内部人员的专业技能培训,注重操作细节交底,缺乏经验的新进人员要由经验丰富的老员工带班进行现场安装指导,避免低级错误发生,确保接线端口顺序、设备安装位置均准确无误。

6)工程竣工后,在设备和工艺验收阶段,监理和代维除了验收RRU、直放站等主设备外,还应该注意验收GPS系统等容易忽视的细节,并且现场测试信号强度、网速,确认能否正常上网、打电话,尽可能在现场发现问题,向施工队提出整改建议。

7)遇到較为复杂的设备故障,经过现场仔细检查仍然无法摸清处理思路,应该邀请厂家专家、督导到现场指导操作,明确处理方向,及时发现细节问题,避免在错误的道路上越走越远,浪费时间。

8)处理BBU故障时,应该注意观察A设备有无故障,如果出现A设备中断或闪断等故障,可以从收光、发光和过热等角度去考虑故障原因,并且要注意联系B设备和空调的状态进行考虑,不要遗漏可能引发故障的不常见因素。

9)在BBU、A设备等各类设备较多的机房,要合理地放置空调的位置,控制好风向,如果遇到冷风难以覆盖关键设备的情况,可以考虑拆卸下机柜的门,确保关键设备能够及时散出热量,如果条件允许,可以通知铁塔公司安排新增一台空调,尽最大可能消除潜在的故障隐患。

参考文献:

[1] 王洪军.中兴NODE-B基站故障探讨 [C]//2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集.武汉:国防工业出版社,2011:117-119.

[2] 李晓明.TD-LTE无线网络高层建筑覆盖技术研究与应用 [J].移动通信,2015,39(17):22-23.

[3] 王方正,张文超.LTE室内分布系统典型建设方案研究 [J].中国新通信,2014,16(4):123-125.

[4] 赵东亮.LTE室内分布系统演进方案研究 [J].中国科技纵横,2014(18):22.

[5] 彭博.GPS时钟同步在无线通信系统中的应用 [J].中国新通信,2016,18(12):83.

[6] 张鹏. 关于GPS隐性故障在CDMA优化中的解决探讨 [C]//2014信息通信网技术业务发展研讨会.北京:北京通信学会,2014.

[7] 罗小光,刘加勇.TD-LTE网络时钟授时故障定位与分析 [J].信息通信,2017(5):197-198.

[8] 曹美芬.LTE分布式基站中可拓展式BBU告警系统的设计和实现 [D].陕西:西安电子科技大学,2019.

作者简介:刘力荣(1993-),男,汉族,广西博白人,工程师,硕士研究生,研究方向:无线网络维护与优化。