杜 魁,郝文缙,潘 亮,陈俊锋,杨洪刚
(太原卫星发射中心 通信团,山西 岢岚 036301)
航天业务网是支撑航天发射试验的基础平台,是联接各类信息传送的桥梁纽带,具有点多、线长、面广和实时性高、灵活性高、可靠性高等显著特点,涉及有线、无线多种传输手段,涵盖物理、网络多层业务互联,其重要性不言而喻.
闪断即线路中断后又很快恢复的故障,是通信常见问题,会导致传送信息的丢失,影响信息传送的可靠性和实时性.闪断在航天业务网运行中常有出现,其故障间隔时间通常在1秒至几分钟之内(大多数系统日志记录故障时间精度为秒),因中断时间短、恢复快而排查困难.按照航天业务网线路类型,闪断故障可分为:卫通传输线路闪断、微波传输线路闪断、光传输线路闪断、电缆传输闪断、IP网络闪断;按照影响的业务数量和特点可分为:单路闪断、多路闪断、群路闪断;按照规律特征可分为:有规律闪断、无规律闪断.
图1 为典型的航天业务网简要示意图,信号从起点到终点经过环节多,故障处理需统筹考虑.
据不完全统计,每年某发射场航天业务网产生重要影响的闪断故障均在几十余起以上,设备终端中关于闪断的记录有千余次之多,且相当一部分因故障没有复现不能实现真正的归零.
图1 典型航天业务网简要示意图Fig.1 Brief schematic diagram of typical Aerospace business network
由于航天业务网主要线路双路有备份、可靠性实时性要求高的总体形势,闪断故障对任务的影响在一定程度上比长时间中断更大,故障处理难度也更大,故其具有如下特点:
1)人员不易发现:闪断持续时间短,肉眼观察易忽视和走神,且很多在夜间发生;一些终端系统告警门限高,智能化水平低,反应记录不准确甚至无反应无记录;值勤事件多,人为动作或线路故障易混淆.
2)故障不易定位:短时间的中断不利于系统观察各设备状态,不利于对整条链路中的各个环节逐一排查;采取的措施效果不能立即验证是否有效;一些故障无法复现,措施定位只能靠估算分析得出,不准确.
3)状态不易掌控:一些闪断随机出现,突发性强;间隔时间长短不一,甚至只出现一次或间隔几天一次,规律性差.
4)判决不易评估:对于指挥员而言,一些闪断故障是否已彻底排除将成为疑问,短时间的故障消失不代表已彻底解决;特别在临近任务实施的短时间内,进一步的故障排除效果无法充分得到考验.
此外,一些人员对日常通信中的闪断没有引起足够重视,不及时观察、记录、汇报,不及时排除的现象还较多,给设备正常运行、任务圆满完成带来了一定隐患.
闪断是线路中断的一种,却又不同于普通的线路中断,基于航天业务网历年来闪断故障经验教训,造成闪断的原因主要有如下几种:
传输信道的不稳定引起的闪断通常为无规律闪断,也可能为特定条件下的有规律闪断,主要体现为误码率超标造成线路瞬时中断.不论有线或无线信道,引起信道误码超标的因素主要有:
1)电磁干扰因素:包括辐射干扰和传导干扰两种,结合航天业务网应用主要表现为:① 无线空间电磁干扰.此类故障在无线通信信道中发生较多,并且有逐年增加的趋势.② 设备间电磁干扰.主要针对相隔较近但屏蔽效果不好的大功率、高频设备,如一些功放、变频器等.③ 设备内电磁干扰.主要针对收发共用、合路分配单位,如中频分合成器、双工器等.④ 线缆间信号串扰.线缆并行走线时局部破损,造成电磁屏蔽效果不好或破损线缆的屏蔽层与芯线接触造成短路[1].
2)接口故障因素:① 接口松动.指数据线、馈线、波导等各类接口与设备连接时有松动,遇老鼠、大风等情况时可能瞬时中断.② 接口虚焊.指接口内焊接不牢,阻值偏大或时通时断.③ 接口短路.指接口内芯线与屏蔽层接触.④ 阻抗不匹配.指线缆接口阻抗性能恶化或与被接设备接口要求不匹配.
3)传输损耗因素:①传输距离过长.线缆传输距离与线规、发送功率、接收机性能、传输速率、误码要求等很多因素有关,在条件一定的情况下各类线缆均有其最大传输距离,航天业务网常用通信线缆传输距离如表1 所示.② 雨、雪、风沙天气引起的传输损耗对无线通信传输影响较大.③ 雷击瞬间对无线和有线信道均有影响.④卫星通信中的日凌影响.每年发生在春分、秋分季节,会造成中断或闪断,具体时间可准确计算预测.
表1 航天业务网常用通信线缆传输距离表Tab.1 Transmission distance table of common communication cable in aerospace business network
设备性能不稳定引起的闪断通常为有规律闪断,也可能为无规律闪断甚至“不复现”,主要体现在如下几个方面:
1)单个设备正常几率范围内的故障因素.设备在使用中均有其故障发生几率,通常在0.5%以下,视具体设备性能质量不同而不同.基于此,为确保整体信道的工作可靠,靶场通信设备应用通常采取1+1备份方式,包括热备份或冷备份状态,甚至1+1负载分担方式,但一些通信设备因价格昂贵或工作方式限制等原因,没有实现热备份,在此情况下单个设备故障会造成中断或闪断.
2)主备倒换因素.热备份工作的设备在主备倒换期间通常会产生瞬时中断,造成信道闪断.冷备份主备倒换会造成相对长时间的通信中断,1+1 负载分担方式不存在主用或备用概念,当其中一台设备出现问题时,不会造成中断.
3)设备超出使用寿命后性能不稳定因素.通信设备均有其使用寿命,通常在出厂时经过测试给出大概年限,一般为10 a左右,具体视设备性能质量不同而不同.超出使用寿命的设备性能会下降,出现故障的几率会提升,可能会造成闪断[2].
4)设备老化后性能不稳定因素.“老化”的说法在工作中经常听到,它具体是指高分子材料在加工、储存和使用过程中,由于受内外因素的综合作用,其性能逐渐变坏,以致最后丧失使用价值的现象.设备的老化程度与设备材质、机房工作环境、日常维护质量等息息相关.
工作环境不良引起的闪断通常为无规律闪断,也可能为持续相似条件下的有规律闪断,主要体现在如下几个方面:
1)供电不稳定因素.机房供电突然变高或变低,或者停电后又迅速恢复,虽没有损坏设备造成中断,但突然的变化可能让设备工作出错,特别对于没有配备独立变压电源的设备而言,受供电不稳定的影响更大.目前航天业务网通信机房的设备供电大多先经过UPS稳压,而非直接采用市电,所以供电不稳定造成闪断的几率较小.
2)温度超标因素.设备均有其正常工作范围,温度过高或过低对设备的正常运行会造成一定影响.这里温度是指设备工作温度,受气温或机房温度、设备散热情况等影响.一些场区或点号低温气候长,室外设备特别是山头点号设备冬季长期处于0°~-30°左右环境工作,易产生设备不工作或间歇性工作,造成中断或闪断.
3)湿度超标因素.湿度过高会造成电子设备短路,湿度过低容易产生静电,均会对设备的安全运行造成一定影响.在雷雨季节需做好防水、防潮准备,特别对于一些密封环境下的无人点号设备,因不透风,长期处于潮湿状态.
4)接地不良因素.接地不良分为室外地网阻值偏高和室内接地不规范两种,其后果是不能有效防雷,或者设备共地性能不好,产生电位差,导致闪断.常见故障为:工作地、保护地没有分开,有混接现象;地排、地线接触不好或者没有连接;接地线线径不够,阻值偏高;地理环境改变或室外地线锈蚀导致地网阻值偏高.其中设备接地线主要是为了导静电和调节电压差,接地不良会导致静电没有被导走和电压不稳,造成传输误码,引发闪断[3].
参数或软件不匹配引起的闪断通常为有规律闪断,主要体现在如下几个方面:
1)时钟不同步因素.时钟是同步传输的基础,航天业务网光传输、卫通、微波通信网等传输线路均采用同步传输方式,若出现时钟不同步,则会造成线路不通,或产生滑码造成闪断.时钟通常包括内钟、外钟或者主钟、从钟等,相邻的DTE或DCE设备以及调制解调、复用解复用等设备内部都存在时钟相关问题,所以在RS-232,RS-422/485等数据线缆制作时需特别注意时钟信号线的正常或交叉连接[4].
2)新机架或板件与老的软件包冲突所致.新安装设备容易出现此类问题,特别对于系列型的产品在升级时要引起注意,如航天业务网广泛应用的SDH以及各型交换机等.
3)其他参数或软件配置因素.速率、带宽、优先级、端口、缓存等各类参数设置或协议、策略的配置不匹配等,均可能引起数据丢失造成闪断.随着信息化建设和通信技术的发展,设备性能和集成度不断提高,软件参数在通信运维中的比例大大提高,其故障的可能性亦在提高.
一些闪断故障突然发生却又莫名消失,无法复现即无法验证.引起闪断的因素除了上述以外,可能还有微波对调不精确、卫通天线对星漂移、病毒发作、人为操作、多系统不兼容等各方面,均需我们引起注意.
航天业务网故障的处理要根据故障现象和可能原因有序进行,但基于闪断故障的特点,其处理比线路彻底中断故障的处理更难,特别对于大系统、多环节链路中发生的闪断问题,涉及专业多、设备多、人员多,协调配合程度亦决定着故障处理的效率,对闪断问题的快速准确解决提出了挑战.
根据《固定通信台站值勤维护管理条例》和各型任务通信保障要求,针对航天业务网网络结构、岗位力量配置和常见闪断故障的特点,综合上述原因分析和历年故障排除的相关经验,遇到闪断时可从如下几方面着手解决.
1)掌握现象.因专业多、设备多、涉及人员多、告警时间短,需从全系统出发,认真观察,多方沟通,掌握闪断的具体现象和影响,提高故障排除的针对性.
2)摸清规律.因不同原因造成的闪断规律不同,需从全方位出发,广泛了解,积极总结,摸清闪断的时间、期间相关动作等特点和规律,提高故障排除的准确性.
3)缩小范围.因信号传输节点多、链路长、影响面大,需从全流程出发,仔细分析,分段测试,缩小闪断的故障区间,提高故障排除的时效性.
4)做好定位.因任务要求高、一些闪断时有时无,需从全要素出发,大胆试验,尽量复现,做好闪断的故障定位和归零,提高故障排除的可靠性.
1)故障发现.认真观察,记录及时.
2)故障分析.系统全面,客观深入.
3)故障处理.思路清晰,胆大心细.
4)故障归零.尽量复现,举一反三.
5)故障全程.多方协作,密切配合.
图2 从全系统的角度出发,简要列出了航天业务网闪断故障处理的总体思路和TCP/IP框架下的专业分布,系统人员可按相关逻辑,逐步实施;岗位人员可从中对号入座,选取相应部分参考执行;或者各专业同步实施、综合排查[5].
图2 航天业务网闪断故障处理简要流程图Fig.2 Brief flow diagram of flash break treatment of Aerospace business network
在应急等相关情况下,只能根据经验进行快速处理,此时应先从可能性高和简单易实施的方面进行排查,可分为两类:
4.4.1 有规律闪断快速处理
对于有规律闪断的故障,参数或软件不匹配、设备性能不稳定等问题的可能性较大,而特定条件下的传输信道不稳定、工作环境不良等原因可能性较小,其中告警记录通常能发挥较大作用.图3 为有规律闪断故障快速处理简要流程,其中横线代表可同步进行.
图3 有规律闪断故障快速处理流程Fig.3 Fast handling flow diagram of regular flash break
4.4.2 无规律闪断快速处理
对于无规律闪断的故障,传输信道不稳定、工作环境不良等原因的可能性较大,而设备性能不稳定等问题的可能性较小,其状态不易把握,告警记录中的具体分析往往作用性不大,图4 为无规律闪断故障快速处理简要流程.
图4 无规律闪断故障快速处理流程Fig.4 Fast handling flow diagram of random flash break
因问题现象不同、发生部位不同、影响程度不同等,不同故障的具体处理方法通常不同,如信道问题引起的闪断,在用户和网络交换中心均能发现,而因用户或网络中心配置问题引起的闪断,在信道中通常不能发现,亦不需要做相关动作.为提高故障排除的快速准确性,具体的故障处理应视具体问题而定.
某年9月3日,B点至A点调度出现间断干扰噪音大、数据传输时断时续、同时B卫通至A卫通链路的数字数据网络(DDN)设备双方中继板间断出现闪断告警等现象,间隔短,比较有规律.
当时,故障采取一系列由大到小的误码测试、分段定位等处理措施,将问题逐步缩小范围后,再尝试小范围内可疑设备倒换进行问题定位排除及复现,最终定位为B卫通数字数据网络设备的网络控制板时钟锁相环故障.整个测试处理线路简单流程如图5 所示,其中NCL为网络控制板、ILC为中继板、QSC为用户板、SCMM2000为调制解调器.
但是,闪断时系统日志有关于时钟源频繁跳动无法锁定的相关信息,人员没有及时发现,待各项测试基本完成、故障范围缩小到B卫通数字数据网络设备时才有所觉察;此处通过层次合理的误码测试逐步缩小范围,最后进行可疑故障部位主备倒换,将故障定位和复现,不免花费较长时间,但其中的宝贵经验仍值得学习借鉴.
图5 B点至A点数字数据网络闪断故障测试处理线路简单流程Fig.5 Simple flow diagram of flash break test processing circuit from B to A point in digital data network
某年10至11月,IP网对A,B方向数据间断丢包,问题发生时间不同、长短不一、间隔无规律,检查信道、设备、工作环境均正常,速率、端口、协议等各项策略配置正确,如图6 所示.利用一次故障持续时间较长的时机,IP网管中心在检测终端对数据流进行分析,发现用户发送数据过大,遂通知用户更改发送数据速率,问题得以解决.事后分析镜像抓包数据,验证了流量超发结果.
此故障定位于用户没有遵守协议提高了数据发送速率,超出了网络策略限制,造成丢包;故障的排除得益于网管中心抓住了一次长时间故障机遇,及时对网络进行了检测分析,找出了用户违规行为,值得我们警醒.
图6 A点至B点和C点IP网络应用简单流程Fig.6 Simple flow diagram of IP network application from A to B and C point