文|施炎
时钟同步网现状及改进思路
文|施炎
作为电信网络的支撑网,同步网的安全性和可靠性不言而喻。因此,设计和建设方面对节点设备的保障考虑尤其周全。这一方面说明了其具有较高的生存力,另一方面却总因不出“问题”而疏忽了对它在理论和维护上的研究。实际上,目前同步网络存在的隐患不少,主要体现在网络结构的不合理方面。现在又将面临着SDH设备即将逐步退网时期,网络的局部改动可能会造成全网同步架构发生变更,使原有不合理的组网暴露,进而对尚未退网设备上的承载业务造成影响。如何避免此类问题?必须了解出现同步问题时网络呈现出来的各种现象和相关机理,才能做到心中有数。
20世纪80年代,程控交换机的规模应用使通信网第一次有了“网同步”的概念:边缘交换机通过2 048 kb/s通道跟踪上级交换机的时钟,组成由中心交换机向边缘交换机辐射的层级结构的同步网。这个2 048 kb/s通道是传输专业的PDH(准同步数字体系)通道,但此“网同步”并非本文所提的专用同步网。在通信专业教科书中,同步的定义是指两个或多个信号之间在频率或相位上保持某种严格的特定关系。同步网伴随SDH同步发展而来,20世纪90年代中开始大规模建设。SDH即“同步数字体系”,是SDH对同步要求更趋严格带来的结果。
一般而言,通信的同步方式有三种。
点同步。任何数字通信系统发送端和接收端都必须同步工作。一般为接收端在接收信号中提取定时信号,产生一个与发送端时钟同步的本地时钟来对接收信号脉冲序列进行判决,以正确接收信号,完成通信过程。因此,点同步又称“接收同步”或“主从同步”。
线同步。低速率信号复用成高速率信号时,必须将互不同步的独立信号变换成唯一的、单一速率的线路信号,又称为“复用同步”。例如,PDH复用器(DWDM中的T-MAX可以做到子速率透传,不属于这里的复用)。
网同步。程控交换机使用后,要求交换机之间的2M数字中继线互连构成交换网。同时,为保证有效交换,要求各交换点的节点时钟同步。此外,还规范了互同步的从属关系——要求边缘交换机同步于核心交换机,这是网同步。目前,国家同步网架构节点均为BITS(Building Integration Timing System)设备机架,BITS核心部分为高稳定的振荡器。其中,首都国家备用中心为铯(铯133)原子钟+GPS(全球定位系统卫星)接收的外定时信号(一级BITS满足ITU-T G.811),大区或省会、市级中心为铷原子钟结合GPS或无GPS(二级BITS,满足ITU-T G.812),城区或县中心为受控石英晶体钟(三级BITS,满足ITU-T G.812)。
数字信号脉冲在传输链路上受到损伤和衰减时除了引起脉冲变形外,还会在接收端的理想位置(最佳抽样点)上左右“摇摆”。当摆动频率大于10 Hz时称“抖动”;当小于10 Hz时称“漂移”。其中,单位可以是相位单位(UI,即脉冲宽度,随速率而变),也可以是时间单位s。
一般而言,同步时钟信号传送网全程存在以下多个损伤因素:
标准同步源本身存在相位噪声和漂移。例如,“高稳定”时钟源都配有高性能的恒温控制电路来减少温漂影响;测试用的便携式铯钟源需要预热24小时以上,方可作为标准参考时钟源。使用时,还必须全程记录环境温度的变化曲线加以参照,以避免测量误差等。
传输路径中与温度相关的传输时延变化。它们导致缓慢的、经常周期性的相位波动(通常称为漂移)。其中,网元同步振荡器的温度漂移和光纤折射率随温度变化的漂移强度最大。后者因为折射率变化,会导致信号相位变化,因为在光纤中光信号相位 与折射率 有函数关系,而 又受温度影响。
本地多个PRC(Primary Reference Clock)的运用、不合理连接或跟踪配置等,会导致设备网元无所适从。
国家与国家之间,国内不同运营商之间会形成独立的“同步岛”效应,因此岛与岛之间的接口信号也存在不同步问题。不同的GPS接收域,也可以看成不同的同步岛。
这些损伤显然难以避免。为了避免长链路传输使同步时钟信号在送达目的后变为不可用,ITU-T G.803对此进行了规范。显然,漂移具有较长期指向性特点,可以用股票交易术语。抖动是随机的“小幅震荡”,漂移则是用顽固的“长期看衰”来比喻。
同步链上的所有设备(网元)在通信过程中依不同地位遵循以下5种工作方式,以保证定时信号的送达。这5种工作方式包括外同步接入同步方式(源)、通过定时方式(再生中继站)、线路定时方式(OTM/ADM)、环回定时方式(保护时)、内部定时方式(故障状态下至少保持48小时以上时钟信号符合标准ITU-T G.803)。除源外的各网元线路,接收接口均有PLL(Phase-Locked Loop)提取同步定时信号来同步网元自身的晶体振荡器,并向网元内各工作机盘分发工作定时信号。注意,这5种工作方式是同步信号均不通过网元的净负荷管理器(SDH网元交叉矩阵模块)完成的,即5种工作方式仅与线路或支路接口/外同步接口/PLL/内部晶体振荡器/内部数据总线有关。
前面说到,同步网是为SDH诞生而诞生的,因为SDH对同步要求更严格。比较PDH中准同步2M信号与同步2M信号对频偏要求,前者是2 048 kb/s±50 ppm,后者是2 048 kb/s±4.6 ppm。直观地讲,即对于2 048 kHz信号,前者允许偏差≤±102.4 Hz,后者仅允许偏差≤±9.2 Hz。可见,两者存在一个数量级的差异。
SDH得到大规模发展,是因为其较PDH具有巨大优势。其中,各种优点离不开丰富的开销,以保证这些工作字节严格正确的解读,即必须“对仗工整”以严格同步解读。然而,同步时钟信号“不能走SDH”,这已是大家的共识,且众所周知是由于SDH中有指针调整机制。2010年版《固定网络设备分册》同步网设备篇第二章第一节第4条规定:“同步定时链路传送定时信号的方式可分为三种:PDH专线、PDH业务码流及SDH线路码流(即STM-N)。”也就是说,系统不是不能经SDH传输,而是不能经SDH净负荷管理器处理后再传输,只能通过线路编码使同步定时信息携带传送。
为深入解析,先了解SDH与PDH在接收端口各自应对频偏的相同点和不同点,如表1所示。
表1 PDH接口与SDH接口(净负荷)的一些差异
从表1可以看出,不同步时的抑制机制有:采用滑动存储器、加入填充比特和指针调整。前两种组合为PDH接口,而SDH接口为异步映射(国内采用),滑动缓存机制不使用。不使用带来的好处是对映射入的2 048 kb/s信号无严格帧结构要求,只需满足偏差≤±102 bit/s要求,即可通过码速调整和加入低阶开销及指针而达到快速变换为VC-12的要求。缺点是交换侧不能直接在C-12信号中提取或插入64 kb/s信号。使用的好处是可以吸纳部分输入抖动和漂移,当然也带来了输出时延和滑动损伤。对于填充比特机制的区别,则只在于PDH只能正调整(填充),而SDH可以正调整也可以负调整。当输入信号的抖动和漂移超过容限时,PDH接口的滑动缓存器将产生溢出和下溢,这样漂移损伤就转变为滑动损伤,即每次滑动丢弃或重复一帧,从而给PDH帧带来一个字节(8 bit)的差错。若以接口为SDH的线路STM-1帧为例(这是大多数的情况),则会带来每次3个字节(24 bit)的调整。每次调整会使2M信号在净负荷位置发生更大突变。另外,高阶信号指针调整还会连带其下低阶信号指针调整的连锁反应。这是SDH不能传同步定时信号的原因——带来同步信号大幅度的相位突变。
另外,PPL内的晶体振荡器由于有一定的Q值(品质因素:振荡器参数之一,品质因素高则振荡器输出频率精度高,但跟踪/锁定能力差;反之,相反),可以吸纳一定快速抖动,这是时钟定时链路可以在PDH业务码流中传递的因由(其原理是通过高阻提取HDB3编码规律进行)。目前,大多数边缘交换机都采用此种机制。因为晶体振荡器振荡频率不会随外部控制信号突变而突变(信号分析理论中压控振荡器的控制电压是其输入信号的积分,即它是一个连续函数,不会随输入的跳变信号而突变),所以PLL可理解为是具有一定“惰性”的元器件。因此,信号的高频抖动几乎不积累,而低频抖动和漂移一般都会积累。
同样,由于滑动缓存和Q值因子的影响,使PLL内的晶体振荡器对漂移(抖动速率≤10 Hz)在判决点上具有一定的跟踪能力——判决点会“被迫”跟着漂移,这是漂移容限远大于抖动容限的原因。但是,一旦超过1.5UI的漂移最低门限,一次调整带来的抖动传递使后续抖动输出可能突破0.5UI的容限,因而造成后面网元会连续多次指针调整。因此,有“漂移对同步信号损伤大于抖动带来的损伤”的说法。此外,还有更有力支持该说法的理论,如既然漂移是小于10 Hz的抖动,对于SDH帧长125 µs信号而言,每秒变化10次以下的漂移在时间周期上是一个相当长的过程,即在这一时间段内已包含了多个125 µs帧,需有多次指针调整发生才能弥补。SDH指针调整机理:调一帧,等三帧,即平均4帧调一次,且按每4帧周期后漂移强度均突破调整指标门限和最快速的10 Hz漂移计算。STM-1信号每秒最少需有 次调整,式中分母10代表漂移频率。显然,漂移频率越低,指针调整次数越多。通过Matlab 7.0软件分析信号频谱得知,指针调整带来的相位突变具有使信号低频分量幅度增大的影响,这些都是难以弥补的损伤(信号能量发生频谱转移)。
下面以实际案例为基础,说明当前同步网存在的一些问题。
(一)案例1
本地一些数据DDN电路大约每周一次出现大面积“闪断”,查相关电路路径无规律可寻。由于本地有一新建枢纽局BITS启用时间不长,分析原因是本地存在两个中心BITS引起的。老BITS建设在前且无GPS天线,以省中心BITS作为同步跟踪信号,且传输链路不支持SSM。数据局早期设备(DPN100)均采用其提供的同步信号。新BITS建设在后,以GPS接收作为跟踪信号,但其伴随建设的一级干线是新开通不久的数据跨省电路的通道。对于传输而言,电路却是同步于新BITS的,这样等同于数据设备跟踪了多个同步源。将老BITS第一跟踪源修改为跟踪新BITS后,故障现象消失。
(二)案例2
相关部门反映:一段时间以来,一些大用户电路“时好时坏”。本地传输查看发现,受影响用户群地域分散;长途传输查电路,发现有来自本地的单向AIS告警,因此未怀疑自身存在问题,导致故障处理进入盲区。后经深入会诊,发现电路均由长途和本地之间楼层中继电缆承载,而长途上游又与某个网元有关,但该网元上开放的电路远不止这些。再查看网元的同步质量等级,发现其已降到最低(Current_ ql=0)。它已指向内部时钟(最后一个语句),即已进入自由振荡状态。重新将其跟踪配置修改指向线路后,业务反馈恢复正常。事后分析该设备不支持SSM(同步状态信息)功能,因其他故障倒换电路后(155M线路倒换),该网元同步源丢失。显然,维护人员也被未申告的用户和单向AIS告警所迷惑。
(三)案例3
大客户响应反映本地至某国外大用户电路频繁“不好”,导致该国用户意见很大。但是,各自国内电路环回测试后,都称自身电路没有问题。该国电信部门通过集团大用户与我方建立三方通话,以探讨处理此故障。我方了解情况后,告知这是一个典型的同步岛问题。于是,向其说明其中缘由后,与对方达成共识,在相关电路国际接口修改配置,将其变为伪同步方式(去映射再同步)后,问题得到解决。
(四)案例4
全程涉及两个专业:交换和传输。交换反映:“C局业务接口近期出现大量滑码告警,估计同步出了问题,C局设定通过2 Mb/s电路同步跟踪A局,且外部两个跟踪的同步源均不好,请传输处理。”传输答复:“电路环测均未发现问题,待查中。”
实际查看C局的外同步源和电路,其均经过该局的Metro2500+网元,且同步源通过SDH净负荷传输。显然,传输网与交换网实际上采用了不同的同步源,交换局C日常跟踪的实际上是传输的同步源PRC-B。当PRC-B因某些原因与PRC-A有误差且同步信号通过SDH净负荷传输时,这两个原因会互相作用而加剧这个故障表象。事后发现,C局Metro2500+的STM-N接口有大量历史指针调整事件。传输在处理此故障过程中用仪是无法查出问题——仪表内部时钟精度无法对PRC的微小差异进行测量,且环测方法对同步问题无效。
(五)案例5
本地PHS(小灵通)业务大面积不明原因中断,在参加故障分析会时,了解到该电路均承载于特定设备上。会后,笔者提交了故障原因报告和改进措施。究其原因,在于该厂家设备所组的五个SDH环的同步时钟严重不合理,如图6所示,主时钟和备用时钟不在一个环上,主用BITS接在R8环上,备用BITS接R9环上。当主时钟接入的环R8发生开环故障时,备用时钟不能发挥作用,且其他环与主环R8的DCC通道也不能互通。经一段时间后(48小时以上),故障环网元时钟进入自由振荡状态,同步指标劣化导致全部承载电路出现间歇中断,历时较长。
(六)相关问题总结
从以上典型故障可以察觉网络存在以下问题。
问题1:网络设计者对时钟同步网的拓扑结构是否合理随意性很高,不严谨。建设新网络或扩展网络时,本地设计文件缺乏深入而准确的描述和剖析。这个剖析不但要指明规划网络的各种设备的同步时钟拓扑,还要逐个对出现故障和保护倒换时的情况进行研究,要求网络即使处于保护倒换的情况时,全网定时信号也不能出现问题。
问题2:新网络建设时必须考虑与老网络的同步信号无缝对接。
问题3:对问题的严重性重视不足,表现在:许多用于定时信息传送的电路,仍然经SDH净负荷传输,且这样的问题至今还在不断重复;多次故障后,基层反映的问题未引起重视;一些维护人员未注意故障与同步有关的各种现象,导致自查时间过长、信息不通、理解不透,影响面积大;对关键部位设备的更新不积极,存在诸多隐患;有时同步问题引起的故障时间长会“消失”,促使维护人员进一步产生麻痹心理。
问题4:核心链路的PDH网络老化严重,存在故障隐患。因此,这部分设备应该明确服役年限,以严格杜绝设备超期服役。
问题5:交换部门大量使用SDH 2M通道作为同步定时链路,应予立即改为PDH或SDH的STM-N线路信号,或者SDH网元的外同步接口。
问题6:BITS资源的使用审核不细致。
定时故障具有影响面大、隐蔽性强、查找难度大、周期长的特点,且绝大部分基层维护单位没有相关的诊断仪表可用。鉴于此,给出如下建议:
提高对同步网的重视程度,从建设和维护两个环节确保同步网的合理布局与使用。
同步支撑网是传输专业维护的网络,传输专业维护人员迫切需要提高技术水平。
定时同步链路优先考虑PDH通道,其次考虑携带业务的PDH通道,再次之是STM-N线路码提取方式。使用SDH外同步接口的缺点是一般一个网元仅有一个输出接口,且必须考虑保护倒换后的时钟信号环回问题,还要要求该型设备支持SSM传递,不支持的不能使用。
及时整改同一网络链上有多个同步源的问题。错误典型是:网元建设时设定跟踪一个同步源,但后期网元上开放电路时又指定该电路跟踪一个上级同步源。
当SDH网络本身的定时与其需要承载定时链路发生冲突时,必须优先考虑承载的定时链路。
坚持开通新的定时电路的路由审核和开通测试(网管上进行)。
同步网是至上而下,跨专业、跨部门、跨区域的支撑网,需要得到有关部门的支持和资源信息共享,从而做到建设、规划、维护的完美统一。
必须梳理全部同步网的资源,检查核心网元的同步配置情况,排除不合理的定时链路路由和各种保护机制可能带来的问题,同时建立完善的同步网共享资源库。
故障抢修时,临时调度电路路由和故障时的保护倒换后要密切关注同步链路的改向问题,避免时钟信号环回和路由不合理事件发生,如发现冲突时必须立即处理或修正。
全部同步链路必须是放射状结构(单向树型网)。
建立一个电子平台,共享维护经验和互通故障信息。
杜绝BITS私接和乱接问题。
对于网络合并或拆分等事宜,需考虑两网的再同步问题。
许多非传输业务人员对同步网的传输机制不了解,普遍认为自己的同步体系已自成一体,认为传输信道既然对用户是“透明”的,那么可以视为传输环节已经“隐身”。实际上,大多数情况下,它们只要依托于传输网,这种上下级的同步关系就已被割裂。这种割裂往往是隐含的,业务开通时或一段时间内只要指标在合格范围内就不会被察觉,因此带来安全隐患。城域网是同步问题的“重灾区”,因为其网络变动频繁。尤其当前SDH向IP化转变,将面临SDH退网问题。在这个过程中,它打乱了原有同步网络链路架构,会给未退网的设备带来问题。鉴于此,下一步同步网的研究方向应是同步信号如何与城域IPRAN和DWDM结合,以实现频率/相位-时钟/时间的传输链路问题。
作者单位:中国联合网络通信有限公司大连分公司