李保东,董思腾
(北京卫星导航中心,北京 100094)
单点现象对卫星地面站的影响分析
李保东,董思腾
(北京卫星导航中心,北京 100094)
本文结合卫星地面站组成及运行原理,分析了主要分系统拓扑结构之间、主用备用设备之间,在设备集成、供配电保障、信号驱动、数据链等方面存在的单点现象,给出了热备、多路、轮询、镜像等解决单点现象的方法措施,为在现有设计基础上优化卫星站性能提升系统稳定运行的可靠性,以及下一步卫星地面站可靠性设计提供了一定的借鉴作用。
单点现象;轮询运行;镜像运行;单体运行
卫星地面站在卫星应用系统中主要承担实时监测、接收和提供原始观测数据任务,其布设范围、分布数量及不间断稳定运行,对大系统效能发挥起到了至关重要的作用。所以,卫星地面站可靠性直接影响了卫星系统是否能够发挥应有的效能。然而,由于受到系统冗余设计、设备组成等客观影响,卫星地面站在分系统之间、链路之间、设备之间,不可避免的会存在着一定的单点现象,这些单点一旦中断,势必会导致部分功能指标退化、部分集群设备瘫痪。这些影响卫星地面站可靠性的单点现象,如果要彻底解决必然需要更加庞大复杂的系统来保障,甚至会出现更多的单点现象,这是不现实的,所以从宏观意义上来讲单点现象是不可避免,但可以通过一定的可靠性设计和运行管理手段降低单点现象带来的影响。
本文结合卫星地面站运行实际,分析了系统结构之间、主用备用设备之间存在的部分单点现象,通过对不同程度存在主备同套、主备同源、主备同出、主备同电等现象描述,提供了部分解决的方法措施,并简要提出了下一步重点工作建议。
对于复杂的卫星应用工程,卫星地面站实际应用中的单点现象是不可完全避免的,只能从可靠性的角度进行优化,但仍然在一定程度上客观存在。
2.1 拓扑结构中的单点现象
2.1.1 星形结构
表现为多系统、多设备、多链路共用一个关键节点。如图1所示,远端站可与中心进行数据通信,远端站之间不能进行通信,多个远端站与主站构成典型的星形网络结构。如图2所示,多个分系统或设备通过核心交换机构成星形链路结构。结构中的中心站、核心交换机如果存在单路由接入或单设备交互,即备用路由源头仍为同一路由或备用设备状态不一致,形成星形结构中的单点现象。
图1 中心站与远端站的星形连接
图2 多系统多设备间的星形连接
2.1.2 桥式结构
表现为某设备作为两个系统或设备之间的桥梁节点。如图3所示,桥设备作为两个分系统之间的数据交换或处理设备,虽然由两条或两条以上的交互链路,但此设备作为惟一设备,形成桥式结构中的单点现象。
图3 多系统多设备间的桥形连接
2.1.3 关口结构
表现为数据交互的唯一接口。如图4所示,远端数据通过设备提供的单接口接入并与各系统/设备交互,接口无冗余或设置信息不能完全一致,形成单接口的单点现象。
图4 多系统多设备间的关口连接
2.2 组成结构中的单点现象
2.2.1 硬件组成
突出表现为以下单路由链路、单设备运行等现象。
只有一条路由:专用数据传输链路只有一条,分系统/设备关键信息路由只有一条,链路故障易引发相应系统数据交互中断,关键信息突变易引发分系统/设备运行状态失效。
只有一套在线:备份设备实际处于加电离线状态,或无备份链路接入系统实际处于离线状态,遇有紧急情况,只能临时转接线路启用,可能会造成一定时长数据中断,并没有起到热备份作用。
备份设备长期离线状态难以保持:备份设备由于不在线或开机未接入,由于系统状态固化其相关配置及性能难以定期检测和维护,如需启用,不能确保状态正常。
2.2.2 软件组成
突出表现在管理控制系统或中心处理软件负责处理该分系统或某项业务,虽然有备份服务器备份系统/软件运行,但在使用策略上存在优选主用系统或软件,在某些节点异常时不能选用备用系统/软件进行处理,客观上造成一定的单点现象。
2.3 单体设备中的单点现象
单体设备存在不同程度的下列现象。
(1)主备同套现象:主用设备和备用设备集成配置在一个机箱。
(2)主备同电现象:主用设备和备用设备共用一套电源系统或模块。
(3)主备同源现象:主用设备和备用设备共用一个信号源/数据源。
(4)主备同出现象:主用设备和备用设备输出一个数据流。
以上情况虽然主备在线互为热备,实际维护中设备一旦需要检测,须整设备停机或下线,造成该设备功能缺失,形成实际运行中的单点现象。
卫星地面站通常采取高可靠设计、高冗余备份、高余量参数等,解决其链路中的单点问题,基本原则是单个分系统失效、部分设备故障、冗余数据退化时,由于客观上存在多系统服务、备份设备在线切换、数据参数冗余,一般不会影响系统正常运行和功能的实现。解决单点现象的关键是节点之间连接与动作的迁移,设备/数据相连的链接与设备/数据本身及其它相连节点之间的动作或者行为,需要在发生宕机时或无效时及时迁移到有效地正常节点上。
3.1 热备运行
方法:主用设备在设为主节点的节点逾越边界后,由设为副节点的备用设备接替,当备用设备完成一系列操作后,还要选择一个新的节点作为新的副节点,用以主用设备的新切换节点。
(1)准确设定边界节点:此节点可以由参数阈值或失效时刻等组成。
(2)准确设置节点触发机制:当系统/设备检测到边界节点后,能够立即触发启用备用设备实现“无缝”切换。
(3)准确进行一致性验证:设定节点对主备设备状态进行同步,如果在节点范围内没有收到某个状态的同步信息,就认为此验证失效,系统/设备启动数据恢复操作,或告警人工进行状态一致性设置。
3.2 多路运行
方法:对输入数据源或输出数据流,尽可能实现双路或多路并行运行,从物理层确保互为备份。
(1)准确设置接口文件:确保数据表达的一致性。
(2)准确设置并行方式:对主用链路与备用链路之间的关系映射,进行定期切换或检测。
(3)准确设置使用策略:按照优先级使用对应链路,对电源、频标信号、数据信息等不同性质链路配置相应切换器,依据策略启用自动/手动切换。
3.3 轮询运行
方法:对主备系统、主备设备、双路/多路链路、星形链路等进行节点轮询管理、握手管理,按照数据可用性或负载均衡原则,设置基础数据副本量值并达到主副节点数据负载一致。
(1)准确设置轮询/握手节点:确保原始数据在不同系统/设备/链路的完整程度。
(2)准确设置基础数据副本量值:根据原始数据的重要程度,确定数据包量值、个数、位置等。
(3)准确设置轮询/握手策略:对主备系统、主备设备、双路/多路链路、星形链路等,按主备节点进行轮询或握手,直到对应数据包达到系统/设备/链路指定值,并即时送达指定位置。
3.4 镜像运行
方法:对于单链路或单节点,设置热备份节点,在该节点确定合理镜像周期,对数据信息、状态信息进行覆盖性或合并性镜像,以镜像日志等形式进行存储。
(1)准确设置镜像节点:此节点要保证恢复信息不丢失及对于系统/链路/设备的可用性。
(2)准确设置镜像信息:尤其是包括位置、时间等空间信息。
(3)准确设置镜像恢复策略:当在下一节点(或失效节点)失效或宕机时,启用镜像信息恢复系统/链路/设备状态。
3.5 单体运行
方法:对核心设备进行分体式设计、分布式使用,构建多交叉节点并行运行的系统状态。
(1)准确进行研制设备集成:主备设备进行分体式设计和研制,确保电源模块、信号接入、数据输出等方面绝对独立;不同厂家、不同时期研制的同类设备在设备主要结构、外部接口、操作系统等方面的表现形式要一致。
(2)准确进行成品设备采购:对同型替代/换代产品要进行通用选型或标准化选型。
(3)准确进行交叉节点设置:确保符合在线热备需求。
卫星地面站中的单点现象暴露出解决隐患与实际在线系统的矛盾,即单点现象可以部分解决或减弱,实际不可完全避免而客观存在,解决了一个单点现象势必会引发下一个单点现象或出现下一个单点现象,追溯极限乃至一个分系统或者大系统就是一个单点现象。根据卫星地面站实际运行中存在的单点现象,可以从顶层设计进一步优化提升系统性能,具体包括以下几方面。
(1)提升自我复制能力。系统/链路/设备按照预期节点进行原始基础数据的复制、存储,以达到期望的状态一致性。
(2)提升自我发现能力。节点失效后系统/设备/链路能够即时发现,并即时触发下一步行动。
(3)提升自我迁移能力。解决单点问题基本方法是增加系统/链路/设备的迁移能力,即当主节点失效时迁移到相应副节点上继续保持良好运行状态,同时会产生新的副节点或主节点恢复后又作为新的副节点存在。
(4)提升自我恢复能力。失效节点启用原始基础数据进行自我恢复,从而达到正常运行状态。
综上所述,本文仅对卫星地面站中的单点现象进行了概略分析,针对不同的单点现象提出了方法设想,尚未形成完整的解决方案。下一步工作中,可以从系统自动处理角度,在保证系统稳定性、可靠性并简化复杂性基础上,进一步深化研究解决方案。
[1] 谭述森.卫星导航定位工程.北京:国防工业出版社,2010.07
[2] 秘金钟.GNSS完备性监测理论与应用.北京:测绘出版社,2012.07
[3] 王磊.一种高性能HDFS存储平台的研究与实现[D].西安电子科技大学,2013
[4] 张大洋.基于云存储的分布式文件系统研究与优化[D].西安电子科技大学,2013
[5] 田炽.基于HDFS的高可扩展性云存储的研究与实现[D].华南理工大学,2012
[6] 董昌坤.基于HDFS的分布式云存储系统的设计与实现[D].北京邮电大学,2013
[7] 翟永东.Hadoop分布式文件系统(HDFS)可靠性的研究与优化[D].华中科技大学,2011
Commvault荣膺2017年NetworkWorld Asia大奖
Commvault宣布在近日颁布的2017年Network World Asia信息管理大奖中,Commvault数据管理解决方案荣获“备份和恢复解决方案”类别的信息管理大奖。NWA的信息管理奖于2012年启动,旨在表彰过去几年在信息安全、存储与数据管理领域取得巨大进步的杰出公司。评委组由拥有丰富知识储备的业内资深编辑指导团队与信息管理领域拥有深刻行业洞察的首席信息官评审团队组成。该奖项既是对Commvault在服务客户承诺方面给予的认可,也是对Commvault备份和恢复解决方案的广度与深度的认可。
Analysis on the Influence of Single Point Phenomenon on Satellite Ground Station
Li Baodong, Dong Siteng
(Beijing Satellite Navigation Center, Beijing, 100094)
This paper combines the composition and operation principle of satellite ground station, analyzes the single point phenomenon between the main subsystems, the main equipment and the backup equipment, and the existence of equipment integration, power supply and distribution protection, signal driving and data link. It gives the hot standby, multi-channel, polling, mirroring and other methods to solve a single point phenomenon. It also provides a reference for optimizing the performance of satellite stations on the basis of existing design, improving the reliability of stable operation of the system and the reliability design of satellite ground stations in the future.
Single Point Phenomenon; polling running; mirror running; monomer running
10.3969/J.ISSN.1672-7274.2017.06.004
TN96,TN927+.21文献标示码:A
1672-7274(2017)06-0012-04