5G-R 接入网基站单元设备组网可靠性分析

2023-11-21 10:00鞠昊哲王东明王海龙陈建平
铁道通信信号 2023年11期
关键词:蒙特卡洛系统可靠性基站

鞠昊哲,王东明,胡 静,刘 瑜,王海龙,陈建平

随着铁路通信系统对业务量、通信质量和安全性需求的日益增加,传统的GSM-R 通信系统已无法完全满足高铁业务场景,对于5G-R 专网(5GR)部署的期望越来越迫切。基于铁路通信场景对安全性、可靠性、容灾能力的特定要求,接入网基站系统的可靠性设计成为重中之重。铁路通信系统的基站设备采用冗余部署,组网冗余覆盖[1]。一般射频拉远单元(RRU)在与基带处理单元(BBU)连接时,采用环型组网冗余部署方式,以提高其可靠性,但在5G-R 新提出的集中式单元(CU)与分布式单元(DU)分离部署的场景下,就需对系统可靠性设计提出更高的要求[2]。

目前,针对5G-R 通信系统可靠性的研究多为设计方案探讨,缺少定量分析计算。而对GSM-R 系统的可靠性分析,常采用系统模型的静态分析、故障树分析、马尔可夫分析等方法[3-5]。虽然这些方法对5G-R 基站的可靠性定量研究具有借鉴意义,但是系统模型的静态分析不适于可维修的动态场景。而传统的动态故障树分析、马尔科夫分析在故障切换复杂、链路众多的场景中,又存在模型建立困难和公式推导繁琐等问题。为此本文在采用传统可靠性分析方法的基础上,将适用于大规模复杂系统可靠性分析的蒙特卡洛仿真法,应用在基站组网系统的可靠性分析中[6],将其与传统可靠性分析方法进行对比研究,并分析组网系统的薄弱环节,为优化组网方案提供理论依据。

1 5G-R 接入网基站单元设备组网模型建立

5G-R 接入网基站单元设备主要以分布式组网[7],包括BBU和RRU。RRU部分可采用星型或环型连接,由于环型连接的可靠性更高,因此本文考虑建立环型连接的组网模型。根据不同的硬件设备,1 台BBU 可以级联多台RRU。为简化计算,在不影响分析效果的前提下,每台BBU 设备仅级联2 台RRU 设备。在5G-R 系统中,可用分离的CU 和DU 设备代替BBU 设备,以下将分别建立2种基站组网模型[8-9]。

1.1 BBU/RRU模型

BBU 设备包含基带单元、主控单元以及背板等。其中,背板用于完成单板间通信和电源供给。5G 基站供应商可实现BBU 内部关键板件的冗余部署,1 个BBU 背板可以插入多个基带单元和主控单元。一种典型的分布式基站部署简化模型见图1。

图1 典型分布式基站简化模型

1.2 CU/DU/RRU模型

为实现5G-R 基站的统一管理和铁路沿线基站设备的灵活部署,提出CU、DU 分离部署方式。先将DU 部署在铁路沿线,再由部署在车站的CU统一调度。CU 和DU 分离部署方式具有以下3 个优点:①有利于实现基带资源的共享;②将实时性要求高的部分交给DU 分布部署,而实时性要求低的部分交给CU,CU 直接与核心网相连,有利于实现云化和切片服务;③部署更加灵活。

目前的大多数5G 基站只是将CU、DU 做逻辑划分,后续部分应用场景下的部署趋势是CU、DU 物理分离,这就对可靠性提出了更高的要求。为此CU 和DU 之间拟采用交叉连接方式进行部署,部署模型见图2。

图2 CU、DU分离部署模型

主备CU、DU 之间都具备建立F1 连接的能力,CU 之间和DU 之间建立心跳连接,可以实时监测链路状态。启动时,主备CU、DU 均上电,建立流控制传输协议,但只有主CU、DU 之间建立F1 连接,一旦主用设备故障,备用设备立即接入,重新建立F1 连接。这是一种交叉连接热备的设计方案。

2 可靠性分析方法

2.1 可靠性参数定义

可靠性也称作可靠度,其定义为设备或系统在规定条件下和规定时间内完成规定功能的能力,常用R(t)来表示产品寿命大于规定时间的概率,即

式中:t为规定时间,T为产品寿命。工程上,电子产品的寿命常服从指数分布,具有无记忆的特点,元件2次故障之间不存在联系。其表达式为

式中:λ为失效率,指未失效的某产品经过该时刻后,单位时间内失效的概率,在可靠性动态分析中,常表示为

式中:MTBF为平均故障间隔时间,是系统发生多次可修复的故障,在每次修复后正常运行的平均时间。

对于动态系统,还需要考虑系统的修复率μ,其定义为失效的某产品经过该时刻后,单位时间内修复的概率。在可靠性动态分析中常表示为

式中:MTTR为平均故障修复时间,是系统从发生故障到完成修复的平均时间。

在故障树分析中,引入稳态有效度A,其定义为系统到达稳定状态后,处在工作状态的概率。某一时刻的有效度A(t),则指系统在某一时刻处于工作状态的概率,即

引入故障频度M,其定义为运行时间t内,系统故障次数除以总运行时间t。在故障树分析中,常用稳态有效度A和故障频度M来计算系统的MTTR和MTBF。

2.2 系统模型的静态分析

静态分析系统的可靠性时,元件(设备)常被建立为逻辑上的串联或并联结构。对于一个串联系统,其可靠性参数可表示为

式中:RC为整个串联结构的可靠度;Ri为串联结构中第i个元件的可靠度。同理,可以得到一个并联系统的可靠度RB为

系统可靠性的静态分析是一种简单直观的可靠性研究方法,但存在着无法反映系统动态变化的缺点。

2.3 动态故障树与马尔可夫分析

动态故障树分析是使用最广泛的用于分析动态可维修冗余系统可靠性的研究方法。其中,系统的失效、修复、冗余等动态特性采用马尔可夫分析方法计算[5]。

故障树由逻辑门和事件组成,常用的逻辑门有与门、或门、热备门等。故障树常用逻辑门符号及其状态转移图见表1。

表1 故障树常用逻辑门符号及其状态转移图

以热备门为例,分析其马尔可夫状态转移过程。初始0 状态表示系统无故障运行;主备2 个元件中任意1 个元件失效则转移到1 状态(降级状态),系统仍然能够正常运行,转移概率为2 个元件的失效率之和;当2 个元件均失效,则系统进入2状态(故障状态)。

状态转移矩阵Q为

稳态有效度应满足

式中:πi为状态i转移概率,A为稳态有效度。

通过求解稳态有效度A可以求解MTTR和MTBF,将各模块MTBF、MTTR的倒数作为整个模块的失效率和修复率,代入到下一层系统中,以此类推,求解出顶事件的可靠性参数。

动态故障树分析法能够定量分析可维修系统的可靠性参数,但仍旧只能处理简单的故障逻辑,不适用于故障点叠加和设备切换复杂的场景。

2.4 蒙特卡洛仿真法

蒙特卡洛仿真法又称为概率模拟方法,或随机抽样统计试验方法,是一种基于随机试验的模拟方法。它以大数定理为理论基础,以随机数为基本工具[6]。蒙特卡洛算法可以有效解决交叉连接的CU、DU 冗余模块的故障仿真,借助计算机可以快速统计系统的可靠性参数,定位系统中的薄弱环节,以及影响系统可靠性的关键设备,计算出基本事件的重要度,为基站系统的故障分析提供有力支持。

蒙特卡洛仿真法的基本步骤是:先建立合理的概率模型,通过开展数值化的随机试验得到抽样值;然后统计试验的故障次数,将结果作为工程中可靠性问题的解。生成随机数是蒙特卡洛方法中的一个关键部分,随机数满足的分布不同,会很大程度上影响结果的准确性。本文中采用常见的指数方法生成随机时间步长。

3 基站组网系统的可靠性建模与仿真

根据国铁集团发布的《铁路5G 专用移动通信(5G-R)系统总体技术要求》[10],并参考典型设备的相关数据,所配置的失效率参数见表2。

表2 基站设备的失效率参数

《技术要求》规定:基站系统的MTTR应不大于1 h。为方便计算,系统中元件修复率均设置为1。鉴于背板作为BBU中的一部分,其可靠性参数没有明确数据,可将其分为理想情况和非理想情况进行讨论。采用Matlab2020环境进行仿真[11]。

3.1 基站组网系统的静态分析与计算

对于BBU/RRU 基站,每组中的2 个RRU 并联,组间串联,BBU 则建模为并联的基带单元、并联的主控单元和背板串联,所建立的混联框图见图3。对于该模型,基带单元和主控单元全部插在背板上,背板的可靠性是影响系统整体可靠性的关键。根据该模型,可以列出求解可靠性参数的计算式

图3 BBU模型混联框图

式中:RRRU为RRU 模块可靠度,RRRU1为单个RRU 可靠度,R主为主控单元的可靠度,R基为基带单元的可靠度,R背板为背板的可靠度,R为系统可靠度。

对于CU、DU 分离模型,RRU 部分相同,而CU、DU 之间的光传输模块交叉连接,见图4。对于一般性的混联网络,不能用串并联公式表示,故采用最小路集法求解其可靠性参数。

图4 CU、DU分离模型混联框图

式中:RCU为CU 可靠度,RDU为DU可靠度,Rt为传输模块的可靠度,RS为CU/DU 模块的可靠度,L1~L4为每条最小路径的可靠度,RRRU为RRU 模块的可靠度。

结合上述2 种模型,分别在理想情况下(背板失效率为0)做出可靠度R随时间变化的曲线对比,见图5(a)。在非理想情况下,当背板和传输模块的可靠性处在同一量级时,可靠度R随时间变化对比,见图5(b)。

图5 CU、DU分离模型与BBU模型的可靠度对比

由此看出,为达到同样的系统可靠性,对背板设备的可靠性要求更高,这也是采用交叉冗余连接CU、DU 分离模型的优势,能够降低对中间连接设备的可靠性要求。

直连CU、DU 分离模型与BBU 模型的可靠度对比见图6。由图6 可以看出,在静态分析中,不考虑修复和热备的动态场景时,当不采用CU、DU 交叉连接时,CU、DU 分离基站的可靠性与BBU 基站相比有较大的差距;当采用交叉连接时,可以大幅度提升系统的可靠性。在相同的单设备可靠性量级下,基站系统整体的可靠性可以超过BBU基站的可靠性。

图6 直连CU、DU分离模型与BBU模型的可靠度对比

3.2 基站组网系统的动态故障树分析

BBU 基站系统故障树模型见图7,基带单元和主控单元均为冗余热备,RRU 部分为环型连接结构。

图7 BBU基站动态故障树模型

CU、DU 分离基站系统的动态故障树模型见图8,CU、DU 冗余热备,CU、DU 之间的光纤传输模块交叉连接。在故障树场景下,认为这是一种四冗余逻辑,即4 条光纤中任一条能正常工作,则整个光纤传输模块处于工作状态。一主三备的四冗余逻辑本质上仍然是热备,可以用马尔可夫方法分析其状态。

图8 CU、DU分离基站动态故障树模型

假设背板不发生故障(失效率为0),计算2种基站系统的平均无故障工作时间(MUT)和平均修复时间(MDT),见表3。在故障树分析中,常用MUT和MDT来近似MTBF和MTTR。

表3 2种基站系统的可靠性参数

分析表3 中数据,BBU 系统的MUT为(10 533 079 130)h,CU、DU 分离系统的MUT为(10 471 642 790) h,两系统的MUT相差仅0.58%。在实际情况(非理想)中,采用传输模块的MTBF更高,而背板失效率不为0,CU、DU分离基站的可靠性不低于BBU 基站的可靠性,验证了采用交叉冗余连接的CU、DU 分离部署的基站系统的可靠性得到大幅度提高。

3.3 蒙特卡洛仿真法与结果分析

动态故障树模型具有较高的可靠性,却难以处理故障叠加的场景。以图9 所示对CU、DU 部分故障点进行分析。

图9 CU、DU部分故障点分析

假设出现了故障1(DU 故障)和故障2(光纤链路)的叠加情况,那么光纤传输链路不再是一主三备逻辑,因为只要故障DU 的2 条对端pairF1(假设DU1 故障,DU2 的2 个F1 即为对端pairF1)都断开,则整个系统故障。这种故障场景已经无法用故障树的逻辑进行建模,故基于CU、DU 冗余模块的软件架构,建立切换逻辑完整的蒙特卡洛模型,其仿真流程见图10。

图10 蒙特卡洛仿真流程

初始参数中包括试验次数N、试验时长T、初始的MTTR和MTBF。本例中的随机数生成服从指数分布,试验次数N是一个经验值,需要进行合理的选择。如果选择的次数过少,则仿真结果的准确性降低;如果次数过多,则计算量会大幅度增加。根据故障树分析中计算得出的数值,滑动步长以1 h 为单位长度,则至少需要令N>1010,T>1010h。受限于计算资源,可通过增加滑动步长的单位时间来获得理想曲线。

蒙特卡洛与马尔可夫方法稳态有效度对比见图11。可以看出,在失效率为0.2时,蒙特卡洛方法获得的稳态有效度随时间变化曲线,同动态故障树方法相比有小幅度下降,约降低0.02。这是由于在故障叠加的场景下导致可靠性降低,验证了这种基于随机试验的仿真方法具有更高的准确性和真实性,且随着试验次数N的增加,其振荡的幅度也会越来越小,逐渐接近理想光滑曲线。相较于故障树方法,该方法可以直观获得可靠性随时间变化曲线,而故障树方法只能得到近似的稳态有效度曲线。随着事件层数增加,故障树曲线误差将越来越大,而蒙特卡洛仿真所得到的曲线则不会出现误差增大的问题[12-13]。

图11 蒙特卡洛与马尔可夫方法稳态有效度对比

图12 和图13 仿真了光纤传输模块的MTTR、MTBF变化对该系统可靠性曲线的影响。光纤传输模块的MTBF增加会使系统可靠性增强,但随着其MTBF增加,系统可靠性的提高会逐渐达到极限。这是因为交叉冗余的连接方式使光纤传输模块部分的可靠性得到了大幅度提高,而光纤传输模块的可靠性远高于CU、DU 设备部分,但受限于CU、DU 设备,系统可靠性不再随着光纤传输模块可靠性的提高而提高。这也说明,此时系统的可靠性取决于CU、DU 设备的可靠性。由图13 可知,系统的可靠性也会随着MTTR的增加而减小,因此,基站设备要求MTTR不大于1 h。

图12 MTBF变化对系统可靠性的影响

图13 MTTR变化对系统可靠性的影响

4 结论与展望

采用3 种方法对比分析,了2 种不同5G-R 接入网基站系统的可靠性指标。

1)通过采用系统静态分析初步得到可靠性随时间变化的曲线,在不考虑可维修动态场景的情况下,比较了CU、DU 分离组网和BBU 组网的系统可靠性。

2)通过采用动态故障树方法,进一步求得可维修动态系统的可靠性参数,结果更加符合实际,验证了CU、DU 分离组网的可靠性和优越性。在基站部署时可以根据不同应用场景进行选择。

3)通过对比蒙特卡洛仿真法与动态故障树分析法,验证试验参数和试验方法的准确性和可行性。通过建立完整的故障切换逻辑模型,验证了交叉冗余连接方式对于提高系统可靠性的有效性,分析了单元设备MTTR、MTBF变化对系统可靠性的影响。采用交叉冗余连接后,系统可靠性主要取决于CU、DU 设备本身,而传输单元的失效率变化对系统可靠性的影响较小,从而验证了此时系统的薄弱环节是基站设备本身的可靠性参数。

本文只考虑了主备CU、DU 同站址场景,拟在未来研究中,建立异站址冗余部署场景下的可靠性分析模型,进行更全面的可靠性分析[14]。

猜你喜欢
蒙特卡洛系统可靠性基站
征服蒙特卡洛赛道
试析提高配网系统可靠性的技术措施
电气化铁路牵引系统可靠性分析
可恶的“伪基站”
利用控制变量方法缩减蒙特卡洛方差
基于GSM基站ID的高速公路路径识别系统
蒙特卡洛模拟法计算电动汽车充电负荷
基于故障树模型的光伏跟踪系统可靠性分析
基于蒙特卡洛的非线性约束条件下的优化算法研究
小基站助力“提速降费”