摘 要:网絡系统可靠性设计的关键点是测试组网中参数的确定,通过振荡测试法、极端数据流突变测试设计方案,网络系统中断、恢复时间长短测试,以及网络系统正常运行平均无故障时间等策略确定测试环境的关键参数;同时采用双机容错或多机容错技术、网络硬件冗余设计遵循、网络拓扑结构抗毁性测试,流量数据异常监测,数据容灾备份、数据分布式异地云端备份等多种策略以期实现网络系统可靠性的综合设计。
关键词:网络;安全;可靠性;设计
中图分类号:TP393 文献标识码:A
Abstract: The key point of reliability design of the network system is the determination of the parameters in the test network. The key parameters of the test environment can be determined through the Oscillation test method, the abrupt change test of the extreme data flow, the length of the break and recovery time of the network system, and test of the mean time between failures of the network. Meanwhile, the integrated design of network system reliability can be realized through using multiple technologies, such as the two-machine fault-tolerant or multi-machine fault-tolerant technology, the redundancy design of network hardware, test of invulnerability of the network topology, traffic data abnormity monitoring, data disaster recovery backup, and data distributed remote cloud backup, etc. .
Keywords: network; security; reliability; design
1 引言(Introduction)
随着计算机网络技术的快速应用和发展,计算机网络技术的应用已经渗透到各行各业,无论政治、经济还是金融、商业、教育,各个行业越来越高度依赖计算机网络互联[1,2]。计算机网络一旦出现故障,会对各行各业造成重大影响,以及产生巨大的经济损失,甚至影响到国家政治安全。因此,对于计算机网络技术可靠性的要求也越来越高,计算机网络技术可靠性的研究会产生巨大的经济效益和社会效益[3]。
在网络系统设计中,充分保证整网运行的可靠性是基本原则之一。基于网络系统设计的可靠性要求,针对网络系统的平均无故障时间、平均恢复时间等机制进行模拟测试。主要测试网络系统的可维护性,系统发生故障后,能快速定位、解决故障,同时在系统运行过程中实时监控系统的运行状态,各类网络应用系统的网络环境通常需要配备相关的监控服务器,通过实时监控可提前发现异常状态并发出预警信息,提前发现问题减少故障。如设备温度过高、数据流量异常突起、处理器利用率突增等各类异常情况,通过更换或者增加相关网络设备或调整网络逻辑结构来规避可能出现的风险、故障,提前进行预防维护。
2 网络可靠性设计原则 (Design principles for network reliability)
网络结构通常分接入层、汇聚层、核心层。网络层次越高可靠性要求也越高。为保证网络可靠性,可靠性技术的实施要求严密、完整,在设计过程中可靠性的理念和方法不能进行简单叠加和无限制的冗余。否则,会增大网络建设成本以及后期网络系统管理、维护的复杂度,会给网络系统在运行过程中带来潜在的安全风险。因此在对网络系统进行早期规划、设计时,要严格按照国际标准和国家标准对网络类型、网络拓扑结构和网络功能层次进行划分、确定,以此分析为前提来构建网络业务逻辑模型、网络概念模型,并在此基础上确定网络拓扑图,准确找出网络可靠性设计中最重要的关键节点和链路,合理规划、设计、部署多套策略的网络可靠性设计方法和技术。在网络系统发生故障后,能够快速定位故障点,并通过相关应对策略排除故障,并根据系统告警提前发现问题,通过更换设备或调整网络结构来规避可能再次出现的故障[4]。
平均无故障时间MTBF(Mean Time Between Failure)[5]是整个网络系统可靠性的重要参数指标,通常情况网络系统阶段累计工作时间与故障次数的比值为MTBF,用户对MTBF的期望值趋于0。整个网络系统在运行过程中系统环境中各物理设备和软件组件无间断无故障连续运行的平均时长,决定了用户在系统使用时候的体验。
在衡量整个网络系统容错能力中,有一个非常重要的指标:平均恢复时间MTTR(Mean Time to Repair),在网络系统运行过程中各类物理设备和软件组件出现故障时,网络系统从故障状态恢复到可正常运行状态所消耗的平均时间。
网络系统可靠性公式可表示为:
MTBF/(MTBF+MTTR) * 100%
其中,MTBF:平均故障间隔时间;MTTR:系统平均修复时间[3]。
通过系统可靠性公式可看出,MTBF与系统的可靠性成正比,提高MTBF可提高系统可靠性;MTTR与系统成反比,降低网络系统平均修复时间可提高系统在实际运行中的可靠性。造成网络系统运行低可靠性的因素众多,通常主要因素有设备间以及设备本身的链路故障、设备软硬件故障、非法数据溢出、网络拥塞、用户误操作等。针对这些因素采取对应措施,提高网络系统平均故障间隔时间,降低系统平均修复时间,从而提高整个网络系统运行的可靠性以及提升用户舒适体验。
3 网络硬件冗余设计(Redundancy design of network hardware)
网络硬件冗余设计对于网络抗灾备份起着不可忽视的作用,硬件容错的方法之一就是硬件堆积冗余,在物理层面可通过元器件的重复获得一定的可靠性。或选择硬件待命储备冗余。系统提供N+M模块,当前状态只有一块或者某几块处于工作状态,其余M1、M2、M3、M4——MM块一直处于待命状态。一旦工作状态的模块出现问题,立即唤醒待命模块进入运行状态,以此循环,直至所有待命模块资源枯竭,采用此方法可获得较高的稳定性和可靠性。
双机容错或多机容错技术的使用是确保网络系统稳定性的普遍做法,任何单点系统故障不会引起整个系统的瘫痪,系统提供相关工具在应用继续的情况下可修复单点节点故障或者移除以及新增,同时通过系统冗余服务器监管网络系统下所有设备状态和运行状态。冗余设备都在使用,出现警示状态后,及时调整带宽,增大带宽并提高网络系统处理的速度。但在实际应用情况中可能产生数据库服务器无法及时响应用户需求[3],用户对于时间等待的要求就会面临尴尬。如2020年初因疫情防控出现各大网络学习平台的用户数量的极速暴增,导致网络带宽以及服务器的响应延迟,甚至爆崩。为了满足在特定时间节点用户访问数量的激增所产生的访问响应慢,以及系统可能爆崩的可能性,通常建议采用负载均衡服务器,通过多台负载均衡服务器可获得更高的速度,有效平衡数据访问量,也可作为高可靠性的备份系统。
4 网络拓扑结构(Network Topology)
拓扑可靠性并不能完全决定整个通信网络的可靠性,但网络拓扑设计的优劣将直接影响着网络的性能,网络拓扑结构对整体网络可靠性起着重要的作用,也是决定网络可靠性的先天因素。借助自动网络拓扑、手动网络拓扑展现网络拓扑关系,利用网络拓扑结构分析出系统的可靠度。随着网络扩大或接入新设备,网络结构将变得更加复杂,在网络拓扑设计过程中拓扑结构的抗毁性和生存性是衡量有效度的重要指标。破坏整个或部分通信网络的困难程度由网络节点连接所要移除或破坏的最少网络节点或链路数目来决定,由此可见抗毁性完全由网络拓扑结构所决定,是可靠性的一个确定性指标。生存性最显著的变化是引入了网络部件的失效、故障概率,在随机故障或蓄意破坏之下,保持通信网络整体或部分连通的概率,其不仅受网络拓扑结构的影响,同时还依附于网络部件、设备的故障概率、网络维修与管理等因素,因此网络拓扑生存性是广义的拓扑层可靠性。
5 数据容灾备份(Data disaster recovery backup)
数据容灾备份的重要性体现在数据长期有效地保存,以及对历史数据的备份,这些数据长期存储在网络硬盘上,增加了网络存储空间的开销,同时消减了网络存储空间的利用率,降低了数据存取速度,消减了用户感受的舒适度。为了有效利用实时数据信息,通常建议把利用率不高,但偶尔需要调用的数据保存在脱机备份介质上,以防止自然灾害、黑客攻击、人为破坏、非法越权操作等恶意篡改、误操作等造成联机数据丢失。在需要数据调用时采取授权限时访问,以化解风险,把实时访问数据存储在联机网络存储设备上。
同时,为了确保联机存储数据的安全需做好系统防护,确保桌面系统环境下产生的数据到达网络环境再到数据服务器的系列风险的技术管控和反跟踪、反向消除风险降到最低。
在网络数据备份中按数据安全等级采取单项或多种备份策略混合模式进行网络数据安全备份,安全级别较高采用完全备份,随数据安全级别下降可采用增量或者按需备份等多种备份混合方式的数据备份策略。
6 网络可靠性测试方法(Test method of network reliability)
6.1 网络测试内容
网络系统可靠性测试的主要内容是:系统在持续运行不间断的情况下、高负荷、高频率极端数据流振荡下的持久、稳定、安全、精准的运行性能;单点故障情况下系统自动恢复时间。
网络可靠性测试参数的设计是保证测试效果的重点[6],主要测试组网设备参数,实际测试投入中难以搭建对等比例测试运行环境。检验网络系统运行性能高可靠性的核心是:如何抽象和取舍模拟测试网络系统的核心模块。模拟测试网络系统核心模块抽象、简化的基本原则和重点是:整体分析实际运行过程中网络关键节点及系统性能压力瓶颈,并充分暴露其运行过程中的薄弱点,重点保留网络系统压力瓶颈和关键节点以及易发生数据异常的模块。
在组网测试环境中对网络的协议模型和流量模型进行模拟[7],保持环境在大压力并且振荡的条件下持续运行,对于当前复杂的网络环境可在测试过程中增加异常数据和流量峰值,同步监控网络系统整体运行状况和异常情况作为测试结果数据进行反馈。
6.2 網络测试参数
网络系统协议模型可通过用户组网的行业规划设计和行业原型开发模式进行抽象,得出相对精准的网络系统协议模型数据参数[8]。网络系统在规划设计阶段,因无法预先监控网络系统持续数据流量而获取模型参数。因而网络系统重要数据参数不易确定,数据流量模型难以准确界定,各个子模块数据逻辑难以准确划分,成为限制组网方案模拟测试的主要因素。通常采取的措施是依据行业标准,根据行业特性分析,网络系统规划需求,以及借鉴前期开发经验设定具有普遍意义的参数。
而另一种非常规方法可采用预定义参数方式,类似数据结构中的折半查找法,可根据常规设定参数范围,预先估计参数上下(m,n)限,然后对上下限参数值进行算术平均(m+n)/2,对于得出的算术平均参数按算术平均参数的几何倍数增加来逐级设置网络设计参数。当网络系统参数随着算术平均参数几何倍数逐级递增时,网络系统变化异常、振荡频率加强等情况出现时,可对算术平均参数以几何倍数逐级递减来设置参数。通过算术平均参数折半查找法得到比较合理的网络系统设置参数。
协议模型和流量模型的振荡是持续振荡测试的基本要求之一。实际运行过程中网络系统的数据和流量峰值是动态变化的。来自网络系统各类数据流的输入输出变化频繁,尤其是增加各类异常数据流后,将对网络系统稳定运行产生更大的负担,并暴露出更多的系统脆弱节点。在进行实际网络系统可靠性、健壮性测试过程中可不断提高异常数据流、剧烈高频的数据振荡,虚拟出比实际网络运行更加糟糕的运行环境,使网络系统在运行过程中能够更全面、更快暴露较长时间才能够发现的网络系统缺陷。振荡系数在网路系统测试过程可调整各类软、硬件和数据在不同频率下的振荡结果,例如可分别以等差或等比数列的时间间隔为一个周期进行测试。与此同时还可进行路由条数振荡测试,路由条数不断高频率变化可导致整个网络系统中路由信息的不断增加、删除、修改,这将在网络系统数据输入输出过程中引发大量数据包传输路径的不断变化、更新、响应延迟,给网络测试系统的稳定性带来更大的压力。另一方面可采用极端数据量跳水式的流量和频率变化来暴露网络系统潜在的问题:在持续测试时可预先采用数据流量的极低值进行低、中、高频率的测试,以监测极低值数据流量在不同频率下的run状态。然后在持续测试时间中采用数据流量的极大值进行低、中、高频率的测试,以监测极大值数据流量在不同频率下的run状态和突发瓶颈问题。在持续测试过程中也可通过在同一频率中数据流量的突然变化来检测网络系统run状态和系统异常情况,通过振荡测试和极端数据流突变测试,会明确了解网络系统的可靠程度。
6.3 网络硬件故障
网络系统在出现单点故障情况(如,设备命令行执行软件重启、设备断电、设备上电等)下可快速恢复是高可靠网络系统设计的又一重点,自动恢复时间越短越好。为精确计算各类网络系统故障导致的网络中断/恢复时间,可接入各类专用的测试设备进行模拟测试,各类测试设备的输入、输出分别接入到模拟测试网络系统的输入、输出口,确保被测数据流量路径贯通整个网络[9]。使上下行数据流通路径经过需要模拟的网路系统的流量瓶颈点和易出故障节点,避免测试路径无效。在测试的过程中可通过灰盒测试、白盒测试监测系统的正确性,在测试过程加入非法数据,检测网络系统的健壮性。测试设备停止数据发送,根据发送和接收的数据量,测算出网络模拟测试系统流量路径恢复时间。Time=(发送报文数量-接收报文数量)/报文发送速率(pps)。
网络系统中断、恢复时间长短测试也可融合在持续振荡测试中一起完成。使用网络系统可靠性测试硬件、软件、各类异常报文攻击工具,可实现对网络系统的可靠性的综合测试。
7 结论(Conclusion)
网络系统可靠性测试需要在整网虚拟环境下测试运行,网络系统可靠性测试通常情况下采用黑盒测试,不仅需进行端到端的测试,同步监测各个关键模块的实际运行情况,流量和协议控制层面的运行状态,做好各类异常情况以及故障分类分析报告,总结解决问题的方式、方法,全面分析网路系统实际运行环境的行业性、特殊性、复杂性,对网络系统的相关特性进行深入分析,在模拟测试网络系统运行环境中不断优化配置各类参数,得到最优最可靠的网络系统,提升计算机网络系统运行的可靠性。
参考文献(References)
[1] 詹亚平.计算机通信及网络远程控制技术的应用与可靠性提升[J].科技创新与应用,2020(08):174-175.
[2] 廖骏杰.计算机通信网络可靠性设计技术[J].电子技术与软件工程,2019(6):6-7.
[3] 徐蕾.计算机网络可靠性优化设计分析[J].信息与电脑(理论版),2018(04):136-137;142.
[4] 王喜来.计算机网络可靠性优化设计[J].计算机与网络,2020(04):44-45.
[5] 劉文辉,曾斌.基于计算机网络信息和网络安全及其防护策略研究[J].电子元器件与信息技术,2018(04):9-11.
[6] 刘振亮,马小琴.计算机网络可靠性优化设计问题研究[J].信息通信,2015(04):99-105.
[7] 陈刚,李璐,陈泽.计算机网络可靠性优化设计问题的研究[J].计算机产品与流通,2019(09):148-149;171.
[8] 赵鹤群.计算机网络可靠性提升要点分析[J].科技传播,2018(1):117-118.
[9] 鲁梁梁,周小健.计算机网络安全的可靠性及优化设计问题的探讨解析[J].网络安全技术与应用,2017(4):40;46.
作者简介:
黄小兰(1977-),女,硕士,讲师.研究领域:信息系统,计算机应用技术.