企业计算机应用系统可靠性测试技术探讨

2016-12-27 17:01黄奕海

企业技术开发·下旬刊 2016年11期

黄奕海

摘要：在当前时代背景下，信息化网络的普及也让计算机成为了目前很多企业办公、管理的首选辅助工具，也是企业自动化办公必不可少的工具。此外，相比传统办公以及管理流程，运用计算机进行办公与管理可以有效提升办公、管理的效率，可以灵活准确获取相关信息，从而更加有效率、及时地处理信息，提高企业办公、管理的运转。可以看出，计算机运作流程的顺利将直接关系到整个企业的正常运作，因而具有重要的意义和价值。

关键词：企业计算机；应用系统；可靠性；可靠性测试；分析研究

中图分类号：TP311.53 文献标识码：A 文章编号：1006-8937（2016）33-0091-02

就目前而言，计算机系统的构成可以包含硬件、软件以及一些应用，而企业计算机的应用系统也应当包含这些内容。而且相比传统计算机应用系统而言，企业计算机应用系统具有更高的专业性、实时性，将涉及到更多数据，简单来说，其就是传统计算机应用系统的升级。本文中的可靠性测试技术开始主要基于黑盒测试。而笔者将通过本文，就企业计算机应用系统可靠性测试技术方面，展开具体的研究与分析。

1 保证企业计算机应用系统可靠性的因素

1.1 固定的环境因素

环境因素主要是指应用系统运作的环境支持因素，即如硬件、软件、操控以及其他环境因素，而且环境因素本身是固定的，即在系统运作过程中，各个软硬件以及操作环境都是必备的，同时要求数据输入达到一定标准，而且需要将其他条件列为理想状态。

1.2 固定的时间因素

固定的时间因素主要体现在系统的运作阶段，而且需要将系统工作时间作为规定的标准，简单而言，系统的工作时间就是工作及待机时间的总和。

1.3 固定的功能因素

应用系统的可靠性还需要与制定的功能具有一定的关联，而且任务目标存在差异，导致需要调用的子模块也不尽相同，因而要精确判定系统是否可靠，就需要优先了解其任务目标以及功能特征[1]。

2 企业计算机应用系统可靠性测试目标

2.1 找出影响系统正常运作的隐患

一般而言，要影响系统可靠性，则需要同时具备不变条件以及可变条件。

其中对于前者而言，主要是指一些固定的硬件与基本软件；而对于后者，主要是输入的分布。通过对可靠性测试中使用到的有效和失效数据进行分析，进而评估当前软件可靠性的水平，并预测软件未来可能达到的水平。而测试系统可靠性时则往往会优先显示高概率的缺陷问题，而通过妥善处理这些缺陷，即可保证应用系统可靠运行。

2.2 研究系统可靠性是否达到用户标准

对于企业计算机应用系统的可靠性测试而言，第二个目标则是在测试阶段或者是投产前找出系统失效问题进行研究分析，同时研究系统可靠性是否能够达到用户标准，进而保证系统更好为用户服务。

2.3 预估系统可靠性的状况

采用有效的可靠性测试，即可以根据获取的测试信息进行研究，然后针对当前应用系统的可靠性状况进行评估，评估系统是否达到预定的指标情况，并且针对未来可靠性发展进行评估，为今后系统改进与拓展提供相应的数据资料基础[2]。

3 各类系统可靠性测试分类

3.1 双机热备可靠性测试

双机热备应用系统构成可以包含两台服务器与一个外接共享磁盘阵列柜，此外还包含与之对应的双机热备专用软件，而且一般会选择“心跳”的特殊方法来强化子机与主机的关联性，即如图1所示，而“心跳”简单来说可以概括为主机与子机周期联系的信息信号，同时也表现出系统运作正处于稳定情况。若信号消失，则代表主机产生故障，则需要及时将主机资源移动至子机中，暂时取代主机继续工作。而该系统的测试则可以在检验日常交易量的过程中，即双机模式下系统故障的自我修复能力，测试流程主要包含一般切换、宕机、网络故障等三种状况的模拟：

①一般切换：即根据日常交易量进行系统加压，保持运行在5 min左右，然后在主机运行Take Over，同样保持运行在5 min左右。此时可以检测子机是否会代替主机进行交易，是否存在业务中止的问题，当子机也运行Take Over时，则可以检测回切的效果。

②宕机：同样根据交易量进行系统加压，保持运行在5min左右，在主机上运行Halt-q，保持运行5 min，此时可以检测子机是否会代替主机进行交易，是否存在业务中止的问题，启动主机时，则可以检测回切的效果。

③根据交易量进行系统加压，保持运行在5 min左右，在主机上采用宕网卡处理，保持运行5 min，此时可以检测子机是否会代替主机进行交易，是否存在业务中止的问题。恢复主机网络时，则可以检测回切的效果。

3.2 真正应用集群可靠性测试

真正应用集群（Oracle RAC）则一般是由两台或多台计算机以及共享储存器组成，具有更强的数据库处理水平，而且该系统一般会选择IP漂移、VIP移动以及TAF透明故障切换技术以解决各类软硬件问题（如SQL语句错误，进程问题等等）。即如出现故障时，真正应用集群系统则可以采用虚拟地址与IP漂移以达到故障切换效果，进而保证数据库的安全性。而测试流程同样也可涵盖实例关闭、宕机、网络故障等三种状况的模拟（其中默认运作节点为DB1上，DB2为备用），如图2所示。

①实例关闭：即根据日常交易量进行系统加压，保持运行在5 min左右，然后DB1则运用shutdown ！Abort，也保持运行在

5 min左右，检测DB2是否接替DB1的服务管理，是否产生IP地址漂移问题。

②宕机：即根据日常交易量进行系统加压，保持运行在

5 min左右，然后DB1则运用运行Halt-q，保持运行在5 min左右，检测DB2是否接替DB1的服务管理，是否产生IP漂移问题。

③网络故障：即根据日常交易量进行系统加压，保持运行在5 min左右，然后拔除连接DB1的网线，保持运行在5 min左右，检测DB2是否接替DB1的服务管理，是否产生IP漂移问题[3]。

3.3 高可用性集群可靠性测试

高可用性集群，简单来说，就是一种集群技术，其目标就是最大程度降低服务故障的时间。

其中集群就是多个服务于用户群体的计算机，而单一的计算机智能作为单一节点。而且高可用集群则不能对业务资料提供防护，而防护的侧重点主要是用户的程序在不停止对外的服务的基础上，最大程度减少各类故障导致正常业务停滞状况的产生。而且一般高可用性集群可以涵盖以下两类：①两个主节点，即各个节点都能保证为客户计算机提供服务，而且性能最稳定，即便是故障产生，另一节点都可以代替故障节点进行工作，即保证服务不会受到故障影响，不过不可忽视的是故障问题会直接影响到整个服务器的性能；②一个主节点与一个子节点，主节点主要用于接收与处理客户反馈的需求信息，而子节点则处于闲置，一旦主节点产生故障问题，子节点则可以代替其进行工作，同时为用户提供相应的服务，而且故障问题不会影响整个服务器的性能，但是整体结构较为复杂。而具体的测试流程可以包含服务常规停止、进程异常停止、网络故障等三种状况的模拟，如图3所示。

①服务常规停止：即根据日常交易量进行系统加压，保持运行在5 min左右，以常规方式停止子机的应用服务，同时检测交易情况是否改变，保持运行在5 min左右，则再次启动子机上的应用服务，主要是检测子机是否恢复交易服务，各项参数是否能够达到正常指标。

②进程异常停止：即根据日常交易量进行系统加压，保持运行在5 min左右，并且采用Kill-9消除子机应用服务进程，检测交易情况是否改变，保持运行在5 min左右，则再次重启子机的应用服务，主要是检测子机是否恢复交易服务，各项参数是否能够达到正常指标。

③网络故障：即根据日常交易量进行系统加压，保持运行在5 min左右，中断子机的网线，检测交易情况是否改变，保持运行在5 min左右，再次连接子机的网线，检测子机是否恢复处理能力，各项参数是否能够达到正常指标。

4 结语

可靠性的测试主要是针对故障一类问题进行处理，同时以模拟的方式检测系统故障问题后的恢复情况，同时还能根据客户的可靠性指标定义相应的测定方法，同时构成测定例子，进而进行可靠性检测，最后还可以针对系统今后运作的可靠性情况进行预估，在系统正式部署之前尽量找出并解决一些不确定因素而造成的问题，通过组合模拟方式进行检测，进而为后期系统的拓展以及软件开发奠定基础。

参考文献：

[1] 李霄，郭彤，王常洲.企业计算机应用系统可靠性测试技术研究[J].中国科技信息，2013，07（07）：87-89.

[2] 吕麦丝.企业计算机应用系统可靠性测试技术研究[J].计算机光盘软件与应用，2014，11（11）：198-200.

[3] 蔡仲博.企业计算机应用系统可靠性测试技术研究[J].电子技术与软件工程，2015，04 （04）： 187-189.