高可用安全存储集群构建应用研究

2021-12-02 01:18王亮鲁晓帆郭邦圣刘鑫高晓佳
科技资讯 2021年24期
关键词:应用研究

王亮 鲁晓帆 郭邦圣 刘鑫 高晓佳

摘  要:高可用集群环境构建中,部署应用的流程,主要由管理进程资源组中的带入和带出任务,修改资源删除资源测试资源。当客户端访问时,支持手动切换资源调集。应用过程中,支持鲁棒测试,如热插拔、关机、进程杀掉;测试过程中支持分布式和单元测试。经过一系列的部署、安装和测试,发现不当配置与应用效果,需进一步完善机制与策略控制,再次进行大规模应用与监测。

关键词:高可用   安全存储   集群构建   应用研究

中图分类号:P209                           文獻标识码:A文章编号:1672-3791(2021)08(c)-0011-03

Application Research on the Construction of High Available Secure Storage Cluster

WANG Liang  LU Xiaofan  GUO Bangsheng  LIU Xin  GAO Xiaojia

(Jilin University of Architecture and Technology, Changchun, Jilin Province, 130114 China)

Abstract: In the construction of high availability cluster environment, the process of deploying applications is mainly carried in and out by the tasks in the management process resource group, modify resources, delete resources and test resources. When the client accesses, it supports manual switching of resource mobilization. During the application process, it supports robust testing, such as hot plug, shutdown, process kill, and distributed and unit testing. After a series of deployment in the test, found the improper configuration and application effect need to further improve the mechanism and strategy control, and carry out large-scale application and monitoring again.

Key Words: High availability; Secure storage; Cluster construction; Application research

在大数据、人工智能领域开展深入研究,实现高校服务器采用HA(High Available)高可用及高可用安全存储集群构建,一旦发生服务器阵列故障,则面临多个单点服务故障或校园多样服务大数据(教务系统数据、网站系统数据、监控系统数据、学科平台科研建设数据等)损毁及停顿。因此,要实现业务数据的高可靠性,必然要保证存储高可用性,针对这类情况,提出高可用安全存储集群构建应用研究[1]。

1  高可用集群系统

当前,大学校园或中小企业对信息化高度重视,大都建立了计算机应用系统,支持其自身的环境、运营和管理工作。然而不论是校园还是企业,最重视的核心问题是如何建立并维护其系统的运行持续性及稳定性。由此,高可用对于计算机应用系统极其重要。在正常的业务运行过程当中,软硬件系统不可避免地会发生故障,可能还会导致系统的整体瘫痪,这样会影响用户的响应请求及用户的信任,损失会难以估计,所以采取必要的防范和应用措施来保证计算机系统的高可用和不间断业务服务等,来保障系统的安全性、稳定性[2]。

2  RoseHA概述

RoseHA高可用系统是实现两节点的集群构建环境,用户只需在原有系统上附加同类服务器及IP-SAN即可,通过监控系统的卷资源、别名资源、绘画资源、存储资源及应用程序和操作系统,各类计算机硬件和软件资源的运行状态,实现某个关键核心业务的高可用性。当某个活动节点不工作或宕机,RoseHA将活动业务的系统主机迁移至备援主机,有效地降低计划内外的主机非正常运转时间,提高业务系统稳定性和高可用性[3]。

3  RoseHA的产品结构与工作原理

支持动态卷切换,增强卷切换的工作效率及支持LINUX系统平台下的逻辑卷设备切换。针对不同的特定应用代理程序,将服务监控按照实际有效的方式切换,提供API用户开发代理程序,针对企业编写特定专用的代理程序,指定与专用服务相关的状态诊断与错误恢复机制。集群具有容错可靠,具有两个或多个核心进程,互相监控,如果其中一个失败,另一个进程自动执行恢复,避免单点故障发生在自身服务。支持多心跳路径,避免心跳故障单点产生,支持仲裁资源,使集群节点全部通信断开,通过仲裁确定集群运行状态,避免节点竞争[4]。

4  基于ORACLE+RoseHA的高可用安全存储集群构建

4.1 ORACLE的构建部署

启动实例的过程是加载内存的过程,将主服务部署联机共享,部署后删除主实例后部署的备用服务器,常规划于RAID磁盘阵列中,磁盘阵列隶属于当前某个活动的基于ISCSI映射连接的磁盘空间中,启动数据库:startup nomount:启动实例;startup mount:只允许本地操作;startup open:打开数据库,所有用户可使用;startup restrict:以受限模式打开数据库。Alter database db01 mount转换数据库状态Alter database db01 only read把数据库转换成只读的Start database restrict数据库受限状态。构建集群状态下的核心数据库,具体情况如图1所示。

4.2 RoseHA的构建部署

服务器主备均需安装RHA,可无序安装,部署向导中,根据实际需要进行路径和模块选择。在配置上,首先访问RHA的控制中心,通过默认密码webadmin访问,创建方案选择活动SERVER,根据活动服务器的状态及网络虚拟指定的IP,作为指定服务器的IP地址,根据登录界面输入ROSE的内置密码,设置注册码,复制主备server的ID,通过注册码将授权导入。

配置链路,添加链路,选择心跳IP,根据经验需要两组心跳效果最好。结合需求,选择数据库的应用类型,添加数据库后,根据“磁盘列表”选择磁盘ID,确认并格式化磁盘。若安装lvm或multi-path,需手动输入仲裁设备名,IP-SAN网络存储需要ISCSI连接成为本地磁盘后格式化磁盘,进行仲裁加入。卷资源添加后磁盘ID要保持一直,在挂载和驱动器号上,指定分区盘符。IP资源处选择添加,网卡处挂在活动的网卡,在资源处输入activety的IP地址和掩码。根据应用类型,RHA自动添加系统服务,进程资源是根据配置需要添加的.exe程序,默认无监控端口[5]。

集群环境部署应用设计过程。(1)带入:需主机开启活动IP,启动每个业务服务系统,数据实现实时同步,集群中的备机会自动停止。(2)带出:当前Active主机会休眠所有同步业务系统,实时监听同步数据,暂停全部活动数据及业务,属于对等层业务的暂停执行。(3)资源切换:处于正常与非正常状态的切换资源方式,主机业务正常,但主机资源需要硬件维护或其他使用目的,则强制切换资源给备机使用,同步会通过心跳线路将IP资源、别名资源、会话资源、RAID卷资源及所有服务资源切换给备机运行。当主机出现异常宕机或其他非正常运行状况,则主机自动实现带出全部资源,将主动权资源切换给备机,主机离线状态,也会把所有资源权限全部带出交付给备机,使其处于活动状态。主机关机及主机心跳或链路被拔掉及主机进程被KILL掉,则全部资源自动被带出,交付备机接管,备机接收后按照RoseHA的自定向下服务执行模式,将资源接管,继续为用户提供连续不间断服务业务[6]。

4.3 单元与分布式测试

4.3.1 单元测试

(1)结合该项目实例,根据集群关键业务,通过RoseHA启动,JOB是否被正常运行、停止。

(2)通过RoseHA进行Take Over测试是否正常。

(3)通过RoseHA进行Fail Over测试是否正常。

(4)通过RoseHA进行Agent功能保护测试是否正常。

(5)网卡保护功能测试,拔除AS心跳线路测试是否提示出现Fail Over,并進行迁出操作,立即插上后,AS是否恢复主机关键服务业务。

4.3.2 分布式测试

(1)修改活动IP,选中配置好的RESOURCES池,执行带出操作,停止整个业务集群几桶,在RESOURCES lists里,选中IP资源,操作属性中修改IP地址,修改后保存执行代入资源测试。

(2)新增监控资源,在资源列表里如新增NT服务,依赖关系处选择依赖资源配置后执行带入,然后立即监控。

(3)删除部分资源,在选中配置好的资源组中带出并停止真个集群服务业务,在资源列表中删除某个测试资源,操作-删除,删除后,选中资源组,执行带入。

4.4 故障排错与解决方案

主机状态显示主机离线,备机心跳红色,确认备机take in成功,此时故障情况为服务器网络中断或主机宕机,解决网络中断或服务器宕机问题即可。

卷资源显示故障,则OS提示无法连接本地RAID,检测RAID指示灯是否异常,RAID是否解散,RAID成员是否故障,连接服务器的RAID光纤链路状态及操作系统是否正常。

应用服务主题资源显示故障,部分资源无法正常使用与运行,在资源列表中查看无法与运行的主体应用服务。

心跳故障显示为红色或者黄色标识,心跳无法正常通信在接管与递交资源过程中是无法实现实时通信的,选择某个心跳查看具体故障。

如果为Linux系统,则采取日志收集方式,在RoseHA的INFO文件中,默认路径为/opt/HA/info,如果是windows系统则路径为c:\Program Files\HA\info,执行gatherinfo,运行需要一段时间。在info目录下生成host.rar的日志和配置压缩包文件。分别在RoseHA集群的服务器上执行相同操作,获取这2台服务器的配置和日志信息。

5  结语

通过高可用安全存储集群的构建实现各类高校及中小企业的集群服务,保障业务的连续性迫在眉睫,目前对高可用集群与安全存储这类信息化建设较薄弱,原因在于意识不够和构建成本较高,因此需要把高可用及安全存储列入常规运维中,这样不仅可以加强信息化的建设,而且对后期维护与安全性会起到重要的保护作用。

参考文献

[1] 冷迪.基于集群架构的物联网动态数据安全存储方法[J].中国新通信,2020,22(6):136.

[2] 吴俊鹏,刘晓东.一种基于集群的动态负载均衡算法研究[J].电子设计工程,2021,29(16):75-78.

[3] 郑增乾,王锟,赵涛,等.带宽和时延受限的流媒体服务器集群负载均衡机制[J].计算机科学,2021,48(6):261-267.

[4] 吴天宇,冯蕊,杨翠.Oracle数据库批量数据无损迁移技术[J].电子技术与软件工程,2021(8):204-205.

[5] 葛钰,李洪赭,李赛飞.一种web服务器集群自适应动态负载均衡设计与实现[J].计算机与数字工程,2020,48(12):3002-3007.

[6] 张凤琼.基于云计算技术的计算机网络安全存储技术[J].数字技术与应用,2021,39(8):176-178.

基金项目:吉林省教育厅“十三五”科学技术研究项目《高可用安全存储集群构建应用研究》阶段成果(项目编                号:JJKH20201232KJ)。

作者简介:王亮(1986—),男,硕士,实验师,研究方向为高可用集群、网络工程。

猜你喜欢
应用研究
云计算虚拟化技术在电信领域的应用研究
节奏训练在初中音乐课程教学中的应用研究
旅游管理教学中情境教学法的应用研究
无线传感器网络优化的应用与研究
PPP模式在我国基础设施建设中的应用研究
进驻数字课堂的新兴教学媒体
AG接入技术在固网NGN的应用研究
空域分类关键技术及应用研究
分层教学,兼顾全体