从单机到双活数据中心建设的思考

2023-03-06 02:56陈荣山
科技创新与应用 2023年5期
关键词:机房数据中心集群

陈荣山,姚 婕,吴 昊

(泰兴市中医院,江苏 泰兴 225400)

受制于泰兴中医院原大庆路院区数据中心规模的限制,信息化建设仅依靠单服务器支撑医院信息系统运行,随着医院整体规模和医疗服务能力的不断扩大,现有的信息化服务能力已显得捉襟见肘。同时,根据数据安全以及等保测评的要求,医院双活数据中心建设势在必行。

如何利用当前的IT基础架构先进技术,搭建多活应用场景,以满足医院高速发展的信息化建设要求,建设稳定、可靠、高效的信息基础支撑平台和服务平台,成为泰兴中医院信息化建设至关重要的问题。

1 双活数据中心建设

1.1 双活数据中心建设的评价指标

“双活数据中心”中的“双活”一词源于围棋中的术语,在中国围棋里有一个术语叫做双活,终局时,经双方确认,不能被提取的棋都是活棋,这时候双方是有些势均力敌的,最后要以生存于棋盘的总子数来判断胜负,其中包括双活棋的子数多少。从围棋上理解双活,那就是有两方或者两边都是有作战能力,能都独立运行。

在数据中心的基础架构建设中,还存在诸多专业词汇,比如:热备、冷备、RPO和RTO等。

热备,当主部件或者设备发生故障时,通过设置的热备能够自动顶替,对业务毫无影响的故障切换,这就叫热备,最常见的比如磁盘阵列(RAID)在做完RAID以后,会针对不同的磁盘设置热备盘(hotspare),以保证当RAID中的磁盘发生故障后,热备盘能够及时地替换掉那块故障硬盘,保证RAID的完整性。

冷备,相比热备而言,冷备不像热备那么及时自动地解决问题,需要人为干预,这中间的过程可能会造成业务的不可用甚至数据丢失。

RPO(Recovery Point Object),是衡量灾难发生后会丢失多少生产数据的指标,简单点说就是数据持有人或者使用者所能容忍的最大数据丢失量。

RTO(Recovery Time Objective),是恢复时间目标,指在故障或灾难发生之后,应用系统停止工作的最高可承受时间。

双活,在IT基础架构中,双活的分类有很多,比如应用双活、数据库双活和存储双活等,从前端的业务系统,再到底层的基础架构,从上至下的全套冗余设计,可被认为是本地或者异地的双活数据中间设计。当其中一个数据中心发生软、硬件故障或者灾难时,另外一个数据中心能够在无需人工干预的情况下,自动、快速、安全地将应用、网络流量切换过来,保证业务前端应用无感知,业务零停顿,应用零影响,保证医院业务的连续性。

双活数据中心建设的目的就是当我们碰到一些系统故障,或者自然灾害的时候能够有很强的抵抗性,保证整套业务系统的高可用性。高可用性可以用以下指标来衡量。

平均故障间隔MTBF(Mean Time Between Failure):表示2次故障的间隔时间,也就是系统正常运行的平均时间,这个时间越长,说明系统稳定性越高。

故障恢复时间MTTR(Mean Time To Repair):表示系统发生故障后“恢复的时间”,这个值越小,故障对用户的影响越小。

还有一个常说的词汇就是系统可用性,就是通过平均故障间隔和故障恢复时间这2个值换算得来的。系统可用(Availability)=MTBF/(MTBF+MTTR)×100%,这也是很多IT厂家对外宣传的“N个9”高可用。见表1。

表1 系统可用性说明

故障时间越短,整个系统的可靠性就越高,每提升一个9需要对系统的建设有更高的要求,往往也要增加很多的软硬件设备,更多的成本投入。

1.2 数据中心建设架构的演变

随着信息技术的不断进步,IT基础架构也在不断演进,以满足客户对容量、性能以及可用性的多重需求。

1.2.1 服务器单机模式

单机模式顾名思义只有一台服务器运行一套乃至所有的应用系统,相当于一台配置很高的个人PC。医院里所有的应用系统都跑在单台服务器上,如果机房发生断电或者有火灾等意外情况,应用服务器就会停止工作,进而医院各个业务系统都不可用。

当然,作为医院支撑的核心业务系统不会选择这种不太可靠的方式,一定要做到关键业务独立系统,并采取一定的备份措施。服务器单机模式是最传统的IT架构模式,系统可用性较低,且易造成存储和计算资源浪费,仅适用于刚起步的微小型企业或者应用系统数量极少的IT建设。

由于业务量较小、业务系统简单,泰兴市中医院原有数据中心采用的就是这种服务器单机模式,配备了2台4路服务器运行医院信息系统(HIS)、实验室信息系统(LIS)、影像归档和通信系统(PACS)系统,配备了1台2路服务器用于备份核心数据库文件。

1.2.2 服务器集群模式

当1台服务器承载着多套应用后,一旦这台服务器发生系统故障就会造成所有应用失效。这时就需要把业务分散到多台服务器上,同时把数据集中在独立的存储设备上,这就需要应用服务器集群技术。

服务器集群系统是应用集群技术(Cluster)将多台相互独立的服务器在网络中虚拟化成统一计算资源池,通过集群可以让多台服务器运行同一个或多个计算任务,提供更加强大的运算能力以及容错能力,并解决以下几个问题:

1)集群系统中服务器硬件故障。多个独立服务器虚拟化成统一计算资源池后集群系统中运行的操作系统不再受限于服务器的自身资源,包括其硬件和部署在上面的软件。当有服务器发生硬件问题宕机无法提供服务时,其他服务器能够自动承担故障服务器的应用要求,分流业务压力,保证业务不中断。

2)集群系统中软件故障。集群系统中的服务器硬件上都可运行各种操作系统,比如windows、linux等,在操作系统上再部署各种业务软件,当业务软件发生故障时,对应的部署操作系统、硬件也无法提供对外服务,则应用中断。如果我们在服务器操作系统层部署了类似于VMware HA、RoseHA等产品,借助该类软件的冗余策略,会将业务虚拟机或者业务系统自动切换到集群中其他的服务器上,继续运行对外提供服务。

3)集群系统中人为误操作问题。除了软硬件的问题,我们还会碰到一些计划外的问题,比如人为失误。在使用有管理权限账号操作下,非专业的人为误操作会引起不必要的业务停顿。因此有效的安全冗余机制,回滚机制就尤为重要。重现故障,业务系统回滚至故障的前一秒,避免人为失误带来的损失。

1.2.3 超融合模式

时下还有一种热门的服务器集群搭建模式的就是超融合(HCI)模式。在超融合模式下,没有单独的存储系统,都是服务器。通过超融合软件将所有服务器串在一起,组件成一个大的集群。在集群中每台服务器就是一个节点(Node),通过副本技术在整个集群中分散着2份以上的数据,任意一个Node发生故障都不会影响整个系统的正常运行。

超融合的优势在于以x86标准服务器硬件设备和虚拟化管理软件、分布式存储软件相结合,相较于传统服务器集群系统,超融合将存储也虚化成存储资源池,数据不再集中在某一台存储上了,当我们需要扩容或者数据迁移,设备新旧更替时只要增加或者删除节点就可以了,操作更加敏捷,资源交付更有弹性。

医疗行业一般把业务分为稳态和敏态两大类。稳态业务一般包括HIS、EMR、LIS、集成平台等应用,稳态业务一般使用传统三层架构方式(服务器+交换机+存储)来部署。敏态业务比如“互联网+”医疗创新业务,提升患者就医体验、惠民服务类,如医院微信公众号、预约叫号、线上问诊、远程医疗等。这些业务敏态业务的建设都需要有灵活、高效、弹性的底层平台支撑,超融合服务器架构也就成为了这类应用的首选。通过使用超融合解决方案可以帮助医院快速上线业务系统,在系统敏捷性、稳定性、灵活性和可扩展性方面均具有很大优势。

1.2.4 双活数据中心

在上一节中我们提到集群模式下的三层架构,数据是存放在存储设备上,因此存储的可靠性就尤为重要。在数据中心基础架构建设中常见的存储双活有两种,一种是本地双活,在一个数据中心搭建2套存储,存储设备之间无主次之分,同时提供IO读写。另外一种是异地双活,2套设备分布在2个机房,机房之间无主次之分,任一机房发生故障都不会影响前端业务。

本地机房双活系统的搭建相对来说比较简单,只要考虑存储设备之间的性能平衡,链路之间的冗余、负载均衡等即可。如图1所示。

图1 本地机房双活系统

异地双活机房建设除了本地双活建设考虑要求,还要考虑到2个机房之间的网络建设,包括机房之间的链路延时RTT(无线传输技术),链路的冗余等等,同时还需要考虑到第三方站点仲裁的设立,防止出现双活脑裂的现象发生。

存储双活的建设根据各大IT厂商的方案主要分为2类,一类是通过存储自带软件双活,比如华为、HDS和Netapp等,还有一类是通过存储双活网关来实现,比如DELLEMC、IBM等。

第一类中,比如华为,华为存储双活是借助于存储付费软件HyperMetro来实现的。2套同样型号、配置的存储,通过HyperMetro来实现本地或者异地的数据实时同步。做了双活的2台存储没有主备之分,2个站点可以同时对外提供读写服务,并且借助第三方仲裁,对2台存储的服务能力实时监控,当任意一台存储发生故障时,通过仲裁的判断自动将所有业务安全快速地切换到运行正常的存储中去,保证业务连续性。

另外一类,比如DELLEMC的存储双活网关Vplex,能够将DELLEMC和其他厂商存储通过网关异构整合,虚拟化为统一的存储资源池,实现异构存储双活。Vplex双活方案有Vplex Local(本地数据中心)和Vplex metro(异地数据中心)2种方案,异地数据中心方案由2个站点的2套Vplex集群系统组成,每个站点的Vplex集群都有自己专属的本地存储阵列,通过创建分布式镜像卷为跨集群的镜像卷,提供Vplex Access Anywhere功能,2个站点的Vplex集群各有1个卷,2个卷的ID一样。

借助于DELLEMC Vplex的纵向、横向扩展能力,可以从独立的双活控制器起步,扩展至异地最多16个控制器,保证一或多的控制故障冗余;同时借助于控制器硬件独有的缓存作用,加大数据在分布式缓存中的读命中率,以及IO的共享负载均衡,快速支撑可以跨越上百公里的数据中心双活建设。

不同的存储双活建设方案也有各自的优缺点,比如软件双活,优点在于单一OS,同构设备,结构简单,故障点少,软件功能丰富,基于磁盘基本的镜像,对读写性能影响极小,且不增加延迟。往往同时支持SAN(存储局域网)和NAS(网络附属存储)的双活,建设成本也较低。缺点在于软件双活往往会使用存储控制器本身的资源,而且只能是同品牌甚至同型号之间的存储才能做软件双活,有些无法做到双活的横向扩展。

而硬件双活优点在于支持异构多品牌的存储产品做双活设计,不用被单一存储品牌绑定,可以利旧原有设备。并且网关硬件往往会自带高内存,有助提升整体系统性能。缺点在于投入更多的硬件成本来搭建双活系统,增加链路设计的复杂性。在不同的业务场景,例如NAS场景下,像DELLME Vplex还不支持NAS的双活。

因此在选择存储双活建设方案时需要考虑的方面有很多,不仅要考虑存储双活方案带来的成本投入,还要考虑自身的现有的IT建设情况,是否需要设备利旧,多个机房的链路带宽,以及不同应用(针对SAN和NAS应用场景)双活建设需求等等。

随着人民对健康的需求愈加迫切,泰兴市中医院业务量逐年稳步增长,原有以收费为核心的业务系统已不能满足需求,医院业务系统重心必须向服务临床倾斜,建设以电子病历为核心的业务系统,同时升级数据中心以承载数量庞大的业务子系统。升级后的数据中心以虚拟化+双活存储为主要架构,以4台2路服务器虚拟化、搭载2套DELLEMC双活存储运行前端应用程序,以2台4路服务器HA(双机集群系统)模式运行数据库,兼顾了应用扩展的灵活性和数据库的物理安全,从单机模式直接跨越到本地双活数据中心模式,实现了数据中心建设的弯道超车。

泰兴市中医院新院区启用后,数据中心建设再次提速升级,应用超融合技术建设了容灾机房,配置了8个节点的全闪节点,使用VEEAM软件对虚拟机进行定时备份,实现DSG数据库备份软件对核心数据库实施同步,保证主机房完全故障时,容灾机房可以迅速拉起业务,保障核心业务连续与数据完整。

2 结束语

数字化医疗是我国现阶段医疗信息化建设的主要方向,结合医疗行业业务系统的要求,借助当今世界热门IT技术来不断满足日益增长的就医需求,面对多变环境下的医疗疾病挑战,需要建设一个高水平、高质量、高稳定性的智慧数据中心,以承载医院日益复杂的内部业务系统以及互联网+应用,以高水平的服务提升广大人民群众的就医体验,不断增强人民群众就医满足度、安全感、幸福感,推动医疗服务高质量发展。

猜你喜欢
机房数据中心集群
酒泉云计算大数据中心
浅析数据中心空调节能发展趋势
海上小型无人机集群的反制装备需求与应对之策研究
关于建立“格萨尔文献数据中心”的初步构想
一种无人机集群发射回收装置的控制系统设计
Python与Spark集群在收费数据分析中的应用
勤快又呆萌的集群机器人
N通信公司机房节能技改实践
某IDC机房结构设计
新型有线电视机房UPS系统的配置