王晓莉
(1.北京全路通信信号研究设计院集团有限公司,北京 100070;2.北京市高速铁路运行控制系统工程技术研究中心,北京 100070)
铁路信息系统是利用计算存储设备、网络通信设备、采集传感设备对铁路运输生产过程中的各类数据进行分析、处理并产生各类管理信息或决策信息的人机系统。目前,铁路信息系统已经成为支撑铁路运输生产的关键装备,在运输组织、客货营销、经营管理等领域发挥了重要作用。
随着国内经济的持续高速发展,人口流动、物资流通在总量及速度上不断提升的需求对铁路信息化建设提出了更高要求。高速铁路、客运专线、城际干线的进一步发展意味着更多铁路信息化基础设施的投入;物联网、智慧城市等理念的提出及落地将逐渐打破铁路及周边业务领域的边界,铁路信息系统将逐渐为越来越多的领域提供服务。在市场经济快速发展、国家产业结构不断优化调整的今天,如何以最小成本满足铁路及周边领域日益增长的业务需求,成为一个亟待解决的课题。
传统的铁路信息系统解决方案为了满足应用程序运行性能及隔离性需求,往往使完成某项特定任务的应用程序独占一台计算机资源,且计算机的配置还必须能应对应用程序在最坏情况下的工作负载。因此在日常的信息系统运行过程中,大部分计算机负载处于很低的状态,导致硬件资源严重浪费。另一方面,传统的铁路信息系统解决方案往往缺乏对运行环境的统一管理及调度,从而需要更多的运维成本。如在计算机的硬件出现故障时,维护人员需要先人工诊断故障,再将数据手动迁移到空闲服务器;若需要调整应用运行环境的硬件规格,维护人员需要奔赴现场调整硬件设备。综上,传统的铁路信息系统解决方案中硬件资源浪费、系统维护成本高等现象成为降低系统成本的障碍。
目前,一种逐渐成熟的IT技术——云计算技术已经在政务、金融、互联网、通讯等领域得到了广泛推广及成功应用。云计算技术的载体——云平台能自动管理计算、存储、网络等硬件资源,减少运维成本,同时向上层应用提供弹性的硬件资源服务,提升资源利用率,最终消除传统铁路信息系统解决方案所面临的上述障碍。
本文对云平台进行分析,初步探索云平台在铁路信息系统中的应用,并对应用中遇到的一些问题给出相应的解决方案及注意事项。
云平台又称云计算平台,其核心思想是整合及统一管理大量计算、存储、网络资源,并将这些资源按可计量的方式提供给用户。
云平台根据部署方案来划分主要有公有云、私有云及混合云3类。公有云是面向社会的,能连接到互联网的设备均可访问云平台,其优点在于无需考虑服务器采购、架设、配置管理及相关配套设施的管理,用户可快速上线应用程序,但由于数据处于第三方托管的公网,一些大型客户或敏感行业客户会有安全方面的顾虑。而私有云是基于客户可控集群部署云平台管理软件的,因此数据私密性好、平台可控程度高,所有数据可在内网环境高速安全地传输,可节省互联网带宽租用费,但初期的搭建成本相对公有云要高一些。混合云则是同时使用上述两种云模式:数据私密性要求较高的业务使用私有云,而其他业务则使用公有云。由于铁路数据信息直接关系到国家交通命脉,绝大部分应用不能运行于公有云环境,所以铁路信息系统主要采用私有云方案。
相比传统铁路信息系统解决方案,云平台有主要下列几个方面的特点。
1)硬件资源的统一管理。云平台管理系统可对服务器集群进行统一管理,并实时监控设备的运行状态,运维人员只需打开管理界面便能全面了解设备运行及资源使用情况。
2)统一的虚拟化数据中心管理。采用虚拟化管理软件将硬件资源划分为多个虚拟机资源,并对虚拟机进行统一管理。通过虚拟化技术的资源复用,云平台为所有虚拟机分配的资源可超过硬件资源的总和。虚拟机故障隔离技术保证虚拟机故障不会影响其他虚拟机的正常运行。虚拟机操作系统故障检测会检测操作系统常见故障,确保在出现故障后,系统能够根据用户预先设置的策略处理故障。
3)按需提供在线的弹性服务。虚拟机资源,包括CPU、内存、硬盘及网卡等,可根据客户需求随时进行扩展,且扩展过程中可不中断应用。精准控制虚拟机资源的分配、预留及使用,满足用户需求。
4)自动化虚拟机调度。可根据预定义的策略在线自动迁移虚拟机,使物理服务器中资源分配更优。启用HA功能后,当虚拟机所在主机故障时,系统将自动迁移该虚拟机至其他运行正常的主机上,以保证虚拟机的继续运行。
5)广泛采用主备机、多副本、快照等技术确保系统整体的可用性。云平台管理节点采用了主备机模式,确保管理系统的可用性。云平台提供的FT功能能自动控制主备虚拟机之间的切换,使应用程序实现零停机。云平台可将所有磁盘管理起来并配置多个数据副本,确保任一磁盘在损坏或不可访问时虚拟机数据不会丢失,最终保证数据的可用性。支持对虚拟机进行快照,当虚拟机损坏时,可以使用备份的快照快速恢复虚拟机。
综合以上的特点,采用云平台方案主要具有以下优势。
1)节省硬件成本。通过云平台的虚拟化技术及资源复用可大大节省硬件成本。
2)减少平均故障时间及运维成本。基于云平台的资源管理、在线的弹性服务、自动化虚拟机调度及可用性保障技术,云平台可自动、快速地进行故障检测及处理,大大减少运维人员的工作量,使运维人员可同时维护更多集群,因此可在减少应用程序故障时间的同时降低运维成本。
3)虚拟机灵活可控。通过云平台管理界面,运维人员不进入机房便可控制虚拟机各项行为,包括启动、关闭及重启,可根据业务量增长的需求随时扩容虚拟机的硬件,可手动热迁移虚拟机到其他主机等等。
然而使用云平台也有一些注意事项。
1)若要搭建的信息系统比较简单,运行时所占用的硬件资源较少,那么云平台方案的成本可能比传统方案更高。这是由于云平台管理软件本身也会占用一些硬件资源。若信息系统本身并不占用较多硬件资源,那么部署云平台节省的硬件成本可能不及部署云平台管理软件的投入成本。此时,可根据业务需求及项目预算等因素权衡部署云平台成本及云平台所提供的功能特性及优点。另外,也可考虑与其它信息系统共用一个云平台,从而分担成本。
2)由传统解决方案向云平台方案过渡时存在的挑战。传统解决方案与云平台方案理念相差较大,应用程序的研发人员由过去直接操作物理机变为操作虚拟机,虽然在平时使用虚拟机时感受不到差别,但初步使用时可能会存在一定的质疑及不信任。另外,需要对系统运维人员进行培训,使其了解云平台管理软件的使用。
以下以某铁路局级别的信息系统应用为例,阐述云平台的部署方案、遇到的问题、相应解决方案或注意事项。
传统的部署方案如图1所示。在该方案中,每个站段均配备机房,负责该站段业务的处理。机房里每台物理服务器只负责一项专门的业务,资源利用率不高。此外,各站段之间难以及时共享业务数据。
基于云平台的方案如图2所示。该方案在路局中心集中建设中心云平台。中心云平台是业务运行核心平台,各站段的业务系统统一运行在该云平台上。在各站段配备一个保证本地业务运行的最小规模的“后备云”,其与中心云平台存在资源映射关系。一旦中心云平台或中心至站段冗余通道出现不可逆灾难时便根据预设的应急计划启动后备系统,恢复站段业务运行环境。
各站段的业务系统在中心云平台上可隔离运行,不同站段的业务虽然运行在同一个物理平台,但互不干扰。
云平台方案使每个站段硬件成本(含云管理系统)平均下降27%;实现了以路局为中心的统一计算及存储平台,打破了数据壁垒,达到数据共享、资源整合的目的;运维人员主要在中心云平台进行操作,可减少差旅,方便运维。该方案还能满足后续可扩展性需求,在升级硬件及添加虚拟机过程中不需要中断现有业务或重新配置现有业务环境。
在应用云平台的过程中,需要解决的问题主要有网络安全的适配及隔离,另外在平台高可用性保障方面有一些注意事项。
3.2.1 网络安全
在传统架构方案下,铁路信息系统可以依靠多防火墙组合来对各种异构网络进行很好的信息过滤与网络隔离,而在云平台架构下,多系统多异构网络运行于相同的物理设备上,如何保证云平台架构下铁路信息系统的网络安全是一个重要问题。
首先从网络层面上对各平面进行隔离。云平台的网络通信平面划分为业务平面、存储平面和管理平面,且3个平面之间是隔离的。业务平面为铁路信息系统提供业务通道,是虚拟机虚拟网卡的通信平面,对外提供业务应用。存储平面为存储设备提供通信平面,并为虚拟机提供存储资源,但不直接与虚拟机通信,而是通过虚拟化平台转化。管理平面负责整个云计算系统的管理、业务部署、系统加载等流量的通信。
然后还可通过配置虚拟网桥实现虚拟交换功能,可进一步隔离业务平面的虚拟机,同时保证处于同一VLAN的虚拟机之间可通信。使用虚拟网桥需要在云平台管理界面进行配置,包括配置虚拟机虚拟网卡的VLAN标识,这样网络中的交换机和路由器可以根据VLAN标识决定对数据帧路由和转发,提供虚拟网络的隔离功能。
可创建安全组,每个安全组可以设定一组访问规则。在创建虚拟机时为该虚拟机选定要加入的安全组,而后该虚拟机便受到该访问规则组的保护。同一个安全组中的虚拟机可能分布在多个物理位置分散的物理机上,一个安全组内的虚拟机之间是可以相互通信,而不同的安全组之间的虚拟机默认是不允许进行通信的,除非被配置为允许通信。
此外,还可以通过绑定IP及MAC、配置虚拟防火墙等保证虚拟机的网络安全。
3.2.2 平台高可用性
传统架构方案下,铁路信息系统一般通过双机主备冗余或双机故障转移集群配以双网的冗余来实现高可用性。在云平台架构下,为各服务提供资源的容器变成了虚拟机。虽然云平台提供了诸多保障可用性的特性,但使用时仍有一些注意事项,否则当服务器或虚拟机出现故障后,云平台并不能像预期那样对虚拟机进行快速的故障恢复。
云平台能提供HA功能:当物理服务器故障时,系统将自动迁移服务器上的虚拟机至其他运行正常的服务器上,以保证虚拟机的继续运行。然而,必须保证正常运行的服务器可用资源之和大于要迁移的虚拟机资源占用之和,否则将由于资源不足导致部分虚拟机迁移失败,从而不能使这部分虚拟机从故障中恢复。在硬件资源不是很宽裕的集群中,尽量确保各个服务器分配给虚拟机的资源均匀。
HA功能主要是为了在无人值守时出现服务器不可用或虚拟机蓝屏等现象时提供一种自动化的快速恢复策略,恢复过程中仍会有短暂的不可用时间(除非配置了主备冗余)。而对于可预见的人为因素直接导致服务器不可用的情况,可以事先执行操作避免业务中断。例如运维人员在更换或升级物理服务器硬件时,不应期盼通过HA功能自动恢复虚拟机而直接下电服务器,而是应先迁移该服务器上的虚拟机至其他服务器,然后设置服务器进入维护模式,最后才下电进行硬件操作。
云平台已经在政务、金融、互联网、通讯等领域得到推广及应用,取得了良好的经济效益,但在铁路信息系统中的实际应用还比较有限,目前的相关工作主要以探索和试验为主。随着云平台在铁路信息系统中应用的逐步深入,其技术可行性和先进性会逐步得到验证,铁路运输生产将从云平台中受益更多。