李 斌
(佳讯飞鸿(北京)智能科技研究院有限公司,北京 100044)
在国内铁路“客运高速化、货运重载化、运输生产智能化”的发展背景下,新技术如何将铁路既有业务深入融合提升到一个新的高度,对于新技术与铁路运输生产紧密关联提出更高的要求和发展目标。
传统IT 发展困境与面临的痛点如下。
1)传统IT 建设模式导致设备供应商和设备种类繁多,用户需要花费大量的时间和精力准备大量复杂的基础设施,各种设备的配置相互独立,管理割裂,缺少统一的集中化 IT 构建策略,无法对数据中心内的基础设施进行统一的监控、管理、报告和远程访问,后期维护技术门槛高。
2)数据中心空间资源有限,而且传统存储在扩展性上受限,无法适应虚拟化数据中心弹性可扩展的未来要求,如:SAN/NAS 存储扩展性差,无法支撑新业务的性能需求;铁路新业务服务化转型,传统架构无法实现线性扩展能力,从而造成了存储和应用割裂及竖井化。
3)投资成本和运维成本高。传统的存储与计算分离架构,需要配置独立的网络、存储和计算节点。为了提高系统整体高可用性,需要通过资源冗余的方式达到设计目标,包括存储网络设备的冗余、存储控制器的冗余、存储链路的冗余等,增加了数据中心的建设投资成本。
4)业务部署开通周期长。新的服务器、存储设备和网络设备的部署周期较长,整个过程包括方案设计、硬件选型、多厂商采购、分批到货、上架安装、系统集成、网络配置、综合调试、业务部署等环节。一般情况下,这个过程需要的工作量约20~40 h,交付周期约 2~5 个月,IT 系统从提交业务变更请求到进行运营变更之间存在较长的延迟,初期部署效率低。
中国国家铁路集团有限公司(简称国铁集团)2017 年颁布《铁路信息化总体规划》文件,规划了中国铁路信息化IT 建设的4 项要求,既是明确发展方向,又是对传统IT 面临困境的有效回应。
1)建设高性能多业务承载网。数据通信网资源应综合使用,除国家法律法规有明确规定和国家有关部门有特殊要求的,原则上不再单独建设专网,现有各业务专网应逐步整合,提高网络利用效率和运行质量,避免网络资源浪费。
2)IT 资源大集中,降低边缘站点维护工作量。为适应信息技术发展和信息系统运维工作特点,应积极推进计算、存储、网络资源配置和部署集中化,最大限度地减少沿线和地区计算机设备,尽可能实行集中维护管理,减少基层站段维护工作量。
3)国铁集团及路局两级数据中心建设。以总公司、路局两级数据中心和铁路信息网建设为重点,建成国铁集团、铁路局两级现代化数据中心和先进高效的信息处理平台,实现信息资源和网络资源的集中配置与管理,提高铁路信息资源、网络资源共享程度和综合利用水平,满足信息系统互联互通和资源共享需要。
4)共享IT 资源池建设:建立铁路硬件资源共享机制。原则上,新建信息系统所需主处理设备和运行环境统一配置,不再随具体系统单独建设,实现硬件资源的共享共用。
云平台基于云计算理论及软件定义,通过整合硬件、应用软件、业务系统等各类IT 资源,为系统提供具有按需分配、弹性伸缩、自动化、可计量等云计算特性的信息化资源交付服务。在硬件资源基础上通过虚拟化技术和超融合技术,实现包括服务器、计算、存储、网络等基础资源的池化,将资源与物理设备解耦,并通过云管理平台对资源按需分配、灵活调度、运维监控,提高资源利用率,改善服务模式。
基于云架构的铁路数据中心架构从上至下分为3 个层次:1)应用层;2)平台服务层;3)基础设施层。架构如图1 所示。
1)应用服务层:主要是各专业应用系统及服务,如调度、车务、机务、车辆、工务、供电、电务等专业应用,还包括云平台传统应用及SaaS 云服务的部署及实现。
图1 铁路云数据中心技术架构Fig.1 Technology architecture of railway cloud data center
2)平台服务层(PaaS):除提供应用中间件、关系型数据库、非关系型数据库、消息中间件、基础软件等软件服务的部署和实现外,还提供如云主机、云存储、容器服务、物联网平台接入、大数据平台接入、人工智能平台接入。
3)基础设施层(IaaS):主要提供网络、存储、服务器等基础设施服务的部署和实现。
超融合基础架构(Hyper-Converged Infrastructure,HCI)也被称为超融合架构,是指在同一套单元设备(X86 服务器)中不仅仅具备计算、网络、存储和服务器虚拟化等资源和技术,而且还包括缓存加速、重复数据删除、在线数据压缩、备份软件、快照技术等元素,而多节点可以通过网络聚合起来,实现模块化的无缝横向扩展(scale-out),形成统一的资源池。
超融合基础架构如图2 所示。
超融合从技术架构维度可分为 4 个层级,从下至上包括:硬件资源层、技术实现层、虚拟资源层、集中管理层。
硬件资源层:以通用的 X86 服务器为标准载体,包含 CPU、内存、固态硬盘、机械硬盘等基本配件,为上层技术实现层提供硬件资源。整个数据中心只需要通用的 X86 服务器和二/三层交换机硬件,通过计算、存储、网络、安全和管理的完全软件定义,即可替代复杂的传统基础架构,实现架构的极简化。
技术实现层:将服务器虚拟化、分布式存储、网络虚拟化等几大主流虚拟化技术进行深度融合,利用超融合技术对底层硬件进行全虚拟化,从而将服务器集群所包含的计算、存储、网络资源进行池化,形成虚拟资源池。
虚拟资源层:从虚拟资源池获取相应的资源进行实例化,为应用提供丰富的虚拟化实例,从而大幅减少专有硬件采购数量,降低总体投资成本,提高了业务部署、调整的速度和整体运维效率。
图2 超融合基础架构示意图Fig.2 Diagram of hyper-converged infrastructure
集中管理层:通过集中式资源管理软件,对底层硬件资源、虚拟资源池和虚拟实例进行统一管理、监控,并支持为不同类型应用灵活分配资源。
铁路数据中心的建设是一个庞大的系统工程,涉及到前期的规划和设计、应用系统开发、维护、IT 基础设施的整合虚拟化等方方面面。铁路云数据中心建设也是一个逐步实施和开展的过程。
以下将针对铁路云数据中心建设过程中几个重点的环节展开研究和探讨。
IaaS 层资源池规划如图3 所示,关键考虑点如下。
从技术角度分析:技术平台要求相同的应用系统放在一起。不同的业务系统由于具有不同的业务特征,运行在不同的平台(Linux,Windows)不同的数据库(Oracle,MySQL)上,具有相同技术平台需求的业务可以放在同一资源池进行资源共享。
从安全等级角度分析:系统安全相同等级的应用系统放在一起。具有相同安全等级(对外服务区低安全等级,核心应用服务区高安全等级等)要求的系统(例如门户服务器、邮件服务器)可以放在同一共享资源池。
图3 铁路云数据中心资源池规划Fig.3 Plan of resource pool of railway cloud data center
从保证核心业务角度分析:核心业务分配固定比例的CPU、内存资源。对于核心应用,例如电商系统、运输系统等分配固定比例的CPU、内存资源。
为构建较为完整云支撑能力,实现服务管理、服务交付、服务保障和客户交互功能,铁路运输企业云需要构建完整的云管理平台。
云管理平台各个部分功能如下。
1)门户展示层:是云管理平台与用户的交互层,以可视的方式将管理平台的功能提供给各级用户。
2)服务管理能力:实现云管理平台对服务的集中管理,包括服务目录的设计、组合与发布;服务需求管理与流程审批;服务计量与安全。
3)运维支撑能力:为云平台的服务提供持续保障,并支撑运维团队完成对资源的日常运行维护。通过外部接口,实现云与既有系统的集成,如现有监控系统、现有ITSM 系统。
4)服务交付能力:通过云管理平台,实现资源池分区、分域、分组管理。同时对资源操控层以及介质进行统一管理,并可以通过自动工作流引擎进行作业调度,完成服务的实际交付。
如图4 所示,云平台网络可分为基于传统二/三层网络(VLAN)、基于硬件Overlay 网络、基于软件Overlay 网络、基于混合Overlay 网络等多种方式进行组网,目前业界主流Overlay 技术一般采用VxLAN协议。
从云平台基础设施网络角度看,基于外部服务网、内部服务网和安全生产网的3 个网络可以称之为基础设施云平台的底层网络。从纵向上看,Underlay 网络可划分为接入层、汇聚层、核心层;从横向上可划分为多个不同功能或用途的区域,不同区域之间通过汇聚层或直接与核心层相连。基础设施云平台需要基于Underlay 网络区域并以模块化方式搭建,基于多个Underlay 网络区域互联来扩展以形成更大规模的云平台基础设施网络。
图4 铁路云数据中心网络架构示意图Fig.4 Schematic diagram of network architecture of railway cloud data center
结合铁路IT 和信息化发展的现状描述,通过对铁路云数据中心的总体技术架构以及平台优势的重点说明,对云数据中心规划建设中的几个重点领域和环节进行了阐述,为铁路云数据中心建设提供了新思路,提供了实验室数据支持和理论支撑。后续研究工作将继续聚焦于云计算技术的关键技术和核心技术,深入研究云计算领域新技术如何与铁路既有业务深入融合,进一步研究铁路运输生产各专业对于云平台和数据中心的需求,挖掘铁路生产数据的潜在价值。