王喜升 王帅 张向阳 马新彦 阳康
(1.中煤信息技术(北京)有限公司 北京市 100029)
(2.中国矿业大学(北京)机电与信息工程学院 北京市 100083)
当前,矿山智能化是现代工业发展的趋势,是实现煤炭行业高质量发展的核心技术支撑。随着云计算、大数据、5G 等技术的迅猛发展,煤炭行业与智能化技术的深度融合是煤炭行业现代化的必由之路。煤炭企业构建高可用云平台的管理系统(以下简称云平台管理系统)的需求越来越强烈。我国煤炭企业正逐渐向信息化和智能化发展,云平台管理系统的部署具有以下优势:有利于企业统一规划和管理,推动企业高质量发展;有利于实时感知和分析井下多源信息,全方位保障井下生产的安全;有利于自动化获取和监测,提高煤矿井下安全生产技术水平;有利于建立统一的数据标准,减小管理难度,节约运维成本。
煤炭企业在生产中所涉及到的信息量巨大且复杂,服务器故障将会给企业带来不可估量的损失,因此保证信息管理系统和硬件设备的安全性和可靠性是煤炭企业信息化的首要任务。基于高可用集群技术的云平台管理系统可以将任务分布至资源池中,完成煤炭企业的数据存储和计算需求。因此,本文提出的云平台管理系统能够极大增强数据和信息的安全系数,提高企业工作效率,降低数据获取、处理和分析的成本。
随着云计算技术的兴起,基于OpenStack 高可用集群在商业模式中的应用层出不穷。OpenStack 是近年来由各个组件模块搭建的云计算技术开源平台,其框架与高可用技术相结合即为高可用集群的云平台。具体实现原理为:首先,在OpenStack 基础框架之上将各个组件搭载高可用集群;然后,将硬件资源通过VFIO 接口连接至OpenStack 虚拟化基础设施框架上;最后,按需求将硬件资源分配给各个虚拟机资源,每台虚拟机都做若干份冗余备份,其中备份数量根据用户自身需求设定,做到每个服务都达到高可用性,如图1 所示。煤炭行业基于OpenStack 的高可用集群技术主要技术包括以下三个方面:
图1:OpenStack 高可用集群
针对煤炭企业管理层对安全性、可靠性的需求,OpenStack HA 提供了非常适用且灵活高效的解决方案,其主要特点包括:IP 以及运行的服务能够自动转移;多台服务器可以进行信息交换;同/异域灾备系统以及计算/存储能力强;多服务器实时数据备份。
Pacemaker 是集群资源管理器。该集群资源管理器通过Corosync 心跳监测机制对故障节点进行检测,并能够对故障情况迅速作出响应,使运行的服务迁移到另一备用节点上继续进行工作。因此,当集群中任意一个工作节点发生故障时,Pacemaker 会最小程度的减小损失,实现节点和资源的故障检测和资源的恢复,从而最大程度上保证集群服务的高可用性。主要工作流程如图2 所示。Pacemaker 对用户环境没有特定的需求,所以煤炭企业可以使用Active/Active 双活高可用集群来保证企业内所有服务平稳运行。
图2:故障节点迁移
由于基于HAProxy 的负载均衡架构可以支撑数以万计的并发连接,因此适用于数据传输量巨大且复杂的煤炭企业。这个系统旨在减小单一服务器的负载压力,通常将工作负载到多个服务器来提高应用的性能和可靠性。
Keystone 是所有用户与服务之间认证授权的机制,在OpenStack 集群中主要负责用户身份验证、服务目录和身份令牌的管理功能,还参与了架构内部各服务之间的通信。图3 为矿井管理用户创建实例过程中Keystone 的响应流程,用户首先向Keystone 发送身份信息,Keystone 接收后向用户返回Token,之后用户向Nova 发出带有Token 的实例创建请求,Nova 接收后向Keystone 验证Token 的有效性,被证实有效后,Nova 向Glance 发出带有Token 的镜像传输请求,Glance 再向Keystone 验证有效性,成功后Glance 向Nova 提供镜像目录查询和传递服务,获得完镜像后Nova 继续向Neutron 以同样的方式获取网络服务,之后虚拟机启动成功,向用户返回实例创建成功的响应。Keystone 是整个OpenStack 服务框架的注册表。
图3:Keystone 实例创建认证过程
Nova 的主要功能是对虚拟机进行管理并提供虚拟机运行需要的主要资源。在OpenStack 中,Nova 与各个服务之间都会进行相互访问和交互,Nova 内部子服务之间的交互也很多,如图4 的Nova 框架图可以看出,Nova 是OpenStack框架的基石,能够串联各个组件从而完成OpenStack 的服务。队列消息Queue 和数据包Nova datebase 与Nova 各个子组件进行交互;Nova 的各个组件与Glance、Neutron 等OpenStack 大组件之间也通过消息机制进行服务交互,为企业提供实例运行所需要的计算资源。
图4:Nova 逻辑框架图
Glance 的主要功能是查询和获取镜像本身和镜像的整体信息;注册和上传虚拟机镜像,镜像的创建、上传、下载和管理,维护镜像信息;支持多种方式的存储镜像。Glance 的查询和使用主要是由客户端发起,后端更多的是存储,如图5 的Glance 架构图所示。
图5:Glance 原理架构图
Neutron 主要功能包括:提供面向租户的API 接口,创建网络、路由、负载均衡等,关联虚拟机实例到指定的网络和路由;通过API 管理交换机;提供插件架构支持多种平台等。如图6 所示,Neutron 通过插件和插件代理的组合来实现API 转发来的网络请求。
图6:Neutron 功能实现架构图
目前煤炭企业总体架构一般都是五个层次,即决策支持层、经营管理层、生产执行层、控制层和设备层。利用OpenStack 高可用集群将各层级系统进行统一规划,使企业各个层面和部门之间的管理和协同工作更加方便、快捷、高效。在企业云计算数据中心搭建OpenStack 高可用框架,与井下煤尘传感器、瓦斯传感器、温湿度传感器设备接口连接实现数据的自动化获取、传输、处理、分析和显示,并做到数据采集的实时性和准确性。采集的数据在数据中心的数据资源池中实现高可用存储,保障数据的安全性。上述信息化云平台煤炭企业总体架构如图7 所示。
图7:信息化云平台煤炭企业总体应用架构
煤炭企业在井下的生产过程复杂,有多种生产环节如一通三防、皮带运输、安全监控系统、视频监视、产量监测等,这些系统都是正常井下作业必不可少的。为了保障矿井安全生产,各个子系统都必须正常运行。这就要求各类系统能平稳的提供服务,不能让个别系统出现故障使井下作业中止。为了保证系统都可以平稳运行,引入高可用集群技术。若干个节点服务器组成服务群设备,该群体对外表现为一个服务实体,当正在运行的单一节点(服务器)发生故障,服务会自动切换到备用的节点,尽量避免单个服务器发生故障引起作业的中止,解决了单节点发生故障引起的整个系统瘫痪的问题。为高效、灵活、安全的井下作业提供了辅助性的保障。
目前各层级系统的系统都是独立的,系统的接口不统一,尤其是设备层的多种检测系统。在现有的煤炭总体架构上加上OpenStack 高可用云数据中心如图3 所示,统一各层级、各部门的网络接口协议,全部连接到云数据中心,这样部门之间横向的信息传输更流畅,使生产管理决策的效率提升。
随着云平台、虚拟化技术的成熟,在云平台管理系统的建设中要考虑容灾体系的建设。按照《煤矿安全规程》的规定,所有煤炭生产企业的煤矿井下安全监测数据要实时上报国家应急管理部信息中心,同时还要上报省市两级安全监管局。如图8 所示为目前国家应急管理部信息中心规划建设的具有容灾的数据中心框架图。因此,建设同城双活或同城双活及异地单活的容灾灾备系统,可以更好的实现服务的不间断性和数据的安全性,避免了传统服务中心用户单系统抗故障能力差的缺陷。容灾设计极大地提高了系统的可靠性,提高了总体业务的连续性。
图8:容灾系统整体架构图
本文分析了当前煤炭企业数据中心管理平台的现状和难点,采用云计算高可用、负载均衡等相关技术对煤炭企业管理平台进行设计、规划,实现企业所有计算资源、存储资源、信息资源等可以统一分配、管理、共享从而提高业务管理运转效率,资源配置更加优化,达到低成本高效率的目的。