铁路信息系统平台集中安全运维综合监管系统设计

2018-12-01 07:04
铁路计算机应用 2018年11期
关键词:运维监测系统

刘 洋

(中国铁路信息技术中心,北京 100844)

大型企业IT管理当前已经迈入了云计算与大数据的时代,其管理对象覆盖整个信息系统,包括:网络、主机、存储等硬件设备,温度、湿度、电源等机房环境,操作系统、数据库、中间件、业务应用系统等软件环境和应用环境[1]。各种新兴技术为未来IT管理提供了新模式,实现了设备集中、数据集中、业务集中[2]。在新技术的支撑下,机房绿色化、设备虚拟化、业务服务化、运维自动化,以及运维趋势分析、大数据业务分析、设备性能分析、监管控平台一体等,都是现在比较成熟和先进的运维管理方法[3]。

国际主流的IT运维管理参考体系即为ITIL,自上世纪80年代发展至今,已发布至V3版本,并发布了基于ITIL体系的ISO 20000标准[4]。在工业和信息化部、国家标准化委的领导和支持下,中国自主研制了一套IT服务领域的标准库和一套提供IT服务的方法论,即信息技术服务标准ITSS[5]。

中国铁路总公司采用“铁路总公司–铁路局–站段”三级信息系统运行维护体系[6],组建相对完备的人才队伍,其运行维护工作基本覆盖包括服务器、网络、存储在内的基础设施,以及包含操作系统、数据库、中间件在内的业务系统支撑层和业务系统的日常维护。制定了相关的运行维护标准规范,实现运维作业流程化,并针对信息系统运行的考核机制及基本指标,对相关运行维护人员进行考核[7]。但信息运行维护及管理体制中,尚存在一些问题需要优化和加强,如各单位信息运行维护水平不一,人才队伍、考核、知识管理、标准规章的落地、运维流程、工具的使用等方面的水平仍然存在差距[8]。

本文借鉴国内外先进运维标准规范,紧密结合铁路信息系统既有运维管理实践,对铁路信息系统平台集中安全运维综合监管系统相关问题进行研究,提出了系统总体思路,并对结构、功能等方面进行详细设计,最后就关键技术做出说明。

1 系统总体思路

以集中安全运维支撑业务需求为导向,提出集中安全运维综合监管系统的整体建设思路与原则。

(1)建设平台化的运维支撑工具。按照集中安全运维支撑平台进行规划设计,搭建一体化、平台化的运维系统,集成融合现有各类运维支撑工具,促进运维支撑工具的集中统一、数据共享、流程融合、一体化应用。

(2)支撑功能覆盖监控、管理及数据服务。为应对当前信息系统平台集中安全运维支撑需求,新的运维平台应在满足IT基础资源监控的同时,支撑运维业务管控工作,并通过统一的数据采集分析,为上层主动运维、服务分级、考核评价、经营决策等提供依据。

(3)实现自动化与智能化运维手段。运维平台需要对运维工作进行场景细分,针对可标准化、自动化、定制化、结果能量化的运维工作,进行建模、分析、固化,通过技术时段实现智能化运维支撑,减轻运维人员负担,提升运维工作效率。

2 系统架构设计

2.1 技术架构

构建松耦合的数据采集、支撑平台、业务应用、门户展现4层技术架构,与铁路总公司云运维管理平台集成,以适应系统在业务范围和应用范围不断扩大的情况下,对系统灵活性、扩展性等能力以及运行性能的要求。技术架构如图1所示。

图1 监管系统技术架构

2.1.1 数据采集层

通过多种开放性协议,包括SNMP、ICMP、STP、FDB、WMI、SSH、JDBC、JMX、HTTP等,实现对硬件、软件、信息系统基础设施环境等运维目标运行状况的动静态参数采集。采集源分为:信息系统资源、通信链路资源、云资源,以及告警信息、安全信息、访问信息、日志信息等。将这些数据采集、清洗后,存储到采集数据存储池内,供上层平台使用。

2.1.2 支撑平台层

为上层应用层和门户层提供平台级和数据级服务,主要包括数据库环境和各类服务接口。数据库通常有关系型数据库、大数据环境、实时数据库等,涉及到决策、统计、运行、告警、流程工单、系统资源、配置、知识库等数据信息。平台服务涵盖接口、流程引擎、日志、任务调度、总线、集成环境、报表、缓存、权限控制、图形平台等服务。

2.1.3 业务应用层

业务应用通常是指各类与集中安全运维综合监管系统相关的基础管理应用、业务管理应用、平台管理应用。这些应用会使用到下层提供的各类数据和服务,是监管系统面向用户和其他业务管理的相关应用。

2.1.4 门户展现层

采用可视化标准组件库、统一展现框架、门户代办等技术,可以支持移动终端、桌面终端、大屏等展示。

2.2 应用架构

监管系统应用架构如图2所示。整体应用功能规划为4个应用层,整合设计了5类基础管理应用和3类业务管理应用,构建了统一运维工作台。按照一次规划,逐步完善,分步实现的原则,优先满足基层人员实际工作需要。

图2 监管系统应用架构

4个应用层分别是基础管理、业务管理、平台管理和运维工作台。其中,5类基础管理应用,分别是资产管理、配置管理、知识管理、基础设施监测、业务应用监测;3类业务管理应用,分别是项目管理、监测处置、保障支撑。

3 系统功能设计

3.1 资产管理

本设计中所说的资产,是信息运行管理的硬件、软件、虚拟资源、基础业务(包括:IP、vlan、域名、负载均衡策略、防火墙策略、电源负载、账号权限、机柜空间、机房空间、配线架端口等)以及机房基础设施资源的资产属性。资产管理主要指对机房各类软硬件资源、虚拟资源和基础支撑等进行管理,可利用资源的资产属性,进行规范化、标准化、流程化及有序高效的管理。

3.2 配置管理

建立配置库,对配置信息的更新进行审核和批准。根据查询条件,查询资源数据,并可以新增、修改、删除配置项数据。主要功能包括资源模型数据查询,根据查询条件查询,按照配置分类、配置类型查询资源数据;展示资源数据详细信息;展示资源数据相关联数据信息;修改配置项数据;删除配置项数据;新增配置项数据等。

3.3 知识管理

根据用户需求,在组织中构建一个量化与质化的知识系统,让组织中的资讯与知识,通过获得、创造、分享、整合、记录、存取、更新、创新等过程,形成知识条目,并对知识的采编结果进行审核发布,不断回馈到知识系统内,形成永不间断的个人与组织知识,这些知识成为组织智慧的循环,在企业组织中成为管理与应用的智慧资本。使用者根据问题描述查询知识库,并参照知识库内容处理问题。同时将未能查询到的知识条目按照需求更新上报,知识管理员对上报需求进行分析后,添加相关知识。

3.4 基础设施监测

(1)机房监测,主要是针对机房内所有设备及环境进行集中监控和管理,其监控对象构成机房的各个子系统有辅助系统(空调、UPS、门禁、视频)、环境系统(温湿度、漏水)、消防系统、安保系统、网络系统等。

(2)网络监测,包括交换机、路由器、负载均衡和防火墙等网络设备,监测的内容主要包括网络设备的内存、CPU使用情况、设备运行状态、网络端口运行状态、网络流量等。

(3)主机监测,包括各类安装了操作系统的服务器设备,监测这些设备的内存、CPU、硬盘使用率,以及I/O状态、网络状态、进程状态等。

(4)存储监测,包括存储设备、SAN交换机等各类存储环境设备,监测内容包括其运行状态、性能、容量使用情况等。

(5)数据库监测,主要包括各类关系型数据库、非关系型数据库,监视的主要内容包括有数据库的运行状态、运行性能、表空间大小等关键数据。

3.5 业务应用监测

针对业务应用系统的运行情况,进行主动、被动的探测与展示,结合图模一体化的运行视图,对业务应用系统的实时状态、关键指标、网络安全、桌面安全等进行监测。展现各业务应用系统综合性能情况。对异常和超时的业务应用进行排名,对监测系统、范围、运行概况给出大致描述,对各个系统应用页面探测,给出全面统计信息数据和统计结果等内容。

3.6 项目管理

提供系统问题反馈收集机制,便于实现对信息系统运维需求的线上问题收集和统一管理。项目计划管理是一个用于协调所有项目计划的文件,可以帮助指导项目的执行和控制,根据项目需求,提供项目建立、项目可研、项目储备、项目计划等前期项目管理工作。

3.7 监测处置

(1)事件管理,通过提供监测事件,准确确定正确的支持资源,以便尽快解决事件。

(2)问题管理,以解决问题为导向,以挖掘问题、表达问题、归结问题、处理问题为线索和切入点。

(3)风险管理,把风险可能造成的不良影响减至最低。

(4)容量管理,为数据处理和存储提供所需的容量。

(5)可用性管理,通过对信息系统以及IT服务进行设计、实施、评价和管理,最大限度缩短计划性停机和突发性停止应用时间,持续地满足业务的可用性需求。

3.8 保障支持

(1)客服管理,用户通过系统或热线客服电话申报故障异常,客服人员将任务按故障类型派单到相关部门进行处理,并对处理过程进行跟踪、督办。

(2)值班管理,实现值班排班、值班日志、交接班等线上值班管控功能,并可通过图形化的值班视图查看当日值班信息。

(3)安全管理,提供安全监测、终端监测、合规监测、主动防御等安全监视与管理功能,实现安全指标的集成汇总及展示,包括补丁漏洞、杀毒软件、保密检测、安全接入平台、信息网隔离、安全设备、防火墙监测、内/外网安全管理等功能。

(4)审计管理,提供线上运维审计、安全审计等审计管理功能,是集成系统运维操作关键指标数据并进行展现的页面,可通过系统基础数据采集自动抽取相关日志数据进行审计评估。

3.9 运维工作台

提供基于用户角色的集中化信息展示平台和应用入口,全面提升界面图形化视觉展现,满足用户的个性化需求,并具有良好的功能扩展性。个人工作台根据用户的岗位角色,提供组件模板,同时提供可定制的、支持组件个性化的专属工作区。功能框架主要包括展现框架、工作台组件和系统配置。

4 关键技术

4.1 集中统一事件处理技术

支持对各类不同基础资源的集中统一采集和事件处理分析,同时支持第三方网管数据的接入与标准化展现,最终形成统一的告警处理中心。

系统通过告警规范、告警范围、告警处理、告警规则、告警分析、告警展示、告警恢复7个维度进行告警的全方位管理。同时,基于统一信息库中的模型关联关系,实现顶层业务系统告警到下层资源告警、资源性能数据的根源追溯功能。

4.2 资产配置动态建模技术

通过内置的基础模型库,对配置、类别、属性、关联、表单等按需扩展,融合资产配置生命周期状态管理,实现快速构建资产配置模型。该配置模型可以结合配置管理数据库(CMDB),实现配置项的全生命周期管理,并能动态获取各配置项的参数值。

4.3 图形化流程定义技术

无需编码、图形化的流程自定义技术,对审批类流程节点进行封装,支持用户根据实际管理需要,调整业务审批步骤,支持总部的流程模板统一下发到各下级单位。

4.4 图模库一体的可视化技术

基于图模库一体化操作设计的可视化技术,实现图形化的模型和资源数据操作功能。结合图形编辑工具及布局管理器,实现用户级的组态化图形定制服务。

系统设计了独立的图形平台模块,是系统和用户之间的接口,提供用户监控、浏览和操作等功能。图形平台主要包括:图形及视图编辑模块、统一展现视图模块。图形及视图编辑模块是整个展现框架中的底层支撑平台,提供给用户的功能包括:编辑和管理不同类型的图档资料,实现“图-模-库”一体化绑定操作;定义和编辑不同类型的视图,提供灵活的展现方式。统一展现视图模块通过提供不同的视图展现形式实现不同管理域数据的统一展现。

5 结束语

通过对铁路信息系统平台集中安全运维综合监管系统的设计,在深度整合现有工具的基础上,实现了运维对象全监测、运维流程全覆盖、运维目标全满足的基本支撑需求,将现有的各种“散”逐步向“集”过渡,实现“集约化”的架构管控与保障体系、“集成化”的信息管理平台、“集中化”的公共基础平台。

集中安全运维综合监管系统,划分了资产管理、配置管理、知识管理、基础设施监测、业务应用监测、项目管理、监测处置、保障支持、运维工作台等9项子系统,有效区分了运维过程中面向不同运维对象的工作内容,使得运维人员的工作界面更明晰,流程更简洁。在系统设计时,采用的集中统一事件处理、资产配置动态建模、图形化流程定义、图模库一体可视化等关键技术,能对规范事件处理流程、定义标准化运维对象、工作台人机交互等快速实现,起到促进作用。

为了满足未来铁路总公司数据中心的运维要求,该系统还需要在性能、可靠性、稳定性,以及部分功能性方面继续进行研究和实践。尤其需要思考并完善的工作是:面对万级、甚至是10万级规模以上的运维对象时,满足集中、安全、监管等运维要求。

猜你喜欢
运维监测系统
Smartflower POP 一体式光伏系统
特色“三四五六”返贫监测帮扶做实做细
WJ-700无人机系统
基于PowerPC+FPGA显示系统
运维技术研发决策中ITSS运维成熟度模型应用初探
风电运维困局
连通与提升系统的最后一块拼图 Audiolab 傲立 M-DAC mini
配电线路的运维管理探讨
基于一体化的变电标准运维模式
网络安全监测数据分析——2015年12月