李国煜 闫岳明 王娣 陈威
(中国铁路信息科技集团有限公司 北京市 100844)
早期的铁路信息系统建设旨在满足铁路各级单位的业务需求,随着铁路业务的不断发展,信息系统也日趋成熟与完善,铁路信息资源也日益庞大、复杂。然而,铁路各级单位的信息系统均为独立建设、相互孤立,信息资源共享性、复用性较低,成为提升铁路信息资源利用效率的一大阻碍。如何管理好铁路信息资源,保障国铁集团及全路各级单位核心业务可靠、有效的运行,已成为铁路信息资源管理的重要工作之一。
对比国内外先进行业,铁路信息资源利用率普遍偏低、成本较高,主要表现在:一是资源需求评估和管理缺乏理论依据和统筹规划;二是缺乏有效的效率监控手段和资源优化、回收机制,;三是资源监控、故障预测手段尚未完善,IT信息资源管理工作较被动。
为应对铁路各级单位对IT信息资源服务需求的不断增长,亟需建立完善的IT信息资源管理体系,快速且高效的响应全路各级单位日益增长的需求。因此,本文研究了铁路IT信息资源管理理论,探索一套科学完整的信息资源管理方法与框架,解决资源需求管理、分配交付管理、使用过程效率监控、优化及回收管理等问题。
本文主要分为五个部分:一是研究信息资源需求评估策略与运用方法,提前规划资源,以开展资源建设与扩容工作;二是探索信息资源管理与分配方法,提升信息资源利用率;三是完善信息资源使用效率监控与通报机制;四是根据信息资源监控结果,探索信息资源优化策略,对低效资源优化、超期资源回收,以期达到降本增效目的;五是结合国铁集团基础设施的使用现状和总体规划,研究预测关键技术,对信息资源能力需求进行预测,以满足信息资源使用需求。
采用大数据和机器学习技术,构建出符合铁路网信规划的IT信息资源需求管理、分配交付管理、使用过程效率监控、优化及回收管理等方法,并对资源使用效率进行评价、资源需求进行预测。
铁路信息系统整个生命周期都离不开对信息资源需求的评估。在系统设计阶段,编制总体技术方案时,需要使用科学方法进行资源估算,初步明确系统运行对软硬件资源的需求,为后期可行性研究、初步设计、设备招标采购等工作提供指导;在系统部署阶段,申请测试、生产环境完成功能测试及部署时,需申请生产资源进行部署实施;在系统运维阶段,也可能会面临系统扩容的软硬件资源需求评估。
资源评估过可综合多种资源估算方法,以得出更加合理的资源配置建议。资源需求评估不仅要了解应用软件复杂度、业务模式、应用软件的应用场景,还要了解用户对系统响应时间的要求。而不同的业务场景,用户对系统相应时间要求也不同,以 web应用为例,通过调查研究,门户网站页面响应时间应小于3秒,报表类业务响应时间应小于5秒。信息资源需求评估方法主要包括SPEC WEB 2005估算法、铁路仿真测试环境估算法、应用程序类比估算法。
3.2.1 SPEC WEB 2005估算法
web2005是SPEC指标体系(Standard Performance Evaluation Corp)中的一员,主要用于测试Web服务器性能,通过多台客户机向服务器发出http Get请求,请求调用WEB服务器上的网页文件,在相同的时间里,服务器回答的请求越多,其处理能力越强,系统的Web性能就越好。
应用系统的SPEC WEB 2005值计算公式如下:
SPEC web 2005值=((总用户数×在线率×在线用户评价发起http请求数))/((1-冗余率))
故,该系统所需服务器数量NUM如下。
NUM=(系统 (SPEC WEB 2005值)/(某服务器的SPEC WEB 2005值))/0.6
其中,WEB服务器处理能力按照60%计算。
在采用基于SPEC web 2005方法测算同时,也需要辅助评估手段作为补充,即内存需求评估和存储需求评估。
内存需求评估可计算公式如下。
TM=OM+SM+AU×UM+OM
其中,TM(G)系统总内存,OM(G)为操作系统,SM(G)应用服务中间件,AU为总用户量,UM(G)为每用户消耗内存,OM(G)为其他内存开销。
存储需求评估可用存储对象的总容量进行评估,存储对象至少包括数据库文件、文件系统文件、系统日志文件。
每类文件存储容量计算公式如下。
SC=AU×DC×YD×F/(1-C)
其中,AU为总用户量,DC为每用户每天产生数据增量,YD为每年有效工作日,C为存储冗余量比例,F为系统未来3至5年的业务量发展冗余预留,发展系数设以1起算。
因此,存储总容量的公式如下。
总量=数据库文件总量+文件系统文件+系统日志文件+其它文件总量
3.2.2 铁路仿真测试环境估算法
铁路信息系统包括战略决策、运输生产、经营开发、资源管理、建设管理、综合协同六大领域,SPEC WEB 2005基准估算出的需求不能完全适用于各类系统的实际运行需要,申请生产环境前,可在数据中心搭建模拟仿真环境,部署应用系统,并进行压测,根据测试情况制定合理的资源分配方案。
3.2.3 应用程序类比估算法
应用程序类比估算法是类比当前已在网稳定运行的同类系统的资源情况。例如,某OA系统与已经部署的某单位OA系统相似,此时可采用类比法进行资源估算。同时,也要考虑开发团队、业务应用、业务量、运行环境等方面的差异。
以上三种评估方法基本能覆盖铁路不同领域的业务,除此以外,还可结合专家综合评分法进行铁路信息资源需求的估算,即专家结合经验,采用科学手段评估,进行资源估算。
铁路信息资源管理旨在寻求铁路信息资源全生命周期管理的解决办法,以理论为基础,以技术为手段,结合信息机房资源监控实际情况,以效能、安全为基础,实现信息资源的全生命周期成本最优,提高资源的利用率。 随着互联网技术的迅猛发展,IT资源管理理论也不断完善,已经形成了多种理论。胡塞因理论用于管理信息系统的开发、管理应用,将管理融入到计算机信息系统理论中,是资源管理发展的雏形;霍顿理论对信息系统进行全生命周期管理,涉及到信息资源的规划、预算、决策、审计和评估等节点,体系严谨、针对性强、注重规律性;史密斯理论将管理融入到信息系统理论中,基于信息资源的概念与管理逻辑,进行一体化管理;埃森哲方法论研究了资源全生命周期管理的定义、目标、内容及重难点,明确指出了信息资源的分类、职责划分、流程、管理效率,促进技术投资和业务目标的有机结合,从而获得最佳的价值。
结合铁路信息资源管理的实践经验,铁路信息资源全生命周期管控的主要包括信息资源的分类、职责划分、流程、管理效率。
4.1.1 信息资源的分类
铁路信息资源分为软件、硬件和备品备件资源。
软件资源,即无形资产类,指支撑业务运行的计算机软件类资产,包括工具和平台软件、自主研发工具、外购软件包等。硬件资源,指网络基础设施、数据库、桌面、应用系统基础设备、机房基础设施。备品备件资源,包括整机、备件及耗材等。
4.1.2 职责划分
遵循国铁集团相关资源管理办法思想,充分结合铁路现状,对国铁集团科技和信息化部、铁集团所属单位信息化管理部门、国铁集团信息技术中心及国铁集团所属单位信息技术部门、国铁集团机关部门、附属直属机构和所属单位的职责进一步明确和规划。
4.1.3 管理流程
铁路信息资源管理必须依托流程的管理来实现,管理流程要符合铁路现状的信息资源管理流程。主要分为铁路信息资源总体流程图、资源环境部署流程图、资源申请和分配流程图、资源回收流程图。如图1所示。
图1:铁路信息资源总体流程图
当前,很多系统存在申请资源超额或短缺现象,造成资源使用效率过低,此外,当前的监控系统缺乏资源动态调节手段,对于过低或过高使用率的资源无法实现配置动态调节,导致资源使用不合理。
资源分配总体原则应遵循国铁集团相关管理要求,结合国铁集团本级自身资源情况以及降本增效要求,按需进行资源分配。资源分配方法遵循以下原则:
原则一、优先保障重点业务,全路范围内划分业务优先级。系统优先等级如下:
(1)一类业务:包括铁路电子支付、资金结算业务,客运售票、退票、余票查询业务,客运列车到发信息实时通告,验票、检票业务,货运受理、承运、制票业务,货运票据电子化业务,铁路运输计划调度业务,铁路行车设备状态监控、故障预警业务,国铁集团公文流转业务,其他经国铁集团或其所属单位共同确定为一类业务的系统。
(2)二类业务:包括运输信息集成平台实时数据采集、处理、共享业务,邮件管理业务,所属各单位、各铁路公司公文流转业务,集装箱发到、货运装卸业务,铁路运力资源管理业务,资金结算机构资金运用业务,客服语音平台话务呼入业务,十八点数据统计、报表报送,铁路数据统计分析、决策支持业务,其它经国铁集团或其所属单位共同确定为二类业务的系统。
(3)三类业务:不属于一类、二类的业务系统。
原则二、标准配置。常规计算资源、存储资源等需求,制定通用的资源分配标准模板,按照资源分配标准流程,进行资源分配。
原则三、动态分配。以虚拟化技术为支撑,利用虚拟化资源利于动态调配的优势,以提高资源利用率。对于需求资源量较大的需求,以满足基本运行条件或一定时间内需求为原则,阶段性交付资源,减轻资源的分配压力,提高资源使用效率;对于资源配置能力估算不太明确的系统,先交付部分资源,根据监控使用情况,动态调整、按需分配。
资源运维单位制定资源使用监控指标,进行实时监控,构建常态化通报机制,将基础设施资源池静态监控和应用系统资源使用实时动态监控结合起来,进行周期化评估和阶段性调整。 如图2所示。
图2:资源监控图
资源的使用效率监控主要分为硬件监控及软件监控,将硬件和软件监控信息相互结合,综合分析资源实际使用效率,可提高监控的精准度,为信息资源再分配提供参考。
硬件监测指标主要包括存储设备、服务器、网络等。
(1)存储设备:空间使用率,IOPS等。
(2)服务器的:CPU、负载、内存、ping状态等。
(3)网络设备:丢包率、端口状态等。
软件监测指标主要包括数据库、操作系统、中间件等。
(1)数据库监:表空间使用率、实时连接数统计等。
(2)操作系统:CPU、负载、内存、磁盘使用率等。
(3)中间件:实时请求数、实时响应时间、集群状态等。
资源使用效率监控及通报是资源回收优化的基础,也是资源回收与优化的重要的环节。
通过对运维工具进行优化升级,对资源使用情况进行全面的监控,通过资源监控软件的monitor模块进行相关信息采集,通过databank模块对采集过来的信息进行计算分析,由此来对资源使用进行全时段监控。
资源监控软件monitor模块监控每个项目资源使用状况,如CPU、内存、磁盘使用率、 IOPS监测、时延等指标,databank模块收集数据后运用大数据技术spark进行实时计算并将结果进行阶段性统计排名。
通过对资源使用效率进行实时监控,将资源使用率的数据和分析结果汇总为报表,按月、季或年进行通报,并结合当前的项目使用状态与权重提出资源调整建议。一方面,对于存在资源使用效率过低的单位重点通报,另一方面,对于资源使用率过高可能对业务造成影响的单位及时沟通,明确时限要求,监督其及时调整资源使用及管理策略。
资源使用效率通报内容具体如下:
(1)关键指标。如CPU使用率、负载、存储、IOPS监测、时延等。
(2)明确资源使用效率属于偏高或偏低,并给出详细说明。
(3)资源回收或扩容的调整建议。
(4)资源整改期限。
通过资源动态调整技术,在资源虚拟化环境中,需根据系统负载的变化为其所运行的虚拟机有效地、及时地动态分配虚拟机资源,以避免因临时的资源短缺而影响应用系统的运行,同时也可以防止计算资源的严重浪费。
通过资源动态调整技术,掌握各应用于服务的可能负载,根据其需要的物理资源类型、数量及监控的性能状态,进行动态调整分配,如图3所示。
图3:按需自动资源调配
通过合理设定资源池,限制虚拟机在特定的范围内移动,并将资源开销互补的虚拟机放在同一台物理机上,以更有效和更充分的利用物理服务器的资源;将负载均衡或热备集群内的若干虚拟机放在不同的物理机上,使得物理机故障时不会影响到集群应用系统的稳定运行;通过预留一定的后备资源,可以应对突发事件的发生,确保应用系统正常运行。
由于虚拟机具有隔离性,所以可将整个虚拟机实例的运行状态完整快速的从一台物理机迁移至另一台物理机,整个迁移过程是平滑的,可以使计算任务在不同物理机器之间迁移。
资源的动态迁移技术可以进行资源整合,使数据中心资源利用率得到进一步提升。通过该技术还可以在系统不宕机的情况下,将虚拟机迁移到另一台物理机上,从而更方便地实现物理服务器的在线维护、在线升级、负载均衡和灾难恢复。
资源优化的调度策略包括两种,资源集中调度(节约)和资源均衡调度(贪婪)。资源集中调度模式下,优先使用资源利用率高的节点资源,待其耗尽后再使用其他节点资源;资源均衡调度模式下,优先使用所有服务器中资源占用量低的计算资源,并根据监控数据提供虚拟机迁移建议或者自动迁移虚拟机来达到负载均衡,迁移过程中需保证虚拟机业务不被中断。可通过CPU、内存、CPU和内存判断是否需要优化。
(1)CPU:以物理机CPU分配率为衡量指标计算当前集群物理机负载是否均衡。
(2)内存:以物理机内存分配率为衡量指标计算当前集群物理机负载是否均衡。
(3)CPU和内存:同时以物理机CPU分配率和内存分配率为衡量指标计算当前集群主机负载是否均衡。
对超期资源,采用“专项+常态化”治理双轮驱动,即特殊资源需求专项管理,常规生产业务需求常态化管理。通过调研沟通、大数据分析、确定目标、根因确认、回收申请、回收确认、回收治理,统一将资源回收到信息资源池内,以供信息资源再分配。资源回收流程如图4所示。
图4:资源回收流程
信息资源回收方案如下:
(1)共享复用:通过业务关联度等相关信息,达到共享到其他角色对信息资源复用。
(2)减配:采用虚拟化技术降低信息资源配置参数,提高使用效率。
(3)回收:针对连续三个月低效使用的资源,采取通知使用单位并按规定程序进行资源回收。
针对超期信息资源,通报并监督资源使用单位按规定提交资源回收申请,使用单位未经批准不得擅自改变资源用途,资源回收后,同步跟新资源配置管理数据。
运用机器学习和大数据技术,采用人工调查研究、系统自动收集运行信息等方式,建立模型,对未来一个时间段内新增或改造信息系统资源需求、现有信息系统扩容需求、铁路信息机房整体硬件资源池扩容需求等需求进行预测,完成铁路IT信息资源池进行容量评估,满足铁路信息化发展对IT信息资源的需求。
基于铁路IT信息资源现状和特点,主要采用的关键技术有基于大数据生态圈技术栈、机器学习、预测与健康技术。
7.1.1 基于大数据生态圈技术栈
在大数据生态圈技术栈中最主要的应用是Hadoop生态圈技术栈,具有高可靠性、高扩展性、高效性以及高容错性等优点,可进行搜索、日志处理、数据分析、视频图像分析等,同时也对机器学习提供强有利的底层支撑。Hadoop生态圈中的SPARK采用面向内存的计算使用,能够为多个不同数据源的数据提供近乎实时的处理性能,适用于多次操作特定数据集的应用场景。
7.1.2 机器学习
基于铁路信息资源的不同信息资源的需求,机器学习模型可以实现精细到颗粒化水平的计算,提高资源需求预测精准率。简而言之,我们可以获取现有的资源数据信息,以及某一结点的资源使用情况以及使用变化情况,机器学习算法可以利用这些信息实现高精准度地预测最优的资源剩余量。Mltrons精预数据系统的dp2自动化机器学习模块,允许用户从不同平台导入数据,然后自动化匹配最精准的机器学习模型。此外,精预数据dp2系统还可以允许添加其他外因数据,进一步提升预测精准率。随着数据的累计,训练数据库不断扩展,机器学习越来越高效,提供的预测结果越来越精准,而且预测是实时的。大数据预测技术除在信息资源能力需求预测研究中得到应用外,还在以下几个方面进行了应用:
7.1.3 预测与健康技术
预测与健康(Prognostics and Health Management, PHM),是基于大数据技术、综合利用现代信息技术与人工智能技术的一种最新研究成果。这种全新的管理设备解决方案,以健康状态出发从而提高装备的运行安全性、系统可靠性和维修性。
在硬件故障预测研究中,运用PHM技术,根据系统现在或历史性能状态预测性地诊断部件或系统完成其功能的状态(未来的健康状态),预测部件或系统的剩余寿命或正常工作的时间长度。通过PHM技术,可以全面掌握硬件整个生命周期的管理,对不同型号的各类硬件进行故障率预判分析,根据分析结果动态生成备品库存量,最优库存即可以减少库存压力,可以帮助库管员更快速在备件库中定位产品,又可以减少物理设备的采购成本压力,大大提高铁路成本效率,同时可以提升应急联动指挥系统联动工作效率。
信息资源能力是指依托铁路信息机房资源,如基础设施环境、计算、网络、应用交付、数据库、安全、传输、系统监控等,为铁路信息系统提供部署、运行等方面服务的能力。
7.2.1 硬件资源能力需求预测方法
运用大数据的方法,对硬件资源池进行容量评估、改进和预控,通过建模、服务监控、需求分析、趋势分析等过程实现对硬件资源能力预测的研究。
(1)对新增或改造信息系统资源需求进行预测。整合铁路信息化规划、更新改造或新建工程项目、每年纳入降本增效的项目等需求,对比历年数据,进行分析,对该部分资源需求进行预测。
(2)对现有信息系统扩容需求进行预测。通过大数据手段,基于系统数据增长速率、用户增长速率、满足业务部门新增功能需求而扩容的资源量等历史数据,构建预测模型,进行趋势分析,更加高效准确的预测现有信息系统扩容需求。
(3)对铁路信息机房整体硬件资源池扩容需求进行预测。整合新增及改造资源需求、扩容资源需求,预留一定比例的硬件资源,以满足临时增加的硬件资源需求,对比历史数据进行趋势分析,预测出整个资源池扩容需求。
7.2.2 软件资源能力需求预测方法
软件资源能力需求预测主要采用统计分析和调研的方法进行研究。
(1)对现有信息系统使用的操作系统、数据库、中间件等软件类型、厂商和版本等信息进行统计、分析、排名,重点关注使用频率较高的软件资源,对未来一段时间内的需求进行预测。
(2)应用研发单位软件资源环境需求调研。了解研发软件资源需求,对比现有资源服务目录,结合市场趋势和自身运维技术条件,进行差异分析,预测新的软件资源需求,更好地促进研发与运维工作相结合。
(3)市场软件资源趋势调研。一是预测市场软件资源发展方向,指导运维技术人员培养方向和资源采购工作;二是掌握软件资源迭代版本,了解官方支持截至日期,及时更新或淘汰低软件版本,保障铁路信息系统安全, WebLogic、Java SE官方截止日期如表1所示。
表1:WebLogic、Java SE官方截止日期
最后,结合以上3个方面的软件资源需求,建立大数据分析模型,对软件资源需求进行预测分析,同时指导软件资源及维保服务采购、资源服务目录更新工作。
资源能力需求预测的应用方向主要包括应用系统及业务数据预测、硬件故障预测、巡检计划合理安排、备品备件在库情况告警等。
(1)应用系统及业务数据预测:通过大数据预测技术,分析应用系统故障率及故障点,根据预测数据,在系统升级改造时做足准备,降低应用系统的日常故障率,通过对业务数据的预测分析,还可以测量业务数据存储最佳数据量,确保应用系统稳定运行、效率最优。
(2)硬件故障预测:可对硬件进行全生命周期管理,对不同型号的各类硬件进行故障率预判分析,根据分析结果动态生成备品库存量,不仅可减少库存压力,快速定位备件库中的产品,又可减少物理设备的采购成本压力,大大提高铁路成本效率和应急指挥联动效率。
(3)合理安排巡检计划:硬件故障预判分析还能提前帮助运维工程师根据预判分析 结果制定硬件巡检计划,可以提高巡检工作效率。
(4)备品备件在库情况告警:根据备品备件的使用情况及在库情况,库存不足或库存过剩时报警,以及时进行补充,提升备品备件的利用率。
本文对铁路IT信息资源管理理论进行了分析,首先研究了信息资源需求的评估方法,依据评估结果进行资源分配,实时监控和通报信息资源利用率,对低效资源进行回收再利用,该研究为构建铁路IT信息资源管理体系提供基本思路。