张亚辉,贾汉伟,李林,韩鑫鑫
(中国移动通信集团设计院有限公司山东分公司,济南 250101)
互联网飞速发展,随之带来了IT设备急速增加、IT资源不断复杂的问题。各运营商也面临设备规模日益庞大、逻辑资源日益增多,以及由此带来的IT资源和系统运维管理日益复杂的问题。英国政府在1987年制定的有关IT服务管理的方法论ITIL(IT基础架构库)已成为IT管理业界公认的事实标准和指导性管理体系。其中的配置管理是ITIL的重要流程之一,它管理和控制着IT基础架构中的每一个设备或系统资源的配置项,以及用于记录所有配置项信息及其相互关系的数据库CMDB。配置管理很好的实现了对IT系统中的硬件、软件、系统、文档等以及相互关系的管理和控制。
不过ITIL主要侧重于对基础资源和流程的管理,如何在管理IT资源的基础上做好基于海量数据资源的应用成为一个新课题。本文在总结分析IT资源管理经验的基础上,结合运维的专业分工、查勘设计流程以及设备参数电器特性等外部数据,挖掘不同运维角色之间、运维与设计之间的相互关系,构建基于配置管理的运维与设计一体化应用架构。通过运维数据实现设计精准化和自动化,同时使设计更好的落地为运维提供指导依据。
随着互联网和电信业的发展,目前地市级运营商数据IT机房内部署的物理设备数量级已达到千台,省级或集团级数据机房将达到几千甚至上万台物理设备,涉及的逻辑类或应用类资源的数量级更高。虽然其中大部分已实现基础的IT配置管理功能,如物理硬件、主机性能、文件系统、数据库、账户口令、资产及维保管理等管理,但IT配置管理中仍存在资源数据孤立,缺乏相互关联,缺少更深层次的应用等问题,归纳如下。
机房设备及业务系统的运维一般会涉及多个部门和专业。如运营商分管部门,机房一线运维人员,二线主机网络数据库运维人员、业务系统厂商、工程集成商,硬件维保厂商,动力空调维护人员,机房环境监控和物业管理人员等。多个运维参与方之间具有不同的职责、管理各自的资源,极易造成交叉数据不统一的问题。不同专业间数据互提时多以线下沟通方式进行,在配置管理流程中缺乏关联关系和相应的管理。
前面提到的多个部门专业掌握了大量数据资源,如规划设计成果、设备参数库、机房管理资源、主机性能及网络数据、动力空调资源、资产及维保合同资源等,由于缺乏有效的数据整合和应用开发,极大的浪费了海量数据原本拥有的数据价值,更无法将数据价值转化到提升规划设计和运维的自动化程度上来。
现有工程管理流程中,规划设计处于工程前的阶段,系统运维处于工程完成后的阶段,两者交集很少,设计既不能有效地作用于运维,运维也无法及时地为设计提供数据支撑。设计中的整体架构、逻辑组网、设备安装、线缆连接、端口占用等诸多有效数据无法纳入到运维数据中,同时也缺乏通过运维数据来验证并细化设计的反作用力。由此可能会带来设计中基础数据采集和查勘效率低、沟通协调成本高、设计落地性差、运维缺少设计初始数据、设计资料无法为后期扩容提供精准依据等问题。
为了解决配置管理中存在的上述问题,提升资源数据价值,加大各运维专业之间以及运维与设计之间的关联关系,提高运维和设计的自动化程度,提出了基于配置管理的运维和设计融合应用架构,从数据源、基础资源、外部资源、融合应用几个方面对现有配置管理架构进行改造设计,目标架构如图1所示。
图1 配置管理目标功能架构
从多维度进行数据采集,在原有人工录入的基础上增加自动化信息采集以及配置管理与合同管理平台的对接。通过自动化采集提高数据采集的精准度和实时性,通过与合同管理平台的对接实现资产、维保、运维等合同信息的自动化录入。
将配置管理中原有的资源管理功能及数据加以改造作为基础资源层,本层可分为资源数据子层和在其之上的资源关联关系子层。对每个子层按照功能大类划分子区域,物理类资源中的资产、维保、交维相关字段信息划为合同类属性区域,与之对应的是逻辑类资源中的合同资源区域,两个资源区域间做映射关系即生成了一个资源关联关系子区域,包含了资产关联、维保关联、运维关联;同样的,物理类资源中的位置、系统、标识相关字段信息划为物理属性区域,物理类资源中的IP、CPU内存等主机属性字段划为主机属性区域,两个资源区域间做映射关系也生成一个资源关联关系子区域,包含了业务系统关联、设备位置关联、主机性能和端口关联等。
基于不同资源属性区域创建的多种关联关系可看作是配置管理内部数据的桥接,以桥接作为数据骨架,可以通过任意节点或维度提取出相关的数据链。
将目前配置管理未接管的其它专业数据或设备参数等重要资源定义为外部资源层。设备参数库主要包括设备配置、电气特性、尺寸重量等,主要性能指标如表1所示。
设计资源库主要包括设计成果中的组网规划、设备选型及安装、动力空调设计、布线及承重等,动力空调维护库包括动力空调专业掌握的第一手维护资料等。以上这些资源或与运维相关、或与设计相关,是目前配置管理的真空区。可以以配置项为基点,根据响应的关联关系,扩展横向资源,将这些数据纳入到配置管理中。
在整合基础资源和外部资源并创建多种关联关系的基础上可开发各种深层次的应用。
(1)机房远程展示。基于配置资源搭建2D或3D机房展示系统,可针对不同的角色、对象等条件划分不同的区域和权限,定制不同的展示内容。不同专业在同一平台直观地查看机房设备,大量减少人员进出机房的情况。3D机房展示效果如图2所示。
(2) 设备一键报障。丰富精准的设备数据、维保数据、交维信息等为设备一键报障提供了必要条件,报障信息与多个维护方关联,可方便快捷的通知各方人员,减少人工沟通的时间成本和管理成本。同时外部设备参数库也为排障维修提供了数据基础。
表1 设备参数库主要性能指标
图2 3D机房展示效果
(3)硬件自动续保。配置管理与维保合同系统的对接,使设备维保信息能够及时、自动的更新到配置管理数据库CMDB中,保障了机房设备维保数据的精准性;反方向来看,CMDB根据设备维保到期的情况向合同管理系统自动提交续保需求。此功能可极大的节省每年大量设备续保的人工成本。
(4)远程设计查勘。精准、直观的机房远程展示,配合动力和空调维护数据以及业务系统和主机属性信息,使远程设计查勘成为可能,中小规模设计远程查勘、大型设计可远程预查勘,可节省查勘成本和时间。远程查勘设备属性信息效果如图3所示。
图3 机柜设备状态和参数远程查勘
(5)自动辅助设计。配置管理中展现的机柜立面空间、机柜电源负荷、空调和承重参数、设备参数库等为设计提供自动化出图功能,减少设计中的技术含量低但又比较占用时间成本的内容。机房机柜空间、承重、用电负荷等查询效果如图4所示。
图4 机房机柜空间、承重、用电负荷等查询示意图
(6)网络拓扑生成。配置项中包含大量主机、存储、网络设备、安全设备的业务系统信息、端口配置信息及设备互联信息,在此基础上可实现网络拓扑生成功能,生成的逻辑组网图比人工维护的图纸更精准、更实时。
(7)设备生命周期管理。多方共同维护的数据保障了设备生命周期管理的完整性。规划设计提供初始方案,资产管理合同的对接提供采购和转资信息,一线管理保障设备上线信息,维保合同运维合同和交维信息保障设备的硬件维护和业务运维,扩容或搬迁设计、资产变更流程等会及时更新设备的搬迁、利旧、退役、报废等状态。
(8)业务系统扩容。配置管理中包含业务系统各业务线的管理、物理硬件参数、主机性能参数、同时从ITIL服务管理获取到生产过程中的各类告警情况,综合以上数据可为业务系统的扩容提供数据分析。
(9)运维团队组建。可根据不同的业务系统甚至不同的业务小组,快速组建相关运维团队,从配置管理中快速提取机房管理人员、业务运维人员、主机管理员、网络管理员、数据库管理员等人员配置。
(10) 电气性能分析。设备物理分布、电源系统设计、动力维护数据、设备参数库中的电气特性等数据可提供电气性能分析功能,实时评估UPS、配电柜、设备机架的电源负荷,为电源系统优化和扩容提供依据。
(11) 空调环境评估。设备物理分布、空调系统设计、空调维护数据、设备参数库中的电气特性等数据可提供空调环境评估功能,为机房温湿度环境监控及空调系统的扩容提供依据。
(12)机房承重分析。配置管理中的硬件资源数据结合设备参数库的硬件尺寸重量参数等可提供详尽的机房承重报告,参考机房承重设计,为机房后期扩容提供依据。
数据创造价值,各运营商运维着大量的设备,掌握着海量的运维资源,如何在运维大数据的基础上深入挖掘高层应用是能否真正体现数据价值、提高运维效率的关键。本文仅是从通信运维人员和设计人员的角度在运维和设计融合的应用架构方向进行了探讨,运维还有开发运维一体化(DevOps)等诸多研究思路,IT运维总的发展方向是融合和一体化,各领域和专业相互关联、相互支撑,实现1+1大于2的作用。