提升运维质量,降低运维成本
联想集团,《财富》世界500强202位,我们引以为豪的中国品牌之一,其16/17财年营业额430亿美元,业务规模遍布全球160多个国家和地区,全球员工5.2万人。而在为业务运营提供技术支撑的IT基础设施方面,联想则拥有多个数据中心,200个分支机构,近百条MPLS线路,以及近万台网络设备的庞大规模。那么,联想集团的相关职能部门是通过何种方式,借助哪些工具对分布式环境进行有效管理的呢?在统一通信应用日益普及的今天,联想集团企业通信方式已全面过渡到崭新阶段,现已全面部署了微软Lync企业级即时通讯+视频会议系统,并分为4个集群,覆盖全球5万用户,9万终端,Lync通话及会议通讯次数更高达每日数万次之多。如此大规模的UC应用,联想集团又是如何管理的?使用中是如何监控,发现故障又是如何排查并快速解决问题的呢?
联想集团IT监控经理胡永介绍,联想IT监控中心主要负责IT系统端到端的监控方案设计、部署、运营及优化,监控范围涵盖APM、业务流程监控、应用平台、数据库、中间件、服务器、网络、存储、数据中心设施等,同时提供7×24小时的监控服务。监控超过百个应用系统,监控服务器、网络设备数量更高达万台以上。
胡永表示,两年前,联想IT监控中心在运维方面面临一些问题与挑战,一是虽然实现APM、DEM以及ITIM监控,但是缺少NPMD方案;二是网络规模、复杂度与日俱增,通过网络交付的关键应用出现问题时,难于快速定位,影响用户感受;三是传统网络监控方案专注于网络设备,缺少对网络流量的提取与分析,无法主动获得应用在网络上运行的状态以及用户的真实体验;四是网络信息广泛而离散,缺乏统一的、定制化的展现与智能化的关联分析。因此,联想需要建立完整的网络流量采集、监控分析平台;实现网络流量及网络性能的分析与可视化;实现网络流量原始数据的历史数据回溯分析;协助运维团队加快网络性能故障的分析定位。总之,在提升运维质量的同时,降低运维成本。
胡 永
主动性能管理与快速故障定位是Riverbed SteelCentral UCExpert与NPM解决方案的最大特点,也是联想IT监控平台急需的功能。胡永告诉记者,联想采用Riverbed SteelCentral UCExpert与NPM解决方案,结合自己的运维实践经验,分别对前端的客户体验、后端的应用性能,进行了广泛而细致的实时追踪,极大地提升了监控水平与问题定位能力。监控可视化平台实现了对应用系统状态以及性能数据的统一展示,并打破了IT技术边界,以业务系统为核心,实现客户端、网络、应用端到端的综合监控能力。
关于为何选择Riverbed方案,胡永表示,联想和Riverbed有很深入的合作,之前就采用了Riverbed出色的广域网优化产品SteelHead。此外,Riverbed NPM方案在Gartner魔力象限中连续保持领导者地位。同时,经过我们的调研,其产品很好的满足我们的需求。
对于IT来说,应用性能是其工作业绩的最显著指标,因此,全球的组织机构均通过Riverbed SteelCentral系列产品开展性能管理与分析,以便提供始终一流的用户体验。Riverbed亚太区技术方案架构师李耀宗介绍说,采用SteelCentral,用户可以通过一种集中的动态视图监测应用交付链上的每一个重要环节,并将其中的任何问题消灭在萌芽状态,预防其产生不利影响。无论是推出新的应用、整合或虚拟化数据中心、向云迁移、支持移动设备用户,还是只是需要一种故障排除与可视化解决方案,SteelCentral产品都能够让用户全面了解自己的环境。
在谈到Riverbed方案给他的监控团队带来哪些变化时,胡永最后表示:我们最早建立监控团队应该是10年前,最初监控大部分都是手工操作,工程师要
李耀宗
去各个系统里面点看问题,后来一步步地实现了自动化,现在96%以上的实现了自动化监控。现在我们职责越来越丰富,从简单的查问题、反馈问题。扩展到帮忙其他运维团队,分析问题,定位问题,以及发现系统的潜在风险。监控的价值得到了进一步提升。
另一方面,虽然随着IT 系统建设,监控的范围越来越广,越来越细。比如开始是一两千台服务器,现在上万台。由于我们不断的提升监控自动化,监控的人员反而减少了。团队的效率得到了持续提升。
(本刊记者/宋京)