(中国移动通信集团河南有限公司,郑州 471000)
小型机与x86的服务器在电信领域的争斗,一直不休,小型机基于其先天的架构优势,在处理性能、RAS特性上有着优异的表现,一直受到传统运营商的青睐。随着大数据时代的来临,电信应用规模不断扩大,小型机使用成本高昂,对维护人员素质要求较高的缺陷逐步显现,而x86服务器在使用成本上有着明显优势,利于大规模部署,成为运营商构建通信系统、解决现网存在问题的又一选择。
河南移动是中国移动业务中较大的省份,拥有超过5 000万以上的客户群。日益增长的用户规模及全业务的经营思路对业务支撑系统,尤其是CRM系统提出了越来越高的要求。以往河南移动的CRM系统全部选用UNIX小型机作为主服务器设备,UNIX小型机具有处理能力高,单机稳定性好的优点。但随着用户的规模扩大和业务日趋复杂,对CRM系统的能力要求也越来越高,使用小型机作为应用服务器的不足开始显现。
CRM系统建设的问题有:宝贵的系统建设资金大部分用于小型机的购买和维护,并且投资总额逐年增长;小型机计算能力强,系统应用往往运行于少量主机上,一旦单台设备故障就会造成整个系统瘫痪,系统风险大,需要大量的人力物力进行应用稳定性的报障。使得“如何降低系统建设成本、提升性能、节能减排”成为业务支撑系统建设关注的重点。
针对CRM系统的问题,公司在实际的系统建设中可以利用刀片服务器的投入低、横向扩展能力强的优势,借鉴互联网系统架构及高速互联技术,通过先进的技术架构与集群部署方式支撑大量在线访问、交易并保持高效、稳定的运行。
但要同时达到小型机业务x86化后组建网络投入低,应用运行稳定,网络具有可维护性的基本目标,还需要按照如下步骤进行分析对比:
第一,应根据省内具体情况提出小型机与x86服务器的成本投入模型,应全面涵盖前期投入、运行、维护等成本参数,通过计算得出单台、双机或集群配置模式下小型机与x86服务器的投入成本。
第二,小型机与x86服务器对于业务的适用性有所不同,可将省内业务按特性划分到接入层、业务层、数据层及数据接入层,并根据业务在逻辑复杂度、实时性及安全性上的要求确定业务部署平台。
第三,计费系统具有网络规模大、计算节点多、主机间逻辑调用复杂等特点,这对于系统的后期维护工作提出了非常高的要求。因此,在选择平台时,该平台的可维护性也是应当考虑的一个重要因素。
总体拥有成本TCO 是一种公司经常采用的技术评价标准,包括一定时间范围内所拥有的包括置业成本和每年总成本在内的总体成本。运营商从设备购置到将设备退网可能付出的成本可归结为建设成本,维护成本和运行成本,即TCO=建设成本+维护成本+运行成本。
对小型机与x86服务器进行投资效率对比时,两者可靠性不能随着平台的差异而不同,因此需要通过配置相应数量的x86服务器以达到与UNIX服务器相同的可靠性。具体估算公式如下:
以上公式的数学含义为:x台UNIX服务器发生故障的概率=y台x86服务器发生故障的概率。
公式中,Punix为UNIX平台的可靠性,x为UNIX服务器数量; Px86为x86平台的可靠性, y为x86服务器数量。
参考美国信息技术工业协会(ITIC)发布的全球服务器硬件及服务器操作系统可靠性调研报告,Punix取值99.997%, Px86取值99.972% ,屏蔽不同平台之间的差异性。
需要说明的是,由于是初次尝试小型机x86化,鉴于公司尚无小型机x86化后的运营数据进行参考,本文将采用ITIC发布的可靠性指标,系统建成后可根据实际运营情况取得的数据对可靠性参数进行修正,以指导后续建设。
一般情况下,UNIX应用均配置双机HA方式,因此可基于以上公式估算与2台UNIX服务器故障率相同x86服务器的数量:
通过以上估算可知,通过2.55台(若配置物理服务器则为3台)x86服务器做集群配置,其故障率与2台UNIX服务器故障率相同。
由上述计算可知,只要x86服务器与UNIX服务器的替换比率大于等于2.55/2,就能保证x86化后系统的可靠性不降低。
在实际配置中,由于x86服务器采用资源池的方式进行配置,并且资源的分配多以虚拟机方式进行分配,因此需要进一步将UNIX服务器与x86服务器的可靠性数据换算成服务器利用率。务器数量。
一般情况下,UNIX服务器利用率Uunix取值70%,在保证性能一致的前提下,同时还需要保证x86化后可靠性不能降低,取x为2,则y需取定为大于等于2.55。
根据UNIX服务器使用经验,UNIX服务器利用率Uunix取值一般不超过70%,所以,此处x86服务器利用率Ux86取值也不超过70%。由以上公式可知,y取值越大,则Uunix越小,在保证y大于等于2.55的前提下,考虑投资因素,此处y取定为2.55。Uunix取值分为如下两种情况。
(1)UNIX平均单机性能/x86平均单机性能大于等于1,Ux86取值也不超过70%,则Ux86取值范围为55%~70%。
(2)UNIX平均单机性能/x86平均单机性能小于等于1,则Ux86取值范围为小于等于55%。
其中,UNIX平均单机性能与x86平均单机性能的比率根据项目实际情况确定。
本文选择IBM P780作为小型机分析对象,HP BL685作为x86服务器分析对象,满配机型基本参数如表1所示。
将满配小型机及x86服务器基本参数带入到上述计算模型中,得出总体拥有成本和投资效率的计算结果,如表2所示。
根据计算结果可知,小型机、x86服务器5年的TCO分别为702.2万元及47.3万元,小型机单台购置成本约为x86服务器的14倍。按照相同可靠性组建小型机和x86服务器集群,通过对比可知x86服务器的投资效率比小型机高58%((1.27-0.8)/0.8)。
针对具体项目可以参照上述算法就项目中要具体使用的小型机和x86服务器进行TCO参数的对比计算。
表1 IBM P780与HP BL685基本参数对比
表2 小型机与x86服务器总体拥有成本及投资效率对比
小型机使用精简指令集,其运行效率较高,简单的逻辑结构使得单机具有优异的扩展潜力。这些特性决定着小型机非常适合对单独业务处理能力需求巨大,逻辑复杂度较高,实时性要求高的业务进行处理,RAS特性上的优势又增加了关键业务运行的稳定性。但随着大数据时代的来临,关键业务对运算能力的需求越来越高,单节点的处理能力已经没有办法适应未来业务的发展,而具有优异的横向扩展能力的x86服务器很适合在一定场景中用来解决这一问题。
现代IT支撑系统所涵盖业务种类繁多,按横向划分可以分为接入层,业务层,数据层及数据采集层。小型机,x86服务器根据自身的架构特性对这些业务有着不同的适应性,选择平台时需要根据业务的特点和使用场景进行合理评估。
接入层应用类型主要包括Web服务器和接口机。
Web服务器类应用技术比较成熟,产品商业化程度高,根据不同平台可选择相应版本的软件。Web服务器应用通常能够实现负载均衡,可支持横向扩展以提高可靠性。接口机应用在IT支撑系统中实现接口适配,同时起到堡垒机的作用,需要处理能力相对较低,且接口机间无依赖关系。
针对此类业务可以选择小型机的虚拟化解决方案,特点是业务运行高效稳定,便于维护。也可以选择x86服务器负载均衡的解决方案,特点是可以减低建设成本。
业务层应用类型主要包括中间件和后台应用。
中间件应用技术比较成熟,产品商业化程度高,根据不同平台可选择相应版本的软件。中间件应用通常能够实现负载均衡,可支持横向扩展以提高可靠性。后台应用以定制化开发的个性化应用为主,业务逻辑复杂度差异大。
为此类应用选择平台时应参考业务的逻辑复杂度和实时性需求,像计费等复杂程度相对较高、欠费风险控制等实时性要求较高的应用应考虑部署于小型机平台,待资源池等相关技术成熟后再做x86化迁移的考虑。一般业务,如电子渠道、详单查询等应用复杂程度较低,实时性要求也不高,可用带负载均衡的x86服务器集群解决,以降低建设成本。
数据层应用类型主要包括交易型数据库和分析型数据库。
交易型数据库操作包括实时交易、只读查询类业务,其核心数据库数据量较大,多同时支持实时交易及大并发查询。针对处理逻辑复杂、数据关联强度高的实时交易数据库应采用小型机解决方案。对于与逻辑复杂数据关联度一般业务,通过数据库读写分离,写库不变,读库部署至x86数据库集群,也可实现数据低延时、高速传输的技术要求。
分析性数据库主要在经分系统中使用,支持复杂的统计分析,数据量较大,负载较重。对于处理逻辑复杂,数据量巨大的省级数据仓库,应采用小型机或小型机集群的解决方案,而针对一些数据承载压力稍低的地市级数据集市,可考虑组建基于负载均衡技术的x86集群解决方案,同样可以实现数据深度挖掘,同时降低建设成本。
数据接入层业务类型主要包括采集机和经分ETL服务器。采集机及经分ETL以数据采集及预处理为主,数据量较大,但处理简单,数据处理之间依赖关系少。
针对此类业务可以选择小型机的虚拟化解决方案,特点是业务运行高效稳定,便于维护。也可以选择基于并行计算、分布式文件系统的x86解决方案。
小型机在单机性能和可靠性上相对于x86服务器有一定优势,但随着设备的大量部署,设备的可维护性对于电信级企业来说也成为了一个不可回避的问题。IT支撑系统由大量服务器组成,设备是否能为运维人员提供良好的维护接口,是否能为运维人员提供直观的数据以分析设备运行情况,这不仅关系到运维成本,更深刻影响着IT系统的运行效率。
小型机使用UNIX操作系统,内置丰富的指令集及日志资源,对故障定位及日常维护工作提供了方便,但其对维护人员的专业素质要求也相应提升。选择应用平台时,在充分考虑业务适用性的基础上,也应考虑业务特性可能对维护工作造成的影响,将逻辑复杂度过高的业务集中部署于小型机平台,可提升专业人员的投入效率,如表3所示。
x86服务器多使用Linux操作系统,界面友好,对维护人员专业素质要求较低。设备一般配置标准化的维护接口,对日常维护工作提供了方便。选择应用平台时,在充分考虑业务适用性的基础上,也应关注到逻辑复杂业务分布式部署,虽然降低单点故障,却增大了设备规模,加大了运维成本,如表4所示。
表3 小型机维护特性
表4 x86服务器维护特性
CRM应用采用3层架构部署,分别为前端业务接入服务器、应用服务器和数据库服务器。
接入服务器为营业系统提供自建营业厅、合作营业厅、代办点、连锁店、经分支撑前台的接入服务和所有的营业终端接入服务,以及电子渠道等营业相关业务接入。前端访问请求通过负载均衡器,分配访问量到各个Web Server。
应用服务器上部署CRM应用、中间件等业务,提供营业业务处理逻辑,采用并行处理方式,提高系统的可用性和可扩展性。
营业数据库为交易流程提供客户的个人情况,办理业务情况等基本信息,要求保持高实时性和高可控性,以尽量缩短业务操作时间,是保证系统整体运行效率的关键所在。
CRM前端业务接入服务器按业务划分原则可分到接入层。该类应用技术比较成熟,产品商业化程度高,接入服务器间无逻辑调用关系,能够实现负载均衡,可支持横向扩展以提高可靠性。根据小型机与x86服务器适用性分析,CRM前端业务接入服务器可以选择x86服务器负载均衡的解决方案,降低建设成本,并减轻小业务对于专业维护人员的运维负担。
CRM应用服务器可分到业务层。应用软件以定制化开发的个性化应用为主,现网中营业业务处理逻辑在实时性和复杂度方面应介于接入服务器和数据库服务器之间,可用带负载均衡的x86服务器集群解决,降低建设成本。
CRM数据库服务器属于典型的交易型数据库,需要支持实时交易及大并发查询,并且处理逻辑复杂、数据关联强度高,本次项目保留原有小型机的解决方案,并借助IB架构组建的网络,使数据中心都达到处理器级的带宽,改善了数据库运行的网络环境。
计算x86服务器配置数量时,不仅需要考虑处理能力的替换需求,更要在相同可靠性的基础上进行替换。河南移动本次项目中,UNIX平均单机性能/x86平均单机性能大于等于1,所以Ux86取值范围为55%~70%,同时考虑到本项目为河南移动支撑系统首例x86化项目,x86资源池中将有部分服务器用于非生产领域(如测试、云操作系统部署、管理平台部署等),因此建议x86资源池的服务器利用率取定50%。综上,对小型机同处理性能,同可靠性下迁移至x86平台所需服务器数量可以通过如下公式计算,
其中,Qunix为UNIX服务器数量,Qx86为x86服务器数量。
CRM应用服务器x86化时单台x86服务器处理能力按照20万TpmC考虑,根据当时各系统的实际UNIX服务器能力需求,最后依据上述公式通过计算得出了x86配置方案:接入服务器采用刀片服务器实现内网、外网接入,24台刀片服务器作为内网接入服务器,16台刀片服务器作为外网接入服务器。CRM应用服务器采用28台刀片服务器,分为6组,10台刀片负责营业厅接入的业务处理;4台负责呼叫中心坐席接入的业务处理;4台负责外部接口接入的业务处理;4台负责Internet接入业务处理;4台作为后台服务处理;2台作为备用服务器进行在线备份。
图1 CRM主机部署示意
替换后,CRM系统总体部署架构如图1所示。
新的CRM系统架构具备由冗余节点方式提供的高可靠性,一旦单台刀片节点发生故障,应用系统将自动切换至其它节点提供服务,并支持通过扩充应用服务器数量的方式扩展业务处理能力。
CRM系统建成后,整体的系统管理从单一服务器管理转换为刀片服务器集群管理,利用HP刀片服务器完善的管理工具,新服务器的扩展从传统的单机安装、连线、加电、配置、上线,转换成插板、集群配置和发布、上线,大大降低了系统升级、配置和管理的工作量。系统的成功应用取得了良好的效果。
(1) 通过上文TCO计算方案,CRM应用服务器x86化后系统投资节省58%以上。(2)由于设备数量的增加及芯片主频的提升,在计算能力提升的同时降低单机负载。(3)通过多服务器的集群部署,使系统的可用性得到提升。(4)可以根据设备处理能力需求进行实时、在线的设备扩展。(5)节省机房使用空间并降低电力销耗。(6) 结合CRM系统并发的特点进行应用系统升级改造可以实现。(7)采用刀片服务器比机架式服务器更节省空间,能耗更低。(8)通过长期监控,可以取得实际使用过程中x86服务器在可靠性等重要性能方面的参数,为后期项目提供重要的实际计算依据。