如何建设稳定可靠的运营系统

2014-03-24 21:16曹辉标
科技创新与应用 2014年9期
关键词:稳定运维

曹辉标

摘 要:文章从公司实际情况出发,以现有运营系统及运营保障机制为例,介绍了如何进行稳定可靠运营系统的日常运行保障,同时通过对运营维护中关键技术的描述,阐述了在未来一段时间内运营维护工作的发展方向。

关键词:运营系统;运维;稳定;可靠

引言

随着公司业务的发展壮大,企业的日常运营维护工作已经越来越被重视,运营系统的可靠稳定关系着客户使用满意的高低。因此,打造一个稳定、可靠的运营系统是所有运营企业的核心工作,由此孕育而生的关键技术也越来越多,也更好的为运营系统的维护提供了技术保障。

1 定义

运营维护简称运维,一般是指对企业已经建立好的网络系统软硬件的维护以及对信息系统的维护。例如,电脑硬件、软件维修,电话问题处理等基础维护工作。同时也包含了对外的运营系统的维护,要保证运营系统是在正常运作的,通过各种手段,有人工的也有自动的,进行监控,出现问题及时处理解决等等。

2 运营维护

运营系统的稳定可靠是运营维护的重点工作,要对公司内部、外部使用的所有自运营系统的正常运作进行保证,保证服务器能够正常运行,保证系统资源足够使用,在必要时进行硬件升级,保证出问题时能够第一时间分析解决问题,主要可以从以下几个方面采取保证措施。

2.1 巡检保障

运营系统由两大部分组成,一部分是运行环境,包括网络、硬件等资源,一部分是系统程序,包括各种应用程序以及网站等。要保证系统的稳定,就必须保证运行环境和系统程序是稳定正常的,为此可以通过日常巡检来进行检查保证。

每天至少对运行环境进行两次巡检,包括应用程序开启、系统资源、系统事件日志、系统监控情况等等,确保运行环境是正常的。

只有环境的正常也是不够的,还必须保证程序开启后能够正常提供工作,因此需要安排人员通过一些自动化程序验证以及人工的巡检验证来保证应用程序能正常提供业务功能。

2.2 监控保障

为了保证系统的稳定可靠,如果仅仅是通过人为的巡检保障是不够的,还需要配置完备的运营监控机制,进行主动监控以及主动报警。

一般的监控系统能做到的是进行邮件和短信报警,但是如果在夜间出现问题,就很容易被忽略,因此需要一套能提供电话报警的监控系统,同时对于运营系统的各种参数需要定期进行分析,也需要一套对各种运营参数能提供详细报表的监控系统。

监控系统一:

一套自主开发的监控系统,主要是对系统资源的使用情况以及应用程序启用情况进行监控。

运营系统每台服务器安装客户端,同时安装一台服务器端,客户端将报警信息提交到服务器端,服务器端连接到报警终端,报警终端连接公司语音网关系统和短信平台,一旦报警终端收到报警信息,将向系统负责人员发送一条报警信息,告知某某系统出现问题,同时向报警手机拨打报警电话,语音提示系统负责人查看报警信息。双管齐下进行报警提醒,避免只有短信晚间容易让负责人遗漏报警信息的问题。

监控系统二:

一套比较成熟的监控软件,对系统、网络、资源以及整体的可用性进行比较全面的监控,并产生详细的日志,这套系统主要是通过日志用来对系统的可用性进行分析,并为系统是否需要进行优化升级等操作提供可靠的参考依据。

通过这两套监控系统配合人为的日常巡检,对运营系统的正常稳定运行提供了有效的保障。

2.3 可靠性、可用性保障

系统稳定可靠的运行,要考虑到各种可能出现的意外情况,例如服务器出现故障、网络中断或是机房无法正常工作等等,针对这些情况,必须要采取相应的措施来保证运营系统的可靠性和可用性。

目前通常都是采取如下措施:

1)数据库本地做镜像,在主服务器出现故障时立即切换。

2)程序本地做负载均衡,避免出现单点故障。

3)数据库异地做日志传送,在机房或网络出问题时,切换到异地服务器。

4)程序异地做备份,在机房或网络出问题时,异地启用。

3 运营系统要求

运营系统的稳定可靠必须建立在一定的要求之上,只有满足这些要求,才能建设一个稳定、可靠并且高效的运营系统。

3.1 性能要求

运营系统的用户群体是企业用户,较为集中使用时间为6:30-20:00,在高度集中使用时对于性能要求较高,内存、CPU、磁盘IO都要能满足使用,支持高并发,保证使用速度较快,不会有过多的延迟。

3.2 扩展要求

随着用户量的增加,服务器、数据库性能以及容量方面都要能够通过较为简单的方式实现扩容,最好是能够在线扩容,保证服务不会中断。同时服务要能够支持负载均衡,以提高系统速度及可用性。

3.3 本地灾备

数据实现本地镜像,当服务器或是数据库无法正常工作时,能够实现本地服务的快速切换(最好是能够做到秒级切换)。

3.4 异地灾备

数据实现异地备份,当机房遇到不可抗力的自然灾难导致机房整体不可用时,能够快速的启动异地的备用系统提供正常服务。

3.5 网络要求

运营系统网络必须保持7*24小时通畅,提供电信、网通、移动、教育网等主流运营商的多线接入,保证网间互联的顺畅,当出现移动终端无法登陆系统时,能够迅速的定位并解决问题。保证运营网络的资源使用不会被同机房其它系统影响。

3.6 安全要求

系统用户数据保密性要求极高,绝对不容许泄密事件的发生。同时要求运营系统能够主动的防御外部的攻击以及抵御病毒的破坏。

3.7 响应要求

运营系统要能提供7*24小时的服务,当出现问题需要调整沟通时能够立即进行响应。

3.8 团队要求

一套成功的系统,除了必须具备上述强大可靠的服务器、网络安全等硬件支撑能力、完善的系统和数据安全保障能力、完善的系统监控和保障机制之外,更重要的是能够有一支强大的技术管理团队。公司在开始规划运营系统的同时,即开始着手运维团队的建设和规划,并一直给予很高的重视。目前所有运营系统都交付公司的运维团队负责,运维团队成员都具备多年的工作经验,每个技术人员都有自已专长。运维团队创建初始就按ITIL流程进行规范化日常维护和管理。通过近几年的实践和摸索,目前已经有较为完备的服务台、事件管理、变更管理、问题管理等流程。通过ITIL最佳化实践经验,所有故障都将通过服务台进行工单记录、流程化故障处理。针对所有变更按流程进行白盒、黑盒等测试,只有测试通过后才提交运维部进行发布升级,针对每个流程都有完备的记录和日志跟踪,做到所有操作都有迹可循。

4 运维关键技术

运维是一项综合性的工作,运维工程师在运维过程中会遇见形形色色的各种问题需要参与解决并从运维角度给出参考意见,包括架构设计、系统使用资源的评估、应用软件设计的缺陷评估、系统资源调优、托管机房选择、安全调优等等,并参与整个项目的实施过程。随着时间的推移,越来越多的新技术会出现在运维过程中,例如集群技术应用、动态扩展的架构、安全运营中心(SOC)构建、网站加速(CDN)、大数据存储等等,所以运维人员要与时俱进,需要不断地通过这些新技术新的应用来完善运营系统,使得系统更加稳定可靠。这里主要介绍一下集群技术的应用。

集群技术应用:集群是由两台或多台节点机(服务器)构成的一种松散耦合的计算节点集合,为用户提供网络服务或应用程序(包括数据库、Web服务和文件服务等)的单一客户视图,同时提供接近容错机的故障恢复能力。例如高性能计算科学集群,高可用性集群,负载均衡集群,分布式储、计算存储集群,数据库集群,邮件集群等。集群由于机器较多,管理起来比较复杂,需要综合考虑到以下几点因素:

1)智能监控

包括对集群系统故障的监控以及资源、负载、网络流量等使用情况的实时监控,从而保证集群系统稳定可靠的运行,并且对可能出现的问题及时处理。

2)故障维护

集群服务器数量较多,出现服务器宕机以及硬件故障的概率也随之增大,因此,从系统稳定性可靠性角度出发,要充分考虑到故障问题,更多的通过应用程序的冗余负载部署来解决此类问题。同时要针对可能出现的问题,建立较为完备的应急响应机制,从而快速有效的采取解决措施。

3)运维自动化

集群服务器多,一些日常的工作,例如修改密码,系统升级,系统发布等工作量比较大,需要借助一些自动化工具来批量完成这些日常工作,提高工作效率。

5 构建稳定可靠运营系统

构建稳定可靠的运营系统是所有对外运营公司的核心工作,需要通过一支稳定高效的团队来进行建设。综合前文所述,稳定可靠运营系统的构建影响因素很多,需要根据经验不断的进行运维策略的制定,并不断进行调整,确保人工和自动巡检的有效性,保证监控保障机制使用到位,避免出现监控不到位的情况,同时通过各种运维高新技术的学习和使用,确保运营系统的稳定、可靠。

参考文献

[1] (美)阿尔斯帕瓦,(美)罗宾斯.网站运维:保持数据实时的秘技[M].杨建华译.北京:电子工业出版社.

[2]刘宇熹,陈尹立.计算机系统服务外包及运行维护管理[M].北京:清华大学出版社.

[3]杨威.网站组建、管理与维护[M].北京:电子工业出版社。

[4]葛世伦,尹隽.信息系统运行与维护[M].北京:电子工业出版社.

猜你喜欢
稳定运维
大型国有企业环保设施第三方运维的探索与实践
运维技术研发决策中ITSS运维成熟度模型应用初探
风电运维困局
谈电力运维安全隐患排查治理
杂乱无章的光伏运维 百亿市场如何成长
论社会稳定与发展的关系
热电公司发电机励磁系统改造
浅论熔断机制在我国股市中的作用
基于ITIL的运维管理创新实践浅析