● 国网湖南省电力有限公司信息通信分公司 童一维 陈中伟
南瑞集团(国网电力科学研究院)有限公司 盛红雷
随着国家电网公司信息化建设的不断深入,信息系统已经融入到电力公司生产经营的各个层面,信息化逐渐成为生产经营不可或缺的重要组成部分,也是保障电力公司安全生产的重要环节。
营销系统是湖南省电力有限公司信息化的核心业务应用系统,直接面向社会公众。系统于2009年上线,电力客户缴费、客户信息查询、抄表计费等核心业务均在营销系统中开展,营销系统的安全、稳定运行成为了电力公司为电力客户提供优质服务的关键。自营销系统上线以来,业务规模不断扩大,用户量从450万增加到2400万,接口从8个增加到29个,核心业务功能增加了35个,系统架构愈加复杂。
在这种情况下,一旦营销系统发生故障,信息系统运维人员往往只能根据经验对数量众多的营销系统组件(服务器、数据库、中间件等)进行逐一排查,很难快速定位到故障点,导致故障恢复时间长、故障影响范围扩大,直接影响营销系统为客户提供优质的服务。
如何通过监控后台及时、准确地发现营销系统的故障,成为了摆在运维人员面前的一个课题。
监控系统使用的多是监控主流信息设备,如服务器、数据库、中间件、网络设备等,随着公司信息化工作不断深入,信息设备类型越来越多样化,这就需要将生产环境中的各类设备均纳入监控,减少人工巡视工作量。
同时,传统的物理设备/节点监控有时无法完全、真实地反应信息系统的实际运行状况。营销系统业务功能的响应快慢,与用户的体验感息息相关,直接影响到营销优质服务的开展,因此,必须要实时获取营销系统业务流程的完整性能情况。
传统的监控软件多是关注监控信息设备/节点的几个主流指标,如服务器的CPU利用率、内存利用率等,实质上每一类型信息设备/节点均含有丰富的运行指标来反应其运行状况,需要将其他的运行指标进行综合评估分析与纳控。
信息系统监控其中一个重要作用就是需要发出合适的告警信息。传统的告警配置多是根据行业推荐值进行告警等级分类与对应的阈值设定,不一定适合每个信息系统的实际生产监控需要,因此,需对每个监控指标的告警阈值进行合理分析与调整,以便更精确地反映系统运行情况。此外,一个告警事件的发生可能会影响到多个信息设备/节点的正常运行,产生多条告警信息,因此需根据一定的规则对告警进行压制合并,辅助提供告警源信息,并协助进行告警根源分析。
由于信息设备类型众多,通常是利用多种监控采集软件或者其他手段对相关运行指标进行采集,这些数据分散于各个监控采集软件中。为了方便运维人员与运行值班人员从整体上掌握系统运行情况,需要构建统一的告警展示平台,集中展现采集到的各类告警信息与指标性能变化情况。
传统的监控往往只能显示零散的监控信息,无法从信息系统的整体角度直观显示其运行情况,而在信息运维过程中,需要能够直观展示信息系统相关的业务流程、应用程序、软硬件平台和基础架构等之间的关联关系,从整体角度展示系统相关的各设备/节点的运行情况与告警信息,精确定位故障点,并在第一时间通知运维人员及运行值班人员,实现故障的及时响应、快速修复。
随着新技术在实际生产中的不断应用,信息设备类型越来越多样化,在湖南省电力有限公司营销系统中,除了常用的Linux操作系统、Oracle数据库、WebLogic中间件、存储设备等软硬件设备外,还使用了InfiniteBand卡、闪存卡、SSD盘、Oracle Active DataGuard等关键新技术/设备。
通过监控系统的部署、研究与实施,已经将这些新技术/设备纳入了监控,填补了公司在此类新设备监控方面的空白,实现了营销系统软硬件平台监控的全覆盖。
针对营销系统中各种不同类型的设备,首先根据经验设置监控指标和告警阈值,在实际监控过程中,根据运行以及告警情况,持续对监控指标和告警阈值进行调整、优化,使得告警阈值趋于合理。构建监控指标体系,使监控纳管工作有章可循,监控采集指标更有针对性,更准确地反映信息系统与设备的运行状况,告警信息更准确,最大限度避免不必要的告警对正常运维、监控工作造成干扰。
通过与短信平台、邮件系统的集成,将告警信息通过短信、邮件等方式实时地通知给相关工作人员,提高告警信息处理的及时性。
经过调研沟通,选取营销系统的“抄表算费”“客户查询”这2个与客户服务密切相关的核心业务流程。采用自动拨测技术,模拟用户每5分钟登录营销系统,执行这2个业务流程。
对这2个流程中共计12个流程节点(如营销系统登录、电量电费计算等)的响应时间进行了实时监测。同时,定期对抄表用户数、待处理任务数等28个反映营销系统业务量的业务指标也进行统计和计算。
通过采集业务流程执行状态及响应时间,实时获取了营销系统用户体验的第一手数据,即时发现营销系统性能的薄弱点。
根据业务流程响应时间以及业务指标量的变化趋势,分析营销系统业务高峰期,分析用户操作数量和系统吞吐量,协助对应用系统承载能力进行评估,助力系统的容量管理。
利用Obashi方法论,对营销系统的系统架构进行梳理,从业务模块、业务环节、业务数据,到相应的应用、硬件设备、数据库、中间件等软硬件平台,建立起逻辑架构关系,建立面向业务可视化监控的分层模型并定义各层的管理对象,形成分层监控视图模型,如图1所示。
图1 营销系统分层监控视图模型
结合生产实际,营销系统分层监控模型包括应用系统层、业务功能层、软件平台层、硬件平台层这4个层级。
监控信息的统一、分层展示是监控平台的一个重要特性,通过采用动态图形、灵活定制监控对象以及与动态告警提示的结合,实时展现被监控资源的关键性能指标与信息指标,帮助用户克服信息盲视,更加轻松有效地管理日益增多的信息资源。
数据展示接受来自数据处理实时推送过来的数据,并及时地反馈到互动视图当中,用户不用频繁的设定和等待查询,提高了系统界面的互动性和信息的准确性、及时性。
可视化展示根据不同的数据维度导航并展示不同的信息,划分为多个层次,包括应用系统层、应用服务层、系统服务层、物理平台层。
(1)应用系统层:分层展示营销系统的软硬件平台、业务应用等组件及其运行情况。
(2)业务功能层:可视化展示营销系统关键业务功能的办理流程。点击流程的每个节点,可以展示该节点的响应时长及业务办理量。
(3)软件平台层:展示支撑营销系统运行的中间件、数据库等软件的运行情况,按照其所支撑的业务功能,对软件平台进行分组。点击每个节点,可详细查看中间件节点、数据库服务具体的性能指标和告警信息。
(4)硬件平台层:展示支撑营销系统运行的的主机、网络设备的运行情况,以及主机与网络设备的关联关系。点击每台设备,可详细查看该主机、网络设备性能指标和告警信息。
一旦营销系统发生故障或者异常,在统一展现平台会实时弹出告警信息,相关异常点在可视化视图中会出现红灯闪烁,准确定位故障源,便于快速修复故障。
通过对软硬件平台全面纳控,开展业务功能监控,实现了对营销系统的全方位精准监控。构建起营销系统全局监控视图,实现营销系统监控一张图,提供了一双监视营销系统运行和应用状况的“火眼金睛”。采用短信、邮件等多种方式将告警信息实时通知到相关人员,有效提升了故障处理效率,营销系统故障平均处理时长缩短了75%。一方面节省了运维人员的人力资源,另一方面,营销系统故障处理效率提高,用户体验好感提升。
该方法现已推广到了国网湖南省电力有限公司的全部信息系统。下一步,提高系统监控、告警的自动化程度,将是深化应用的努力方向。