探寻医院业务智能运维之路

2022-03-19 00:31:20庄一峰
中国信息化 2022年2期
关键词:运维流量故障

庄一峰

在数字化医疗时代,确保医院业务稳定运行,故障快速恢复,亦是争取抢救时间的重要一环。某医院通过业务运维平台,以用户访问体验为中心,从业务故障的感知、定位再到故障的通知、解决为主线,进行业务可用性的实时探测和业务访问体验的实时分析,帮助运维人员迅速定位和排查故障。通过通信手段,将故障信息及时告知运维人员,有效压缩业务故障定位时长,为业务快速恢复争取宝贵时间。

医院信息化规模随着门诊量的增加而不断扩大,其IT环境亦日益复杂,但医院缺乏全局的业务运维管理平台,业务系统访问异常时无法事先感知,往往前端报障后,根据业务故障现象查找故障原因,无法实时监测业务使用状态,亦无法感知用户访问业务系统的体验,故障处理时也是依据经验,无法快速界定问题点。

信息化建设达到如此大的规模,针对业务系统访问体验的监控和管理就成为至关重要的命题,传统被动响应、凭经验排查的方式,已经远远落后于信息化建设,无法满足业务的实际需求。为了确保业务系统的健康运行、数字化医院建设的稳定推进,科学高效的信息化管理手段必然要紧跟其上。参照IT运维管理经验,采用智能化、自动化的业务运维管理工具,建立了一套自上而下、主动长效的运维管理机制,以此提高信息化建设的工作效率和管理水平,发挥IT运维对业务的最大价值。

(一)7*24小时实时检测业务访问状态

1.功能方案

业务运维管理平台可通过部署仿真点,模拟某个区域真实用户对业务系统进行访问,以便实时掌握业务系统的访问状态。将仿真点部署在重点关注区域,该仿真点对业务进行连通性和登录功能的探测,探测结果即代表了该区域或IP分组是否能正常访问业务系统,以及登录服务是否正常。可根据需要设定仿真点对业务系统探测的频度,实现7*24小时不间断的周期性模拟访问,当无人访问时也可发现业务问题。

运维人员通过业务看板,随时了解业务系统访问状态,一旦业务出现异常,系统将产生告警,并通过不同颜色表示不同告警级别,帮助运维人员判断、处理问题的紧急程度。

2.技术原理

仿真点通过访问连通性探测、脚本探测、Traceroute探测等方式实现对业务系统的探测,系统根据探测的结果以及用户真实访问体验数据配置告警规则,系统根据规则产生告警,并自动更新业务应用的状态,让用户能一目了然地了解业务系统的运行情况。

(二)感知并量化用户访问体验

1.功能方案

业务运维系统可感知并量化用户对业务系统的访问体验,当用户访问业务系统出现缓慢、卡顿时,代表了该网络质量或应用性能出现了异常,系统可对关键业务系统中的网络异常、应用性能异常进行及时发现,帮助运维人员提升用户对于业务系统的访问体验,减少抱怨或投诉。

业务运维系统的业务详情中提供了访问卡慢的分析,列出了影响应用性能或网络质量的指标,系统将根据阈值判断业务系统是否存在访问卡慢的情况。当出现访问卡慢异常时,异常指标将变为橘色标识,提醒并帮助运维人员进行分析。

2.技术原理

(1)流量探针

业务运维管理系统通过部署流量探针,获取所有真实用户访问业务系统产生的网络数据包,并采用深度包分析技术进行分析,帮助运维人员定位业务系统卡慢的原因,提升问题处理效率,保障业务系统的稳定运行。

在用户访问业务系统的数据传输路径上,选择一个集中位置,通常是核心交换机或是核心路由器部署流量探针,以便获取用户访问业务的全量数据。

(三)业务故障智能定位

1.功能方案

当用户反馈业务系统无法访问或访问卡慢时,之前运维人员需要经过复杂的分析过程,才能定位到是网络问题还是业务应用问题,同时需要协调部门其他人员协助共同解决故障。

目前通过业务运维系统,可以快速地分析故障严重程度和影响范围,分段定位故障原因,界定出责任人,提高故障处理效率。

当系统产生了业务告警,用户可在告警详情中看到故障的分析结果。

(1)访问通断分析

显示仿真点拨测的异常结果,可清晰定位出访问路径中哪个节点出现连通性问题,是DNS、网络、主机或应用问题。

(2)访问卡慢分析

显示网络质量和应用性能指标,根据阈值判断。当业务出现卡慢时,可以根据阈值判断出DNS、网络还是应用哪一类的指标出现了异常。

2. 技术原理

告警规则将根据仿真探测结果和真实用户访问结果,通过故障现象分析,内置一套告警产生规则。告警规则中通过真实数据测试给出通用阈值,也可以根据用户实际场景,灵活调整条件和阈值,以便于适合各种情况。

(四)流量精细化管理

1.功能方案

当发生流量异常变化时需要定位故障源,或是分析一段时间内的流量构成时,运维人员可通过流量分析功能,分析全局或各分支网段网络质量、流速趋势,以及流量的构成汇总统计等。

在全局网络视角,通过网络质量和流量占比,支持按照区域、源IP、目的IP统计流量的TOP5及流量占比。在各分支网段视角,支持汇总统计给定时间窗口下的所有用户访问所有目的IP的流量,分别呈现总流量、上行流量、下行流量汇总值。

流速趋势及流量构成分析,是通过上行流速和下行流速在一段时间内的占用趋势查看波峰波谷识别流量规律及异常大流量,并可钻取IP流量详单查询流量原始流水定位异常的流量占用。

信息技術人员还可以通过流量回溯功能查看出现异常时刻的用户访问流水,清晰的了解每一条流水具体的访问来源、访问目的、访问流量以及响应时延等,有利于迅速定位问题发生原因。

2.技术原理

流量探针可获取全量的用户访问产生的网络数据,对不同协议的数据包进行深度包解析,包括DNS协议、TCP协议、HTTP协议下的数据包以及按照IP层的流量进行汇总。通过对上述协议中的数据包的内容进行转化和分析,提供按五元组的方式进行详单查询,如协议、源IP、源端口了、目标IP、目标端口。

(五)故障自愈

1.功能方案

业务运维平台提供了广义的脚本管理框架,实现对运维过程的各类脚本的统一管理、批量下发和执行,支持基于规则的故障自愈处理。当业务系统产生告警时,自动调用自愈规则顺序执行批量动作,进而满足日常巡检、智能备份等常见运维场景。通过自动化技术手段,执行日常运维过程中重复性、有规律的例行工作,释放运维人员的精力,减轻运维人员的工作量。

2.技术原理

系统通过使用多种协议来执行用户定义的命令、脚本等,将这些命令和脚本打包成文件下发到服务器上执行,来实现对于资源自动化操作。

(六)优化业务运行环境

1.功能方案

业务运维平台可根据一段时间内的用户访问数据提供历史回溯功能,帮助运维人员分析业务运行过程中各项性能指标的增长趋势和变化,如在线用户数、并发连接数、流速等,为持续优化业务运行环境提供有力的数据证明,提升业务系统的稳健性,减少业务系统出现故障的概率,降低因为网络带宽、磁盘空间等环境因素导致业务系统发生问题的风险。

业务运维平台的历史回溯功能,可按时间范围查看在线用户数、并发连接数、HTTP请求个数、HTTP请求时延、平均流量和流速的趋势图。

2.技术原理

业务运维管理系统的流量探针可获取全量的用户访问业务的网络数据包,经过提取和汇总形成各种时间精度的趋势图进行呈现,用户可根据需要进行钻取分析,支持展示趋势统计分析的指标,如:业务负载和用户体验类指标、网络性能类指标和应用性能类指标。

借助业务运维平台,医院技术部门发现并成功处理了一起棘手的故障问题。据悉,某医院电子病历系统做了版本升级,而数据库服务器及存储在这之前也做了更换和升级,但临床科室仍反映电子病历系统登录及使用还是偏慢,体验感较差。软件厂商先后仔细排查了组件服务、数据库并重启了服务器,均无效果。正当一筹莫展之际,偶然机会下通过该业务运维平台分析、定位后发现,电子病历系统大多数层面(如网络、数据库、IIS)都显示正常,唯独中间层加载运行需要额外消耗较多的时间,后经深入排查,系中间层虚拟服务器部署于一台SAS存储的宿主机上,I/O性能不足导致部分连接延时或者超时,进而引起电子病历系统卡慢。知悉该情况后,医院技术人员立即将该虚拟服务器迁移至具有高性能SSD存储的宿主机上,最终问题迎刃而解。

(一)一分钟内感知业务故障,运维变“被动”为“主动”

业务运维平台采用拨测方式来定时模拟用户访问业务行为,把监控范围扩大到用户端。当无人访问时,能通过拨测点的告警来发现故障并及时修复,让用户访问时做到故障无感知。在有人访问时,也可以快于用户报障感知、分析问题,做到及时响应。早于用户感知问题,尽早修复问题,大幅提升运维效率。

(二)一分钟定位业务卡慢原因,缩短排查时间,提高处理效率

当故障出现时,很多时候运维人员不确定是网络问题还是应用问题,是部分用户问题还是全部用户问题,不同问题的处理方式和责任人不一样。而业务运维平台通过位置(IP分组)、链路(DNS、网络、主机、应用)、指标(延时率、重传率、可用率等)三个不同维度,定位故障点并给出处理建议,帮助运维人员快速分清责任人。

(三)广域网流量的精细化管理,清晰掌握网络质量和流量占比

针对面临无法精细化分析广域网流量的难题,对于各分支网段的网络质量、广域网流量构成及流量占比往往缺少有力的支撑工具,对于异常流量进行回溯分析时也缺乏数据支撑。

业务运维系统提供了大量的数据存储能力,可保存一定时间内的原始数据包,同时保存多种协议的数据流、会话等数据,可随时分类查看及调用任意时间段的数据,当发现问题时提供一定时间范围内的流量回溯分析,为快速定位问题发生的原因提供了更全面的分析依据和数据分析保障。

(四)故障自愈,简单故障快速处理,减少业务宕机时间

原先运维人员接到告警信息后,需要制定解决方案并进行下一步动作。在业务运维平台中用户可以根据不同业务,使用标准协议(SSH/WIMRM)通过命令或脚本来自定义动作。当产生告警时,自动或手动触发这些动作,达到自动恢复的效果,从而对繁杂的、有规律的例行操作,释放运维人员的精力,减少重复性工作量,提升运维工作效率。

(五)为优化方案提供数据支撐,辅助做出决策

业务在不断地发展变化,对于运行环境的要求也在发生变化。当需要优化业务运行环境时,如扩充网络带宽、增加服务器磁盘空间或增加服务器内存等事项,过往较难提供具有说服力的数据依据。而业务运维平台可提供业务以及支撑业务运行的组件指标进行关联分析,为优化决策提供强有力的数据支撑。

医院工作的核心是为病人提供优质的医疗服务,信息技术手段可以通过其在存储能力、计算能力、传输能力等方面的特点和优势,改善病人就医体验,提高医疗效率,改进医疗质量与安全,进而提高医院的综合医疗服务水平。近年来,随着医改的不断深入,信息化建设在数字化医院建设过程中也发生了巨大的变化,信息化建设从医院业务的“辅助者”逐渐转变为“引导者”。医院建设从重“建设”转变为重“管理”,医院也借助信息化的手段从“粗放型”管理转为“精细化”管理。

在数字化医疗的浪潮中,医院也在不断寻求增长与突破,借助业务运维平台实现以用户访问体验为中心,从业务系统故障的感知、分析、定位,再到故障的通知、解决为主线,实时探测业务可用性和网络抓包分析业务访问体验,提升业务系统故障定位效率。充分调动了信息技术人员的工作主动性、积极性,提高信息化工作效率,提升部门团结协作能力和运营管理水平,让传统的运维工作焕然一新,让医院的IT建设迈向新阶段。

作者单位:厦门市儿童医院

1374500783268

猜你喜欢
运维流量故障
冰墩墩背后的流量密码
玩具世界(2022年2期)2022-06-15 07:35:36
张晓明:流量决定胜负!三大流量高地裂变无限可能!
房地产导刊(2021年8期)2021-10-13 07:35:16
寻找书业新流量
出版人(2020年4期)2020-11-14 08:34:26
故障一点通
运维技术研发决策中ITSS运维成熟度模型应用初探
风电运维困局
能源(2018年8期)2018-09-21 07:57:24
杂乱无章的光伏运维 百亿市场如何成长
能源(2017年11期)2017-12-13 08:12:25
奔驰R320车ABS、ESP故障灯异常点亮
基于ITIL的运维管理创新实践浅析
故障一点通