朱 林
(中移互联网有限公司,广东 广州 510640)
(1)人员精准管理。凡参与我司运维生产的人员,必须先在统一账号管理系统进行造册和实名认证,运维系统才能同步创建登录账号。
(2)账号权限对接。统一账号管理系统与各类运维系统对接,基于手机号码和人员精准管理,实现运维账号增删改实时精准管理,通过集中化赋权,实现“千人千面”的权限管理体系。
(3)鉴权集中管理。通过移动认证、超级SIM(SIM快捷、SIM盾),实现鉴权集中管理,去除密码管理;避免各类弱密码、账号混用、共用等问题,确保了运维生产的安全。
(4)登陆认证方式。在APP下通过统一认证实现快捷登录,在PC环境下通过SIM快捷实现登录,免去输入冗长、复杂密码导致登录慢的问题,同时提升了运维生产效率和运维系统安全。
(5)短信小程序实现有效变更管理。基于短信小程序,事前推送变更计划,业务方会签驳回或同意;事中变更人员反馈开始操作,告警自动标示,变更完成后,业务方拨测并反馈拨测结果。拨测完成后,变更人员反馈变更结果。事后推送变更结果,了解变更结果及业务影响。
(6)短信小程序助力高效故障管理。基于短信小程序,故障发现,开始处理故障,回复计划采取的措施;故障跟进,查看业务影响情况及领导指示,反馈故障最新进展;故障修复,查看故障修复过程,查看各方的业务确认结果;故障总结,通报故障总结及评估结果,反馈故障闭环意见。
短信小程序、移动认证、工单H5审批的结合应用,提高了工单处理效率和安全性。通过工单短信提醒中嵌入工单H5审批链接,点击短信中的审批链接,即可快速打开工单进行审批与处理,而且账号与手机号码绑定,更加安全快捷。
短信小程序、移动认证、综合监控的结合应用,提高了变更管理效率。对接统一账号管理系统,确保合规人员才能在线上提交、审批工单;基于移动认证能力,变更审批不可抵赖;在变更完成后,变更操作人员直接在移动端反馈变更结果,便捷高效。
2.2.1 事前
目的:通过会签的方式,尽可能广泛的征求变更操作的意见和建议,市场部及业务线条根据变更操作的业务影响及可能的业务影响进行可行性评估,驳回不宜开展的变更操作。
现网变更流程表单,增加值守人员字段及受影响业务情况子表,子表包括影响的业务线及对应的业务线接口人、拨测负责人、拨测结果;提单时由提单人判断是否影响业务,如果影响,可选择影响的业务线;选择受影响的业务,则必须反馈业务拨测负责人;晚上20点,事前变更通告发送对象公司全体人员;在H5页面展示当天计划变更操作列表,点击某个变更,可以查看变更详情(操作人、操作时间、操作步骤、变更方案、审批流水、影响的业务范围等)。
根据具体割接的时间和影响的范围进行评估,市场部可能有重要的市场推广活动,业务部门产品的版本升级与现有变更冲突,公司层面可能有重要保障任务等,以前的变更操作审批的范围小,基本没有进行跨部门会签,而短信小程序发送面广,在当天割接前,收到短信的公司领导及各部门领导、同事,在理由充分的前提下,可以驳回相关的变更操作,没有驳回的变更操作,默认表示所有人会签“同意”。
2.2.2 事中
目的:授权指定的操作人员,在指定的操作地点、时间,按照既定的操作方案和操作步骤开展变更操作,提升变更管理的规范化水平,尽可能减少业务影响。变更完成后,收集业务拨测和变更操作的结果。
到达操作计划开始时间,系统自动发送短信给变更操作人员,该短信为变更授权短信,没有这条短信的所有变更操作都是非法操作。变更操作人员通过短信小程序H5页面,确认操作开始后,工程模式配置生效,对产生的告警进行标示;系统自动发送短信通知监控中心和业务拨测负责人(如有),通知特定变更操作已经开始,请密切关注。
变更操作完成,业务拨测负责人通过短信小程序H5页面,反馈拨测结果,系统自动发送短信通知监控中心及变更操作人员业务拨测结果;变更操作人员通过短信小程序H5页面,确认所有受影响业务拨测完成,业务正常后,填写变更结果及后续值守人员并关单,工程模式配置失效。操作流程如下:
(1)收到操作授权短信,反馈开始操作,告警自动标示。
(2)变更完成,业务方拨测并反馈拨测结果。
(3)拨测完成,变更人员反馈变更结果。
2.2.3 事后
目的:确认变更操作的业务影响,关注可能有业务响应的变更操作结果,及时反馈异常问题和情况。
早上9点系统自动下发短信小程序,短信发送对象是全体公司领导和同事,短信发送内容是总的变更及各类变更的完成、成功、失败、回退的数量以及故障情况(读取故障管理模块信息),H5页面展示变更列表及具体变更详情,特别是失败的变更的影响时间和范围。通过事后的变更结果通报短信小程序,公司所有领导和同事可以在上班的第一时间了解到当天凌晨所有变更的情况和结果,如果有业务异常或故障,可以及时对当天凌晨的变更操作进行关联排查和分析,快速处理。
实现一人操作,一人授权。短信验证授权有被拦截、泄露、借用的风险,SIM盾授权具有不可抵赖性,确保敏感操作的双人机制,大幅提高运维生产的安全性,同时提升便利性。操作流程如下:
(1)网管系统监测到操作包含危险指令,触发SIM盾授权审批。
(2)授权人通过手机SIM盾进行操作授权或拒绝。
短信小程序、移动认证、精准人员管理的结合应用,实现千人千面的质量管理。业务人员可以通过短信小程序在移动端灵活地查询业务质量指标运行情况,确保了合规的人员才有查询权限,不同层级不同业务的人员拥有不同的查询权限,每个合规人员只能查询自己权限范围内的质量数据,方便快捷的同时,最大程度确保了信息安全。操作流程如下:
(1)从短信进入质量管理查询页面,同时完成网关取号认证。
(2)移动认证+精准人员管理,合规人员可以查看达标及得分概况。
(3)根据账号权限,查看账号权限范围内的业务指标情况。
(1)故障发现。通过短信小程序通告有故障发生,并通过H5页面通报故障影响范围、当前处理人、故障等级的故障初步简要信息,通知维护主责单位立即启动故障排查工作,业务部门及客服部门反馈用户投诉情况,监控值班人员反馈告警信息及业务影响情况,知会领导进行指挥调度。用户收到短信后,点击链接完成取号认证,即可在H5页面查看故障详细信息,开始故障处理,回复计划采取的措施。
(2)故障跟进。业务在收到故障发现短信小程序后,全面排查影响的业务和用户数量,并在H5页面上更新和反馈业务影响范围;系统收到上述信息后,自动向负责故障处理的同事和领导发送业务影响信息通报的短信小程序;系统向故障处理人发送提醒短信,故障处理人员定时反馈故障处理进展;系统汇总相关处理信息后,发送关于故障进展通报的短信小程序。故障处理人员可直接在故障详情页面反馈最新的处理进展,其他用户打开故障详情页面即可看到最新的处理情况。领导通过短信小程序“指挥调度”反馈指示意见,平台收到反馈信息后,系统自动发送指挥调度(领导指示)的短信小程序。
(3)故障修复。故障进展显示故障修复后,集中监控中心开展业务拨测并反馈拨测结果,业务方确认和反馈各业务的恢复情况及恢复时间,故障处理人员反馈故障原因,系统收集到上述信息后,发送故障修复的短信小程序,通报业务恢复时间及故障原因。可以查看故障修复过程、各方的业务确认结果以及故障修复结果。
(4)故障总结。发布故障总结短信小程序,通报“故障是否监控主动发现、是否超时、是否人为故障、是否变更引起、是否重复故障、故障原因、故障责任部门”等故障总结与评估结果。
基于移动认证、超级SIM、短信小程序等结合应用,在运维工作中的运维工单审批,质量管理查询、变更管理,敏感操作授权、故障管理等典型运维场景进行应用和实践,有效提高了运维生产的效率和安全。