庄坤 王圣荣
国家管网集团东部储运公司信息中心,积极为国家管网集团高质量发展插好数智翅膀。
基础环境服务可靠度100%,连续5年零宕机、零停服,B级数据中心运行指标达到A级,打造国家管网集团主数据中心品牌与能力……
承担国家管网集团主数据中心——徐州数据中心的运维工作以来,国家管网集团东部储运公司信息中心持续以铁军文化建设为引领,以制程标杆示范为标尺,以队伍建设为核心,以安全运行为根本,为国家管网集团大步伐推进数字化智能化、抢占创新发展先机、发展新质生产力做出了贡献。
强技能 建体系
徐州数据中心坐落于东部储运公司徐州基地南厂区。3500平方米的机房里,标准机柜上各种信息设备的各色指示灯不停闪烁,不分昼夜地演奏着数字化转型之曲。
作为国家管网集团主数据中心和目前唯一的私有数据中心,徐州数据中心是国家管网集团华东分控中心的核心机房,也是国家管网集团全部生产类统建系统及各地区公司自建系统的算力底座,承载了国家管网集团私有云平台等80余个集团统建系统和企业应用。
承担徐州数据中心的运维工作,东部储运公司信息中心深知责任重大。
为保障徐州数据中心安全可靠性、节能与智能化水平达到行业主流标准前列,东部储运公司信息中心从人员培养、运维管理体系搭建等方面,打造国家管网集团主数据中心团队品牌与能力。
运维团队以学促干强本领、凝心聚力提质效,不断加大新设备、新技术培训力度。白天运维工作任务重,他们就持续利用夜间时间开展带班培训。
保障高压直流电源正常运行,是运维团队非常重要的一项工作。在高压直流电源安装阶段,团队青年骨干孙亚一全程跟踪,学安装学调试。在初步掌握运维技巧后,他主动要求赴厂家培训,带着问题深入学习。回来后,他及时整理编写了第一版高压直流电源运维手册,对运维人员进行二次培训。
运维团队组织技术人员完善机房管理规定,制作机房巡检路线图和逃生图,共编制各类设备操作手册6套;对数据中心设备设施实行预检预修,严格落实春检和日常维护计划;推进机房标准化改造,编制完成机房标准化指引;探索建立了涉及設备运维要求、安全管理规定等适合国家管网集团工作特性的自有数据中心运维体系……
多措并举之下,运维团队不断提高标准化、规范化、专业化管理水平,为确保徐州数据中心100%安全可靠运行奠定了良好基础。
守网安 强支撑
数字化背景下,数据中心对企业的生产调控、办公系统等至关重要。任何故障都可能让企业失去“战场”控制权,看不到“战况”。
徐州云平台是徐州数据中心实现零宕机、零停服的重要支撑。云平台发生故障,会造成服务中断,后果不堪设想。坚决落实属地管理责任,运维团队做实徐州云平台合规部署监管,认真审查云平台各项作业方案,强化数据中心进出入管控。
在国家管网集团各类统建系统的安装调试过程中,确保基础环境安全是运维团队的重点职责之一。他们做好实施人员进机房前的网络安全检查和教育,对使用的相关设备进行筛查,全程旁站监督相关操作;在数据中心出入口处增加安检机、安检门和密码储物柜,并由保安人员对所有进出人员进行例行安检;按照数据中心功能区域划分和各运维组实际工作执行情况,对门禁卡实行权限分级分类管理……运维团队全力夯实国家管网集团数字化战略的算力基石。
网络安全是实现数据中心可靠度100%的安全屏障。为提高网络攻击防御能力,运维团队中的3人考取了取证率仅30%的网络安全注册工程师证书,为筑牢企业信息安全生命线提供了人才保障。
他们在24小时监控值班的同时,模拟服务器宕机、系统被攻击等事件,开展说岗、岗位练兵等形式的内部交流,并积极参与各类网络攻防演习。
在2023年国家级网络攻防实战演习中,运维团队成功抵御各类攻击百万次,实时发现并阻断各类攻击9万余次。他们做到了在每日超5000次的网络安全报警中,快速识别出真正攻击,以分钟为单位,迅速做出处置。他们以优异的表现,获得了国家管网集团的嘉奖。
攻扩容 拓算力
随着国家管网集团大步伐推进数字化智能化转型,徐州数据中心的规模持续扩大。2022年,运维团队迎来了一项重要任务——配合项目部做好徐州数据中心第一期扩容项目施工管理工作。
“这是我参加工作以来的最大挑战!”东部储运公司信息中心网络维护中心主任兼党支部书记蔡成林回忆说。
项目选用的新型制冷系统,相关设备为微模块,密度小,发热量大。如何实现数据中心能耗运行指标PUE小于1.3,即服务器每耗电1千瓦时,其他辅助设备耗电量不超过0.3千瓦时,成为摆在运维团队面前必须攻克的难题。
行业可借鉴的经验较少。运维团队通过联系厂商实地考察、网上查找资料、参观行业内其他单位等,最终用时两个月给出了最佳比选建议并通过了专家评审,使扩容部分每年节省制冷能耗520余万千瓦时。
施工过程中,既要保证原有数据中心平稳运行,又得保证供电系统割接不能发生一秒中断。这是运维团队面对的又一道难关。
他们从项目进场就着手做方案,审视每一个细节,做好风险评估和应急预案。为使项目实施风险最小化,蔡成林利用周末时间,带领骨干进行了200多个小时的联调联试,保证了最后32小时正式供电割接的顺利完成。
项目最后的难关是2022年底疫情管控放开后,70人左右的工作团队中有50多人相继发烧病倒。一时间,项目面临停滞。
为保证项目进度,运维团队成员症状稍减轻就立马回到施工现场,组织协调、倒排工期,以日计划保证周计划、周计划对照总工期,保障进度压紧可控。与此同时,他们帮助施工方抢时间。最终,落下的进度被一点点抢出来,项目按期投入了运行。
今年,运维团队将继续攻坚徐州数据中心第二期扩容项目,助力徐州数据中心早日由B级升级为A级。
责任编辑:陆晓如
znluxiaoru@163.com