高校数据中心运维管理的探索和研究

2024-04-28 17:20王芳芳
电脑知识与技术 2024年4期
关键词:数据安全数据中心运维

王芳芳

摘要:数据中心运维管理是高校信息化建设工作中极为重要的一环。文章從分析高校数据中心的运维管理体系和管理流程入手,剖析运维管理工作中存在的困境和问题,从政策和管理、人员、技术、日常运维管理4个方面探讨数据中心正常稳定运行的具体措施。

关键词:数据中心;管理;运维;网络安全;数据安全

中图分类号:TP311 文献标识码:A文章编号:1009-3044(2024)04-0084-03

0 引言

随着信息技术的发展和应用,高校的信息化程度也日益提高,信息化建设成为了现代教育事业的核心。数据中心作为高校信息化建设的核心和重要基础设施[1],有着不可忽视的重要性,其运维管理变得越来越重要。李鑫等[1]从高校数据中心的组成、运维管理现状和安全运维管理的必要性三个方面入手,分析了高校数据中心面临的运行风险,从安全角度探讨了数据中心在运维管理过程中采取的措施;艾飞等[2]从管理制度角度探索数据中心的运维管理的措施;魏冠华[3]选定管理模式、建立管理制度、做好日常运行维护等多个层面讨论了高校数据中心机房的规范管理,同时还分析了机房管理方面的重点内容;郑富煌[4]从中心机房运维管理流程优化展开研究,提升各类用户满意度的目标;刘小云[5]利用运维审计设备即堡垒机这个统一的运维中枢,帮助运维人员高效完成运维工作。

本文将从分析高校数据中心的运维管理体系和管理流程入手,接着剖析运维管理工作中存在的困境和问题,最后从政策和管理、人员、技术、日常运维管理4个方面探讨数据中心正常稳定运行的具体措施。

1 高校数据中心的运维管理体系

高校的数据中心承担着诸多重要的功能和任务,如教学管理、人事管理、财务管理、科研管理、学工管理、资产管理等。它作为高校信息化建设的核心,要保障整个高校的信息流动和安全。一个高效、稳定的数据中心是高校信息化建设的基础保障,也是高校走向信息时代的必备条件。因此,高校数据中心的运维管理是保证信息化建设稳步发展的关键环节。高校数据中心运维管理体系,如图1所示。

2 高校数据中心的管理流程

高校的数据中心管理流程包含了多个方面,而且需要不断地去优化和完善,以保证数据中心的正常、稳定、高效地运行。

2.1 预防性维护

预防性维护是保证数据中心正常运行的关键环节,其中包括以下几个方面。

1) 设备安全:首先,进行设备安全管理,防止设备受到物理损坏。其次,通过数据备份等手段,预防因为设备损坏引起的数据丢失问题。

2) 设备性能监控:定期检查设备运行情况,及时发现问题并进行修复。此外,通过适当的监控软件,可以查看设备的性能情况,及时预测设备过载的情况,并进行调整。

3) 设备维护:定期进行专业的设备维护,收集设备运行的日志,记录设备的使用情况,为后续分析、调整做好准备。

2.2 运行调查

对于数据中心中的每一项工作,都需要开展运行调查,了解工作的具体情况,以便及时发现问题并进行解决。包括以下几个方面。

1) 合理分配资源:根据工作负载、硬件资源等因素,合理安排各项工作,避免资源的浪费。

2) 工作流程优化:对数据中心的各项工作,建立良好的流程,及时发现并及时解决问题。

3) 一次定位:对数据中心运行过程中出现的问题,应该及时进行定位,降低故障修复时间和成本。

2.3 综合监管

综合监管旨在提升数据中心的管理水平和效率,及时发现潜在的安全隐患和性能问题,调整服务策略,提高用户的满意度。综合监管包括以下几个方面。

1) 合规性监管:制定合理的安全措施和管理流程,防止数据泄露、损失、受损等风险。

2) 性能监管:定期检查各系统、组件的性能,对性能问题及时做出反应和调整,保障用户的满意度。

3) 资产管理:对无用、老化的设备进行及时替换和淘汰,充分利用资源,避免资源浪费。

2.4 故障应对

数据中心可能会遇到多种故障,例如电力故障、硬件故障、网络故障和温度过高。电力故障可能会导致整个数据中心关机,原因可能是停电、电源故障或电缆故障等;硬件故障可能会影响服务器和存储设备,导致数据丢失或应用停机;网络故障可能导致数据中心无法连接到互联网或运行应用程序,甚至可能造成数据丢失;温度过高可能会损坏数据中心的服务器和存储设备,因此需要确保数据中心保持良好的散热系统。这些故障对数据中心的影响很大,所以需要进行预防和及时处理,以保证数据中心的稳定性和可靠性。

1) 要提前建立各种故障的应急预案,这样在故障发生时,不至于手足无措,而是有条不紊地进行故障恢复操作或者切换到临时方案,以保证业务的正常运行。

2) 建立一个管理团队,由经验丰富的管理员和技术人员共同组成。有时数据中心的故障排查难度较大,需要多个岗位以及多个供应商的人员共同合作才能解决。

3 高校数据中心运维管理的困境和问题

在高校数据中心运维管理工作过程中,困境和问题也较为突出:

1) 设备和软件开支。高校虽然已经知晓数据中心的重要性,但是由于学校的经费有限,无法买到或买全心仪的产品和方案,此种类型的财务负担成为需要重点解决的问题。

2) 招投标体系和管理。数据中心从建设到正常运行,会有很多招投标过程。在这过程中,往往会出现低价冲标的情况,最终提供的产品、方案、服务也差强人意。

3) 供电系统管理。一些数据中心没有采取足够的措施保证供电的稳定性和可靠性。例如,供电设备可能出现故障,或高校附近施工导致的区域大面积断电,导致数据中心供电中断或不稳定,影响到数据中心的正常运行。

4) 系统平台不稳定。教学压力大,系统上不稳定,会给教学质量带来不利影响,并且如果系统故障,无法及时采取措施保护教育教学的正常开展。

5) 师生信息安全问题。由于信息化建设的应用情况不同,信息和数据管理、分析、升级等过程中数据隐私和信息泄露问题凸显,使师生的信息安全受到威胁。

6) 网络安全问题。缺乏对网络病毒和黑客攻击的防范措施,就很难保证数据的安全性和完整性,这可能导致数据泄露或系统崩溃等安全问题。

7) 缺乏专业的运维管理人员。如果没有专业的运维管理人员,就很难保证数据中心的稳定性和可靠性。

8) 缺乏专门的数据备份和恢复措施。这可能导致数据丢失或系统崩溃等严重后果。

4 数据中心运维管理的措施

为了更好地实现高效稳定的数据中心运维管理,下面提出了一些具体措施。

4.1 政策和管理方面

1) 加强资金保障。数据中心的建设和运营需要大量且长期的资金投入,主要用于数据中心的升级和维护、设备的折旧和管理、数据存储和管理、网络安全和升级、保持高可用性、进行冗余设计、设备和产品的定期升级和改造等。如果资金无法到位,数据中心将无法提供稳定、高效的服务,进而影响教学和科研等各方面的质量。

2) 强化数据中心的监管与管理。高校数据中心的监管与管理至关重要。在数据中心运维管理过程中,需要明确岗位职责和工作要求,并对数据中心的运营情况进行动态监管。采取有效的管理流程,清晰划定管理角色,及时了解数据中心的运营状况,识别潜在的问题、瓶颈和风险,并采取针对性的管理措施,及时纠正并加强内部监督,提高整个管理体系的效率和精准性,减少管理过程中的瑕疵和错误,保证数据中心的高效稳定运行。

4.2 人员方面

1) 建立数据中心管理团队。高校数据中心的规模较大、复杂且重要,其中涉及的领域有很多,如基础设施管理、系统管理、数据库管理、网络管理、安全管理等。因此,建立一个管理团队,由经验丰富的、拥有一定专业知识和技能的管理员和技术人员共同组成,协同工作、协同保障数据中心的正常运行。团队需要严格遵守管理规范、安全规范、数据规范等方面的标准,确保数据中心的管理流程和管理质量。

2) 高效的沟通协作机制。高效运维管理不是简单的流程和规则的制定,更关键的是管理人员在整个过程中的积极配合和有效沟通。数据中心涉及业务较多,不同团队的工作之间有许多交叉点,在数据中心运维管理中,管理人员和技术人员之间需要建立超越岗位和职责的优秀协作关系,共同制定高质量和可行的运维管理方案,协同解决数据中心管理中的问题和矛盾,共同推动业务的优化和提高。

此外,还需加强与其他部门的沟通和协调,争取更多的支持和资源,以便更好地进行数据中心的管理和维护。

3) 学习与培训。随着信息技术和管理技术不断发展和完善,数据中心的运维管理需要不断学习新知识和新技能,以应对日益增长的需求。管理人员和技术人员需要定期参加培训和学习,通过自学、培训、交流、实践等方式,不断提升自己的技能和知识水平,保障数据中心的高效稳定运行。

4.3 技术方面

1) 推广新技术。随着数据中心业务的不断扩展、技术水平的提升,需要持续推进新技术与新思路的应用,以适应日益复杂的数据中心环境,为数据中心管理及优化带来新的机会与挑战。

2) 不断优化数据中心架构。随着新技术的不断涌现和业务设计的不断完善,高校数据中心的架构也需要不断优化和调整。

3) 实施自动化运维管理。随着自动化技术的不断发展,数据中心运维管理的自动化成为了一种趋势。通过引入自动化技术,可以大大减少数据中心运维管理的工作量和出错率,并能够提高数据中心管理的效率和便捷性。目前,很多自动化技术,如自动化部署、自动化监控等技术,在数据中心管理中得到了广泛应用。

4.4 日常运维管理方面

1) 持续的监控。原则上,对于整个数据中心里的所有设备和系统,都应设置监控程序,保证其能够及时对现场状态进行监测。设备状态、温度、风扇转速、网络传输能力等方面,直到细节都应进行监控。可配备相关的警告机制,一旦某项参数发生问题,管理员立即收到警报,及时处理问题。

2) 加强数据安全管理。数据安全对于高校数据中心来说尤其关键。高校数据中心,经常有大量的重要数据。这些数据可能是研究人员的科研成果,也可能是学校的招生数据,或者是学生课程表、成绩等个人信息。因此,应加强数据安全管控与管理,完善數据备份的手段和机制,保证备份操作的可靠性和有效性,以应对数据丢失和其他数据安全问题。同时,也应该加强网络安全防御措施,避免黑客攻击、病毒入侵和其他网络风险,保证学校信息资产不受损失。

3) 强化故障应对与恢复。在数据中心运维管理过程中,难免会遇到各种故障和意外情况,如电力故障、服务器故障、网络中断等。为了保证数据中心的高效稳定运行,需要建立相应的故障应对和恢复机制,及时对故障进行处置和恢复,保证业务不受影响。同时,也需要对每一次故障进行分析和总结,不断完善故障应对和恢复机制,提升数据中心运维管理的水平和效率。

4) 提高设备的利用率。在设备管理方面,采取各种方法与策略,优化和提高设备的使用效率。有效利用硬件资源,提前发现问题,尽可能延长设备的寿命。对于某些旧设备,可以通过固化其专属的业务或将其变为容器服务器,转化为新的应用场景,提高设备的利用率。

5 结束语

数据中心运维管理是高校信息化建设工作中极为重要的一环。高效稳定地运行数据中心,要依靠各方力量,只有通过不断地优化、改进工作流程、加强管理、资金保障、提高运维管理人员素质等方面,才能真正保持数据中心的顺畅工作。在高校数据中心的运维管理过程中,需要高度重视问题和挑战,并及时采取有力措施,持续不断地提升数据中心的管理水平和运行效率。只有在实际工作中不断探索和实践,不断提高管理水平和技术能力,才能更好地应对数据中心运维管理的各种挑战,为高校的教学和科研事业提供更好的技术支持和保障,促进学校信息化建设的整体发展。

参考文献:

[1] 李鑫,张琴.高校数据中心安全运维实践研究[J].山西大同大学学报(自然科学版),2022,38(4):33-37.

[2] 艾飞,黄建波,苏宣瑞,等.华南理工大学数据中心管理之道[J].中国教育网络,2022(8):63-65.

[3] 魏冠华.高校图书馆数据中心机房管理研究[J].科技资讯,2020,18(18):199-200.

[4] 郑富煌.数据中心机房硬件设备运维管理研究[J].网络安全和信息化,2023(8):59-61.

[5] 刘小云.浅谈高校关于数据中心安全运维的方法[J].电脑知识与技术,2021,17(22):44-45,52.

【通联编辑:闻翔军】

猜你喜欢
数据安全数据中心运维
酒泉云计算大数据中心
运维技术研发决策中ITSS运维成熟度模型应用初探
云计算中基于用户隐私的数据安全保护方法
风电运维困局
建立激励相容机制保护数据安全
民航绿色云数据中心PUE控制
杂乱无章的光伏运维 百亿市场如何成长
大数据云计算环境下的数据安全
基于ITIL的运维管理创新实践浅析
基于云计算的交通运输数据中心实现与应用