文/李力强孟庆利
高校计算机机房中的问题及解决方法
文/李力强1孟庆利2
随着信息技术的快速发展,计算机的应用越来越广泛,高校计算机网络的规模逐渐增大。高校计算机实验室管理与维护是高校教学与科研得以保障的重要条件。本文提出了一种基于云计算数据中心的新型高校计算机机房管理与维护策略。为了确保云计算战略的成功,云计算的运行和维护管理应从日常监控,安全管理和自动化处理等方面入手,涵盖战略、设计、运营和持续改进的各个阶段。
云计算 管理维护 机房
随着信息技术(IT)的不断发展,计算机系统和计算机网络已经深入到高校教育的各个领域,在日常的教学管理中计算机的使用已经必不可少。随着高校办学规模的日益扩大,面对计算机技术的迅猛发展,许多高校都已经建设了计算机公共机房。随着网络规模的逐渐增大,机房管理与维护工作也面临着越来越大的压力。
无论工作的细节如何,任何IT部门的主要目标,都是按照预先规定的服务质量水平提供IT服务。在服务量和服务质量都要求较小的情况下,即使没有复杂信息系统,使用少量员工的也可以解决服务管理是这个简单的问题。但是,在信息部门是一个计算机中心的情况下,这时计算机中心服务的对象是一个大单位(比如高校),而不是特定的科学实验室。因此,计算机中心提供的服务范围需要得到扩大,以尽可能广泛地覆盖用户的需求。高校计算机机房服务的对象是大量的IT用户,资源有限,特别是人力资源,不允许针对每个用户使用单独的方法,仅针对具有最高计算活动的顶级研究小组才有例外。
由于用户需求非常广泛的IT服务,计算机中心的硬件和软件数量也很大。此外,硬件、技术和程序是非常多样化的,基础设施管理的普遍方法是很难找到的。除上述之外,大学计算机中心还拥有与信息系统和虚拟化相关的的基础设施。考虑到大学计算机中心的所有活动,可以得出结论,其基础设施中的IT组件数量非常多。所有这一切使基础设施的控制变得非常困难,维护有关每个组件的最新信息并不是一个非常简单的任务。困难在于使用强大的工业基础设施虚拟化解决方案,IT部门被迫使用特殊的虚拟化管理系统,这也是控制服务器、网络和存储系统。一般来说,所有这些形成了一个紧密集成的硬件和软件系统,其中每个组件影响许多其他组件,并且在许多情况下会隐含地相互影响。对服务支持维护中的问题和变化的影响的分析大大复杂化。
随着大学计算机中心的发展,从仅向有限数量的研究小组到提供高性能计算机服务的单位,到集体使用中心,事件管理和问题管理的过程逐渐发展起来。然而,这些过程是孤立的,在获得关于问题发生的基础设施的组成部分的数据方面遇到了很多困难,几乎没有机会快速分析事件并找到“有罪”的IT组件。部分以网站的形式部分存在于部分以共享目录中的文本文件形式存在的IT组件数据,其关系和设置部分存储在多个数据库中的部分文档、部分内容仅供参考。即使在提供服务和服务支持过程中,许多IT部件缺乏信息也带来了以下困难:
由于缺乏关于基础设施的授权信息,不可能确定组件的状态符合要求,并且未受到未经授权的更改的影响。此外,没有关于IT组件的配置更改时间和时间的数据。
没有关于基础设施组成部分之间关系的信息,无法充分评估哪些组件,以及最终影响服务实施或修改的服务。
缺少导致他们的问题和组件的文档关系,意味着没有痕迹哪些组件导致已知错误以及受这些错误影响的组件和服务。这对计划去除已知的错误是非常严重的伤害,特别是改变的优先级是非常困难的。
大多数事件与违反用于提供服务的组件的参考配置相关联。在没有统一数据库的情况下,它存储IT组件的授权参考配置的描述,寻找关于什么参考配置的信息需要相当长的时间。
由于缺乏对所有基础架构组件的信息的统一存储库,因为需要从多个来源收集信息,因此创建汇总报告变得困难和耗时。在这种情况下,信息的有效性和相关性不总是可以保证。
某些组件可能是无文档的,或者有关它们的信息已经丢失,这尤其需要恢复或重新创建描述的时间。
收集关于哪些组件被使用的信息,在数据存储在多个数据库中的情况下,在它们之间无关的情况下,哪些组件被使用多少以及在多大程度上依赖于其在规划容量时的可靠性变得相当挑战。
每位员工分别负责基础设施部分的笔记;不同人士收集的资料可能有冗余或矛盾。解决需要花费时间和额外时间来创建冗余数据副本所需的矛盾。
本研究的目的可能如下:开发计算机中心的配置管理系统,并与其他信息系统集成,提供IT服务管理。有必要考虑大学计算机中心的以下具体属性:
(1)使用虚拟化提供商业服务,以及提供运营服务;
(2)计算机中心提供的广泛和多样化的服务:高性能计算和教育;
(3)各种硬件用于提供服务;
(4)集体用途:用户数数千人。
确保配置管理系统和变更管理之间最大程度的相互作用尤其重要,因为这些更改对数据的组成有直接影响,而数据的组成又用于执行更改。配置管理系统必须配备有与其他信息系统交互的界面。该接口必须具有足够的可靠性,可以灵活地尽可能快地重新配置,以便在增长和发展过程中改变组成和通信系统。由于该界面更方便使用Web服务,除了灵活性之外,还能够在某些条件下保持可靠性。此外,只配置管理信息系统不足以解决IT基础设施的控制问题,配置管理过程包括起草过程的规则也需要构建。
数据中心运营平台是确保计算机系统正常运行的重要组成部分,可以作为维护,管理和应用资源的分配运行平台。云计算环境涵盖了运维管理的范围非常广泛,包括了服务点播、基础设施管理、物理设备、系统管理、数据管理、管理工具和人员管理等服务。为了实现上述目标的良好管理,必须实现云计算的日常监控、标准化操作维护管理和云自动处理维护。
监控云计算的日常运营管理应该从基础设施建设、网络环境、设备性能、事件管理、变更管理和应急预案管理等方面全方位进行。通过运行良好的云计算监控,可以实现各系统的统一管理服务,统一收集所有业务操作系统和应用信息,实现对不同层次信息的综合分析、归纳和汇总。对系统进行有效的运行监控,可以向系统管理员发出预警,避免系统故障,使企业蒙受巨大的经济和信誉损失。
安全管理是云计算运维管理中的关键问题。云计算安全重点领域有信息生命周期管理、风险管理、法规和审计、加密和密钥管理等。规范云计算安全操作与管理,结合安全技术、级别保护、虚拟化、虚拟机、操作安全管理系统的安全管理策略,可以有效实现企业IT资产管理。
云计算系统需要实现按需服务,这使得自动化系统的运行是不可避免的。在云计算环境下,自动化场所的需求非常多; 主要是提供以客户为导向的虚拟共享系统和资源优化系统。监控系统和自动运行机制完善将对提高生产力起决定性的作用。
为了促进云计算运营管理的优化和完善,有必要建立集成运营管理模式。以业务为导向,构建完善、成熟的IT运营服务体系。云计算运行维护管理的改进应从日常监控,安全管理,平台维护,故障处理,配置管理,服务验收等方面入手。利用自动化和维护工具可以实现物理资源和虚拟资源的统一管理。通过提供资源管理、统计、监控、调度和服务管理等端到端的管理功能,实现云数据中心高效、便捷、智能、统一和集成的运维管理。
云计算数据中心操作系统应建立统一的事件管理中心,以收集每个系统的故障和事件聚合,处理所有故障、过滤、转发、自动响应和报警处理。事件管理中心连接各种系统故障和事件,完成事件级集成,完成应用程序事务监控级别的实现。同时,监控基础架构和IT基础架构的运行状态,实现对失败和异常的实时发现和通知; 收集和安排监测数据可为能力管理、事件管理、问题管理、合规管理分析提供依据,最终实现数据中心高可用性的目标。
信息技术基础设施图书馆(ITIL)是由CCTA在20世纪80年代末开发的一套IT服务管理标准库。ITIL为IT服务管理实践提供了客观、严格和定量的标准和规范。ITIL可以指导相关组织有效利用技术,使现有资源发挥更大的作用。
ITIL V3主要基于服务于生命周期管理的最佳实践。通过构建全面统一的工作流管理子系统,可以通过过程自动化、自动调度工作流引擎和自动化流程实现人员、技术和流程的有机结合,从而方便操作人员完成,通过使用相关管理流程的日常运营,以提高IT质量服务和部门生产力的维护。
ITIL运维管理系统在云计算领域得到广泛应用,在这种背景下,ITIL V3系统的实施策略可参考以下实施策略:服务策略、服务设计、服务转换、服务运营和持续服务改进等。IT服务管理的实施是一个持续的服务改进过程。作为IT服务管理的国际标准,ITIL明确地严格界定了每个流程之间的逻辑关系,为我们提供了“最佳实践”指导。
IT服务管理可以根据负载变化自动调整所需资源,为了应对及时性和节省成本的平衡:同时,计算能力规模越来越大,人为管理资源越来越不实用。这些新功能对IT自动化管理能力提出了更高的要求,企业往往希望在不失败活动的前提下获得更高的自动化程度。
云计算数据中心需要部署自动化管理平台,然后集中管理虚拟化和云计算平台,为自定义规则定制功能提供自动化解决方案,用户通过使用事件触发器,数据监控触发方式自动管理,以节省 人力和提高响应速度。
以上对高校计算机机房的管理与维护策略做了了简要分析。本文提出云计算数据中心的运营管理应着重从综合监控运行管理,全方位的安全管理,自动化运行机制三个方面进行扩大,以有效实现提供服务的要求,基础设施管理, 物理设备管理,系统和数据管理等方面的管理,云计算数据中心结合ITIL V3在云计算环境下形成运营管理实践,最终得到IT资源管理,IT的全面有效的运营管理响应 业务管理,IT运营管理。目前,基于云计算技术的计算机机房管理和维护策略仍处于发展阶段,需要继续研究以便于技术实施。
[1]袁溪.计算机信息技术的应用探析[J].科研,2017(02):00193-00193.
[2]王强,何才辉,陈晓辉.高校计算机中心机房建设中应考虑的两个问题[J].实验技术与管理,2006,23(02):109-111.
[3]朱明.高校机房管理存在的问题与对策研究[J].青年时代,2016(09):197-197.
[4]廖仕东,汤敏.浅谈高校计算机中心的建设与管理[J].重庆科技学院学报:自然科学版,2004,6(02):51-51.
[5]Degtyarev A,Bogdanov A,Gankevich I,et al.Virtual workspace as basis of supercomputer center[C]// International Conference Distributed Computing and Grid-Technology in Science and Education.2012.
[6]谢维平.高校计算中心设备配置的探讨[J].实验室研究与探索,1989(01):40-43.
[7]符旭东.基于虚拟化技术的某职业学院计算机机房数据中心设计与工程实践[D].南华大学,2016.
[8]王美丽.云计算在高校机房中的应用[J].电子技术与软件工程,2017(01):143-143.
[9]魏晋.基于ITIL的IT服务运营事件管理流程的研究与设计[J].中国科技论文在线,2011.
作者单位
1.山东农业大学信息学院 山东省泰安市271018
2.山东农业大学体育与艺术学院 山东省泰安市 271018