沈立强 ,石 凌,吴海燕
(1.清华大学,北京 100084;2.教育部教育管理信息中心,北京 100816)
小金教工程明确提出 “数据中心是教育服务与监管体系信息化支撑平台的重要基础设施,它将整合原来分散的硬件资源,构建统一的基础设施平台,为教育服务与监管体系信息化支撑平台提供统一的服务器资源、存储资源和系统软件资源”。从2009年开始,教育部教育管理信息中心组织进行了小金教工程数据中心的统一规划与建设工作。
在小金教工程数据中心的建设过程中,始终遵循以下基本原则:
1.统筹协调,资源整合。基于现有基础设施环境,建设集中整合的机房、网络、服务器、存储与公共软件平台服务,建立完整的信息安全保障体系与容灾备份体系,提供统一的运行维护与技术服务。
2.整体规划,分步实施。小金教工程是一个系统工程,它涉及多个系统的设计和执行环节,各个环节相互依赖。通过对数据中心进行整体规划,集中建设和管理,避免重复投资和形成信息孤岛;按照项目进度,制定合理的分步实施规划,逐年扩展设施的规模、功能和服务能力,确保各项内容的协调发展,节约建设时间和投资。
3.安全稳定,运行高效。数据中心要保证小金教工程系统稳定运行的需要,实现统一高效的运行环境,确保系统和数据安全可靠,建立可信赖的教育服务与监管信息化平台。
4.技术成熟,资源充足。采用先进的设计理念,使用目前主流的、成熟的信息技术和设备,为整个小金教工程各类信息系统提供充足的各类软件平台和设备资源。
5.创新机制,规范管理。在建设过程中,结合IT服务管理的各类成熟理论和标准,通过创新机制,制定规章制度和运行维护规范,建立专业的基础设施运行维护队伍,在系统建设和运行维护服务中创新机制,提高系统建设和技术服务的质量与水平。
小金教工程数据中心通过建设统一运行的基础设施平台,为各类信息系统和用户提供完整的运行环境和技术支持服务体系。保证信息资源、服务资源、信息系统、基础设施和安全体系等各要素之间构成一个有效的整体,方便信息的交换和共享,消除资源建设的无序和重复,推动信息系统的集成和整合,保障基础运行环境的安全和稳定,提升技术支持和运行维护服务的水平和质量。
数据中心总体框架如图1所示。
图1 数据中心总体框架
小金教工程数据中心的建设内容包括三个部分:
1.基础设施建设:基础设施包括机房、网络、服务器和存储备份四个方面。通过整合原有基础设施,建设统一的网络平台,构建统一的数据中心,提供统一的机房、服务器、存储资源,建立统一的容灾备份体系,为整个小金教工程提供统一的运行服务基础设施。
2.安全保障体系建设:安全保障体系包括物理安全、网络安全、系统安全、数据安全、应用安全和终端安全等。通过建立多层次的安全防范措施和行之有效的信息安全管理制度和流程规范,形成全面的安全保障体系,为信息系统的安全稳定运行提供可靠、可控、可信、可查的安全环境。
3.运维服务体系建设:运维服务体系主要包括队伍、机制和技术支撑平台的建设等方面,通过建立有效的运行维护与服务体系,以保障小金教工程系统的稳定、高效、安全运行。
基础设施是小金教工程的运行服务基础,涵盖了机房基础、网络设施、服务器规划、存储备份等多个方面。
机房环境建设包括防尘防静电、供配电、空调系统、电视监控、消防系统、安全系统(门禁)等六大部分。机房环境是整个IT运行环境的基础,机房环境的好坏直接关系到机房内信息系统是否能稳定可靠地运行。
小金教工程数据中心机房严格参照国际机房的建设标准,从电力、空调、门禁、防火等方面均充分考虑到优质机房所需要达到的硬件设施,实现恒温、恒湿、防静电、防尘、电力冗余充足、安全可信的管理、操控集中完善。
小金教工程所涵盖业务庞大,不仅体现在数据量大,还凸显在其服务面广,业务应用系统数量众多。因此,在服务器规划上,遵循统一规划、分步实施、需求分类、应用推动的总体原则来建设,从服务器的类型、管理、效率和能耗等多方位进行选择。基本上以应用为基础,为数据库服务、中间件应用服务、Web服务、各类特定应用服务(认证、LDAP、CA、网管、GIS、数据交换、内容管理等)、备份服务、文件服务等提供充足的服务器资源,实现计算资源可动态调配。
为了满足不同的业务类型的信息系统和基础服务的运行需求,将服务器按照服务的类别划分为业务系统、公共平台、运行维护服务及管理、安全管理等四个服务器群组。
(1)业务系统服务器群:根据开发技术规范要求,各信息系统以B/S架构为主,统一门户和认证,因此业务系统服务器架构以三层架构为主,即由Web服务器、应用服务器、数据库服务器组成。
(2)公共平台服务器群:公共平台服务器群是指运行门户、统一门户和认证等服务平台软件的服务器群,根据所运行的软件结构不同采用的服务器结构也各不相同,但作为各业务系统的基础,在服务器设计方面要保证服务器的高可用性。
(3)运行维护服务与管理服务器群:运行维护服务与管理服务器群包括支持运行维护服务及运行维护管理所需要的各种软件运行的服务器环境,包括Call Center、各监控系统、运行维护服务平台软件、备份、数据标准管理系统等。
(4)网络服务与安全管理服务器群:网络服务与安全管理服务器群指提供网络服务及安全管理所需要的服务器,包括:域名解析、对时服务、邮件服务、DHCP服务、文件服务以及安全支撑平台需要的服务器等。
基于上述四类服务器群组的划分原则,小金教工程数据中心服务器的部署如图2所示。
图2 服务器部署结构
随着小金教工程建设的深入,数据存储和保障越来越重要,特别在核心应用数据量增加、应用服务推广深入、服务器虚拟化广泛使用的情况下,对数据安全、存储性能的要求明显提升,因此,在存储和备份系统的设计上,需要重点关注以下几个方面:(1)应用服务器对数据访问的高性能和高可用性;(2)数据存储的可管理性;(3)关键数据备份方案的制定及其恢复;(4)磁盘阵列设备的高性能和技术领先性。
在小金教工程数据中心,通过选择高性能的DMX-4作为核心业务数据存储,廉价的CX-480作为资源数据存储,大容量的IBM LT-270磁带库作为备份存储介质,构建了一套高性价比的存储备份系统。
在数据备份方面,选择磁带和磁盘到磁带(DtoT)两种备份手段,既满足了数据的快速恢复要求,又充分利用磁带大容量低成本的特性,同时,通过LAN-Free和Server-Free的备份模式,提高了备份效率 。
目前纳入备份范围的主要有Oracle数据库和SQL Server数据库,以及各个业务应用系统的非结构化业务数据。Oracle数据库和SQL Server数据库采用LAN-Free的备份方式,数据直接通过SAN备份到磁带库;其他服务器的数据采用网络备份方式,数据通过备份服务器备份到磁带库。
数据中心网络采用三层结构,同时支持IPv4和IPv6双协议,网络拓扑结构如图3所示。
图3 数据中心网络拓扑结构
数据中心网络拓扑结构的特点:
(1)网络出口:网络出口采用多出口,分别连到教育网和中国电信,边界通过万兆入口防火墙确保内部的安全。
(2)网络接入:网络的汇聚层和接入层合并,以千兆接入为主,支持少量万兆接入。采用高性能模块化交换机提高网络结构的灵活性,同时减少故障点。
(3)可靠性:所有网络设备和链路全部采用冗余结构,确保网络无单点故障。
(4)安全域和子网划分:安全域基于子网划分为门户区、业务应用区、网络服务区、开发测试区、等保二级应用区、公共平台区、CA认证区、数据库区、系统管理区、iSCSI存储区、等保安全应用区等,各个安全域在入口都设有防火墙,以确保业务应用之间的相互隔离。在关键业务应用入口还设置了WAF(Web应用防火墙)和负载均衡设备。
(5)IP分配和路由策略:全部采用公网IP和静态IP分配方式,各个子网的网关设在汇聚交换机上,以隔离不同子网的广播流量。出口路由采用静态路由的方式。边界路由器、核心、汇聚之间采用OSPF协议,以实现路由的动态切换,达到链路和设备冗余的目的。
安全保障体系建设主要针对信息安全风险,在物理安全、网络安全、系统安全、数据安全、应用安全、终端安全等不同层次上采取可靠的安全防范措施,同时建立行之有效的信息安全管理制度和流程规范,形成一套完整的安全保障体系,实现严密、多渠道的安全控制,以确保小金教工程各业务系统安全可靠,提高用户对各业务信息系统的信赖度。
信息安全涉及人、技术、操作等各方面要素,单靠技术或单靠管理都不可能实现。只有涵盖物理安全、网络安全、系统安全、应用安全和业务安全等多个层次,从技术、管理两个维度进行建设,才能形成了一个完整的安全保障体系。①小金教工程数据中心安全保障体系建设遵循总体技术架构设计,相关结构图及描述参见本专栏《小金教工程总体技术架构设计》一文。
通过建立一套科学有效的融合组织、制度、流程和技术的运维服务体系,不仅为小金教工程系统的顺利运行和应用提供管理和服务保障,也对进一步推进深化小金教工程的发展有重要意义。
运维服务体系框架如图4所示。
图4 运维服务体系框架
运行维护服务体系框架由IT服务管理、IT基础设施管理、运行维护管理流程与规范、运行维护支撑系统、组织机构与人员队伍五个部分构成。其中,核心是IT基础设施运行管理,包含了IT基础架构规划与设计、硬件基础环境管理、支撑软件管理、数据管理、应用管理、运行监控、文档管理、资产管理、安全管理等方面。对IT基础设施管理的管理,包括对硬件基础环境和支撑软件安装、配置、变更、监控、优化等维护工作,也包括对应用监控、优化以及对数据的维护等操作。
硬件基础设施管理:对包括机房、网络、服务器、存储等设备组成的硬件基础设施环境进行管理。
支撑软件管理:对基础软件(操作系统、数据库和应用服务器)、基础服务平台(数据交换与共享平台、统一身份认证、信息门户和内容管理)和公共服务软件(地理信息系统、报表与数据挖掘分析工作和目录服务等)等支撑软件进行管理。
数据管理:主要对数据库、数据备份和数据维护三个方面进行管理。
应用管理:根据应用集成与技术支持服务的要求,对应用进行安装、配置、升级、优化和日常监控等操作。
运行监控:对基础设施及信息系统的运行情况进行集中监控和记录,并及时将出现的错误及报警信息通过邮件、短信等形式发送给管理员,由管理员进行相应处理。
文档管理:管理与运行维护相关的大量资料,包括设备随机文档、光盘、设备档案、信息系统相关的档案、口令等。
资产管理:资产包括网络设备、服务器、存储设备、安全设备、空调、UPS、KVM等硬件设备以及支撑软件,资产管理要求对软硬件资产的全生命周期进行管理,包括管理资产的采购、上线、巡检、送修、换件、报废、迁移等。
安全管理:针对信息安全风险,在物理安全、网络安全、系统安全、数据安全、应用安全、终端安全等不同层次上采取可靠的安全防范措施,建立行之有效的信息安全管理制度和流程规范,形成一套完整的安全保障体系,实现严密、多渠道的安全控制,确保系统安全可靠,提高用户对信息系统的信赖度。
2009年初,教育部教育管理信息中心专门组织专家对服务器环境、网络环境、存储和备份体系、安全体系、运维体系等方面进行了整体的规划和设计,形成了《小金教工程数据中心一期建设方案》。从2009年9月开始正式进行小金教工程数据中心的建设,对数据中心机房空调、配电、安防进行了改造,建设了数据中心内外网,建立了安全可靠的业务信息系统运行环境,构建了集中的数据备份体系。2011年4月,数据中心一期建设完成验收。目前,教育部门户网站、全国中等职业学生信息管理系统、全国中小学校舍信息管理系统、教育统计系统、教育部电子邮件系统等重要系统已在数据中心正式运行,数据中心基础运行环境有效支撑了小金教工程系统的安全稳定运行。