李 鑫,张 琴
(1.山西大同大学网络信息中心,山西大同 037009;2.山西大同大学商学院,山西大同 037009)
我国高校的信息化建设经过了近30 年的发展,大多数高校的信息化建设已经完成了数字化校园系统整合。许多部属院校和沿海经济发达省市的高校,已经开始智慧校园的建设,并且取得了一定的进展。无论是数字化校园建设和智慧校园建设,其目的都是为了将网络平台资源、服务器资源、存储资源、信息系统平台资源和数据库资源,进一步共享、优化,从而能够支撑教育管理等个性化应用的需要,打破信息孤岛,通过各种AI 算法形成决策支持。而实现这些“智慧能力”的重要基础设施就是数据中心。因此,数据中心建设对于各个高校开展智慧校园建设来说是非常重要一个组成部分。因为数据中心既是一个数据交换平台,又是一个基于全校范畴的公共数据库平台[1]。在数据中心的支撑下,海量数据才能完成精准的处理,数据的价值才能被有效的利用。可以说,如果数据中心不能正常运行,将会影响到一所高校的教学管理工作的正常开展。因此,如何实现高校数据中心的安全运维,保障高校数据中心的持续、正常和高效地运行就成为非常值得研究的课题。
数据中心一般是指集中在一个物理空间内的服务器、网络、安全等设备以及相关配套设施的集合,但数据中心却不仅仅是硬件设备的集成和集中,同时也是数据信息流通的中心、存储的中心和各类应用及服务的中心,实现信息的交换、传输、存储、计算等多种功能[2]。就当前高校信息化建设的具体情况来说,数据中心是一个具有相当规模的符合信息建设标准的综合机房,这个机房首先要具备保障重要网络平台和信息平台的持续正常运行的相关配套设施,如:强大的供配电系统UPS,精准的散热系统精密空调以及防火、防水、防盗、防雷击和防电磁泄漏等设施。在此基础上,数据中心的网络资源包括大量的10Gb 接口和一定数量的40Gb 接口的高性能核心交换机。根据《网络安全等级保护》的要求,数据中心核心交换机采用虚拟化技术双机冗余组合配置,负责数据中心云平台、存储网络、安全与管理网络以及运维网络的汇聚,根据高校应用平台访问的具体需要,有些高校还部署了SDN 控制器,实现流量带宽的精准管控,保证重要业务有充足的带宽。除了网络资源外,虚拟化云平台、部分的独立服务器和存储设备,负责承载全校的数据交换平台、各种应用业务平台以及部分运维管理平台等应用业务。最后,就是保证数据中心的安全运行的安全平台系统,主要包括高性能的网络防火墙、WAF、堡垒机、入侵防御系统、APT 和态势感知等,对数据中心的网络和服务实现安全监测、预警和阻断黑客入侵,实现安全纵深防御。
周卡达在《数据中心一体化智能运维管理平台建设研究》中将数据中心运维管理技术发展分为三个阶段[3]。即:被动运维阶段、主动运维阶段和智慧运维阶段。并且国内大多数据中心正处在主动运维阶段。在主动运维阶段,数据中心的动力环境平台、网络平台、云计算平台和网络安全平台均配套建立了远程管控平台,并且相当多的高校针对这些管理监控平台做了集中远程监控大屏展示系统。这样数据中心管理技术人员就可以根据监控平台的展示信息,建立相对标准化的运维流程和应急管理流程,实现快捷、方便的管理。但是,此阶段的数据中心运维管理模式仍然以人为主导,通过运维管理人员巡检和用户的故障上报发现故障点,受运维管理人员经验、巡检频次等因素影响较大[4]。由于数据中心的组成部分非常复杂,其包括各种设施和设备,涵盖了建筑系统工程、网络工程、计算机系统、数据库系统和网络安全等诸多领域。随着高校数据中心规模的不断扩大和当前网络安全威胁形势的加剧。实现数据中心的安全运维向智慧运维的方向发展成为了必然趋势。然而数据中心组成的复杂性对智慧运维的实现造成了极大的障碍,还需要大数据技术和人工智能技术的进一步突破才能真正实现数据中心的智慧运维。因此,在主动运维阶段,为了保障业务系统高效服务,还要依靠数据中心的技术人员不断提高相关的网络管理和系统管理的能力,以及广泛掌握基础设施设备的相关运维知识和网络安全的相关知识。
近年来,按照党中央和国务院有关决策部署,贯彻落实总体国家安全观要求,我国以数据安全保护为核心,持续开展数据治理相关工作,取得积极进展[5]。2021 年,《中华人民共和国数据安全法》、《中华人民共和国个人信息保护法》相继正式出台和施行。高校数据中心作为个人信息和重要教育科研数据传输、交换、发布和存储的重要设施,安全合规压力陡然增加,如何主动规避数据安全风险,全面保障高校数据安全,对于高校数据中心而言,可谓刻不容缓[6]。根据中华人民共和国国家计算机网络应急技术处理协调中心2021年上半年我国互联网网络安全监测数据分析报告,我国境内感染计算机恶意程序的主机数量约446 万台,同比增长46.8%。位于境外的约4.9 万个计算机恶意程序控制服务器控制我国境内约410 万台主机。并且通过对捕获恶意程序样本分析,统计除了恶意程序的传播来源,主要来自境外。具体分布如图1 所示。
图1 恶意程序传播源位于境外分布情况图
参照国家层面对于网络安全的总体要求和国家级网络安全监测权威部门的监测报告,对于高校数据中心的运维管理不仅要完成常规动作保证设备可用性和稳定性,更要实现运行环境和数据的安全性。因此,把网络安全要求按照网络安全等级保护和数据安全法的具体要求对照行业标准渗透到数据中心的运维管理工作中很有必要。
国务院安委会专家咨询委员会理论与法制专业委员会委员傅贵专家在《安全》期刊的卷首语中说:有大的事件发生时,人们首先都要问是“天灾”还是“人祸”?不少事故调查报告会将生产安全事故定性为责任事故,也就是“人祸”所导致,“人祸”其实就是“管理漏洞”。数据中心的管理漏洞,同样来自于管理数据中心的技术人员和各种软硬件厂商的技术服务人员的“不规范操作”。由于数据中心设施设备种类多,部署时间和运维周期不同,涉及的技术知识面很广。数据中心的技术人员数量有限,不可能完全掌握所有设备的采购、质保和运维等细节,再加上有些平台来自于业务部门。这就造成了许多系统的运维出现了“空档”。比如:各种硬件的质保周期啥时候到?硬盘是否做了RAID?能否热插拔?数据中心UPS 供电容量及电池寿命情况如何?应急停电后,核心设备如何关闭、如何启动可以保证数据不丢失。往往这些日常运维的信息不清楚,就会造成不可估量的“事故”。还有些数据中心的管理漏洞主要对厂商技术人员的管理不严造成,比如:因为管理方对业务平台的技术不懂,就把最高管理权限完全交给厂商的技术人员,同时也不履行任何保密协议,不采取其他管控手段,最终导致了数据泄露的严重后果。再有就是安全设备采购的时候把关不严,需求不清,不采购经过国家认定的官方涉密机构认证的设备,造成了安全风险。就是这些管理的细节没有做好,就会给相关人员有了“违规操作”的机会,从而给数据中心带来巨大的运行风险。
根据《2021 年网络安全形势分析与2022 年展望》,因受地缘政治的影响,2022 年国家级网络攻击愈演愈烈,包括我国在内的全球网络空间局部冲突将不断升级。这些网络攻击以窃取敏感数据、破坏关键信息基础设施为目的的国家级网络攻击复杂性将持续上升[7]。数据中心作为关键信息基础设施必然会成为重点攻击的对象。为了窃取到数据中心中储存的海量有价值的数据,黑客通过各种各样的扫描工具针对目标对象的互联网出口、服务器系统或具体应用服务和数据库系统等展开扫描,一旦发现某台服务器存在漏洞,便可以通过这台服务器进到数据中心内网展开网络攻击。还有以美国为首的国家黑客组织通过广泛发布恶意程序攻击我国的主机和服务器,造成了大量服务器被劫持成为了网络攻击的重要方式之一。除了黑客以潜入的方式进行网络攻击外,Ddos攻击也是最常见的网络攻击方式,根据国家计算机网络应急技术处理协调中心监测数据显示,Ddos攻击主要针对云平台,数据中心的云平台一旦遭到Ddos攻击会迅速将云平台核心网络设备的资源利用率提高到100%,从而导致整个数据中心的云平台瘫痪,在云平台上部署的成百上千个服务器将无法正常提供网络服务。并且,随着信息技术的不断进步,黑客进行攻击的方式也越来越高级,越来越智能,特别是当前流行的0-day 攻击,已经演进到防不胜防的地步。还有,专门针对网站的攻击对个人信息、政府机构和金融部门造成了最直接的损害。黑客常常通过网页仿冒的方式仿冒金融、电信行业的主页从而达到窃取个人信息,危害个人的隐私和财产安全;通过网页篡改的方式,对政府、高校和重要的事业单位的主页进行篡改,从而扰乱相关部门的正常工作秩序。总之,网络攻击的风险是当下数据中心面临的最大安全风险。
数据中心作为网络平台,信息服务平台和基础设施平台的综合体,本身包括各种各样的系统。如:UPS 和精密空调设施属于物联网设施,通过工业系统协议加入互联网。网络交换机和防火墙,都有自己特定IOS 系统。云平台有云平台的系统。各种服务器有windows 或者linux 相应版本的系统。可以说数据中心也是各种系统的大杂烩。这就造成了系统漏洞繁多,系统升级复杂和系统安全策略配置复杂的现状。并且,系统漏洞是持续发生,永久存在的。它是在运行的过程,持续被发现,然后持续升级改进的。对于数据中心来说,因为各种平台的服务厂商不一致,因此给各自系统制定的漏洞升级规则及修复方式都不一样,有的厂商为了系统稳定,甚至都不修复系统漏洞。这些系统漏洞的存在就会给数据中心造成极大的风险。除此之外,还有一些应用服务代码中存在的逻辑漏洞如:上传文件漏洞和越权漏洞等,这些漏洞与系统无关,在安全设备的扫描检测下也属于正常,但是如果被有编程经验的高手黑客发现后,同样会造成巨大的网络安全风险。
针对上述数据中心面临的运行风险,从加强数据中心网络安全管理、常见的网络攻击的防御方法和网络安全防护经验总结3个方面,论述在数据中心运维工作中的实践经验。
正如2021年国家网络安全宣传周的宣传语所说“网络安全为人民,网络安全靠人民”[8]。加强数据中心网络安全管理,还要靠大家共同的努力来实现。然而,数据中心平台多,业务系统多,各个系统归属部门多,要想让大家步调一致共同维护数据中心的安全,必须要制定相应的制度才行。在实际的运维实践中,首先要依据《中华人民共和国网络安全法》、《中华人民共和国数据安全法》、《中华人民共和国个人信息保护法》和《关键信息基础设施安全保护条例》的要求,认真落实网络安全等级保护制度(简称:等保),根据等保定级结果,认真部署网络安全防护设备,同时制定相应的高校数据中心网络安全管理制度。要以网信领导小组的名义下发红头文件,将各主管部门的负责人指定为网络安全第一责任人,让主管领导真正重视网络安全。在此基础上,将网络安全检查制度建立起来,采用自检或购买服务检测的方式,每个月对数据中心的安全情况扫描检测,及时处理网络安全问题。建立网络漏洞通报机制,把网络安全实践纳入部门领导年终考核[9],对于构成严重网络安全事件的信息系统归口负责人做考核不合格处理。另外,要建立健全网络安全应急机制,明确网络安全通报来自于哪些部门,明确上级部门的应急联络方式,做到统一协调、响应及时、处置有力。最后就是要实现网络安全攻防演练常态化,在实战中发现网络安全问题并解决问题[10]。
对于黑客攻击,要根据黑客扫描漏洞的特点[11],制定防御措施,从数据中心的互联网出口入手,尽量少开互联网出口的服务端口,减少黑客入侵风险,并且开通的端口要采用黑白名单安全策略,根据实际情况将非法访问ip 加入到黑名单中。数据中心的网络层各个区域要划分安全域、安全组,防止网络内部的横向网络攻击。一定要修改服务器中间件的判断值,如:将常用的Apache服务组件的站点判断值修改成IIS 的值,这样可以有效地迷惑黑客,从而使黑客扫描攻击的时间延长,给数据中心的管理技术人员争取到采取防御措施的时间。梳理所有服务器的请求方式,尽可能只开启get和post请求方式,禁止其他的请求方式,防止黑客通过其他请求方式入侵应用服务器。所有服务器操作系统本身自带的防火墙组件服务一定要开启,并且根据具体的服务做相应的安全策略。不允许服务器和所有的内部网络及安全设备存在弱密码,并且所有的运维文档要加密处理。对于SQL 的漏洞[12],一定要要求相关程序开发厂商做好黑名单、白名单防护,防止重要数据泄露。当然除了这些具体防御方法,数据中心的主管部门要按照等保的相关要求,部署相应的安全设备如:防火墙、入侵防御系统、WAF、堡垒机、APT 和态势感知等[13],搭建数据中心纵深安全防护体系。通过整个安全防御体系的有机结合,实现网络安全域的合理划分,服务端口的明细配置,限制恶意程序的传播,防止网站被仿冒篡改等目标。还有针对云平台安全,特别要注意个体虚拟服务器与整体云平台相结合的安全策略,一方面要针对个体虚拟服务器做好主机安全加固,安装主机防御管理系统。另一方面要部署云平台安全资源池,实现虚拟机之间的东西向隔离,防止被病毒感染的虚拟服务器扩散到其他虚拟服务器上。
对于物联网设备,由于它们的系统与计算机和手机的操作系统不一样,多为工业系统。因此,校园网内往往不以物联网的安全防护为重点。事实上,近些年物联网的安全漏洞越来越多,针对物联网的攻击也越来越频繁[14]。由于高校的经费有限,根据网络安全等级保护的要求,结合高校的实际情况,一般的做法时物联网独立建网,内网运行,做网络层的安全隔离即可。在服务器的系统漏洞更新时,为避免系统自动更新安装其他组件,要建立内部的windows和linux 的补丁服务器,帮助内部服务器安全地打好系统补丁。安装数据库系统时,要避免数据库管理系统组件自带的服务漏洞,采取自定义最小化安装模式。数据库的运行时要禁止sa 账号和应用程序的账号,精确分配账号访问权限,权限分配采取最小化原则,并且要打开数据库的日志审计功能,做好源地址的限制策略,仅允许相应的信息系统访问数据库。对于应用系统中存在的上传文件功能,为避免上传漏洞,对上传文件的类型要检测,上传后的文件强制要求改名,并且不允许接收上传文件的目录执行脚本程序。对web 服务器要加装SSL 安全证书,确保web服务信息加密传输。对于新上线的应用程序,要通过专业的安全设备进行渗透测试和代码审计,最大可能的防止越权漏洞、逻辑漏洞和平行漏洞等“正常漏洞”的发生。对于VPN 和堡垒机的使用,除了采取限制ip 和禁止弱口令的常规设置外,还用禁止一些命令的使用,如drop、delete 等,避免删除重要数据。当然最后还要做好数据备份,以便及时恢复数据。
总的来说,数据中心安全运维工作十分重要,每一个数据中心的管理技术人员要明白在实战中没有100%的安全,只能通过现有的技术,加强组织管理,有效拦截一般的黑客组织的网络攻击,延缓高级黑客组织的攻击时间,力争做到数据中心网络安全“有事件无事故”,通过每一次实战,锤炼队伍,积累经验,不断提升数据中心管理技术人员的安全运维能力和安全技术水平。