孔昭煜,齐钒宇,贾丽琼,高学正,郭 磊
(1.中国地质调查局发展研究中心,北京 100037; 2.全国地质资料馆,北京 100037)
在信息技术高速发展的当下,随着人工智能、大数据、云计算和物联网等信息技术的不断成熟,以及区块链技术的兴起,推动和改变了现有IT基础设施建设使用和管理模式。全国地质资料馆正借助开展数字地质资料馆建设工作,将传统的资料档案管理工作利用新兴技术向新管理理念和服务模式转变。同时将馆藏海量的地质调查成果资料数据,更高效、更准确、更可信地向社会公众提供便捷服务,从而将这些具有丰富的资料、档案和科研价值属性的数据,更细粒度的开发利用提供必备的基础支撑环境,是地质资料信息化工作者的核心任务之一[1-2]。
本文以全国地质资料馆开展的数字地质资料馆建设工作为基础,结合虚拟化、云计算和大数据技术进行综合分析,重点对虚拟化技术的现状和建设原则与意义进行了系统阐述,以选择一套更加便捷、可行和低成本的虚拟化建设方案为目标,促进地质资料信息化建设工作更精准,为开展国家地质资料数据中心奠定必要的技术基础。同时,本文对数字地质资料馆虚拟化系统建设进行一些研究与思考,以期能对各省级地质资料馆藏机构和行业馆藏机构的基础设施建设规划和信息化工作起到指导和借鉴作用[2]。
全国地质资料馆自1952年成立以来,是我国馆藏地质资料最全的国家级地质资料馆,截止到2019年底馆藏量超过17万档,单套数据超过260 TB。这些海量地质调查成果资料最早可追溯到1894年,涵盖了区域地质调查、海洋地质调查、矿产勘查、水工环勘查、物化遥勘查、地质科学研究、技术方法研究和信息技术等领域。这些地质调查成果数据包括了文字、图表、声像、样本、样品、信息系统、数据库、软件等内容,同时按照资料内容的特殊性,可划分为公开、内部、秘密、机密和绝密等。这些成果数据是广大地质工作者的劳动结晶,具有极高的科研价值、历史档案价值和重要资料价值。在信息技术高速发展变革的当下,全国地质资料馆为更好地应对社会公众对地质调查成果资料数据的日益增长的使用需求,特开展建设数字地质资料馆来更好地为社会公众提供及时准确的服务,同时也是作为地质资料工作向新时代转型的有力抓手[3-5]。
数字地质资料馆基础设施完全满足相关主要业务需求,以业务需求促基础设施建设,以基础设施建设保业务需求,分别完成了物理隔离网络和互联网两套不同环境不同使用需求的基础设施环境。其中,物理隔离工作网络环境重点完成核心数据存储备份系统建设,同时满足日常数据生产加工需求,互联网重点完成了在线服务运行能力建设和计算能力建设。
全国地质资料馆自2012年起全面启动数字地质资料馆建设,其中,2013~2015年集中开展了基础设施建设,确保了数据日常生产和互联网在线服务的基本需求,2016年至今进行了少量的设备补充和替换。通过近年多次的关键应用设备性能升级,目前基本能够满足数据管理生产和在线服务业务需求。目前,全部服务器均为机架式PC服务器,近80台中的95.24%为2012年后购置的,74.6%为2U设备、14.29%为4U设备、11.11%为1U设备。在硬件配置方面CPU为服务器主要运算能力全部为X64架构,其中,9.52%为单路、71.43%为双路、19.05%为四路整体运算能力基本能够满足要求。综合存储能力超过PB级,全部由专业NAS存储系统和SAN存储系统提供支撑,彻底改变了存储空间不足和性能不足的局面。备份系统由专业大型带库提供保障实现在线备份能力1.2 PB的大容量能力。操作系统全部为Windows平台,少量Linux平台,结合GIS专业平台完成了一体化数据管理系统和数据服务平台的建设,实现了全国地质资料馆业务数字化升级,改善了地质资料管理工作向全业务信息化转型[3-5]。
在信息技术高速发展的时代下,云计算技术不断成熟与完善,虚拟化技术成为了基础的应用平台,从而彻底改变着IT基础架构和应用方式,有效地降低了基础设施建设投入成本。同时,随着软件技术的不断升级,数字地质资料馆的结构和服务模式需要大量的基础支撑设备来提供相应的服务和保障,传统的架构已不能完全满足业务需求,因此,开展私有云建设势在必行,虚拟化技术在此起到了重要的支撑保障作用。
虚拟化技术核心作用是将计算机的物理资源转变为可便捷管理的逻辑资源,彻底打破了物理结构直接的硬件壁垒,将虚拟计算机运行在物理资源上,最大程度发挥物理设备的硬件资源,减少物理资源对应用平台的影响,降低馆藏机构的设备购置费用和使用成本。 同时实现更简化的应用系统部署和后期的维护,动态地满足全国地质资料馆的业务需求。
在数字地质资料馆虚拟化平台的建设中,需要选择更为适合的虚拟化技术。目前各类不同的虚拟化技术超过60种,其中,基于X86架构的就超过50种,目前5种虚拟化技术相对较为成熟,且使用较为广泛,同时也是当前数据中心主流使用,主要有KVM、XEN、ESXi、Hyper-V、Docker[4-8]。
ESX虚拟化架构是VMware的企业级虚拟化产品,在目前市场主流技术占有市场比例很大,该平台可将虚拟机通过相关技术直接访问CPU和内存资源,更加高效地直接访问和使用物理设备的资源,能够更好地发挥硬件资源的性能。
该虚拟化的特点是总性能高,能够最大程度的发挥硬件资源的性能,同时是成熟的商业软件平台,相对比较容易管理和维护,是市场占有率最高的产品。缺点是除采购操作系统外该平台需要单独进行采购,且采购费用相对较高,需要投入成本相对较大,适用于经费、硬件资源较为丰富的馆藏机构使用[6]。
Hyper-V虚拟化架构是微软虚拟化产品,该产品于2008年首次发布,集成在Windows Server 2008版本中,是操作系统的一个功能模块,该虚拟化技术实现了对CPU的调度和内存的使用分配,同时可以直接访问网卡、存储等物理设备。同样作为ESX最大的竞争对手,Hyper-V虚拟化技术占有一定的市场份额,该技术总体运行性能高。
该虚拟化技术同样作为成熟的商业软件平台,部署、使用相对容易,使用便捷后期维护可随操作系统一同维护。同时目前各馆藏机构大部分采购的服务器设备都预装了Windows Server基础系统,因此在实际使用中该虚拟化平台其实是已随操作系统完成了购置的,无需单独进行采购,但如需搭建集中管理平台,需要单独购置System Center管理平台。总体来看,Hyper-V虚拟化架构已基于现有服务器的操作系统中,其总体采购需要额外支出的费用是相对较低的。同时,该虚拟化架构由于使用Windows Server模块之一,进行科学的系统规划后,可在现有物理环境中进行搭建,无需单独购置相应设备,更大程度地利用老旧设备进行改造搭建,更加高效地降低建设费用,同时通过简单学习自行搭建该虚拟化平台。缺点是由于是系统的功能模块之一,在后期使用中随系统故障的发生,对该虚拟化平台稳定存在一定运行隐患,后期维护该平台的同时需要维护相应的操作系统[3-5]。
XEN虚拟化架构是剑桥大学的开源研究项目后有Citrix公司收购,该虚拟化架构理论支持更广泛的计算资源,目前使用的范围是公有云厂商,其需要相对专业人员进行部署和使用维护。
该虚拟化架构总体运行性能较好,由于是开源产品因此无采购费用,但使用需要专业程序员进行配置、使用和维护,其管理和操作复杂程度较高,直接造成其运行维护成果高,目前很少有最终用户自行搭建。
KVM虚拟化架构自2007年起被整合到Linux系统中,该平台为开源平台,无须额外的采购费用投入,在硬件方面除了支持X86结构的CPU架构外,还支持大型机、小型机和ARM等。由于需要专业人员使用,因此目前的使用范围集中在云厂商中,由此对非云厂商的用户来讲,后期的维护费用相对较高,且维护难易程度大。
该虚拟化架构总体运行能力一般,随Linux系统部署其稳定性相对较高,同时该产品为开源产品无采购投入。 缺点是随Linux系统占用一定的计算资源,同时使用和维护成本较高不易非专业人士使用。
Docker虚拟化架构是2014年新兴技术,其主要目标是构建轻量级的操作系统虚拟化解决方案。核心基础是Linux容器(LXC)等技术,在操作系统层面上进行虚拟化,实现复用本地主机的操作系统,从而构建快捷轻量级的虚拟机,将系统、开发软件包、依赖环境等集中打包到容器中,部署仅须讲容器部署至虚拟化平台活服务器中。
改虚拟化架构的总体运行性能较高,为开源平台无需进行相应的建设经费。同时轻量化架构能够提供更多的虚拟化服务,依托轻量化结构去除了大繁杂的操作系统环境,在运行室性能获得了极大的提升所有的管理操作均为秒或毫秒计量。缺点是由于是新兴技术知道了解的人相对较少,需要专业人员进行部署和维护,相关技术资料缺乏等。
随着数字地质资料馆建设的不断完善,提供的在线服务不断丰富和内容不断的增加,原有的基础设施不能完全满足业务发展的需求,由于数据的特殊性须建设适用于数字地质资料馆的私有云确保满足业务需求的最佳解决方案。同时,传统的实体服务器存在购置投入费用高、占用机房空间大、热排放和耗电量大等缺点,通过虚拟化技术可以有效的降低建设费用和后期的使用费用[6-9]。
在开展虚拟化技术平台的选型中,首要的目标是在确保能够满足数字地质资料馆全部业务需求的基础上,选择技术成熟、管理简便、部署相对容易、使用维护成本低、建设投入少的虚拟化平台。综合上述主流的虚拟化结合现有的基础设施环境,相对成熟、部署和投入成本核算使用微软Hyper-V虚拟化架构最为合适。
在建设过程中可以完全利用现有的普通PC服务器、SAN存储和交换机设备,通过简单适当的内存和网络环境的补充升级,完成私有云环境建设。利用已购置6台PC服务器进行内存、HBA卡的升级扩容,使用已购置存储系统构建完成生产环境的私有云环境建设,经过近1年的试运行,发现由于传统硬盘读写能力存在瓶颈,当虚拟机并发数达到峰值后严重影响虚拟机使用效率。随后进行了私有云核心存储SSD闪盘分层技术升级,将热点数据自动迁移至闪盘中大幅度提高了虚拟机使用效能,降低了虚拟机并发过多对存储的运行压力,切实提高了虚拟机使用体验感,保障了服务支撑质量。后经扩容该套虚拟化平台共10台物理服务器完成了生产环境、测试环境和备用环境的有力支撑,总虚机数接近百台。其中,35%为研发与测试使用,15%为基础支撑服务,50%为主要业务服务。切实有效地保障了互联网业务不断扩展和增强,同时建立了相对完整的在线服务集群、测试环境和备用环境。
该项私有云建设总体投入不足百万,其经济价值远超建设投入,同时该项建设无专业私有云设备采购,全部利用现有基础设施设备进行建设。截至2019年底,生产环私有云节点CPU为388颗、内存2.5 TB目前正式投入使用虚拟机97台,可增加虚拟机30台以上。
通过对数字地质资料馆私有云的建设,选择了较为适合本次建设的微软Hyper-V虚拟化架构,在实现基本功能的基础上,有效地节省了用于基础设施建设的经费投入,节省了机房的占用空间、用电消耗和散热等运行压力。同时,通过建设和运行积累了一定的建设经验,在充分利用已有基础设施环境的基础上,通过合理的设备改造,标准和规范的建设规划,实现一套低成本的虚拟化平台建设方案,相比采购成熟产品和使用免费的开源技术更为经济、便捷和可靠。该经验可对省级馆藏机构和行业馆藏机构进行技术指导和经验分享,切实推动地质资料信息化建设管理水平,提高地质资料社会化服务保障支撑能力[3,6-9]。