曙光信息产业(北京)有限公司 宁雷
随着信息化技术的发展,各行业都在马不停蹄的进行着各自的信息化步伐。曙光5000A的出世,对于在我国计算机领域的发展来说可谓是历史性的进展。百万亿次超级计算机的诞生不仅证明我国拥有自主研发超级计算机的能力,而且对于挑战美国垄断终于有了实际性的突破,有机会成为世界上密度最高的超级计算机。有力的推动了我国信息化时代的发展步伐。
深圳先进技术研究院是隶属中国科学院的国家级研究所,研究院试图通过信息领域核心技术的集成创新和学科交叉,提升我国现代制造业、现代服务业的自主创新能力。研究院以汽车电子、智能仪器仪表、先进制造装备、电子设备、医疗仪器设备、家用电器等为重点应用领域,以计算机、集成电路、软件为学科基础,以人机交互集成技术、智能仿生集成技术为基础性战略性技术研究领域,以汽车电子集成技术、仪器仪表集成技术、先进制造设备集成技术、电子设备集成技术作为面向应用的技术研发领域,集成智能控制、先进材料、光电子及微系统、基于超级计算的虚拟设计与模拟、工业设计等技术,形成原始科学创新、关键技术创新、系统集成创新紧密结合的研发体系,促进我国以现代信息技术为核心的新兴产业的发展。
随着现代信息技术的发展,深圳先进技术研究院作为一家促进我国新兴产业发展的机构。基于高技术和高密度的需求,因此对于计算机系统、存储系统、以及操作系统有着极大的要求,而对于计算机系统的长时间持续服务能力的要求更是迫切。
该系统的建设要求具备高性能、可扩展、高可靠、易管理等特点,不仅要满足现状,还要拥有支持今后不断更新和升级需要的伸缩性。
该系统须是一个具备先进性和成熟性、互联性和开放性、高可靠性、高可用性、高可维护性、高节能性以及伸缩性和扩展性特点的集群系统。同时,要具备完善的管理措施和功能,以便于设备的安装、配置和维护,以及对各种软硬件资源的分配、调度和管理,已达到提高资源和资产利用率,减轻系统管理人员的工作负担的目的。
深圳先进技术研究院之前已经配置了一套 1.5Tflops曙光天潮 4000L集群系统,包括数十个节点,运行了 CAE、CFD、计算物理化学等多个学科的应用软件。
此次采用曙光方案,曙光公司拥有得天独厚的优势,可以根据用户的要求整合深圳分院现有的曙光及其他超级计算资源,构建本地区的综合计算平台,不存在任何兼容性问题和技术障碍。
曙光在对深圳先进技术研究院进行分析之后,为研究院量身定做了一套用于大规模高性能计算的本套集群系统——曙光天潮5000系列超级计算机高效能计算集群系统。
本方案从计算子系统、网络通信子系统以及存储子系统三个方面都进行了优化设计,基于通用的集群架构,通过高速网络将上百个节点的计算能力汇聚到一起,可以支持大规模并行计算任务,充分适合多种类型应用需求。
1、硬件方案:曙光公司为用户提供的天潮5000高效能计算集群硬件系统包括计算子系统、存储子系统、网络子系统、管理诊断子系统、接入子系统以及基础架构子系统五个部分,系统整体架构如下图所示。
2、软件系统:曙光5000高效能能计算机提供丰富的软件系统,包括操作系统、编译器、调试器、函数库、并行通信库、全局共享并行文件系统等基础软件,以及曙光公司专门为业内高级用户开发的 Gridview2.0综合监控管理系统、PowerConf智能功耗控制系统软件和业界领先的Platform作业管理软件。
曙光 5000高效能计算机为用户提供了一个具有海量存储能力和超级计算能力的高性能计算环境,包括登录节点池、计算资源池以及存储资源池等。高性能计算用户还可以利用WEB、应用集成GUI以及Scripts三种方式连接到集群登录节点提交作业,并通过全局共享的并行存储资源池存储应用程序的输入文件和输出结果。
此外,为了能完全满足客户的需求,该解决方案还配用了一套强大的制冷系统——水冷机柜系统。该水冷机柜系统是通过采用水冷制冷技术、机柜封闭式设计、机柜底部内置热交换盘管、风扇系统N+1冗余设计等多项业界领先技术,来达到保障机组的可靠性和可用性。它由 40余台水冷机柜及 10余台冷水分配单元组成,无论是在技术先进性还是节能等方面,均能完全满足深圳先进技术研究院的需求,而且还大幅度的提高了系统制冷效率。与传统的机房冷却系统相比,该系统的制冷效率提高了30%,与冷却系统构成了业界最完整的高热密度解决方案,有效实现了客户建设可靠、节能、环保的冷却系统的目标。
针对深圳研究院高技术和高密度的需求,该方案除了具备高性能、可扩展、高可靠、易管理等特点要求,满足今后不断更新和升级的需要。还具备以下的优势特点:
1、先进性和成熟性
充分采用符合国际标准的、先进并且成熟的计算机系统、存储系统、以及操作系统等先进技术和产品。
2、互联性和开放性
计算机系统选用开放式系统,具有多平台多系统的互联支持能力,以满足用户开发和使用的要求。
3、高可靠性、高可用性、高可维护性
高效能计算系统要求 7×24小时的持续服务能力,因此在方案设计时,首先应考虑选用稳定可靠的产品和技术,使其具有优秀的RAS特性和必要的冗余容错能力,为用户提供高可用服务。要求系统在硬件配置、操作系统、以及系统管理等环节采取严格的安全可靠性措施,保证系统的正常运转。
4、高节能性
此次选用的网络能源的水冷机柜系统,曾荣获德国工业设计界“诺贝尔”奖——红点大奖(reddot),在欧洲各国享有极高的声誉并获得了广泛的应用。其拥有的节能技术可有效实现客户建设可靠、节能、环保的冷却系统目标。
5、可缩放性和可扩展性
系统不但要能满足现阶段的业务要求,而且要能满足将来业务的增长和新技术发展的要求,要在原有设备继续发挥作用的基础上,保证用户能方便地增加或调整设备,改善系统功能和性能,支持将来系统不断更新和便于升级。系统结构应能支持主要的协议、标准和规范,应能运行当今流行的软件环境下开发的各种应用系统并可以在线软件升级、调配;同时应留有充分的扩展余地,并保证系统的完整性不受影响,保证系统可以平滑升级、扩容。
6、可管理性
系统具有完善的管理措施和功能,便于设备的安装、配置和维护,以及对各种软硬件资源的分配、调度和管理,提高资源和资产利用率,减轻系统管理人员的工作负担。
曙光针对深圳先进技术研究院量身定制的大规模高性能计算的集群系统已经部署完毕并投入实际运营中。此种大规模高性能计算的集群系统,完全满足了深圳研究院目前对于计算机超强计算能力的需求,甚至在性能上已经超越了以往的预期,真正实现了高长时间的持续服务能力,有效的促进了深圳先进技术研究院并行算法设计、自动并行工具研制、数据模拟与仿真、应用领域并行算法等方面的研究。
曙光为深圳先进技术研究院设计实施的解决方案经过实际运营检验已经获得了用户的高度肯定和一致认可,十万亿级别的计算能力将有效地助力深圳研究院实现设备升级,达到了提升项目研究效率的目的。曙光高性能计算产品在深圳先进技术研究院的成功应用对于我国以现代信息技术为核心的新兴产业的发展有着重要的意义。
公司是一家在科技部、信息产业部、中科院大力推动下,以国家“863”计划重大科研成果为基础组建的高新技术企业。它以中科院计算所、国家智能计算机研究开发中心和国家高性能计算机工程中心为技术依托,拥有强大的技术实力。曙光系列产品的问世,为推动我国高性能计算机的发展做出了不可磨灭的贡献。2008年6月,每秒运算233万亿次的超级计算机曙光5000A研制成功,于同年进入全球超级计算机TOP500排行榜前十名,成为美国之外速度最快的计算机,从而使中国成为继美国之后,第二个能研制百万亿次高性能计算机的国家。
2006年7月,占地面积60余亩的曙光天津产业基地落成投产,实现民族高性能计算机产业的历史跨越。曙光高性能计算机连续 13年稳居国产高性能计算机市场第一,拥有国产高性能70%以上的份额,并在高性能集群领域实现了国产机对进口产品的超越。曙光公司生产的系列服务器以技术先进、性能卓越、服务优良见长,曾获“国家科技进步一等奖、二等奖”、“中科院科技创新特等奖”、“2001、2003、2004中国十大科技进展”等多项国家级殊荣。
长期以来,曙光始终专注于服务器领域的研发、生产与应用,依托超级计算机的扎实功底,立足自主研发,通过不断技术创新,构建出拥有完全自主知识产权的全系列精品服务器,能全面满足用户从超级计算机到普通PC服务器的各项应用需求,在互联网、金融、电信、生物、气象、石油、科研、电力等多个行业有着大量成功应用。