赵娜 邱玥
中国每一个科研人员,都是时代的建设者。他们心怀科学强国之梦,他们用行动来践行报国之志。在科技强国的道路上,他们不懈的奋斗。中国科学院计算机网络信息中心迟学斌研究员,就是这样一个科研人。
作为我国国家高性能计算环境建设与发展带头人之一,他坚持梦想,砥砺前行,深耕科研三十载,勇担使命践初心。他深入研究国家高性能计算环境建设与应用,主持及承担了多项国家重点科研项目,在高性能计算与软件、网格计算技术、高性能计算机系统建设与运行等方面建树丰硕。多年来,他从未停止在超算环境创新的脚步,为科技创新跑出“加速度”贡献着自己的力量。
点亮心中梦想 科研成果丰硕
1963年10月,迟学斌出生于吉林省梅河口市,他从求学期间就对计算数学有着浓厚的兴趣。1983年,毕业于吉林工业大学数理系后,他怀着一腔热血来到了中国科学院计算中心攻读硕士,1986年师从冯康先生攻读并行计算方向的博士。
1989年,迟学斌博士毕业,进入中国科学院计算中心担任助理研究员、副研究员。其间,在美国MIMD Systems Inc.进行为期一年的合作研究,1993年回国。1995年转入中国科学院软件研究所,1997年晋升为研究员。2001年至今在中国科学院计算机网络信息中心开展超级计算相关研究工作。
为了不负心中理想,迟学斌倾尽所学投入到科学研究工作中,他自“九五”规划以来,就开始主持及参加了多项国家重点研发计划项目、国家重点基础研究发展计划(973计划)、国家高技术研究发展计划(863计划)、国家科技平台项目、自然科学基金委重点及面上项目以及中国科学院知识创新工程等多项重点科研项目。
据迟学斌介绍,相比传统的超级计算集群使用模式,高性能计算环境具有应用资源更丰富、计算服务更稳定、作业调度更灵活等特点,对于个人及团队科研用户、专业领域社区和大科学装置计算任务都有良好的支撑能力。
多年来,迟学斌带领团队致力于通过网格技术、云服务模式降低超算应用门槛的研究,目标旨在开发一套具有自主知识产权、支撑国家高性能计算环境运行和服务平台的分布式系统软件,为科学研究、资源环境、制造业和服务业等领域提供便捷使用方式和技术支持,从而为我国超级计算应用发展贡献自己的力量。
迄今为止,迟学斌已在国内外重要学术刊物上发表论文100余篇,合作出版专著4部,获教学科研成果奖共8项,其中国家级3项,省部级5项。
创新研发技术 打造超算环境
高性能计算作为世界竞争的高科技热点之一,对国家经济和社会发展具有深远影响,它为大规模交叉科学研究、工程应用提供强大的支撑平台。“十三五”期间,国家高性能计算环境重点开展了服务化机制和支撑体系的研发工作,在资源聚合、网络传输、核心服务、社区支持、安全运行、评价体系等方面做出了一系列工作,进行了全面提升,构建了具有基础设施形态、服务化模式运行的高性能计算服务平台。在此期间,迟学斌带领团队也进行了一系列科研创新,形成了环境的服务化运行机制与支撑科学计算的新形态。同时环境在技术和成果推广方面也在不断努力,扩大了环境在国内国际相关领域的影响力。
迟学斌和团队将核心软件升级为SCE2.0,建设了消息总线系统,通过实现消息同步和信息汇聚功能支持了环境的双中心运行,提升了环境运行的可靠性,为未来计算能力升级后环境服务的可扩展性打下基础。他们还研发了时间优先、负载优先、成本优先等多种作业调度策略,以适应不同的用户需求和场景需求。
领域社区和业务平台能够为学科用户提供更专业的应用方法和业务编排,为了有效提升环境对于社区平台的支撑能力,迟学斌带领团队研发了多源用户认证授权技术,使来自不同计算集群、环境和社区平台的账户能够互联互通,并在此基础上建设了聚合资源运行支撑环境,通过建立资源匹配、任务全局执行、业务流程编排管理等方法,实现社区平台与网格环境的松耦合式对接,形成了资源供给与使用的新模式。
为了解决环境中各结点网络运营商差异导致的数据传输性能瓶颈问题,迟学斌团队采用网络隧道技术,实现了数据的高速加密传输。基于该技术,环境建立了软件定义广域网络,以网络条件较好的结点为骨干,通过流量调度的方式实现了数据绕行式的高速转发,有效提升了环境的数据传输性能和安全性。
迟学斌还带领团队进行了标准和评价体系的建立工作,据他介绍,超算资源评价标准是一套可量化集群计算服务水平的规范,通过运行指定的评测软件得到相应评测结果,并设立环境资源准入机制以规范环境的整体资源结构。环境综合评价体系通过对环境资源质量、服务能力、人员、成果水平和应用推广情况等方面进行评估,最终形成环境发展指数,以客观的衡量国家高性能计算环境的发展水平。
“十三五”以来,国家高性能计算环境助力物理、化学、生物医学、天文学、环境科学、材料科学、工业设计等学科领域的研究工作,为我国科学技术发展做出了重大贡献。
新征程新起点 开启崭新篇章
近年来,为了扩大超算环境在国内国际相关领域的影响力,迟学斌带领团队与国家重点研发计划高性能计算专项的各个项目团队开展了充分交流合作,对专项总体目标实现起到了有效支撑:聚合了国产超级计算系统的资源,并且基于多源认证授权技术、可扩展接口技术和国家高性能计算环境运行支撑平台,支撑了专项项目建设的社区平台与环境的资源对接;同时,在环境中部署了专项项目自主研发的应用软件,助力构建国产自主研发应用软件生态。目前,他们通过松耦合式的社区平台对接模式共计支撑了专项9个项目建设,典型社区平台应用支持案例包括:
教育社区“超算习堂”:通过对接国家高性能计算环境访问多元化资源池实现超级计算相关课程教学,完成近万次并行程序评测,提供机时超过千万核时/年,辅助培养了大量超算人才。
生物医药应用社区:药物虚拟筛选采用“计算+数据”模式超快速筛选小分子库数十亿次,保障快速药物研发;生物信息分析服务“一带一路”十余个沿线国家,取得了较大国际影响力。
集成电路电子设计自动化平台:通过与国家高性能计算环境的对接访问资源,为未来规模化使用高性能计算资源解决超大规模EDA计算任务奠定了重要基础。
迟学斌还带领团队收集了数台超级计算系统的典型应用历史作业数据,形成了“并行作业负载资料库”,为研究高性能计算作业特征和调度方法提供了数据支持;同时,数据分析工具已被多个高性能计算集群的运行数据分析中,对发现系统的运行异常起到积极作用;用于环境网络传输优化的隧道技术已在多所高校和研究院所的网络业务构建中得到应用。
2020年新冠疫情期间,环境还支持了“基于国家高性能计算环境的生物医药应用服务社区”项目团队快速响应抗新冠病毒药物科研攻关,短时间内形成基于超大规模快速虚拟筛选框架的计算平台,大大缩短了虚拟筛选时间。
目前,正值我国“十四五”规划进行中,超算互联网是国家高性能计算环境在“十四五”期间发展的重要主题,超算互联网旨在建设面向未来的国家级异构算力体系,成为国家计算资源战略储备,形成高性能计算的研究、开发、应用、建设、服务、运行、教育基地,助力国家经济和产业的发展。
迟学斌负责的“地球系统模式数值模拟系统”研究,由数值模式、资料库和资料同化、专用超级计算机软硬件组成。在他的带领下,中国科学院计算机网络信息中心开展了耦合集成软件平台开发、地球系统模式优化及应用技术攻关,持续收到国家高技术研究发展计划(863计划)、国家重点基础研究发展计划(973计划)、中国科学院项目和国家重大科技基础设施建设项目支持。一切过往,皆为序章;所有未来,皆是可期。鲜花和掌声属于过去,不断创新砥砺前行才能开创未来。迟学斌坚信“路虽远,行则将至;事虽难,做则必成”,他将在建设国家高性能计算环境的道路上步履不息、前行不止。