创新网络编码 发展存储产业

2024-07-13 13:58陈伟
祖国 2024年9期
关键词:存储系统可靠性编码

陈伟

随着信息、数据产生的加速发展,人们已经生活在一个“数据大爆炸”的时代。在这样的背景下,海量数据占据了越来越多的存储系统,存储规模也逐渐增大。如何保障计算机系统在人为损坏或自然灾害等突发情况下的可靠性,已经成为国家数据安全的战略目标。

华中科技大学计算机科学与技术学院胡燏翀教授,长期深耕于计算机系统数据可靠性领域,主要研究通过利用容错技术如网络编码,纠删码等,设计与实现“高可靠、高性能、高安全”的计算机存储系统,包括云存储、大数据存储、内存数据库、重删备份、异构存储等。他创新开发的大比例编码存储可靠性技术,为我国多个民族骨干企业提供解决“卡脖子”的关键技术,降低存储成本并提升存储性能,为保障我国数据存储更可靠、高效、安全做出了重大贡献。

追风逐电 扎根数据存储

荆楚之风,历久弥新;荆楚人才,层出不穷。胡燏翀,1983年1月出生于湖北武汉,他天赋好学,从小就表现出对计算机的浓厚兴趣。2001年,以优异的成绩被中国科学技术大学少年班录取,成为其中的“零零班”(教学改革试点班)学子,攻读计算机科学与技术。

2005年,本科毕业后,胡燏翀又凭借突出的表现,获得直博资格,在导师许胤龙教授的指导下继续留在华中科技大学深造,从此时起,他就开展了面向计算机存储领域的可靠性编码理论研究。当时分布式存储新型编码研究方兴未艾,胡燏翀敏锐地看到了分布式存储与网络编码技术将会在未来极具发展潜力,他的博士毕业论文就是关于分布式存储容错的修复机制的研究,发表在计算机通信领域顶级期刊IEEE-JSAC,这也是早期网络编码和分布式存储结合的重要论文之一。

博学而笃志 切问而近思

2010年,胡燏翀博士毕业后,先后在香港中文大学的网络编码研究所和计算机科学与工程系开展博士后研究,成为第一批将可靠性编码应用到云存储系统中的博士后研究员,其间,他取得了一系列优秀的研究成果,受到了学界的广泛认可。2015年博士后工作结束,胡燏翀以副教授身份加入到华中科技大学计算机科学与技术学院的冯丹教授团队。

此后,胡燏翀长期扎根计算机系统可靠性领域,针对大规模分布式存储系统所面临的“成本高、故障多、扩展慢”三大挑战,围绕极致存储开销、高效故障修复、高效存储扩展三个核心科学问题取得系列性成果,实现了高效可靠性存储编码在“理论-算法-系统”的完整技术链路。他将自己的研究总结为“三快”:“让编码速度更快、让修复速度更快、让扩容速度更快”。追风逐电,向更快进发,让数据存储更可靠、高效、安全,是他研究工作的主要任务。

迄今为止,胡燏翀已经主持国家重点研发计划青年科学家项目、国家自然科学基金、湖北省科技厅重点研发计划项目,以及其他省部级项目和企业合作项目10余项。近5年来,共发表论文58篇,其中第一/通讯作者发表于计算机学会A类会议/期刊FAST、SC、INFOCOM和TOS、TIT、TPDS、TON、JSAC、TIFS以及云计算顶级学术会议SoCC、系统结构权威会议ICDCS、ICPP等。同时,他还担任多个国内外会议包括ICPE 2022、中国计算机学会芯片大会(2022)等宣传/网站主席。胡燏翀的研究工作受到了国际学术界广泛关注和引用,谷歌学术显示被引用1826次,谷歌学术h指数21,引者包括IEEE学会Fellow,国际著名期刊主编、MIT和Berkeley等著名高校教授数十人。

创新编码 服务民族企业

随着信息技术的飞速发展,新技术带来海量数据的爆炸式增长,这也导致存储成本不断上升,如何利用编码技术降低存储成本,一直都是胡燏翀想要破解的难题。海康威视作为华中科技大学的紧密合作企业,共建了“海量信息存储联合实验室”,2018年海康威视提出了需求,希望能利用大比例编码降低存储成本。

当时,国际在此方面只有理论,相关的技术实践只有一家国外公司在做,但具体细节并未公开。对此,胡燏翀排除万难深入探索,他从网络编码技术的原始论文入手设计大比例编码,带领团队在国际上率先提出了大比例(条带)纠删码(Wide-stripe Erasure Coding,WEC)系列技术成果。论文再次发表于“文件和存储技术会议”(FAST),并由于在计算机领域的应用,相关成果还发表于计算机超算领域顶会“全球超级计算大会”(SC)。海康威视应用其相关成果后,不仅节省了20%的存储成本,还超过了微软云和亚马逊云的存储成本降幅。研究工作取得31项专利,授权19项。此后,胡燏翀还将大比例纠删码技术超低成本的优势分别应用于高性能计算、大数据中心、全闪集群等不同领域之中,解决了各种不同的需求。

一直以来,在传统大规模存储系统的主要存储介质——机械硬盘(Hard Disk Drive,HDD)都被美国和日本三大厂商西部数据、希捷及东芝所垄断,为大力发展中国存储产业,必须掌握数字经济竞争主动权。随着我国国产整机和闪存生产能力的逐步提升,研究“去HDD”大规模存储系统下相关核心技术,将会是未来国家战略和企业发展的重大需求之一,而当前阻碍其大规模应用的主要原因在于其成本高昂,是HDD成本的三至五倍。因此,胡燏翀在2022年申请获批了“面向低冗余成本的大规模全闪集群下大比例纠删码技术研究”的面上项目,将此前提出的大比例编码技术应用到固态硬盘(Solid State Disk,SSD)上,大大降低了SSD成本,为国内大规模闪存集群提供了重要的技术支撑。

在当今大数据时代,研制新一代高性能计算系统,将大幅提升我国算力,满足国家发展的战略需求。但是,随着并行计算系统规模扩展到千万核级别,处理器、内存故障频频发生,同时网络连通度也会因频发故障而大大降低,因而系统的计算、存储、传输三大性能将因“故障频发”而受到严重影响。为应对频发的故障,保障千万核并行计算系统的可靠性,必须解决“大规模并行计算系统故障频发下性能保障关键”科学问题。因此,胡燏翀申请并获批主持了国家重点研发计划“大规模并行计算系统的可靠性编码理论和技术研究”青年科学家项目。

针对“故障频发下性能保障”关键科学问题,胡燏翀将通过研究,重点解决3项关键技术:面对大规模并行计算系统节点故障的低开销容错技术,降低处理节点故障给系统所带来的性能负担;面对大规模并行计算系统低连通度网络的高效传输技术,提升低连通度网络下的传输效率;基于大规模并行计算系统故障特征的容错优化加速技术,进一步提升系统容错性能。最后,基于相关成果,构建起可验证的并行计算系统函数库、仿真软件和原型系统,转化落地,解决实际问题。

基于优秀的科研成果和突出的贡献,近年来,胡燏翀先后荣获:2018年获湖北省科技进步一等奖;2021年获国家重点研发计划青年科学家项目;2022年入选国家“万人计划”青年拔尖人才等。他的个人事迹被央视新闻联播、学习强国、央视新闻、湖北卫视等多家媒体报道。截至目前,已经获得19项专利授权(8项第一),其技术应用于海康威视、华为、浪潮、阿里、中兴、深信服等单位,大大降低了其产品存储成本并提升了存储性能。

数据存储可靠性的科研之路任重道远,随着人工智能时代的到来,未来,数据存储不仅要安全,还要响应更快,与人的互动更高效。胡燏翀将立足国家需求出发,继续坚持创新、突破瓶颈,并致力于产学研结合,研发更多成果并实现转化应用,服务于民族企业,为社会经济发展创造价值,为国家数据安全保驾护航。

猜你喜欢
存储系统可靠性编码
基于SAR-SIFT和快速稀疏编码的合成孔径雷达图像配准
分布式存储系统在企业档案管理中的应用
《全元诗》未编码疑难字考辨十五则
子带编码在图像压缩编码中的应用
可靠性管理体系创建与实践
天河超算存储系统在美创佳绩
Genome and healthcare
5G通信中数据传输的可靠性分析
华为震撼发布新一代OceanStor 18000 V3系列高端存储系统
基于可靠性跟踪的薄弱环节辨识方法在省级电网可靠性改善中的应用研究