发展算力,为AI大模型提供重要动力引擎

2024-07-29 00:00:00姜红德
中国信息化 2024年6期

近年来,国家及地方政府鼓励并积极开展智算设施建设,从《新型数据中心发展三年行动计划(2021—2023年)》的实施,再到《算力基础设施高质量发展行动计划》的发布,都推动了我国算力产业的高质量发展。进入2024年,Sora模型再次点燃了各界对于生成式AI的热情,加强对图像、视频、多模态模型的训练,将加大对AI算力的底层需求。目前我国算力产业在快速发的同时,也存在多重挑战。在中美人工智能竞争的环境下,能源消耗、网络互联、软件和硬件的未来发展趋势,将成为我国算力发展的重要影响因素。

算力已成发展AI的“双刃剑”

据工信部数据,截至今年5月底,全国规划具有高性能计算机集群的智算中心已达十余个。不久前,全国一体化算力网络八大枢纽节点——粤港澳大湾区一体化数据中心在广东韶关完工,将全面提升跨区域算力调度能力。目前,我国基础电信运营商全网智算规模超过每秒30百亿亿次浮点运算。从全国来看,智能算力在算力总规模中的比重超过了30%。我国算力结构不断优化。

同时,算力应用场景也更加多样。在北京的这个智算基地,2024年以来,在线处理能力每秒最高达到了2万笔,效率比去年提升了30%,成本却节省了一半。在济南这个超算中心,不久前刚刚完成山东境内黄河流域的建模仿真。当前,国家正加快构建算力产业生态,征集算力应用创新项目已超过5000个,覆盖金融、交通、城市治理等多个领域。下一步,国家将进一步优化算力基础设施布局,积极推进人工智能计算架构和软件生态建设,加速突破一批标志性技术产品和方案。同时,加快打造全国统一算力服务大市场,不断提升算力普惠易用水平。

与此同时,我国算力发展仍存在一些挑战。一是算力协同有待加强。我国东西部算力协作发展不仅需要依靠自身努力,也需要一定的商业模式来激励,我国西部能源供应价格优势与东部产业西迁成本收益之间的平衡需要一定的协调机制来保障;二是生态方面,我国部分地区数据中心的实际运行业务效果与算力设计规模构想存在一定差距,以“筑巢引凤”的方式实现“新旧”动能转换的期待尚未实现,亟待推动从企业个体的位置空间聚集到有机融合的产业链条聚集,从而促进算力上、下游产业及应用生态市场协同发展;三是我国算力核心技术创新力度不够,技术方面仍存在相对短板。在高端芯片和软件研发方面,我国自主创新能力仍需加强,对进口产品和技术仍有一定依赖,关键技术的“卡脖子”风险依然存在,难以支撑大模型、元宇宙等高性能场景建设。此外,国产数据库、中间件、操作系统等基础软件适配性、兼容性不足,对主流软件应用环境构建的支撑能力偏弱。

影响AI大模型发展的重要因素

算力是集信息计算力、网络运载力、数据存储力于一体的新型生产力,是影响我国AI大模型发展的重要新型信息基础设施。未来,需要从以下几方面推动中国算力产业发展:发展散热液冷技术,优化中心运维能力;加强软件平台建设,优化算力供给,为算力调度、运营管理提供服务;强化芯片自主研发,摆脱对国际算力芯片大厂商的依赖等。

能源能耗。“AI的尽头是光伏和储能。” 据媒体报道,国外超大规模集群的算力供需方都越来越关注大模型在能源方面的需求及能耗问题。我国也在寻找高效清洁能源,同样也要注意节能环保技术与设计,通过软件平台管理更好的优化PUE能效等指标。

软件平台。搭建智算中心软件平台,通过平台操作系统的软件管理,优化AI算力供给,为下游客户侧提供大规模算力资源的资源纳管、算力调度、优化监控、运营管理等智算服务,并有望进一步屏蔽底层硬件差异,构建全栈的智算应用软件生态。

网络互联。随着数据量与计算量飞涨,数据中心需优化网络带宽、计算总线协议,实现数据的高吞吐低延迟的传输与连接,并进一步优化计算集群的架构与设计,保证数据中心的高效利用率,打造高带宽、高吞吐、低延迟、自动化的新型智算中心网络设施。

硬件能力。在中美人工智能竞争的环境下,国产芯片自主创新迫在眉睫。在算力方面,我们也会进一步尝试摆脱对英伟达等头部厂商的依赖,以“云巨头自研自用+独立/创业公司服务于信创、运营商等To G与To B市场”为两条主线发展,实现国产AI算力应用的正循环。