韩淑君 穆琙博 柴瑶琳 宋平 毕立波
(中国信息通信研究院技术与标准研究所,北京 100191)
随着算力网络、高性能计算、人工智能等新型信息技术快速发展,传统产业与新型技术加速融合。以“计算”+“网络”融合为主要特征的基础设施已经成为智能社会不可或缺的关键基础设施,算网基础设施的创新发展被视为推动国家数字化转型的重要力量。
近年来,随着国家政策布局初显雏形,产业界对于算网融合有了初步共识,并开展算网融合技术研究和产品研发升级。算网融合产业及标准推进委员会聚焦“计算”+“网络”发展需求,阐述算网融合的丰富内涵,提出“4+6”架构体系。算网基础设施作为四大组件之一,被视为算网融合能力底座[1]。
本文介绍了以“计算”+“网络”深度融合为主要特征的算网基础设施,提出算网基础设施参考架构,从关键技术、行业应用、产业生态各层面分析算网基础设施能力,提出算网基础设施面临的挑战,总结生态建设任务。
算网基础设施为算网融合提供计算、网络、存储等资源的物理承载,实现网络、计算以及数据资源的池化和一体化资源管理调度,提供网络传输能力、异构计算能力以及数据分析能力,是算网融合能力的底座。
算网基础设施以云计算数据中心、智能计算中心、高性能计算园区等算力和数据设施为支点,依托5G、物联网、工业互联网、卫星互联网等网络设施,融合人工智能、大数据等新技术,实现海量数据的流通、处理及存储,是一种超融合的信息基础设施的典型实现。
算网基础设施包含计算基础设施、网络基础设施、数据基础设施、融合基础设施、创新基础设施五大组件(见图1),具体如下。
(1)计算基础设施:是主要的算力承载体,主要包括云计算数据中心、边缘数据中心、人工智能数据中心、高性能计算园区。
(2)网络基础设施:主要用于数据和计算任务的传输,实现“云”“边”“端”多层网络的联通,包括全IP网和全光网。
(3)数据基础设施:主要用于数据存储,实现数据采集与接入、数据存储与计算、数据管理、数据分析与挖掘、数据服务等功能,包括网络数据、环境数据、应用数据等。
(4)创新基础设施:对已建成的基础设施的继承、升级、完善,包括为产品研制、技术开发、成果产业化等活动提供支撑的设施、装置、软件系统、平台等。
(5)融合基础设施:指基于算网基础设施融合人工智能、大数据等新技术进行智能化改造形成的基础设施形态,包括智慧能源基础设施、智能金融基础设施、智慧交通基础设施等。
图1 算网基础设施五大组件
算网基础设施聚焦数字化产业,升级创新产品和服务供给,形成“3+4+5”的体系架构,即三大能力、四个特征以及五大组件(见图2)。
图2 算网基础设施“3+4+5”体系
算网基础设施作为支撑海量智能应用数据和终端设备的物理载体,需要具备对智能应用需求的感知能力,能够提供弹性随需的算力管控和调度能力,以及构建虚拟化、软件化的基础设施安全能力,形成“大连接、高算力、强安全”三大能力,支撑算网融合“万物智联、智算赋能、安全升级”的服务能力[2]。算网基础设施具有以下几个特征。
(1)融合
算网基础设施融合特性包括数据融合、算力融合以及网络融合,旨在形成统一的资源池,提高资源使用效率和数据处理速度。
• 数据融合:集合算网基础设施范围内的网络数据、环境数据、应用数据和安全数据,从数据结构、数据存储、数据处理等方面形成统一范式,构建归一化的数据资源池。
• 算力融合:汇聚云计算、边缘计算、AI计算、类脑计算、量子计算等多种计算设备,聚焦异构芯片的处理能力,实现基础算力的度量融合。
• 网络融合:以全光网络/全IP网络为底座,从网络协议、网络架构、网络模型等方面集约化融合发展,全面提升网络对计算的感知能力,实现云网边端的融合连接。
(2)协同
算网基础设施协同是指传统集中算力资源进一步下沉到分布式的边缘计算场景中,在网络与算力协同部署过程中,网络不再作为传统的传输“管道”,可以认为是能够提供具有算力资源感知能力的算网资源服务承载者。通过协同算网资源,实现计算、网络和数据资源统一调度,满足用户一站式算网服务开通需求。
当前,不同地域之间的计算资源利用往往不平衡,通过构建包含传输、计算和数据三种资源协同的算网基础设施,实现协同分析的任务分发和调度能力,完成跨域的计算能力共享,提升整体资源利用率。
(3)智能
从人脸识别、虚拟现实游戏、全息投影、车联网[3]等新型智能应用到航空航天、天气预报、工业智能制造等关系国计民生的基础领域,算网基础设施在提供算力资源的同时,结合人工智能、大数据分析等技术,实现自动化运维、应用感知、资源编排调度的能力升级。
(4)安全
随着新型应用和技术不断打破设施安全的物理边界,传统安全技术存在失效风险,算网基础设施采用零信任、区块链、隐私计算等新型安全技术,在数据安全、应用安全、网络安全等维度构建新型技术设施安全架构。
1.2.1 政策驱动:我国布局算网基础设施顶层设计
“十四五”期间,我国高度重视“计算”+“网络”深度融合的信息通信基础设施建设,初步形成算网基础设施顶层设计和行动时间表。2021年,工业和信息化部印发《新型数据中心发展三年行动计划(2021—2023年)》,明确提出“推动数据中心总体布局持续优化,全国一体化算力网络国家枢纽节点、省内数据中心、边缘数据中心梯次布局。”2022年1月,国务院印发《“十四五”数字经济发展规划》,明确提出“推进云网协同和算网融合发展、有序推进基础设施智能升级”。2022年1月,工业和信息化部、国家发展和改革委员会联合印发《关于促进云网融合 加快中小城市信息基础设施建设的通知》,要求强化云网融合、产业协同、城际联动,着力提升中小城市信息基础设施水平,到2025年,我国东部和中西部及东北大部分地区基本建成覆盖中小城市的云网基础设施。
1.2.2 技术驱动:创新融合应用加速算网基础设施落地部署
智能化数字应用带来海量接入设备和几何指数增长的数据量,使得融合创新技术的算网基础设施成为信息通信(ICT)行业技术发展的重要抓手。从车联网、智慧医疗等智能行业应用到“东数西算”工程全面启动,从基础电信运营商角度看,CT技术发展呈现计算化趋势。其中,SD-WAN和SRv6作为代表性网络计算化技术在产业界已进行商业部署,但是信息网络仍存在不能感知智能应用场景算力服务需求,阻碍智能设备网络连接。从互联网企业角度看,IT技术发展呈现网络化趋势。边缘计算、分布式云计算、高性能云成为行业讨论的热点,但是人工智能计算、量子计算、云计算等异构算力资源难以形成统一的资源池,缺少灵活弹性的算力编排。因此,“大连接、高算力、强安全”的算网基础设施是实现网络智能连接和异构算力行业赋能的重要途径,成为ICT产业重点关注的领域。
1.2.3 行业驱动:“价值蓝海”助力算网基础设施生态链构建
算网基础设施作为支撑各智能应用的数字底座,吸引产业链各环节紧跟算网融合技术发展趋势,加快产业布局,力求抢占新的“价值蓝海”发展契机。算网基础设施涉及基础电信运营商、软件服务商、设备生产商以及云厂商。三大基础电信运营商作为算网基础设施主要建设单位,面向算力调度和交易平台建设,聚焦算网智慧中枢平台的全局调度能力,纷纷开展算力网络技术验证研究和标准制定[4]。设备制造商龙头企业和互联网企业积极推进集计算、传输、存储为一体的智能设备研制,加快设计满足行业应用需求的解决方案。例如,阿里云计算有限公司宣布投入2 000 亿元用于建设满足算网融合应用需求的新型数据中心,并持续增加芯片、服务器、交换机、网络等领域的自研力度;华为技术有限公司正式发布深圳、武汉、西安、成都等21 个城市共同构成的“人工智能算力网络”。
算网基础设施技术体系包含以算力优先网络、SD-WAN、IPv6/IPv6+为代表的网络计算化技术,以边缘计算、高性能计算为代表的计算网络化技术,以零信任为代表的算网安全技术以及算网智能融合编排技术,技术体系庞大。现阶段,算网基础设施面向计算资源与信息通信网络融合的技术难点,聚焦算力优先网络技术、智能网络隧道技术、确定性网络技术以及新型安全技术开展技术研究。
算网基础设施采用算力优先网络(Compute First Networking,CFN)技术,将当前网络中的异构算力及网络态势以路由信息的形式发布到网络中,协同网络和算力信息,形成对节点网络性能和计算性能的综合评价。
CFN的核心是算力路由。算力路由的理念是根据所感知的抽象算网资源,综合考虑计算资源及网络状态,按需将业务流量灵活路由至适当的计算节点中。算力路由不仅考虑IP可达性,同时考虑网络拓扑下算力资源的动态变化与可服务状态,同时在路由恢复的基础上增量融合对于计算任务重路由及调度的考量。
CFN提供有效算网服务需要高效算力调度。为实现泛在化的计算服务,需要在云网边端诸多异构场景中构建多层次的算力调度平台,从而将全网的算力与网络纳入统一的管理体系中。算力调度涵盖的主要内容包括对于算力的注册、分解、调整、移动性和生命周期管理等。
算网基础设施采用以SD-WAN/SRv6 VPN为代表的智能化网络隧道技术,实现在异构网络链路上的安全、灵活的网络连接,打造弹性、按需的算力连接。SD-WAN作为Overlay技术,为算网基础设施提供了高效的网络承载、多样化的设备管理能力,使得运营商、企业的网络资源调度更具开放性和灵活性。SRv6可通过统一定义具有不同态势的SID,并利用网络编程,将上层业务与底层网络承载进行结合,从而避免需要多种网络协议保证分离的业务与承载之间的互联互通,而且能够为多样化的功能需求提供更为方便灵活的支持。
SRv6与SD-WAN进行有机结合,利用SDN强大的可编程能力,通过与控制器配合,可依据业务诉求直接调动网络转发资源,实现面向算网融合场景的算网基础设施资源敏捷、按需、可靠调度。
算网基础设施采用确定性网络技术保证算网服务的服务质量。确定性网络旨在为所承载的业务提供确定性指标,包括时延及抖动、丢包率等。确定性网络技术具有在多条路径传输并进行选择性收取的冗余保护机制,以此实现算网业务对于链路中断的无感知运行,同时会通过显式约束路由路径、队列管理及资源预留算法的方式,来避免业务传输质量受路由震荡等多种因素的影响。
零信任技术打破了网络位置和信任间的默认关系,能够最大限度保证资源被可信访问,提升算网基础设施系统的整体安全性。零信任技术的目标是在不可信网络中构建安全的系统,其默认一切参与因素不受信,使用最小权限原则,进行动态访问控制和授权,持续地对整个系统和网络进行安全防护。
零信任技术通过为物理实体(包括设备、服务、数据、用户等)建立数字身份,构建身份与访问管理系统。零信任技术以多种实体身份组合作为访问主体,基于“最小权限原则”,根据访问需求、信任评估结果等对主体进行授权。这样可以最大程度地保证算网基础设施架构中算力资源、数据、用户等认证的安全性。
未来ICT行业将朝着“计算网络化”和“网络算力化”的方向不断演进,算网基础设施已经成为协同“计算”+“网络”技术全面发展的重要能力底座。算网供应方和需求方共同推动产业成熟发展。供应侧通过整合内外部资源,优化产业供给能力,需求侧推动算网服务面向国家治理、传统产业等多个领域智能升级,实现算网服务的多元性,共同促进产业生态繁荣。但是,算网基础设施建设仍处于发展部署阶段,全面普及仍存在挑战。
挑战一:算力设施和网络设施尚未实现全面融合协同发展。算网基础设施建设尚未形成统一规划,网络设施缺乏对计算服务和智能应用的感知性,阻碍网络的赋能效应。算力建设和分布缺少顶层设计,当前的算力建设存在与产业互联网发展需求不匹配的情况。
挑战二:算网基础设施部署结构不合理,行业应用效果不明显。算网基础设施在消费互联网、零售等轻产业占比较高,在传统工业部署较低,算网基础设施对制造业数字化转型升级助力不明显。与此同时,算网基础设施使用门槛较高,企业无法直接使用算网资源,因此需要通过算网服务的方式提供算力服务。
挑战三:算网基础设施空间分布不平衡,地域供需匹配待加强。一线城市算网基础设施发展部署较多,农村等偏远地区算网基础设施可获得性、服务公平性有待加强。当前,中西部地区算力过剩,中西部地区应用需求不足,导致供给余量较大,“东数西算”模式尚未形成规模,造成资源闲置和浪费。
建议一:加速技术研究和标准研制,保障核心技术先进性和自主性。进行算网基础设施技术研究和标准研制,聚焦算力调度、算网智能编排以及算力交易等技术难点,加快应用基础理论和关键技术攻关,形成自主知识产权的标准规范,加速推出自主可控的设备和产品,打造算网融合领域试点工程应用示范标杆,切实做到核心技术在手。
建议二:有序推进算网基础设施建设,推动智能融合算网服务升级。坚持“需求引领,适度超前”的部署原则,抓牢“东数西算”工程重大机遇,统筹通用算力、智能算力以及高性能算力等多元算力,加快支撑智能应用的算网基础设施规划和建设。融合人工智能、区块链、大数据等技术应用,升级算网平台能力,构筑高效算网融合能力底座。
建议三:构筑良性算网融合生态闭环,打造高效权威产业交流平台。优化产业结构,加强算力体系建设、完善算网大脑顶层设计,提高算网基础设施安全可靠性。建设技术验证和应用创新平台,加速开展复合性试验以及标准落地实施和产业应用推广。打造测试评估产业平台,开展测试评估方法等体系的研制,建立算网基础设施成熟度评估模型,构建算网融合设施测评体系。
在智能应用技术快速发展背景下,算网基础设施作为新型智能数字底座,已成为我国发展数字经济的重要抓手。当前,算网基础设施技术研究和实施部署已进入快速发展阶段,亟需构建具有行业共识的算网基础设施参考架构和发展路径规划。本文以算网基础设施重要内涵和五大组件为切入点,提出参考架构,凝聚提炼“大连接,高算力,强安全”三大能力及“融合、协同、智能、安全”四个重要特征,从政策、技术及行业应用等方面分析算网基础设施的驱动因素。针对算网基础设施在关键技术、应用部署以及工程建设三个方面发展面临的挑战,提出系统建议。