韦柳融
(中国信息通信研究院政策与经济研究所,北京 100191)
计算是人类认知世界的一种模式。所谓算力,简而言之就是计算能力,它指代了人类对数据的处理能力,也集中代表了人类智慧的发展水平。自20世纪40年代计算机正式诞生以来,计算技术始终保持快速创新的发展态势,不仅支撑了PC、互联网、云计算、移动互联网等信息通信产业数轮浪潮式迭代,更是科技、经济和社会创新发展的重要推动力。当前,人类社会正在从工业社会向数字社会迈进。需求和供给两方面的深刻变化推动计算技术和相关产业进入“百花齐放、百家争鸣”的创新阶段。为社会提供算力的产业不仅包括原有的集成电路和计算机产业,还将包括超算中心、数据中心、边缘计算中心等算力基础设施。本文从需求和供给两方面出发,分析了算力产业当前的发展趋势、面临的主要问题,并在此基础上给出针对我国算力产业发展的一些建议。
当前,人类正在进入万物感知、万物互联和万物智能的新时代,包括人工智能、自动驾驶、物联网、工业互联网等在内的海量应用创新对计算提出新的需求,使得计算技术进入新一轮高速创新期。
5G、物联网等技术革命性地提升了设备接入和信息传输的能力,大数据、人工智能等技术使得数据的价值更好地释放,在多种ICT技术融合发展和各行业加速数字化、智能化转型的大背景下,全球数据量正在迎来新一轮爆发式增长。根据IDC的预测,未来3年全球新增的数据量将超过过去30年的总和,到2024年,全球数据总量将以26%的年均复合增长率增长到142.6 ZB。这些将使得数据存储、数据传输、数据处理的需求呈现指数级增长,不断提升对算力资源的需求。
典型应用创新亟需单场景设备芯片更强算力的支撑。例如,OpenAI的研究显示,2012—2018年,人工智能模型训练上的算力需求在6年内增长超过30万倍,但芯片算力按摩尔定律同期仅增长7倍。根据英伟达的预测,L4级别的无人驾驶汽车在无法完全依靠优化算法的情况下,对车载算力约有50倍的提升要求;而L5级别无人驾驶汽车相对于L4级别预计约有10倍的算力增长要求。
随着万物互联和行业智能化的发展,未来很多智能应用都需要在线实时提供,这对算力的泛在供给和及时供给提出更高要求。例如,在智慧工厂场景,越来越多的物联网设备如传感器、射频扫码识别器、高清摄像头、AR/VR设备等将联网,采集到的数据需及时处理及时反馈;在车联网场景,自动驾驶汽车需要与周围车辆、路侧单元、信号灯等设施实时互动,在更广的地域范围内要求及时获得算力供给。
应用类型的多样化、算力部署的泛在化以及对成本、性能、功耗等的综合考虑,使得差异化的算力需求得到了市场的广泛支持。例如,由于智能工厂、车联网、VR/AR等众多应用需要低时延的算力支持,同时人工智能训练和推理两个不同阶段在具体需求方面存在显著差异,所以边缘计算得以快速发展;又如,科学计算、人工智能模型训练、传统互联网应用需要的算力之间差异显著,超算中心、智能计算中心和普通的云计算中心都得以发展。未来不同层级、不同体系的算力融合协同,将成为算力产业发展的一大趋势。
过去在很长时间里,经典计算系统是按照摩尔定律的步伐,通过工艺制程微缩的方式在同一芯片内增加晶体管堆叠的数量,来实现计算性能的提高,从而推动整个算力产业的不断升级。但是,随着工艺制程不断逼近物理极限,以及制程微缩带来的成本不经济性,摩尔定律逐渐失效,整个算力产业进入后摩尔时代,计算技术进入多要素综合创新阶段。
当前,算力供给基本有4个层面:一是单芯片算力,二是整机算力,三是数据中心算力,四是网络化算力。不同层面的算力通过不同的技术方式进行持续演进升级,以满足万物智能时代的多样化算力供给需求。
在芯片层面,提升算力主要沿着3个方向:一是继续延续摩尔定律,即通过新工艺如环绕式栅极(Gate-All-Around,GAA)技术的研制等来持续缩小栅极宽度,依靠寻找新的晶体管材料如碳纳米管材料以及新的互联材料如铋、光子(硅光技术)等来降低功耗,从而持续增加同一芯片内晶体管堆叠的数量。目前台积电、三星、Intel等芯片制造厂商已经将后续工艺规划至3 nm之下。二是借助先进封装技术实现异构集成。其中,Chiplet模式是目前的明星技术,能够依靠不同工艺实现甚至是不同供应商提供的芯片功能模块集成到一起以提升芯片性能,从整体上降低芯片设计的复杂度和成本。由于该技术使用了现成的裸芯片,因此也提高了开发效率,还降低了对工艺的要求。业界普遍认为,Chiplet技术将带来IC设计、EDA工具、制造工艺、先进封测等各个产业链环节颠覆式的改变,是半导体产业继续发展的有效手段。三是改变冯·诺依曼架构,采用并行处理的工作模式,使量子计算、类脑计算、数据流计算、并行计算等成为新的发展趋势。当然,这一方向目前商业化难度还较大,但已从基础研究进入产业化探索阶段。
在整机层面,提升算力的一个主要的方向是借助对服务器系统架构的优化,弱化或突破“存储墙”,打破数据读取瓶颈,从而提升单机计算力。目前,服务器普遍采用的是计算和存储分离的系统架构,CPU和存储器性能的差距使得服务器的数据处理速度和数据读取速度无法匹配。大数据、人工智能等基于海量数据分析的计算任务带来访存需求的显著提升,进一步凸显“存储墙”瓶颈。存储分级管理和近存储计算是通过提升数据读取速度来提升计算系统性能。而存算一体或存内计算则是在存储单元内实现计算,从体系架构上消除了访存操作,适应了人工智能算法访存密集(大数据需求)和计算密集(低精度规整运算)的特点,是一种极具前景的解决方式。另一个提升算力的重要方向是异构并行计算,即通过CPU+GPU、CPU+FPGA以及CPU+ASIC等方式,通过协处理器实现更多的并行计算和低延迟计算能力。此外,多核并行也是提升服务器处理性能的重要方式。
在数据中心层面,提升算力的主要方向是构建大规模数据中心,横向堆积更多的计算单元,从而提升数据中心的整体算力。根据美国市场调研机构Synergy Research发布的数据,截止到2020年第二季度,全球超大规模数据中心已达541座,是2013年年初的3倍多。大规模数据中心的发展需要解决互联网络、功耗、散热和运维管理等方面的挑战。数据中心发展的另一个方向是适应时延敏感性业务的计算需求,发展边缘数据中心。
在网络化算力层面,一是通过多云打通、云网融合等实现数据中心和数据中心之间的有效互联,以实现海量计算资源的有效联接和调度。二是积极发展云边协同,推动边缘计算的落地和云边算力的协调调度。当前,云原生技术正不断轻量化并持续下沉,为边缘侧提供与云上一致的功能和体验,推动边云协同。三是“云—边—端—网”的广域算力网络正在成为发展方向。要实现广域算力网络还需要解决计算资源的智能感知和智能调度、网络传输服务等级协议的保障、计算资源使用的可信记账等问题,目前尚未进入产业化阶段。
除上述4个层面计算技术的演进外,通过软件与硬件系统的深度融合来实现计算系统整体性能的提升,也是算力产业演进的重要方向。软件对计算性能升级的重要性日益凸显。一方面,Intel、NVIDIA等硬件企业持续不断推动与硬件特性强相关的开放接口、抽象能力库等的优化,实现硬件效能最大化。另一方面,应用企业也在不断推动算法优化,持续提升计算效率。以AI为例,目前在图像、翻译等基准测试中,算法优化对整体系统计算效率提升的贡献已接近20%。
经过多年发展,我国算力产业已取得长足进步。在基础理论方面,我国面向人工智能应用如模式识别、计算机视觉等方向的算法创新活跃,量子计算、类脑计算等前沿领域有所布局。在芯片技术方面,我国14 nm制造工艺量产,存储芯片批量生产,个人计算机及服务器端的CPU芯片产品线丰富,AI专用芯片快速发展。在计算系统方面,我国超算多年位列全球前位,大规模云计算系统与国际先进水平相当,面向新兴应用的边缘计算、异构计算等新系统和算力网络等新领域均有发展。在软件技术方面,我国操作系统企业供给质量持续提升,数据库领域不断涌现出新兴产品,开源生态的建设取得一定突破。在产业生态方面,我国龙头企业在架构、生态、算力、软件和方案等领域均积极布局,积极构建计算生态。
面向未来,我国算力产业发展具有三大机遇:一是全球计算技术发展正处于重大窗口期。当前全球算力产业正在百花齐放、百家争鸣,新概念新思路层出不穷,产业体系正在重新构建,这正是我国算力产业摆脱路径依赖、实现创新发展的大好时机。二是大国大市场的算力需求庞大。根据华为技术有限公司于2020年2月发布的《泛在算力:智能社会的基石》报告测算[1],目前我国的人均算力约为553 GFLOPS,属于中等算力水平国家,而社会智能化成熟阶段的人均算力需达29 000 GFLOPS以上,这意味着我国的算力规模至少需要再翻52倍。考虑到从总量来看,我国目前已是全球第二大算力国,这也可以看出我国未来的新增算力供给需求极其庞大。三是发达国家的技术封锁降低了我国国产技术的市场门槛。特别是在一些关键领域,即使我国新研制的技术与国际先进水平相比有差距,但仍能在国内找到一定的市场空间来获得持续发展的力量。
如上所述,虽然我国算力产业的发展面临机遇,但同时也面临不小的挑战,具体体现在以下几方面。
(1)核心技术储备不足。关键技术仍受制于人,CPU、高端服务器、光刻机及操作系统、商用数据库、开源生态等仍主要依赖国外供给,众多前沿新兴技术如GAA、Chiplet等主要由国外公司发起并主导。断供风险将长期伴随,全球供应链体系与格局更多地受到政治因素影响,西方国家有可能持续收紧对我国算力产业的上游供给。
(2)战略性规划和系统性布局不足。对算力产业缺少超前谋划的顶层设计和系统布局。业界虽然非常关注计算技术的发展和布局,但是不同厂商对计算技术演进的认识较为单点化,缺乏系统性和整体性思考,没有确定产业体系及框架,也未形成适度超前、系统推进的产业共识。
(3)产业协同不足,产业生态分散。计算产品碎片化问题突出,市场产品虽然种类繁多、各有优势,但缺乏能影响业界的主导厂商,亦尚未形成主流发展路径,不同厂商的竞争优势不愿共享,互相之间标准难以实现兼容和互操作,难以形成体系化发展态势。相较Wintel联盟强大的软件生态,新型计算架构生态无论是在基础软件、工具软件还是在应用软件方面均相去甚远,不能高效支撑开发者进行代码迁移和系统性能优化,致使诸多软件厂商参与生态建设迟疑。
(4)算力供给结构不完备。不同应用场景对算力的精度、能耗、速度、端边云部署方式以及数据传输带宽等提出了不同的需求。但各地在算力规划建设过程中实际上缺少对产业算力需求的精细化评估,大部分数据中心的算力供给依然以通用型的X86为主,人工智能计算所需的算力供给不足,尚未形成多元化、集约化的算力供给梯度,造成算力的过剩与紧缺并存。算力基础设施统筹建设不足,中西部虽然建了大量数据中心,但这些地区的电力网络、通信网络建设难以与数据中心建设统筹,存在网络时延高、运营成本高等问题,导致实际分流效果不佳。
(5)环保挑战日益严峻。随着算力基础设施的快速发展,计算设备的能耗问题日益受到关注。目前我国数据中心的用电量约占全社会用电量的1%,按照未来数据中心机架数量每年30%的增速,预计到“十四五”末数据中心用电量在全社会用电量的占比将超过3%。这对数据中心的运营以及环境的保护形成了巨大的挑战。特别是在党中央国务院作出在2030年前实现碳达峰、2060年前实现碳中和的重大战略决策下,计算设备和算力基础设施的绿色化发展显得尤为重要。
算力产业是数字经济时代的核心动力产业部门,驱动社会经济向数字化、网络化、智能化方向发展。从支撑经济社会长期增长能力、促进可持续发展的角度,我国必须高度重视算力产业的布局和发展,应从以下方面重点推进我国算力产业的创新发展。
(1)加强顶层设计和系统布局。梳理算力产业框架体系,明确计算体系优化升级的方向和重点,明确细分领域能力提升的目标。加大各部门科技和产业政策的协调整合,明确各分管部门的具体目标,形成政策合力。明确产学研用协同发展思路,综合施策加快形成发展“一盘棋”。
(2)持续提升核心技术能力。统筹协调部门资源,补齐高端服务器、存储器、CPU/GPU、专用芯片、操作系统等算力产业短板,加大对高性能服务器、异构计算系统、量子计算、光子计算、类脑计算等新兴技术和产品的支持力度,积极布局新型计算架构并加强计算架构整合。强化基础理论研究,加大高端人才培养和引进力度。
(3)积极推动产业生态体系建设。利用国内庞大的算力市场优势,以应用发展牵引技术创新,开展示范应用推广,促进创新融合,建立产业公共服务平台和创新中心。加快行业组织建设,建立健全标准体系,推进以“硬件+软件+应用+服务”为架构建设形成具有国际竞争力的产业生态。加快完善自主开源生态,支持开源基金会的发展,引导建设开源社区,围绕关键基础软件培育孵化一批有潜力的开源项目。
(4)推动算力多元化发展。推动构建“国家级枢纽节点与各省数据中心协调发展,一线城市与周边地区区域协同,中西部地区按需合理建设”的均衡布局,推动边缘数据中心与大型、超大型的云数据中心高效协同。通过建立数据中心网络监测和协同机制,优化互联互通能力,提升网络质量和技术水平,支撑高算力服务。完善算力资源体系,提升数据中心算力算效水平,强化云服务能力,支撑社会数字化转型。
(5)支持算力产业绿色化发展。引导各行业制定绿色化发展的具体指标和实施要求,并推进落实。制定政策支持推进绿色化相关技术的研发、产业化和应用落地,提供使用清洁能源的便利条件,尽快建立算力碳排放交易机制,引导行业绿色化发展。
后摩尔时代,算力产业迎来巨大变局,我国算力产业迎来前所未有的历史机遇。但推进我国算力产业创新发展,既要鼓励八仙过海、各显神通,又要形成合力、防止一盘散沙,这是我们面临的真实挑战。要以乐观包容的心态,在发展中不断摸索产业的演进规律,在试错中不断探索它的发展之路,只有这样,才能真正形成适合我们后发国家的创新追赶路径,推动产业跨越式发展。