算力调度关键要素及路径分析

2022-02-07 07:57邵杭青马蕴颖梁汗臣
江苏通信 2022年6期
关键词:算力时延调度

邵杭青 马蕴颖 梁汗臣

1.中国电信股份有限公司南京分公司;2.中国电信集团公司政企信息服务事业群;3.SEGi University

0 引言

据2022 年7 月中国算力大会上工信部发布的最新信息,我国算力产业规模近五年平均增速超过30%,算力规模排名全球第二。如此高速的增长,是否表明现有算力已能满足我们国家国计民生的需求?为了有效利用算力,哪些场景可以通过算力调度解决而无需新建?哪些场景通过调度无法彻底解决,可行的路径有哪些?这些都是伴随着算力发展出现的新课题。

1 算力及算力应用分类

1.1 算力分类

目前算力的划分大致有两类:

一类是以物理介质为基础的分类,分为通用算力(基于CPU 芯片)、智能算力(基于GPU、FPGA 芯片等)和超算算力(基于大规模集群)。据中国工程院院士邬贺铨在中国算力大会上所作的《对数据中心“数学”与“算术”的思考》演讲中的数据,从2021 年全球算力分布来看,美国占31%,中国占27%,其次是日本、德国、英国等。美国的通用算力占全球35%,智能算力占15%,超算算力占30%,中国这三类分别为27%、26%和20%。

一类是按算力在网络层级中的位置划分,包括核心算力、边缘算力、终端算力。核心算力为布局于数据中心核心层的算力中心,边缘算力为位于网络边缘层的新兴算力,终端算力是智能手机、物联网终端具备的算力。目前谈论较多的为边缘算力,它其实是随着视频、游戏、物联网等业务兴起,在对时延、存储和运算要求越来越高的情形下产生和发展的,主要解决核心算力太远、终端算力不足的问题。

以上两种分类还可以衍生出很多交叉的分类,如边缘智能算力、核心智能算力等等,不再赘述。

1.2 算力应用分类

算力目前已广泛应用于国计民生的各个领域,从应用的角度分为以下几类。

(1)计算类

此类应用是以计算为主的应用,包括科学工程计算、深度学习、人工智能训练等,广泛应用于气候气象、生物信息、工业仿真、石油物探、数值分析等领域。使用的算力介质涵盖超算算力、智能算力以及通用算力。算力的网络位置主要在核心层。

以气候气象为例,它是超算算力的重要应用领域。气象预测研究大气的变化规律,从定性和定量两方面来说明大气的特征,其计算量大、时效性要求高。WRF(Weather Research and Forecasting)等是该领域的典型应用软件。再以生命科学应用为例,生命科学可分为基因测序、电镜分析、蛋白质折叠等生物信息学,也需要大量的计算。生命科学领域典型的软件包括Blast(Basic Local Alignment Search Tool)、GATK(Genome Analysis Tool Kit)等。

(2)存储类

此类应用主要以存储为主,最典型的场景为灾备业务场景,例如银行、政府机构的两地三中心应用,有大量的交易、影像、分析、运维等数据需要存储。这类存储的网络位置也主要在核心层。

事实上,存储类与计算类应用紧密关联、密不可分。在高性能计算场景,如气象气候、地质勘探、航空航天、工程计算、材料工程领域,根据不同的计算模式与规模,构成集群系统的节点数可以从几个到成千上万个,这就要求存储系统具备统一存储空间、高效文件检索、高带宽吞吐性能、高可靠数据安全保障等功能。在大数据视频云应用场景,如雪亮工程、平安城市、广电媒资、影视制作、视频网站等领域,对存储系统提出了大容量存储、高读写性能、高可靠性、低延时及可扩展性等要求。在大数据分析应用场景,伴随着海量终端、AI 智能等需求,对存储功能集成度、数据安全性、数据稳定性,系统可扩展性、性能及成本提出了更高要求。

(3)互动类

此类应用需要与终端发生关联互动。根据交互的主体看,有纯终端,包括车联网(交互对象为车)、工业互联网(交互对象为机器)等,也有终端背后的人,包括电商应用、游戏、视频直播、证券交易等。

互动类应用与计算、存储类应用同样关联紧密。与计算关联更大的有电商、游戏、车联网、证券交易等,与存储关联更大的有视频直播、视频分发等应用。

互动类区别于计算、存储类应用的最重要的一点是时延。它是基于人的生物反应和机器协同需要,包含了所需要的存储、计算和网络的时延。也就是说,除了网络距离作为客观存在的时延外,用于存储和计算的时延需要尽可能降低,因此互动类应用的业务形态决定了算力的位置,以及相应的技术,以便达到时延要求。边缘算力通常是为了满足此类需求。

(4)交叉类典型应用

计算+存储:适用于需要对海量数据进行计算的应用,典型应用如气候气象。以台风预测为例,台风数据库存储了有记录以来所有台风生命史卫星影像、雷达图像、海温、高低空大气环流形式等海量数据资料信息,同时实时采集分散在气象系统内各部门的气象数据,按照数据格式、数据体量、数据种类、数据维度进行聚类、采集,并与其他行业进行跨部门、跨系统、跨业务的集中汇聚。通过大数据分析和求解流体力学方程,最终进行与农业、航空等各相关行业有密切关联的气候气象的准确预测,最大限度发挥数据的价值,为生产生活保驾护航。

存储+互动:适用于对已知大数据量内容进行互动的应用,典型应用如视频分发。目前无论是今日头条、腾讯还是阿里,都使用了内容分发网络(Content Delivery Network,CDN)来实现各类内容的就近分发,其目的是使用户可就近取得所需内容,提高用户访问网站的响应速度。同时,以8K、AR/VR、自由视点、全息、AI 为代表的新技术驱动视频业务向大流量、超低时延、双向实时互动演进。在此应用场景下,计算能力主要体现在探知网络负载,提前配置分发策略,所以对计算的要求不高,内容存储和时延为核心要求。

计算+互动:适用对非固定数据信息探知、计算、判断、控制的应用,如电商、游戏、工业互联网、车联网等。以工业互联网的工业内网为例,工厂内网络呈现“两层三级”的结构:即“工厂IT 网络”和“工厂OT 网络”两层技术异构的网络和“现场级”、“车间级”、“工厂级/企业级”三个级别的网络。IT(Information Technology)网络主要由IP网络构成。OT(Operation Technology)网络主要用于连接生产现场的控制器以及传感器、伺服器、监测控制设备等部件。工厂级/企业级对通信的要求与传统IT 网络类似。这里,车间级、现场级等OT 网络由于互动需要,对通信可靠性和时延有更高的要求,例如等时运动控制场景中,控制报文通信周期应小于1ms,网络时延一般不超过50%的通信周期且抖动小于1us,丢包率需优于10-6。这是计算互动类的典型应用。

以上算力应用场景分类如图1 所示。

图1 算力应用场景分类

2 算力调度关键要素及策略

2.1 算力调度关键要素

在考察算力调度问题时,首先要回答的问题是,什么场景需要调度?假设算力可以像水电气一样直达千家万户,那么基本没有调度的需求。但事实上,由于自然条件的限制,国家仍然需要“西气东输”、“南水北调”这样的工程来解决地区间的差异。算力也有类似情况。普通场景不需要调度,但是针对特别或突发情况,例如对计算、存储、时延要求高的场景,需要进行综合分析后开展调度。由于计算和存储往往不可分割,所以这里不做专门的区分,以下统称为算力。

针对算力要求高的场景,如科学计算类和国计民生类工程项目,需要依托超级算力平台来实现,例如2022 年9 月发布的世界首个工业级流体仿真大模型,将仿真时间从10 分钟缩短至25 秒,大大提升了大飞机设计的效率。这种场景需要的是超级计算的能力,这种能力不太可能遍布在各地,而只能是集中在某些地方。算力需求方可将数据集中到算力平台来获取计算能力,基本无法做到超算能力下沉。目前科技部批准建立了10 家国家超级计算中心,分别位于天津、广州、深圳、长沙、济南、无锡、郑州、昆山、成都、西安。另外鹏城实验室、华为公司等联合建设了包括20 个节点的中国算力网,主打AI算力。从布局看,均为集中式的算力能力库。

针对普通商用、民用交互场景,时延是关键要素。在时延敏感型业务中,又可以分为以下三类:

(1)通信类

主要解决的是人的通信需求,满足人类消费行为的互联网应用,往往端到端带宽需求在几十兆到几百兆,端到端时延需求在几十毫秒到几百毫秒之间。如果交互时延低于10ms,人的感官一般无感,交互时延大于300ms,人的感官难以接受。粗略统计:实时竞技类游戏的时延要求是50ms;实时交互类游戏的时延要求是100ms;实时交互语音类的时延要求是100ms;实时交互视频类的时延要求是150ms;非实时大部分互联网应用时延要求是300ms。

(2)功能类

主要解决机器之间的通信需求,如车联网和工控网络,端到端带宽往往并不高,但时延要求确定性保障。其中,工业自动化控制的时延要求是小于10ms;远程/遥控驾驶的时延要求是小于10ms。

(3)三维交互类

基于三维显示和交互的元宇宙应用,为了避免头晕,需要10ms 以内的交互时延,这就对当前的互联网技术提出了巨大挑战。因为此类需求对带宽、时延、算力都提出了超高要求,属于体验提升型应用。

另一个影响算力调度的隐含要素是成本。一般原则是,在业务允许的时延范围内,选择最经济的算力网络架构布局,来降低算力成本、网络成本、运营成本。例如对于实时交互视频,在150ms 范围内,可以选择将视频源布局在本地市、外地市甚至外省,网络选择互联网即可。而对于时延要求小于10ms的应用,则一般只能将各种计算资源部署在本地,网络也需要选择时延小的专线网络。

2.2 算力调度原则及策略

根据各种不同业务场景,最核心的要素往往决定了选择算力、网络的下限,从而衍生出算力调度的多种形态。一般原则为,根据算力、时延要求,调度的成本低于自建的成本时进行调度和选择。算力中通用算力成本最低,时延相关的网络里互联网成本最低。在算力、时延刚需满足的前提下,成本决定了算力的位置和布局。

针对不同业务场景,算力、网络等可选方案归纳如表1所示。

表1 各类应用场景算力网络选择

3 不同应用算力调度路径分析

3.1 计算存储类

针对科学计算、气象气候等需要超级计算的应用场景,由于对计算能力和过程的要求高,往往通过专线进行组网,将所需算力进行分发和组合提高计算的效率。未来可逐步走出“东数西算”、“东数西存”的道路。

针对影视制作等需要智能算力的应用场景,成本是需要考量的重要因素,可选择最经济的算力资源使用。

3.2 存储互动类

针对雪亮工程、平安城市等存储互动类应用,通常为政府部门部署使用,核心往往布局在本地,且使用专线网络,调度的需求不突出。

对于视频分发应用,由于视频源多在异地IDC 机房,使用方为大量最终分布不固定的用户,所以需要进行调度,并考虑既满足使用体验又节省成本的要求。

以目前广泛应用的CDN 为例,以省为一个区域看,存在域内调度和域间调度。如图2 所示。

图2 CDN 业务调度示意

域内调度包括从IDC 到城域网(Metropolitan Area Network,MAN)、城域网到城域网的调度。视频源一般分布在IDC 机房内,合理调度为IDC 到城域网,即图中①。但是由于IP 网络的互通性,事实上城域网内出现了很多不合理的视频源,来自城域网专线或PCDN(peer-to-peer CDN),即②③。

域间调度通常发生在IDC 之间,需要骨干网络支持。这主要是因为内容提供商往往核心节点覆盖不到所有省,因此需要在主核心与次核心之间进行数据交换,即④。

事实上目前1000 公里光纤往返时延为10ms,加上网络设备存储转发、服务器响应时延,对于时延150ms 要求的实时交互视频类应用来说,视频源在几千公里以内均满足时延要求。也就是说,视频源布局在省内甚至是外省,尤其是邻近省份完全不影响用户使用。

随着运营商网络质量的提升和网络扁平,出现了域间的不合理调度,通常均为价格较低省覆盖价格较高省,即低价IDC 带宽覆盖周边省份,即⑤,以及城域网低价PCDN 等带宽覆盖周边省份,即⑥。对于运营商来说,由于不合理调度存在安全、监管、网络质量等诸多隐患,因此需要对流量进行监控和引导,以确保业务合规、降低网络压力。具体举措包括:监控域间域内出入流量、核 查AAA(Authentication Authorization Accounting)日志信息以及建立省间结算机制等,从而让数据流量合理流动,即逐步实现图中蓝色线路所示调度占据主导,让网络更健壮,让价值回归。

3.3 计算互动类

以较为复杂的车联网为例,车联网技术结合人工智能、大数据、云计算、视觉和雷达感知、高精度地图和高精度定位等技术,满足目前智能交通系统在汽车行驶安全、效率提升和信息服务等方面的需求,为汽车向自动驾驶与无人驾驶系统的平滑演进提供技术支撑。车联网技术可实现车车、车人、车路(交通基础设施)、车网络/云等通信连接和高效准确的信息交互。车联网的网络实体包括车载终端(on board unit,OBU)、路侧设备(road side unit,RSU)和移动边缘计算(mobile edge computing,MEC)设备,如图3 所示。低时延高可靠车联网通信面临很多挑战,包括:复杂快时变无线传播环境,高频度、群发群收的车车间通信,车辆在高速运动过程中,车、人等通信对象的不确定且随机突发等。因此,车联网对计算和交互提出了极高的要求。

图3 车联网算力下沉路径

出于对车、人安全的考量,需要满足严苛的低时延和高可靠通信要求,这就要求相应的算力尽可能下沉接近终端。算力首先需要下沉到边缘,即①,以实现近距离感知和定位。进一步下沉到RSU,缩短交互的时间,即②。

不过涉及到普遍服务和真正商用,需要完善的商业模式和完整的生态链支持,现阶段多少算力下沉到哪一级边缘,均需要详细论证和测算。类似的情况也适用于三维交互类应用,如AR/VR、渲染类体验式业务。

另一种思路是分布式算力,即将算力应用按照算力、时延等要素进行解构。对于低时延高算力部分采用算力下沉本地计算,对于高时延低算力部分可以利用远端算力,这无疑需要有强大的软件架构支持,同样需要考虑成本。

4 结束语

在数字经济时代,算力是新生产力,与数据、算法协同构成数字经济时代最基本的生产要素。据全球权威咨询机构Gartner 研究,2025 年约超75%的数据将在边缘侧处理,这将对算力的布局和流动产生很大的影响。本文从需求应用的角度,对算力及算力调度的要素和路径进行了分析研判,旨在提供一个有效使用算力的思路。总体来说,随着算力资源越来越丰富,算力调度将是未来数字化经济重要且活跃的领域。

猜你喜欢
算力时延调度
算力盗用:一种新型财产侵害*
中科曙光:联合发布全国首个“一体化算力交易调度平台”
中国电信董事长柯瑞文:算力成为数字经济的主要生产力
算力网络场景需求及算网融合调度机制探讨
5G承载网部署满足uRLLC业务时延要求的研究
《调度集中系统(CTC)/列车调度指挥系统(TDCS)维护手册》正式出版
基于强化学习的时间触发通信调度方法
一种基于负载均衡的Kubernetes调度改进算法
虚拟机实时迁移调度算法
基于GCC-nearest时延估计的室内声源定位