算力网络实现一体化服务的探索与实践

2021-11-28 10:49雷波赵倩颖凌泽军
中兴通讯技术 2021年3期
关键词:一体化

雷波 赵倩颖 凌泽军

摘要:算力网络(CPN)通过网络控制面将资源信息进行分发,有机地实现多维资源信息的整合。除此之外,CPN还需要与算力交易、网络订购等业务关联起来,形成统一的体系架构,实现对多类资源的优化分配。在屏蔽底层资源的差异与异构特性的基础上,所提出的算力网络交易平台向算力需求方提供了从资源选择到使用的一体化服务,形成了统一的资源供给机制,满足各类新兴业务的多样化需求。

关键词:算力网络;算力网络交易平台;多维资源;一体化

Abstract: Computing power network (CPN) distributes computing power resources information through the network control plane, which realizes the integration of multi-dimensional resource information. To form a unified architecture and realize the optimal allocation of multiple kinds of resources, CPN also needs to be associated with computing power transactions, online orders, and other businesses. Based on the shielding differences and heterogeneous characteristics of the underlying resources, the proposed computing power network transaction platform provides integrated services from resource selection to use to the demand side of the computing power, forming a unified resource supply mechanism to meet the diversified needs of various emerging businesses.

Keywords: computing power network; computing power transaction platform; multi-dimensional resource; integration

隨着人工智能、车联网、边缘计算、工业互联网等业务的兴起,算力资源作为关键生产要素,受到了业界的广泛重视,但目前仍存在度量困难、种类繁多、分布广泛、归属复杂等特点。

这些特点使得现有业务大多在特定类型的算力资源中部署,很难在不同类型、不同级别的算力资源之间灵活调度。从长期来看,能够综合利用不同等级的资源,业务才能实现性能与成本的优化,从而才能提升竞争力。

因此,将多级算力资源整合成一体化算力服务体系已是业界共识,并成为国家产业导向[1]。

1算力资源的定义与特点

在分析算力资源的特点前,我们首先要明确算力的概念。算力,也称为计算力或计算能力。该词的最早来源已经不可查证,互联网上的资料大多与区块链相关。这是因为区块链技术采用的是哈希算法,即在相同时间内挖出更多的“币”,也就是说谁算得快谁就能获得更多的收益。因此,人们就以“算力”这个词来描述计算的快慢,比如“算力大”则意味着单位时间内计算得更快。为了计算得更快、更灵活,需要将分散的算力集中起来形成资源池,这就是所谓的算力资源。

通过分析、对比不同类型的算力资源,可将算力资源的特点归纳为4个方面:度量困难、种类繁多、分布广泛、归属复杂。

(1)度量困难

当业务在各类算力资源之间部署、迁移时,需要综合评估节点空闲算力资源余量,这就需要使用一个简单、公认的量纲来衡量算力大小。由于计算快慢不仅与算力大小相关,也与所选择的算法有关,同一个算力节点运行不同的算法会有完全不同的效果。因此,对算力的度量往往不是单一维度的,这远比电力、水力的度量困难得多。

(2)种类繁多

算力资源从不同维度被划分成不同类型,按核心芯片类型可以分为中央处理器(CPU)、图形处理器(GPU)、专用集成电路(ASIC)等,按所在位置可以分为云、边、端等。

(3)分布广泛

算力资源的构建具有灵活性,只要能有一定的空间,并提供电力,任何单位甚至个人都可以构建相应类型的算力资源节点。这使得各类算力资源可以分布在不同的物理空间上:越是远离人口密集区域的算力资源,规模就越大,成本就越低;越是靠近城市核心区域的算力资源,规模则越小,成本越高。

(4)归属复杂

不同类型算力资源的建设难度相差极大。例如,对于云计算节点,算力资源的建设需要占用大量的土地、电力等资源,还需要通过国家规定的各项审批流程,并需要规模效应来降低单位成本,技术门槛非常高,一般只有大型投资方有意愿实施;对于边缘计算节点,只要具有一定的机房空间(如室外机柜)就可构建,成本不高且不需要太复杂的技术,中小型企业能够自建;而对于端计算节点,个人就可以购买一套适合的设备对外提供服务。在整合算力资源来提供一体化算力服务时,就必须考虑到算力资源归属于多方的这一特点,因此需要尽量简化在多方之间的交易与调度过程。

2一体化服务与算力网络

虽然算力资源存在以上4个特点,但新兴业务可以将算力资源整合起来,形成一体化的服务机制,让算力随时随地按需供给。

国家发展和改革委员会、工业和信息化部等部委在《关于加快构建全国一体化大数据中心协同创新体系的指导意见》中提出“推动算力资源服务化”,这包括两方面的要求[1]:

(1)构建一体化算力服务体系。加快云资源接入和一体化调度机制的建立和完善,以云服务方式提供算力资源,降低算力使用成本和门槛。

(2)优化算力资源需求结构。以应用为导向,充分发挥云集约调度优势,引导各行业合理使用算力资源,以提升基础设施的利用效能。

针对以上目标,业界已出现一些解决方案。例如,云服务提供商提出了云边缘的概念,希望通过扩展云的使用范围来统一各级算力资源,提供统一服务。另外,还有以网络为平台来设计的算力网络(CPN)技术方案。CPN是一种有机整合多级算力资源、存储资源与网络资源的新型技术方案,能够提供新型的一体化算力服务。CPN技术核心在于通过网络控制面分发多维资源信息,通过计算最佳路径的方式实现多维资源的有机结合。

目前,已有多种基于CPN的技术路线被提出,如集中式、分布式、混合式等。这些技术路线开发了CPN资源调度系统原型[2-3]和CPN交易平台系统原型。算力资源调度系统根据资源分配策略,建立算力消费者与算力资源提供者之间的网络连接,并根据业务需求变化及时调整资源分配。在此基础上,CPN交易平台成为连接算力消费者和算力资源提供者的纽带,从商业模式上连接了算力消费者、算力资源提供者与网络运营者,实现从用户需求到资源分配、资源交易、资源使用的一体化算力资源服务。

3 CPN交易系统设计与实践

3.1总体设计思路

为满足算力资源一体化服务的需求,CPN交易平台应具有以下功能:

(1)CPN交易平台需要将算力消费者、算力提供者以及CPN控制层结合,以实现消费者提出的资源或业务需求;交易平台制定分配策略,CPN控制层则根据分配策略,建立算力消费者与算力提供者之间连接的一体化服务。

(2)不同能力的CPN消费者的资源与业务需求的分析能力不尽相同。CPN平台还应具备对用户业务需求进行人工智能(AI)分析的能力,以提供更加智能的服務,满足不同用户对CPN交易平台的使用需求。

(3)CPN交易平台还应提供可供应用开发者上传第三方应用的应用商店,实现从资源到应用的全生态服务。

根据上述需求,CPN交易系统与各方参与者之间的关系如图1所示[4]。

在CPN基本框架中:

(1)CPN消费者是CPN交易平台的主要使用者,因此CPN交易平台需要提供消费者账户管理能力,并使CPN消费者在该平台中选择合适的资源,然后购买。

(2)作为资源供应方,算力提供者需要在CPN交易平台中进行资源注册,对资源的使用情况进行实时监测。

(3)作为底层资源和算力平台之间的枢纽,CPN控制面需要与CPN交易平台联动,将所有采集到的资源信息上报给CPN交易平台,并根据交易平台形成的调度策略,对底层资源进行调度,构建网络连接。

(4)为满足算力消费者的智能分析需求以及使用诉求,CPN交易平台还应连接AI赋能平台,对用户的需求进行智能分析,并根据用户的意图为其匹配最佳资源。

3.2资源交易视图生成模型

多类型、多归属方的泛在资源池位于网络的各个位置。如何获得资源池的各项信息成为利用资源池的前提。在CPN中,资源信息的发现由CPN控制面实现,资源池的各项信息由集中式的管理控制系统或分布式路由算法来获得,包括但不限于资源类型、大小、功能、路由。信息由CPN控制面发送至CPN交易平台,结合用户信息后生成资源交易视图。本节中,我们将对资源交易视图生成模型[5]进行介绍。

网络控制层所获得的资源信息模型为Ф={С,Т,Χ,Я},其中计算能力为С,包括计算资源类型、现有资源数量;存储能力为Т,包括存储资源类型、资源数量;算法能力为Χ,包括算法种类、算法复杂度;路由为Я。

3.3系统功能模块

根据总体设计思路,CPN交易平台需要提供账户管理、交易监测控制、交易流程、日志管理、用户体验反馈、采集和监测控制、对象存储服务(OSS)接口、应用市场、增强编排调度等模块。CPN交易平台系统的功能架构如图2所示。

账户管理模块:对算力消费者账户、算力提供者账户,以及权限账户进行管理,包括账户申请注册、查询、登录、退出等功能。

交易监测控制模块:对交易过程(如交易合约的执行过程)、交易资源、交易记录进行管理,确保交易过程的安全性,及时掌握资源的占用情况及输出交易记录。

交易流程模块:支持用户的交易申请、可交易资源的展示、交易套餐的选择和提交、交易的验证和生效,以及交易结束后的资源释放,处理用户从选择到购买的整个流程。

日志管理模块:对报警日志、故障日志进行管理,以便更好地对交易平台信息进行跟踪、管理,对报警、故障进行诊断和解决。

用户体验反馈模块:对用户意见进行反馈和汇总,更好地提升交易平台的使用体验。

采集和监测控制模块:对可交易资源进行采集、汇总及监测控制,对资源信息及时进行更新。

应用市场模块:支持应用市场展示、应用上线申请和提交、应用的审核验证和批准、应用的撤销和删除以及应用版本的更新。对CPN交易平台中准备上线的应用进行安全管理和交易。

OSS接口模块:与CPN控制面中的资源告警与性能收集、告警上报、性能上报、告警处理流程进行对接。

增强编排调度模块:支持需求分析、算法选择、应用部署、算力调度和网络调度,为CPN交易平台提供资源管控服务。

3.4基于AI游戏场景下的试验验证

CPN交易平台可以为众多新兴业务场景提供服务,如基于AI的人机互动游戏。由于应用开发者往往选择虚拟资源进行应用部署,因此,在众多资源池中选择与业务场景匹配的资源便成为关键问题。在AI交互类游戏中,时延对用户体验起到决定性作用。当端到端时延超过50 ms时,体验感开始下降;超过100 ms时,将出现明显卡顿[6]。因此,在不考虑其他处理过程所需时间的情况下,AI交互类游戏网络时延要尽量控制在50 ms以下甚至更低。综合游戏以及AI类应用的各项指标[7],在本文测试例中需要为AI类交互游戏匹配一个算力不小于4 TFLOPS、存储容量不小于1 TB、网络带宽不小于1 Gbit/s、网络时延不大于50 ms的算力资源。

当一名AI交互类游戏开发者(以下统称CPN消费者)想要购买合适的资源为某区域(以北京市亦庄经济开发区为例)的用户提供服务时,可以注册并登录CPN交易平台。注册登录界面如图3所示。

当该CPN消费者具有丰富的资源使用经验时,会比较了解应用与资源的匹配情况,那么可以根据自己的经验填写相应的服务位置及资源需求。依据前文分析即填写(北京,北京,亦庄经济开发区)(4,1,0,1,50),如图4所示。

当CPN消费者并不明确所需资源情况,而只清楚资源所要应用的场景是AI游戏类时,可以选择服务位置以及相应的应用场景,如AI游戏。CPN交易平台将通过自身的AI增强功能,按场景对所需资源进行分析,从而查询到满足需求的资源池。

CPN消费者输入资源需求(如图5所示)或业务需求后,CPN交易平台会生成以用户为中心的资源视图,如图6所示。资源视图的中心位置表示应用提供服务位置,每一圈虚线表示距离用户(使用应用服务的用户)的不同时延,虚线上的点表示时延圈内的资源池,点的面积越大则代表计算资源则越多。

资源视图生成后,CPN交易平台还会生成与可用资源相匹配的资源池列表。列表中详细介绍各资源池的资源状况与报价,如图7所示。CPN消费者可以根据自己的支付能力选择合适的资源池。

CPN消费者选择合适的资源池后,便可在支付中心进行交易支付,如图8所示。

在整个交易流程中,CPN交易平台将持续跟踪资源占用情况。交易结束时,CPN交易平台将终止服务,释放算力资源与网络资源。

3.5未来发展方向

CPN交易平台能够实现分布式资源与资源用户之间的交易,为用户提供算力资源一体化服务的同时,保证了交易的安全性、可靠性。安全性主要体现在算力消费者、算力提供方的身份认证及算力交易过程中有安全保证。基于分布式账本的属性,区块链技术可以为基于分布式资源的CPN提供更加合理的安全保障。区块链可有效连接分布式计算、存储能力和数据资源,实现多种异构网络资源共享和数据流转。基于区块链构建的数字身份系统,可以对算力消费者及算力提供者进行有效的身份认证。区块链技术可以支持用户按需购买算力资源,并将购买记录和资源使用情况上链存储,业务运营方就可以根据记录进行计费和结算。在未来,区块链技术将是保证算力交易的一种重要技术,CPN也将借助区块链技术,为用户提供更加全面更加可靠的一体化服务[8-9]。

4结束语

CPN技术在标准制定、原型开发等方面已取得了重大进展。CPN交易平台为用户提供了一体化的算力资源服务,将融合的多维资源智能化、可视化地提供给用户,创新性地提供了一种融合各算力参与方的商业模式。CPN商业模式的相关研究正在开展,前景逐渐清晰,但在算力平台的安全性、如何实现AI能力增强等方面仍需进行更加深入的研究。

本研究得到北京邮电大学梅杰的帮助,谨致谢意!

参考文献

[1]关于加快构建全国一体化大数据中心协同创新体系的指导意见(发改高技〔2020〕1922号) [R].国家发展和改革委员会, 2020

[2]雷波,刘增义,王旭亮,等.基于云、网、边融合的边缘计算新方案:算力网络[J].电信科学, 2019, 35(9):44-51

[3]雷波,赵倩颖. CPN:一种计算/网络资源联合优化方案探讨[J].数据与计算发展前沿, 2020, 2(4): 55-64

[4]雷波,陈运清.边缘计算与算力网络——5G+AI时代的新型算力平台与网络连接[M].北京:电子工业出版社, 2020

[5]胡宇翔,伊鹏.全维可定义的多模态智慧网络体系研究[J].通信学报, 2019, 40(8):1-12

[6]中国宽带发展联盟.千兆宽带网络商业应用场景白皮书[R]. 2019

[7]中国联通.面向业务体验的算力需求量化与建模研究[R]. 2020

[8]任梦璇.区块链+边缘计算应用研究与探讨[EB/ OL]. (2021-01-25)[2021-06-07]. https://blog.csdn.net/weixin_41033724/article/details/113153834

[9]方军.超入门区块链[M].北京:机械工业出版社, 2019

作者简介

雷波,中國电信股份有限公司研究院高级工程师,担任边缘计算产业联盟E C N I工作组联席主席、C C S A“网络5 .0技术标准推进委员会”管理与运营组组长等职务;主要研究方向为未来网络架构、新型IP网络技术等;发表论文1 0余篇,出版图书《边缘计算与算力网络》《边缘计算2 .0:网络架构与技术体系》。

赵倩颖,中国电信股份有限公司研究院工程师;主要研究方向为未来网络、算力网络等;发表论文3篇,参与出版图书《边缘计算与算力网络》《边缘计算2 .0:网络架构与技术体系》。

凌泽军,中国电信股份有限公司研究院高级工程师;主要研究方向为未来网络、算力网络、软件开发、终端研究等;发表论文1 0余篇,出版图书《构建运营级的L T E网络》。

猜你喜欢
一体化
国有企业信息工程一体化建设管理模式初探
浅谈关于服装局部工艺制作的教学方案设计
独立院校艺术类毕业实习与校企合作改革的研究
中高职服装设计专业一体化课程体系建设研究
中高职一体化课程体系建设的探索与实践
克里米亚完成入俄“一体化”
电气设备控制课程理论教学与实践教学的一体化