周旭 ,王浩宇,2 ,覃毅芳* ,程耀东
1. 中国科学院计算机网络信息中心,北京100190
2. 中国科学院大学,北京 100049
3. 中国科学院高能物理研究所,北京100049
随着科学技术的迅速发展和普及,人类社会进入 “大数据”时代已经成为全球共识。科学研究已进入复杂系统科学研究的深水区,小至原子运动、分子结构、粒子运动,大至气候变化、人类生命健康、天文观测等等,科学研究在微观世界和宇观世界两个层面深入发展,许多待解决的科学问题的规模和复杂性已经远远超越一个学科、一个机构甚至一个国家的能力,正逐步形成大科学研究格局并步入更深层次的复杂系统研究[1]。如平方公里阵射电望远镜(Square Kilometre Array, SKA)项目等重大科学计划将产生巨量的数据,SKA 建成后每年将产生300-500PB 数据[2],按照现有的信息基础设施能力,以100Gbps 的网络为例,理论上一天只能传输1PB数据,无法实现数据的实时传输与存储,更无法对数据进行分析与处理。
2015年12月,习近平总书记在第二届世界互联网大会上指出“加快全球网络基础设施建设,促进互联互通”。李克强总理在政府工作报告中要求落实“互联网+”行动计划,启动实施《中国制造2025》[3],促进大数据、云计算、物联网广泛应用。《国民经济和社会发展第十三个五年规划纲要》[4]也明确提出实施网络强国战略、创新驱动发展战略、国家安全战略等十四大战略。2016年8月,中共中央办公厅、国务院办公厅印发《国家信息化发展战略纲要》,提出要“加快科研信息化”,要求“建设覆盖全国、资源共享的科研信息化基础设施,提升科研信息服务水平”。2016年12月,国务院印发《“十三五”国家信息化规划》中明确提出建设基于云计算的国家科研信息化基础设施,打造“中国科技云”。在《国家创新驱动发展战略纲要》中具体明确了“超算中心和云计算平台等数字化基础设施”和“形成基于大数据的先进信息网络支撑体系”。这些重大科技布局迫切需要构建国际一流的、面向科学发现的新一代信息基础设施。
针对现有信息化基础设施环境往往与实际科学应用过程脱节,存储与计算分离现象十分常见,且无法适应大数据、人工智能[5]时代的应用需求,无论从计算能力还是从软件实现方面都无法适应海量科研数据带来的冲击,没能充分发挥信息技术对现代科学研究的支持与促进作用。因此,面向大数据时代全球化的大科学研究,先进的覆盖科学研究全链条的海量数据传输、分析与处理服务网络架构将成为解决大数据时代全球化的大科学研究的必然选择。
目前,各国都将信息化基础设施的建设当成通信领域最重要和最迫切的研究内容。但是,现有的工作多重在对于未来网络体系架构、概念、服务机制等全方面的研究,提出了诸多的设计思想,诸如不受兼容性限制的Clean-Slate 设计思想。但是,大部分研究成果尚不能直接应用于现有网络以支撑本文所提及的新型科研范式的需求。鉴于此,在针对如何设计网络体系架构以满足新型科研需求的研究工作中,作者及其团队深入研究了融合边缘计算技术的新型网络架构技术。本文就融合边缘计算的新型科研云服务架构从背景、需求、方案设计等多个方面予以介绍,希望能够为同行提供一定参考。
当前,科学研究的国际领先地位日渐倚重于所占有的数字化科学数据的优势。因此,“数据驱动”也正逐步成为科学研究新范式。“数据驱动”的科研范式,具体来说,是指将大量科学活动产出的分散和历史数据,通过一定的方式统一汇聚到数据集中平台,通过对数据进行清洗、过滤、建模、分析、挖掘,以及最后的可视化等等步骤,将数据转换为可用知识,用以揭示数据背后的发展规律和趋势,以所获取的知识来引导科学研究的融合和创新。现阶段而言,科学研究都是面向全球的。因此,分散在全球的海量科研数据,只能通过互联网络进行有效的分发和流通。因此,全新的科研范式,对于现有的云计算数据中心在存储、计算等方面提出了更高的需求;而对于网络而言,其数据传输的质量也有较高的要求,如传输带宽、传输时延、传输抖动等。而对于网络边缘而言,则依据数据处理需求,希望能够在网络边缘对数据进行高效的处理,从而缩短数据处理时间。
但是,海量的科研数据如何通过网络进行端到端高速率传输是个巨大的挑战。这些数据传输既需要有基础的物理高带宽,也需要高性能的传输协议等技术来实现端到端的高速率传输。传统的TCP[6]传输协议对高带宽广域海量数据传输的效率存在欠缺,难以适应当前高带宽网络环境中海量数据传输的需求,比如在40Gbps 带宽环境下拥塞窗口恢复时间长达46 小时,其传输控制机制和算法需要重新设计。另一方面,由于信号传输的光速不可突破,传播延迟难以降低,如何实现端到端的低延迟传输也是个巨大的挑战。
此外,随着以5G[7]接入技术为代表的无线网络发展和智能终端设备的快速普及,用户和终端设备在网络边缘产生的数据量已经达到了泽字节(ZB)级别;而各种方兴未艾的新应用,如增强现实(Augmented Reality,AR)、虚拟现实(Virtual Reality,VR)、无人驾驶、超高清赛事视频直播等等不断涌现,对网络延时、丢包、抖动和数据安全等也提出了更高的要求[8]。
针对这些问题,传统的云计算服务模型在解决问题能力方面尚有很多缺陷,边缘计算技术[9]应运而生。边缘计算能够在网络的边缘提供轻量级的云计算和存储能力。例如,通过边缘缓存实现数据的共享和就近传输,可显著减小端到端传输延迟。通过研究高性能科学大数据传输协议,结合边缘计算技术,研发适合海量科学数据传输的新型云服务体系架构,可从根本上解决科学大数据处理面临的以上难题。
在网络领域中,边缘(Edge)节点通常是指距离用户最近的端点设备。边缘计算(Edge Computing)是指在靠近人、物或数据源头的一侧,采用融合存储、计算、网络接入、应用核心能力为一体的开放平台(或通用平台),就近为使用者提供服务。边缘计算节点尽力分流所经过的流量到本地平台,并在本地平台中进行处理,以期减少网络拥挤与延迟、缩短服务时间、提供大带宽服务等[10-11]。在目前的研究中,虚拟化技术[12]、容器技术[13]、更强大的处理能力的人工智能芯片技术[14]、更快的存储读写技术[15],以及其它高级功能也都将被添加至更多的边缘设备中。
目前,5G日臻成熟,并在全世界范围内即将全面实现部署。5G 网络具有低时延、高带宽、高可靠的通信要求。因此,边缘计算技术也将成为5G 网络部署的重要选择。在5G 网络中,不断部署和扩展的边缘计算环境,将为传统集中式的云服务带来更加稳健的就近服务和通信技术支持。5G 不仅降低了端到端的延迟、增加了网络接入带宽,同时显著增加了每平方公里内的连网终端数量,为真正意义的“人与人”、“物与物”和“人与物”万物互联提供了可能。
思科[16]及IDC[17]分别估计,未来将有超过70%-75%的数据在边缘得到处理,不进入云计算中心的数据。这将对未来的数据处理范式、网络流量模型带来根本性的改变(图1-2)。
麦肯锡[18]也预计,到2025年,边缘计算的价值将会提升至1750-2150 亿美元(图3)。
在巨大的市场预期之下,边缘计算得到了技术界、产业界的高度重视,各大龙头公司、开源组织、标准化组织[19-20]都推出重量级的产品或计划,造就了丰富的边缘计算技术及产业生态环境。
图1 IEEE & Gartner 技术趋势预测Fig.1 IEEE & Gartner technical trend forecast
图2 边缘计算流量预测Fig.2 Edge Computing traffic forecast
(1)各大公司推出的边缘计算软硬件产品计划:AWS IoT Greengrass(亚马逊)、Azure IOT Edge(微软)、Link to Edge(阿里)、OpenEdge(百度)、Tencent Smart Edge Connector(腾讯)、Apple Edge Cache(苹果)、Edge TPU(Google)、EdgeScale(NXP)等。
(2)全球运营商推出的边缘计算平台计划:在 GSMA 的支持下,中国联通、德国电信、EE、KDDI、Orange、新加坡电信、SK 电讯、西班牙电信和意大利电信等领先的运营商已开始联合开发可互操作的电信边缘云 (Telco Edge Cloud),以使边缘计算功能在电信网络基础设施中得到广泛应用且易于获取。
(3)各大开源组织推出的开源项目:KubeEdge(CNCF 基金会)、EdgeXFoundry(Linux 基金会)、Akraino EdgeStack(Linux 基金会)、Apache Edgent(Apache 基金会)、StarlingX(OpenStack 基金会)、CORD(ONF 基金会)等。
(4)推出边缘计算标准项目的标准化组织:ETSI、3GPP、ISO/IEC、IIC、AII、OpenFog、CCSA、EEC、OEC 等。
边缘计算与云计算的结合,是数据密集型的科学计算处理架构的发展趋势。
高能物理是典型的数据驱动的科学发现应用,一切活动都围绕获取与分析数据。交高亮度大型强子对撞机(High-Luminosity Large Hadron Collider,HL-LHC)等新型实验的需求远远超过目前能够提供的资源,必须要采用更为精细的计算模式和简单的存储模型。网格计算成功运行了近20年,目前正处于即将改变的关键时间点,机遇与挑战并存。
欧洲核子中心(European Organization for Nuclear Research,CERN)提出未来高能物理数据处理平台架构“HEP DATA LAKE”是其中一种比较可行的解决方案,类似于边缘云计算,能够有效降低分布式数据管理的成本[21-22]。数据湖有一个单一的逻辑存储单元(Storage Element,SE),具有足够大的存储容量和访问性能。在数据湖之外的站点没有持久的存储,非实验的私有数据直接到用户所在的边缘站点。统一视图以及高效的存储和传输是其中要解决的一些关键问题(图4)。
图3 边缘计算产业价值[18]Fig.3 Industry value of edge computing [18]
中国科技云目前是“集中式云+固网有线接入”模式,为科研用户提供了强大的计算存储能力和优质的网络接入条件,较好的满足了目前阶段的科研用户需求。但是,随着数据驱动科研范式的发展,未来需要处理的数据量越来越大、效率要求越来越高,需要连接的科研设备类型与数量越来越多,而远程控制、无人科考、AR/VR 等新型科研手段也将不断涌现。这些都对科技云的网络接入、数据传输、计算存储能力等提出了更高的要求。现有云服务架构面临新的挑战,需要与时俱进演进发展。
对中国科技云来说,科研应用从以下方面对边缘计算提出了新的需求:
(1)数据高效处理的需求
图4 高能物理数据湖Fig.4 HEP Data Lake
对于科研人员来说,关注的是以最低成本、最高效率完成科研数据的处理,而并不关心数据处理的任务在哪里完成。集中云模式下,数据处理的效率受限于网络带宽及集中云的处理能力。如果采用云网边协同的架构,数据可以分布到集中云及多个资源空闲的边缘云进行处理,带宽也不会受限于单一的传输链路,数据处理效率将大大提升。
(2)数据高效传输的需求
传统云服务模式下,科研数据的传输多采用标准的传输协议,基于默认路由进行传输,无法按照科研数据的独特需求进行优化。在边缘云的模式下,可以采用NFV 的模式,在边缘节点上增加传输优化模块,根据科研数据的特性和科研应用需求,采用专有协议、优化路由的方式进行优化传输,并可以适应各类非开放系统的特殊终端。
(3)网络接入多样化的需求
未来科研活动随时随地进行,对无线接入需求会越来越大。越来越多科学装置和传感设备,需要传输数据。5G 既有WiFi 无线接入的便利性,在稳定性和时延方面又远胜WiFi 技术,接入速率上达到甚至超过普通光纤。利用边缘计算技术,整合5G 接入作为科研网络的有效补充,是未来科研活动的必然需求。
(4)云服务体验提升的需求
在集中式的云服务架构下,各种科研增值服务(云存储、云办公、云会议等)都部署在云端,距离用户较远,受网络带宽、时延、抖动等因素限制,应用体验容易受到影响。在边缘云环境下,可以按照用户访问热度,将部分热点内容、数据以及经常访问的服务,下沉到用户本地,可以大大提升用户访问体验,并降低网络带宽需求。
基于计算存储网络融合路线,整合5G、边缘计算、人工智能、网络虚拟化等前沿技术,形成异构融合、云边协同的智能网络架构。根据研究院所、大科学装置、野外台站、大学园区等不同科研场景的应用需求,将网络能力与应用服务能力下沉到科研现场,为科研用户提供现场级、智能化的科研信息服务能力,提升数据传输处理效率,提升云服务应用体验,支撑各类新型科研手段(图5)。
图5 云网边协同的科技云系统架构Fig.5 Cloud edge network collaboration scientific cloud system architecture
云网边协同的科技云功能架构如图6 所示。基于“智能接入与边缘计算”与“SDN 高速网络”,实现多样化接入资源与高速广域传输资源的一体化管理,为科研用户提供端到端的柔性网络服务;基于超融合计算及大数据存储管理技术,有效整合边缘计算、云计算、超级计算、智能计算、分布式存储等全局计算与存储资源,为科研用户提供高通量计算、可靠存储与可视化交互服务;基于“智能管控与运行服务”,实现全局计算、存储、网络资源的智能调度管理,打通科学数据“采集、汇聚、传输、处理、交互”全流程,为重大科技创新活动提供新型“云网一体”智能服务。
利用边缘计算网络功能虚拟化技术,针对不同类型的用户及应用场景,提供灵活的流量接入方式与精细化的流量管理能力。
在科技网及互联网上部署云转发节点,通过节点间的虚拟组网,在物理网络之上,构建面向不同应用的虚拟加速专网。
边缘云与云端转发节点之间形成虚拟加速网,采用动态路由及优化传输协议,对特定的科学数据流量进行端到端传输优化,建设覆盖多场景、全终端的网络加速服务能力,并支持通过云服务的形式将加速服务开放给用户实现自助管理。
(1)针对科学园区、大科学装置,采用边缘云的方式实现接入管理及传输加速
在园区网络出口处,部署SDN 交换机及边缘云节点,实现网络能力下沉到边缘。在边缘云上,以虚拟化形式加载虚拟智能边缘网关(vCPE)功能,对流量进行统一管理,精确控制特定应用流量引入加速虚拟专网,采用优化传输协议及动态优化路由,提供端到端加速服务。
(2)针对小规模科研团队、野外台站,采用边缘智能网关的方式接入实现加速
边缘智能网关支持WiFi、光纤、以太网等多种不同的接入方式,可扩展支持5G、eMTC、NB-IoT及LoRa 等接入方式,实现对各种物联网传感器的接入与传输优化(图7)。
图8 基于边缘计算的虚拟组网Fig.8 Virtual networking based on edge computing
针对重大联合项目组、大科学装置等需要专有网络保障的科研应用,可在边缘云上动态部署虚拟接入网关,与科技网上的云转发节点一起,组成虚拟网络,在物理网络之上,构建面向不同科研应用的虚拟专网(图8)。
采用了边缘云虚拟化技术,无需在用户侧部署设备,以及在骨干网上部署物理路由器,可实现零接触式的虚拟网络搭建,并可以按需动态构建及撤销。
图9 基于边缘计算的5G 融合接入Fig.9 Converged Access Network based on edge computing
现有科研园区内网与运营商移动网络相互隔离,科研园区中用户终端产生的4G 流量全部直接进入运营商网络,数据安全性、流量成本等方面均存在问题,导致科研活动无法直接使用移动网络的接入能力。
在5G 规范中,移动边缘计算技术支持流量的本地分流。通过打通园区5G 基站与边缘云之间的接口,可以将园区内产生的特定5G 流量分流到本地的边缘云,实现流量的内网化(图9)。
5G 网络可支持10Gbps 的接入速率、每平方公里100 万的连接能力、1ms 的时延,在稳定性和接入能力上相比WiFi 有很大优势,传输速度媲美光纤。通过边缘计算本地分流的方式,可以将5G 能力很好的融入到未来的科研网络中,解决现有园区网络在部分应用场景中的网络能力不足问题。
通过虚拟组网技术,将分布在不同位置的边缘云以及集中云连接起来,实现全网计算、存储、网络资源的统一调配,形成算力网络。
在边网云协同模式下,根据不同的计算模型,数据处理程序可以进行分布式拆分,使之支持并行化处理。科学装置的数据产生后,在临近边缘云进行数据的前置处理及任务分块,在算力网络的统一调度下,将需要处理的数据及对应的处理程序,分发到集中云及资源空闲的多个边缘云上,进行并行分布式计算。在此模式之下,数据分析的效率以及网络带宽的利用率都将大大提升(图10)。
图10 边云协同算力网络Fig.10 edge cloud collaborative computing first network
现有科技云上有大量面向科研用户的云服务,科技云用户通过中国科技网进行访问,在长途链路环境下,网络带宽、时延、抖动等因素有可能会导致服务质量不稳定。
边缘云提供了一个更加靠近用户的虚拟化的服务运行环境,通过虚拟化方式(虚拟机或容器)将云端服务封装后,可以根据具体应用场景的需求,预先或动态地将服务下沉到边缘云上,靠近用户提供更高质量的服务。
同时,在边缘侧,整合5G 等丰富的接入手段,用户可以方便地使用各种终端,随时随地高效访问科技云服务,开展科研工作。
可以提供以下及其他更加丰富的边缘云科研应用服务,如图11 所示:
(1)AR/VR:在后端超算平台完成海量数据处理,在边缘前端完成图像渲染和交互,云边协同实现高质量的科研可视化交互。
(2)无线办公:利用边缘云实现智能设备管理(如云打印、云投影等),开展无线办公
(3)无人科考:利用5G 低时延特点,基于边缘云实现无人机、机械臂等远程操控,开展特殊环境下的无人科考。
(4)视频会议:利用边缘云实现虚拟化视频会议MCU 功能,配合视频传输优化服务,实现高质量、可动态扩展的云化的视频会议服务。
(5)存储同步:根据用户访问趋势,集中云存储中的热点数据缓存在边缘并自动同步,提升数据访问速度。
图11 边缘云科研应用服务Fig.11 edge cloud scientific research application service
“数据驱动”的科研范式对现有的计算模型提出了更高的要求,而传统的云服务无法满足数据驱动型科研范式的发展。边缘计算与云计算的结合,是数据密集型科学计算处理架构的发展趋势。本文重点分析了数据驱动的科研范式给网络与计算带来的挑战,以及科学计算场景下对边缘计算的具体需求,并在此基础上,给出一种融合边缘计算的新型科研云服务架构,同时阐述该架构的基本功能,并给出其适用的相关典型应用场景与服务能力。
下一步的研究重点工作包含以下几个方面:(1)融合边缘计算的云服务架构详细设计与实现;(2)基于边缘计算的传输优化技术研究与实现;(3)基于边缘计算的虚拟组网技术研究与实现;(3)5G 融合的多网络接入技术研究与实现;(4)边云协同的算力网络技术研究与实现;(5)融合边缘计算的创新科研应用和服务。
利益冲突声明
所有作者声明不存在利益冲突关系。