董旭菲,高 帅,李 培,曹 亘,李福昌(中国联通研究院,北京 100048)
在信息迭代迅速的时代,人机交互技术快速发展,其中扩展现实(eXtended Reality,XR)技术提供了未来无限可能的人机交互场景。随着近年来元宇宙(Metaverse)概念的兴起,元宇宙作为一个将虚拟与现实世界相融合的全新概念在学界和业界得到了广泛关注,而XR 技术正是承载和构建虚拟与现实交融的关键技术,是元宇宙重要底层硬件载体之一,元宇宙的发展也将必然带来XR产业的崛起。
随着5G技术的蓬勃发展,我国已建成全球最大规模的5G网络,为建设数字中国提供了强有力的基础设施支持。随着新兴5G 新业务的不断涌现,XR 业务数据的传输需求对5G 系统性能提出新要求,5G 系统针对XR 业务进行了进一步增强,从而为XR 业务提供高业务体验的网络接入能力。在新业务应用融合方面,XR业务随着5G商用网络的部署快速与工业、教育、旅游等领域的应用融合,为5G新业务服务于千行百业提供更广阔的应用空间。
XR 技术是由计算机技术和可穿戴设备生成的真实与虚拟融合以及人机交互的环境[1]。XR 业务类型包含了多种技术形式,其中包括虚拟现实(Virtual Reality,VR)、增强现实(Augmented Reality,AR)、混合现实(Mixed Reality,MR)等,被称为未来虚拟现实交互的最终形态(见图1)。
图1 XR业务类型及其应用
VR 技术是一种利用计算机可以创造出虚拟世界的模拟环境,产生多源信息融合的交互性实时动态的三维立体逼真空间,用户可使用头戴显示设备(HMD)和游戏控制器完全沉浸于虚拟的世界并进行实时互动[2]。VR 技术集合多媒体技术、传感技术等多种技术,具有多感知性、交互性、沉浸感、构想性等特性。VR 技术主要包括模拟环境、感知、自然技能和传感设备等。
AR 技术是一种将真实世界信息和虚拟世界信息相融合的新技术,通过计算机技术模拟现实世界的实体信息,包括视觉、听觉、味觉、触觉等,进而叠加应用于真实世界的直观感受。真实世界信息和虚拟世界信息这2种信息互为补充,从而实现对真实世界的“增强”。用户通过设备与增强后的现实环境进行实时交互,从而使用户获得超越现实的体验。AR 技术将真实世界和虚拟世界的信息集成,包含三维建模、实时视频显示和控制、多传感器融合、实时追踪和准确定位等技术和手段。
MR 技术进一步发展了虚拟现实技术,通过在现实场景展现虚拟场景的信息,构成了现实世界、虚拟世界和用户之间交互反馈的信息回路,从而增强用户体验的真实感,实现打造虚拟与现实融合的可视化环境。MR 技术支持用户与虚拟物体互动,从而使用户在真实世界可以感知虚拟物体。
XR 产业发展经历了长期的技术探索。1968 年,被誉为美国“计算机图形之父”的Ivan Edward Sutherland开发了世界上第一个3D(3-dimension)VR头戴式显示器,打开了VR 技术的大门。2012年以来,深度学习算法涌现并在视觉识别上取得突破性进展,VR/AR技术概念和产品开始进入大众视野。谷歌在2012 年发布第一款智能AR 眼镜Google Glass,引发市场对VR/AR 技术的强烈关注。近年来,随着XR 市场规模不断增长,Oculus VR 耳机、Microsoft AR 眼镜、现象级AR 游戏《Pokemon Go》、Facebook VR 头盔Oculus Quest等不断推出新产品,XR 头戴设备、内容服务商等新产业合作伙伴加快入场,使得XR 市场更加火爆,短期内实现高速发展。
时至今日,XR 市场发展已经横跨多种领域,包括面向消费者(ToC)、面向企业(ToB)市场。其中ToC 端应用市场包含娱乐、购物、游戏、旅游、影视、直播等领域,ToB 端应用市场包含教育、工业制造、国防军事、职业培训、医疗、零售、营销等。XR 市场的蓬勃发展为社会形态进一步数字化、平行化和智慧化提供了无限可能性。
XR 硬件设备作为XR 市场发展的催化剂,在ToC和ToB 市场都有飞速增长。VR 热门产品包括Oculus Quest 2、Varjo VR-3、Playstation VR、Valve Index 和HP Reverb G2。AR 热门装备包括智能手机和专用AR 设备,智能手机搭载AR 滤镜的应用程序就能实现AR 功能,这类应用包括抖音、Instagram、Snapchat 等;专用AR设备包括微软HoloLens 2、联想ThinkReality A3等。XR 硬件终端市场规模日益增大,丰富的内容和成熟的硬件能力使得XR 行业有着更加蓬勃的发展前景,同时消费级XR 设备价格逐渐下探,XR 终端将逐渐走进千行百业、千家万户。
为了降低对XR 终端运算处理能力要求,XR 业务与边缘云计算技术密切相关。边缘云服务器提供高复杂度的处理、渲染等功能。但是,这需要解决XR 设备与边缘云服务器之间大量数据传输交互的需求[3]。而且为了满足XR 业务的沉浸感和交互性需求,XR 设备与边缘云服务器的数据传输要求毫秒级的传输时延,这意味着网络传输需要同时满足低时延和高数据率的要求。因此,高速率、低时延、可靠且安全的无线连接对XR设备至关重要。
目前5G 是唯一能够实现XR 极致传输的无线连接的技术,3GPP 在2015 年启动了5G 第1 个版本Rel-15 的标准研究工作,并于2018 年6 月冻结。我国在2019年正式启动5G 商用。根据ITU 对5G 关键性能指标的定义,在增强移动宽带(Enhanced Mobile Broadband,eMBB)场景下,吞吐率可达到10 Gbit/s;在高可靠和低延迟通信(Ultra-reliable and Low Latency Communications,uRLLC)场景下,时延低至1 ms[4]。5G 的大带宽、高可靠性、低延迟特点将满足下一代XR 业务的需求,XR 业务也是5G 系统设计的关键场景之一,5G系统也在向满足消费者和企业对XR通信的需求演进。XR 技术在5G 技术的支撑下,将进一步打破虚拟与现实环境的界限,推动人机交互方式变革,促进行业共同发展。
随着XR 业务发展的多元化和日益丰富的新功能上线,5G 网络也随之持续演进。为了满足XR 新业务对高传输速率等的新要求,3GPP 从R15 版本开始了5G XR 技术的研究工作,包括在空口传输、网络架构、媒体业务、业网协同等方面开展技术研究和标准制定。本章对XR业务模型和性能KPI展开分析。
3GPP TR 38.838 针对XR 业务制定了通用和专用的业务模型作为分析和评估的准则[1],为后续制定在空口传输XR 业务规范奠定基础。其中业务模型评估对上行、下行业务分别进行了考虑。根据XR 业务的特点,上行业务主要为终端用户姿势和控制的相关业务,其周期固定,数据量较小,对抖动敏感度低,按照其特性,设计了上行链路通用业务模型,如表1所示。
表1 上行终端与用户姿势和控制模型的统计参数
XR 下行业务根据类型的不同考虑了两大类模型,一是单业务流模型,对整体XR 业务进行统一调度,其中业务参数包括包大小、包达到率、包延迟预算、包传输成功率需求等;二是多业务流模型,针对XR 业务不同数据流形成差异化保障模型,其中包括对帧内编码帧(intra picture,I 帧)和前向预测编码帧(predictive-frame,P 帧)的差异化保障、视频和语音的差异化保障、视野图景(field of view,FOV)和全向图景的差异化保障等。
I帧和P 帧的差异化保障方案是对I帧和P 帧图像数据流分别进行QoS保障,I帧应被优先保障(见图2)。其中I 帧和P 帧作为视频编码的重要形式,通常I 帧数据包较大,包含了完整的信息,在视频解码时只需利用本身的信息即可完成解码,属于帧内压缩;P 帧是前向预测编码帧,编码是通过前面已编码帧的时间冗余信息来压缩图像,在解码时需要参考前一帧的信息才可以完成解码,P 帧的压缩率相较于I 帧更大,其数据量更小,由于P帧的解码需要依靠已传输的I帧,所以I帧的传输优先级更高。视频和语音的差异化保障是将视频数据流和语音数据流分别进行QoS 保障,视频数据流应被优先保障,对用户体验影响较小。视野图景和全向图景的差异化保障是对视野图景数据流和全向图景数据流分别进行QoS 保障,视野图景数据被优先保障(见图3)。视野图景是用户当前正在观看的视野范围,即眼球视野视觉能够覆盖的区域;全向图景是360°全向图景,提供给用户360°方位的图像,用户在当前观看不到,但是在未来时刻可能转向该图像方位。FOV 作为用户正在收看的集中区域,对用户体验影响较大,优先级更高,应得到优先保障。通过差异化保障方案,可以让5G 网络更精准地感知5G XR应用,以便进行最优的无线资源分配,对其应用数据包实现不同QoS保障处理,全面提升用户的体验质量。
图2 视频压缩I帧和P帧编码结构举例
图3 视野图景和全向图景结构举例
XR 业务中很重要的特点是视听交互性,包括人与环境、人与机器、人与人之间进行交互,对时延的要求较高,其中运动到成像(motion-to-photon,MTP)时延,定义为用户头部的移动与头显中的画面更新之间的延迟。MTP 时延过高会导致用户出现眩晕感,目前公认的是MTP 时延低于20 ms就能大幅减少晕动症的发生[5],而3GPP 定义的5G 系统需要支持的MTP 时延需要满足7~15 ms 的要求,并开展了触感通信、多模态传输等研究工作,并制定了重要KPI需求(见表2)[6]。
表2 多模态通信和沉浸式VR的KPI需求
在满足KPI需求的基础上,3GPP还考虑了3种XR商用部署场景分别对5G网络性能进行评估,其中分为密集城区、室内热点和城区宏覆盖等场景,从系统容量、终端能耗、网络覆盖、移动性等开展技术评估。研究结果证明[1],5G R16 系统可以为XR 业务提供基础能力保障,下一步将继续研究提高5G NR 用于XR 和云游戏应用的系统容量、UE功耗等性能需求。
5G NR 用户体验质量(Quality of Experience,QoE)功能作为从LTE 时期持续演进的功能,是移动通信网络收集用户对体验质量的报告[7]。QoE 功能是通过收集用户应用层测量信息,直接获取用户报告的业务体验质量。用户的应用层业务体验能够最直观、最精准地反映用户对业务服务的体验感受。NR 系统为了提高对用户业务体验质量的保证能力,研究了支持后处理或者实时分析等方式,根据分析用户QoE报告,指导网络配置优化等。在R17 版本中现已支持对VR 业务类型的QoE 测量功能。VR 作为XR 最先展开研究的技术,其QoE应用层指标定义工作在文献[8]中开展并已完成,后续AR 和MR 的QoE 应用层指标定义工作将在R18阶段启动[9-10]。
VR QoE 测量的参考模型如图4所示[8],其中3GPP定义了5 个观察点(Observation Point,OP),包括从文件加载器、解调器、渲染器、传感器和VR 应用获得测量信息,其中特定指标的相关信息可用于指标收集和计算(Metrics Collection and Computation,MCC)功能。通过VR 应用程序将观察点的信息传输到MCC,MCC通过组合来自不同观察点的信息来计算更复杂的指标,从而形成VR业务应用层指标。
图4 VR QoE测量参考模型[8]
VR 的应用层指标是将流媒体定义的QoE 度量概念进一步扩展并涵盖VR 业务的度量能力。由于VR业务大部分是继承流媒体的业务特征,包括高品质视频、音频播放服务等,所以流媒体指标也适用于VR 业务。针对VR 业务360°全景沉浸渲染视频服务,引入了衡量用户的视觉窗口(viewport)的质量和切换时延,代表了用户人眼跟随头动所接收到的成像质量,反映了用户的观看体验[11]。用户手势动作和身体移动之间的交互成为整个用户体验的重要组成部分,传输的实际内容通常取决于用户当下的行为,其实时互动性为网络带来了新的挑战。表3 给出了VR 业务应用层指标参数。
表3 VR业务应用层指标参数
3GPP 标准R17版本于2022年6月正式宣布冻结,标准化工作已经进入5G-A(5G-Advanced)新阶段。在R18 标准进程中,3GPP 工作组将继续对NR XR 增强技术开展研究工作,将进一步研究QoS 机制的增强功能,根据帧内数据包的依存关系对整体数据单元实现统一保障,研究不同优先级的帧类型或者图片组进行差异化处理,提升传输效率;考虑到XR 媒体流量模式,对UE 节能机制进行增强,例如支持连接状态下扩展的非连续性接收(connected mode extended discontinuous reception,C-DRX);为了支持触觉和多模通信服务,5G 系统通过QoS 选择和协商进行分组处理,从而保证不同类型业务对时延、可靠性等的需求,为用户提供5G 最佳服务体验[12]。在RAN2 工作组中,将进一步研究支持XR 业务的NR 网络架构及增强功能,包括支持多模式的增强功能(如与特定时间相关的音频、视频和触觉数据)、研究5G 系统和XR 应用的交互、研究对XR 服务QoS 策略增强和UE 节能等潜在增强技术方案[13]。
在R19 阶段相关的前沿场景、业务需求等方面,SA1 工作组立项了NR 元宇宙课题[14],将研究5G 移动通信系统在社会、文化、政府和商业活动等不同领域提供新服务的新需求。重点关注XR 媒体带来的潜在新用例和服务新要求,为用户远程访问本地服务提供共享、交互、沉浸式新体验,通过XR 技术为用户带来更丰富的感官体验,包括音频、视频、触觉、多模态等,也为后续各工作组的研究指明方向,明确场景需求。
在数字化技术快速发展的新时期,XR技术作为数字经济发展的新热门产业,必将是我国科技创新发展的重点方向。XR 产业由最初的游戏娱乐向多领域拓展,发展空间广阔,增长潜力强劲。随着5G 新技术研究迈进5G-A 新阶段,将在各个技术领域持续演进,进一步增强提供基础网络能力,支持扩展新行业应用,支撑新业务、新维度的研究工作,全面满足未来市场需求,为后续无线新技术研究奠定坚实的发展基础。5G-A 将在XR 业务的网络容量、时延、带宽等差异化业务保障方面继续演进增强,从而更好地赋能数字经济,开创新发展格局,构筑全民畅享数字新生活。