伏玉笋,杨根科,2
(1.上海交通大学电子信息与电气工程学院,上海 200240;2.上海交通大学宁波人工智能研究院,浙江 宁波 315000)
20世纪80年代以来,移动通信技术逐步实现从固定到移动、从模拟到数字、从电路交换到云网融合、从窄带到宽带、从人人互联到万物智联的演进,为社会的发展不断注入新的动力,带动了整个生态产业的发展,同时也提出了更高的生态系统需求。5G时代的到来,促使5G与人工智能、云计算、大数据、物联网/工业互联网、边缘计算等融合交织,在各行各业产生“聚变”反应。移动通信网络正在变得越来越复杂,这一点可以从如下3个方面来说明。
网络复杂化。从低频到高频(毫米波至太赫兹)的载波越来越多,多载波是一种必然趋势。2G、3G、4G、5G多制式共存带来的协同和互操作难度增加;从单天线到多天线,甚至Massive MIMO,天线数越来越多,在商用场景中如何进一步提升性能面临很大挑战;超密的分层网络与虚拟化云化网络的动态变化所带来的资源统一调度非常困难;分层解耦架构下的故障定界定位困难;传输网络异构化。
业务多样化。人与人通信的单一模式逐渐演化为人与人、人与物、物与物的全场景通信模式,业务场景更加复杂,带来对业务级(SLA,service level agreement)的差异化需求,比如高带宽、大连接、超高可靠性和低时延等(数据分组大小的差异是107量级,时延的差异是104量级,吞吐率的差异是105量级)[1-2],以及与之配套的网络管理的复杂性(包括网络切片场景等)。
体验个性化。依托5G 网络能力和丰富的业务发展,业务体验也将随之呈现出多元化、个性化发展态势,比如沉浸式体验、实时交互等,网络对于业务体验的支撑保障,将颠覆传统模式,迎来全新挑战,评价准则越来越多元化。
面对移动通信问题建模日益困难,求解复杂度指数级升高,网络的运维成本越来越高。如图1所示随着移动通信技术的演进(从2G时代到5G时代),网络性能在不断地提升,但同时实际性能与理想性能的差距却在扩大,这说明需要深入挖掘新的技术方法,使实际性能逼近理想性能,不过基于传统方法解决这样的问题遇到了很大的瓶颈,移动通信迫切需要引入新的方法论。
人工智能在大数据、深度学习、计算与存储能力提升这三者的共同促进下迎来了新的浪潮[3-7]。智能通信被认为是5G 之后无线通信发展的主流方向之一[8-9],其基本思想是将人工智能引入无线通信系统的各个层面,实现无线通信与人工智能技术的有机融合。学术界和工业界正在开展该领域的研究工作[10-61],目前,该方向的研究正在从高层向低层的物理层推进,特别在物理层已经出现无线传输与深度学习等结合的趋势,然而,各项研究目前尚处于初步探索阶段。
图1 实际性能与理想性能间的距离
虽然目前人工智能在移动网络运维领域有了一定的应用[13-18(]比如智能告警处理与根因分析、关键性能指标(KPI,key performance indicators)异常检测等),但是在提升无线通信系统性能方面,尽管学术界的论文不少,商业应用的成功案例却屈指可数。
必须说明强调的是,与提供“尽力而为”服务的互联网不同,通信网从一开始就是一个以商业经营为目的的网络,必须确保通信服务质量和服务安全,对网络的部署、维护升级、电信设备的性能等都有严格的要求。
运营商通信系统对KPI的要求很高,对性能恶化的容忍度很低,而IT系统对失败的容忍度则很大。学习型算法的可靠性通常面临着很大挑战:由确定性演变为不确定性的风险很高,尤其是网络升级,KPI在任何应用场景下不能有负增益,这更是严格的高压线。
可见,虽然有着人工智能在提升无线通信系统性能上发挥着更大作用的强烈需求,但也面临突破上的巨大障碍。本文对人工智能在移动通信方面的研究与应用现状进行总结,同时对人工智能在如何提升无线通信系统性能上进行探索与实践,从而为相关领域的研究人员和工程技术人员起到参考和帮助的作用。
移动通信网络涉及的主要领域及对应的时间尺度如图2所示。一般来说,尺度越小,人工智能的应用难度越大。后面将分别介绍每个领域的研究和应用现状。
图2 移动通信网络涉及的主要领域及对应尺度
目前在移动通信领域研究中,最常用的人工智能/机器学习方法如图3所示。由图3可知,没有一种方法可以“包打天下”。本文通过分析机器学习方法的特点,再结合移动通信系统的需求和特点,可以更好地把握人工智能在移动通信系统中的研究和应用。
应该说近年来机器学习本身的进步,以及大数据和计算能力的大幅提升共同促使人工智能应用取得了长足的发展。数据驱动智能是其明显的特征之一。第四范式是指数据探索性的研究方式,即基于数据密集型的发现,从以数学模型计算为中心到海量数据处理为中心。和第一范式、第二范式、第三范式相比,第四范式在业界还未达成一致[3],但近年来大数据领域的蓬勃发展,给第四范式注入了强大活力。第四范式可能成为无线通信领域的工作范式:基于大数定理及概率设计大规模天线无线通信系统、基于大数据设计通信网络是这方面的范例[11-12,23-25]。
图3 移动通信领域中最常用的人工智能/机器学习方法
从控制论的角度来说,可重构、可编程无线环境的概念被延伸提出,图4展示了无线网络与智能无线网络的区别[26]。具体来说,香农把通信系统抽象为转移概率(即Pr{y|x});维纳从控制论的角度,系统模型仍然是给定的,但输出要反馈到输入(如信道状态从接收机反馈给发射机,以便于信道识别的波束成型、链路自适应等);在智能无线环境中,环境对象能够感知系统对无线电波(物理世界)的响应,并将其反馈给输入(数字世界)。基于感知数据,通过软件控制器分别就输入信号和环境对象对无线电波的响应进行联合优化和配置。例如,输入信号是转向一个给定的环境目标,通过适当的优化相移将其反射到接收器。反过来,接收器也被引导朝向输入信号。
图4 无线网络与智能无线网络的区别
目前人工智能在移动通信系统中的研究和应用可以分为3类,具体如下。
1)“改进”类:物理层研究中的去模块化、由传统最优化的资源分配到基于深度学习的资源分配等。
2)“0到1”类:自组织网络或网络运维中的KPI建模、多参数性能模型等。
3)“代替”类:通过神经网络代替多输入多输出(MIMO,multiple input multiple output)最大似然检测以降低复杂性等。
3GPP从Rel.8/9正式引入SON的概念,在未来更是扮演重要角色,其内涵也会更加丰富[27]。传统SON用例如图5所示,具体如下。
1)自配置(self configuration)。基站/网络初始启动时,自动根据环境设置系统重要参数。
2)自优化(self optimization)。在网络运行过程中,根据接收到的系统测量和反馈信息,优化系统。
3)自愈(self healing)。在网络运行过程中,借助系统测量与反馈,自动修复故障。
图5 传统SON范畴用例
和4G系统相比,5G系统具有更加灵活的频谱(包括毫米波)和参数集/时隙结构、大规模多天线及以波束为中心的设计、分层异构的超密集网络、多样化的垂直业务和网络切片的动态管理与编排、网络架构对数据驱动的网络智能的支持等,因此,5G-SON必将有新的内涵和挑战[28]。目前,5G-SON正在从类似于4G-SON的基本用例(尽管实现细节会有不同)着手[29-30],依据紧迫程度,将有节奏地不断完善和拓展新的用例和方案。
SON的核心思想与机器学习理论接近,即通过对未知环境的感知、交互、学习,自动调整系统以适应环境,从而达到最优。不同的场景、不同特性的SON需要不同的机器学习方法[20-21,30],没有“万能钥匙”,比如自优化类中的移动负载平衡,强化学习就是合适的候选技术[32]。
关于是在线学习还是离线学习,有些SON的特征适合用在线学习,比如自优化和闭环SON,需要实时采集用户反馈,进行学习推断,获得新的配置。有些适合用在离线学习,通过对相关的非实时数据进行挖掘来提供指导,自配置就是很好的例子。
随着5G时代的到来,移动通信系统的网络运营/运维面临的挑战将是全方位的,以专家经验为主的运营运维模式同网络的先进性之间,正逐渐形成差距,自动化、智能化的网络运营运维能力将成为5G时代电信网络运营运维的刚需。近年来,基于大数据与机器学习的人工智能,在移动网络运维领域取得了一定成功的实际应用,如射频指纹应用、参数自适应、负荷预测、性能预测、业务预测、无线感知、智能定位等。未来智能的管理和维护是准确理解网络需求,进行最优的网络设计、部署;实时感知网络状况,及时发现和解决问题,提高用户体验;当网络出现故障时,能快速诊断,排除故障。
类比于汽车的自动驾驶的内涵,“网络的自动驾驶”也被提出[17-18],这将更具挑战。目前国际电信联盟已完成了网络智能等级的评价框架[33],3GPP开始着手自治网络等级的概念、需求和解决方案的研究[34],提出了大数据驱动的网络架构。该架构引入了网络数据分析功能(NWDAF,network data analytics function),可以从其他5G功能收集数据,如图6所示[35-37],本文按照业务进行分类,以5G信息管理要求上下文挖掘的应用场景为例分析原因,具体如下。
图6 基于服务化的5G网络架构
1)5G需要“上下文识别”能力支持网络资源利用效率和网络优化。
2)基于网络功能虚拟化(NFV,network function virtualization)的网络功能模块化要求用户面和控制面的动态性。
3)垂直业务要求端到端的性能保障机制。
4)网络切片要求业务部署的动态性,因此要求短的上市时间(TTM,time to market)和业务覆盖需求,这意味着需要完全自动化的闭环机制。
RRM/MAC在移动网络性能管理和提升中起到“大脑”的作用,这种作用非常重要。本文可以基于网络的(小区级)和基于连接的(用户级)进行分类,其分模块或者分层如图7所示。小区间资源管理是优化范围的扩大,比如干扰管理就是考虑小区间的相互影响,从全网最优化的角度,考虑干扰的控制、协调、抑制、利用等。
RRM本质就是一个最优控制问题,如式(1)所示,但影响要素众多,如图8所示。需要说明的是,随着移动通信技术的演进以及场景更加多样化,同样的类别名称下,其内涵及挑战的差别是很大的。传统的方法不足以解决复杂问题,且缺乏适应性。传统RRM通常基于很多假设的简化模型,通过仿真确定算法参数,可能对于场景A为“好”,但对于场景B为“坏”。
图7 RRM/MAC领域总体分类
图8 RRM/MAC领域典型影响因素总结
其中,Ui表示用户i的效用。
RRM有着不同的场景和不同的特性,因此需要不同的机器学习方法。比如强化学习用于功率分配与控制、链路自适应[19,38-39];深度学习用于调度资源分配[40],联邦学习用于分布式场景[41]。另外,许多传统的通信模型,如基于联合空间复用的大规模MIMO模型严重依赖信道状态信息,它们的性能在非线性时变信道下会发生恶化,因此准确获取时变信道的信道状态对系统性能至关重要。通过深度学习技术对无线信道进行预测和重构[42],有可能使通信系统可以学习突变的信道模型,并及时反馈信道状态,进一步提升多天线系统的无线性能。
需要说明的是,无线场景非常复杂多样,不像围棋,棋盘就是全部环境。和传统方法相比,无线场景数据集的收集高成本与算法的高复杂、泛化能力和实时性的高要求、网络KPI要平滑的高压线,取得突破性的应用成果并不多。同时,研究碎片化问题突出,并没有像物理层研究人工智能那样考虑“去模块化”或者说模块间的联合优化,比如控制信道资源和数据信道资源分配尽管时频资源是共享的(如图9所示),但分配机制是独立的,这显然不是最优的[63],其原因是控制信道分配的资源多少和能够支持的调度用户数有关,当然也和用户的位置、受到的干扰大小有关,比如边缘用户信干比较差,为保证控制信道的可靠性,则需要占用更多的控制信道资源,不过这更易导致资源分配间的冲突碰撞而失败。同时,控制信道资源分配得越多,可支持的用户数越多,但数据信道可分配的资源越少,反而降低了可支持的用户数。而数据信道的资源分配又和业务模型及调度优先级有关,因此,研究模块的归一化或者模块间联合最优化的问题非常有意义。
图9 控制信道和数据信道联合资源分配
一个典型的无线通信系统由发射机、无线信道和接收机构成,如图10所示。发射机主要包括信源、信源编码、信道编码、调制、射频发送等模块;接收机包括射频接收、信道估计与信号检测、解调、信道解码、信源解码、信宿等模块。
对于这种基于模块设计的通信体系结构,通信领域的工作者已做了非常多的研究工作来优化每个模块的性能,但是每个模块的性能达到最佳并不意味着整个通信系统的性能达到最佳。一些新的研究表明,端到端优化(即优化整个通信系统)性能优于优化单个模块。智能通信的无线传输研究旨在打破原有的通信模式,获得无线传输性能的大幅提升。由于深度学习在面对结构化信息与海量数据时有巨大优势,因此它可以为实现端到端性能最大化提供了一种强有力的工具[43-48]。基于深度学习的物理层通信技术主要聚焦在信道估计、信号检测、信道状态信息的反馈与重建、信道解码及端到端的通信系统。基于端到端的无线通信系统也被称为自编码器,用编码、信道、解码过程代替原先的无线通信系统结构,编码、信道、解码部分均用深度学习网络实现,是一种全新的无线通信系统实现思路。对于中射频,神经网络被用于功放线性化和数字预失真[49-50]。
图10 移动通信系统物理层典型构成
目前有2种类型的深度学习网络,一种基于数据驱动,另一种基于数据模型双驱动。基于数据驱动的深度学习网络将无线通信系统的多个功能块看作一个未知的黑盒子,利用深度学习网络取而代之,然后依赖大量训练数据完成输入到输出的训练。然而,训练深度学习网络需要大量的标记数据,积累和标记大量信息的过程不但费时而且成本高昂。除了积累标记数据的挑战之外,大多数基于数据驱动的深度学习模型泛化性和自适应性较弱,即使网络部分结构发生微小变化,也会导致训练模型的准确性大大降低。移动通信系统从1G 演进到5G,其性能的提升离不开功能模块的建模,基于数据驱动的深度学习网络摒弃这些已有的无线通信知识,需要海量数据进行训练与学习,而获得的性能往往达不到已有无线通信系统模型的性能。而基于数据模型双驱动的深度学习网络以物理层已有模型为基础,可以显著减少训练或升级所需的信息量。由于已有的模型具有环境自适应性和泛化性,因此数据模型双驱动深度学习网络也具有这些特性,并且能在原模型基础上进一步提升系统的性能。因此数据模型双驱动的深度学习是最具潜力的发展方向之一,如图11所示为训练方法分类[26]。
基于人工智能的物理层技术研究有2个价值方向:提升性能或者降低成本(在性能不变的情况下降低计算复杂度),不过目前许多技术的应用实施尚未处于初期探索阶段,更谈不上商用。使用深度学习解决物理层无线通信问题是一条漫长的道路,而且这条道路上还有许多障碍,比如如何建立通信数据集,如何选取或设计适用于通信场景的神经网络及如何将基于深度学习的通信技术运用于通信设备等。但基于深度学习的物理层无线通信技术研究,也可能给基于传统无线通信的研究、技术优化带来启示。
图12从研究对象的角度给出了移动通信网络系统性能提升的全景。从图12可以看出,一方面,把每个模块的性能做到极致;另一方面,从纵向考虑从中射频到应用层的跨层最优化设计,从横向考虑从小区内到小区间/载波间的最优协同设计。
导致实际网络性能与理想网络性能存在大的差距的主要因素有信息的及时性、信息的确定性、信息的完备性、无法精确求解,因此,人工智能技术就是要克服这些网络性能提升的障碍。在应用人工智能进一步提升移动通信系统性能的算法方案选型、决策技术路线时,需要考虑7个关键度量维度,如图13所示。
1)可扩展性。能应对规模增加(比如更多的数据、更多的特征、更多的层数等)而不无限增加复杂度。
2)收敛可靠性。算法是否限于局部最优或者初始条件严重影响结果。
3)响应时间。算法训练完成后的生效时间。
4)训练时间和数据。算法的训练方式为在线或者离线。对于在线算法,需要有很高实时性,训练时间要短。关于训练数据,除了通常标注与非标注的区分,更重要的是数据的可获得性、粒度、数据量与本节点的存储能力、是否需要相邻节点、传输条件与代价等。
5)复杂度。为了实现期望的结果所需要的数学运算量。
图11 训练方法总结
图12 移动通信网系统性能提升全景
6)精确度。算法和希望的目标之间的偏差极小。
7)收敛时间。算法抵达最优解或者期望的结果所需时间。
图13 人工智能应用时需考虑的关键度量维度
网络越来越复杂,网络实际性能与网络理想性能的差距不断扩大,传统方法在面对复杂问题时无力,但人工智能方法又有其自身的挑战与局限性。如何走出困境?除了从人工智能本身突破之外,另一条思路是从理论上提炼出到底什么特点的领域适合人工智能,什么特点的领域并不适合,人工智能的方法和非人工智能的方法如何最佳结合以逼近性能界。
本文创造性地提出基于性能内环与性能外环的方式,相互协作逼近性能上界。有关性能内环和性能外环的定义和比较如表1所示。由表1可以看出,性能内环的价值越大,则性能外环的价值越小,反之,性能内环的价值越小,则性能外环的价值越大,如图14所示。首先分解并解耦一个问题为性能内环和性能外环两部分,用人工智能的方法重构性能外环部分,然后和性能内环部分协同进行性能的最优化。表1中,TTI+(transmission time interval,传输时间间隔)指的是时间的处理粒度为TTI量级,话统+指的是时间的处理粒度为通常话务统计的量级。
以链路自适应为例,目前研究中常采用满灌包(fullbuffer)的业务模型或者隐含了满灌包的业务模型的假设,这是有问题的。由于业务具有多样性,有的业务在线时间很短(对于5G的大带宽场景,业务的在线时间更短),有的业务在线时间较长。例如,以即时通信类业务为代表的小包持续性突发(burst)实时在线业务,该业务包含频繁的文本、图像信息和周期性的ping,这导致无线网络在连接和空闲状态间进行频繁的切换,而每当退出一次网络,之前的用户上下文信息全无。对于在线时间短的业务,闭环反馈还没有使链路自适应收敛就结束了,所以初值的选择就显得更加重要。因此,采用图8所示的相关指标作为输入基于神经网络对初始值进行训练,作为性能外环,训练方式可离线也可在线。而性能内环在性能外环的基础上,为基于确认(ACK/NACK,acknowledgement/not-acknowledgement)反馈的闭环自适应算法,比如众所周知的外环链路自适应(OLLA,outer loop link adaptation)算法或者基于吞吐量最优化的其他算法,这样既提升了性能,又降低了神经网络泛化能力带来的网络KPI风险(因为性能内环的“纠偏”)。
表1 性能内环与性能外环比较说明
图14 性能内环与性能外环的关系
就像前文所提到的,尽管人工智能在移动网络运维领域取得了一定成功,但人工智能在如何提升无线通信系统性能方面的商业用例还很少。由前面的分析及基于人工智能的特点,本文着力探索了人工智能在一个问题的性能外环部分的应用,然后和该问题的性能内环部分进行最佳协同。下面的用例也说明了基于性能外环理念的有效性。
1)基于AI的大规模MIMO模式(massive MIMO pattern)自适应[14]。
2)基于AI的智能载波汇聚(CA,carrier aggregation),改善用户体验[14]。
电信网络和IT网络最大的不同之一是,电信网络有着严格的KPI,所以人工智能应用到无线网络系统性能提升最大的挑战是:1)如何“稳”“准”“快”;2)如何由“概率性正确”尽可能为“确定性正确”。
为了解决上述挑战,除了尽量使人工智能重构的无线资源管理方案本身具有优异的性能外,还必须有基于大数据分析和模拟系统的反馈闭环系统,如图15所示,以使能无线网络的自动化、智能化、智慧化,其中,1)模拟器的构建——模拟系统是实现“稳”“准”“快”的关键路径;2)大数据分析包括“场景聚类”“根因分析”等;3)解决方案集可以是人工智能重构的无线资源管理或者各种场景化的解决方案。
图15 基于大数据分析与模拟系统的反馈闭环系统
上述工作是一个浩大的工程,不仅涉及对移动通信技术和移动网络系统的熟悉理解与深入研究,也有赖于迁移学习(transfer learning)、增量学习(incremental learning)、联邦学习(federated learning)或者说共享学习(shared learning)等机器学习技术的突破,以及这两者之间恰如其分的结合。技术决定架构,反过来架构影响技术。智能化的数据训练是需要样本的,而移动通信网络样本的获取成本是非常高的,尺度越小越是如此,因此,分布式的计算架构至关重要、增量与存量数据的关系至关重要、共性模型和个性模型的关系至关重要等。技术需要和架构迭代研究才能最终收敛。
事实上,有了这样的闭环系统,也就可以放心地实现解决方案精准投放了。
人工智能在提升移动通信系统性能上发挥更大作用,但也面临着突破上的巨大障碍。下面3个问题,可以说是当下面对人工智能到移动通信领域应用前景时最大的困惑与不确定性,具体如下。
1)在当下的传统网络架构下,人工智能在移动通信领域到底能渗透到什么程度,能发展的程度如何。
2)未来的智能无线通信(包括其对应的新的网络架构)会是什么形态。
3)能否实现移动通信网络的“自动驾驶”。
本文对人工智能在移动通信领域的研究与应用现状进行了总结分析,进行了初步的探索与实践,但研究碎片化与实际应用的艰难、理论构建不够、系统架构缺失等情况突出,因此在未来将以全景式视角,在研究的系统化、框架化及跨学科的交叉融合理论构建上进一步的突破创新。