利用异质蜂窝网络大数据跨层优化无线资源

2018-02-18 23:32杨晨阳韩圣千李荣鹏易芝玲

信号处理 2018年12期

杨晨阳韩圣千李荣鹏易芝玲

(1. 北京航空航天大学, 北京 100191; 2. 浙江大学, 浙江杭州 310027; 3. 中国移动研究院,北京 100053)

1 引言

为了支持爆炸性增长的业务需求,第五代移动通信的主流发展趋势是网络密集化、频谱宽带化和进一步提高网络频谱效率。然而,美国联邦通信委员会的研究表明,蜂窝网络中大量基站在每天的大量时间内资源并未得到充分利用。中国某运营商对已部署的第四代移动通信网络所进行的测量结果表明,无线资源块的平均利用率低于15%。造成这种困境的一个原因是业务在时间和空间上的动态变化;另一个原因则是现有网络是在保守理念下设计的。这样的设计理念源于用户使用网络资源的行为是随机、不可预测的假设,因此面向峰值负载进行设计。在电信网中所承载的电话和视频会议等实时(Real-time, RT)业务的内容确实是随机的。然而,现有和未来无线网络中主要承载的是视频点播和文件下载等非实时(Non-real-time, NRT)业务,这些业务的内容可预知、可缓存。

无线业务的时空变化来自用户行为的时变,因此预测用户行为可以减少业务的不确定性。尽管用户行为具有很强的随机性,但由于日常作息习惯和人类本身的计划性,已有不同学科的大数据分析结果表明用户行为具有很强的规律性,这意味着与用户行为相关的信息可预测。根据2010年“科学”杂志的报导,人类运动模式的可预测性竟高达93%[1]！

在蜂窝网络的核心网、基站、或移动终端可以观测和采集到大量的业务和信令数据,例如网络的业务流量、用户的历史请求、平均接收信号强度、位置时间序列(即移动轨迹)等。利用蜂窝网络中的流量大数据,可以在空时两维预测无线业务流量[2- 4]。利用用户的位置大数据,可以预测用户的移动模式甚至移动轨迹[5- 6]。利用用户对不同内容发出请求的大数据,可以预测内容流行度和用户对内容的偏好[7-9]。实际上,对用户的需求、移动性和网络流量进行预测一直是智能推荐、城市交通和无线网络等不同学科的共同研究主题,在电子商务、交通出行、位置感知服务、网络规划等不同领域中已进行了大量的研究。

近几年来,通过利用应用级、网络级和用户级的无线大数据预测用户群体行为来提升无线网络的性能已经引起工业界和学术界的广泛关注。例如,利用网络流量预测可以通过关闭基站来降低基站的能量消耗[10],利用移动性预测可以提升用户越区切换的性能[11]。然而,移动通信网络中的数据类型纷杂,来自不同协议层甚至辅助设备的数据由于数据采集成本与存储容量的限制具有不同的采样分辨率(粒度),不同种类的数据由于源于用户不同类型的行为而具有不同的时变尺度。例如,用户对内容的偏好可能在年或月的时间尺度发生变化,内容流行度一般在月、周、天级时变,网络流量在小时级时变、车辆用户的位置可能在秒级发生变化,而物理层的传输资源分配则需要适应毫秒级时变的无线衰落信道。能否利用这些不同种类、不同采样粒度、不同时间尺度的异质无线大数据对传输和缓存等网络资源进行跨层优化从而提升无线接入网络性能？如果能,如何利用？需要预测哪些信息、需要预测到什么程度？哪些信息是可预测的？

早期源于计算机领域、近期已引入无线通信网络的无线边缘缓存[12-25]与预测资源分配[26-32]是利用不同类型无线大数据提升无线网络性能的两个典型范例。在摩尔率的推动下,缓存已被视为除功率、带宽和天线等传输资源以外的网络资源。利用预测的用户需求等行为信息,可以采用主动和/或预测的方式对缓存和无线传输资源进行分配。

所谓的“主动式”(Proactive),是指通过预测用户对内容的请求在用户对业务发起请求之前为其提供服务;而所谓的“预测式”(Predictive或Anticipatory),则是指在用户对业务发起请求之后根据预测的用户数据率或平均信道增益等网络级和用户级信息来提前服务用户。在文献中,这两个概念有时会互换使用,其边界比较模糊。前者通常用于无线边缘缓存,后者则常用于利用用户移动性对无线传输资源进行预先分配。实际上,通过预测群体和个体用户的需求、移动性等信息,无线网络的设计范式可以从传统的反应式/非预测式转变为主动式/预测式[12-32]。利用基站或用户终端等无线边缘节点的缓存和计算能力,主动式/预测式网络可以选择适当的时间和地点进行传输,为即将到来的业务预留资源或提前服务,从而进行时空两维负载均衡、大范围地利用蜂窝网络的闲置资源、避免网络忙时产生拥塞。初步研究表明,通过准确预测内容流行度,在基站端进行主动缓存相对于有线边缘缓存和无缓存系统可以分别带来200%和900%的频谱效率增益、以及200%和500%的能量效率增益[18]。通过预测移动用户在未来一到三分钟内的平均数据率或平均信道增益与网络资源使用状态,预测资源分配相对于现有非预测资源分配可提升100%～300%的网络吞吐量[31-32]或降低15%～25%的基站能耗[29]。

本文尝试部分地回答如何利用异质无线大数据提升无线接入网络性能的几个基本问题。本文后续章节安排如下:第2节介绍主动式/预测式无线资源管理所需预测的信息;第3节介绍两种在文献中独立提出但相互补充的基于行为信息预测能力的无线资源管理技术:主动边缘缓存和预测资源分配;第4节给出若干开放性问题;最后在第5节对全文进行总结。

2 主动/预测无线资源管理所需预测的信息

无线边缘的缓存与传输资源分配所需预测的信息包括(但不限于)内容流行度、用户偏好、网络流量和用户轨迹。内容流行度和用户偏好刻画了用户需求,分别反映特定区域内所有用户的群体请求行为和单个用户的个体请求行为。两者都属于应用级信息,对于优化主动边缘缓存至关重要。业务流量是一种网络级信息,可以反映某一时段内某个区域的网络资源使用状况。用户轨迹是一种用户级信息,可用于推算在移动轨迹上的平均信道增益等信息。通过预测网络流量和用户轨迹,可以进一步推测用户未来的平均数据率或可用传输资源,这在预测资源分配的优化中具有重要作用。尽管在不同的领域提出了不少预测这些信息的方法,但现有的预测方法能否用于无线边缘缓存和预测资源分配仍然有待研究。

2.1 内容流行度预测

内容流行度已被广泛用于主动无线边缘缓存,它反映了特定区域中所有用户的平均喜好[19,25],通常被定义为在一个节点(例如内容服务器、无线服务网关或基站)的覆盖区域内所有用户对一个文件库中每个文件的请求次数/频率或请求概率[7,12-20]。

流行度预测问题已经在不同的领域进行了广泛深入的研究(参见[7]和其中的参考文献)。流行度预测方法从早期单纯基于历史信息的单变量、多变量回归以及自回归滑动平均等时间序列模型的预测方法,发展到基于演变模式的方法。例如,基于传染病模型来研究流行度演变机理的方法,在描述用户的反应时间(即从听到信息到发出请求的等待时间)及信息在社会网络中的传播过程(如口口相传)的基础上,根据外界因素与网络级联效应的强弱,对流行度随时间变化的关系进行分类和预测。

大数据分析结果表明,在特定区域对特定内容的请求往往会集中发生在一段时间,而在这段时间之外很少、甚至几乎无人发出请求,从而导致了文件具有一定的生命周期。同时,新内容的产生具有很强的随机性,新内容的不断到达使流行度预测存在冷启动问题。流行度的这种时空动态特性对服务器端被动缓存性能的影响已引起业界的关注。为了描述内容流行度的动态特性,文献[33]提出了一种内容级的业务模型——散粒噪声模型(Shot Noise Model,SNM),并通过实测数据验证了该模型的有效性。SNM模型不同于在无线边缘缓存中广泛使用的独立参考模型(Independent Reference Model, IRM)[12-15,17-18,20],考虑了时变文件库和各文件的生命周期,反映了流行度的时空局部性;而后者则假设静态、固定的文件库和平稳的流行度分布,认为全局流行度等于局部流行度、长期流行度等于短期流行度。

内容请求的时空局部性可以提高最近最少使用(Least Recently Used,LRU)等被动缓存策略的缓存命中率[33]。但是,被动缓存策略通常在缓存空间相对于文件库大小比较大的时候才能达到较高的命中率[16]。当在无线边缘(例如基站、甚至用户端)进行内容缓存时,由于边缘节点的缓存空间很小,能否准确预测流行度进行主动缓存对于缓存增益的大小至关重要。

为了解决用户请求数据中固有的冷启动问题,一些工作提出了利用跨领域信息来预测流行度的方法[7]。除了在内容服务器和无线边缘缓存都存在的冷启动问题,后者还存在一些特殊问题。由于接入基站的用户群体往往与在内容服务器或无线服务网关所服务的用户群体非常不同,在设计无线边缘缓存策略时应当预测局域流行度。然而,考虑到接入各小区的用户群体动态变化、且用户在缓存更新周期(如一天、半天、甚至几个小时)内在一个小区内发出请求的次数有限[16],预测小区级、小时级的局域、短期流行度非常具有挑战性。

2.2用户偏好预测

用户偏好反映了每个用户的个人兴趣,未必与内容流行度相同。用户偏好可用于计算给定区域的局部流行度[13,17],也可直接用于优化缓存策略[19,21-22,24-25]。用户偏好预测是推荐系统设计的核心任务之一,是大数据分析的典范应用。在有关推荐问题的文献中,用户偏好通常被定义为用户对每个内容的两级(即喜欢不喜欢)或多级(如5级或10级)评分[8];在无线边缘缓存的文献中,用户喜好通常被定义为用户请求某个文件的概率[13,19,21-22,24-25]。

在解决推荐问题的文献中已经提出了多种信息过滤方法来预测用户偏好,例如基于内容的过滤和协同过滤(Collaborative Filtering, CF)[8]。协同过滤是推荐问题中最主流的技术之一,可进一步分为基于模型、基于记忆的方法以及混合方法。20世纪80年代,协同过滤方法的基本思想出现,利用相似用户的观点过滤用户感兴趣的信息。1999年,协同过滤被实际应用于电子商务领域。早期的协同过滤常被建模为矩阵补全(Matrix completion)问题,核心的数据是用户-文件打分矩阵。自从2006年Netflix提供百万实际用户的打分数据举行推荐算法设计大赛后,推荐问题也常被称为Netflix问题。协同过滤主要用于预测用户对内容的评分,利用聚类、分类、回归、奇异值分解和深度学习等多种机器学习算法[8-9],使用稀疏的用户评分矩阵来对未评分的内容进行预测。不过,采用显式反馈(即用户评分)并非预测用户偏好的唯一方法。相比之下,诸如用户的网页浏览和下载行为之类的隐反馈信息更易获得、更可靠且无需用户参与。特别是针对无线边缘缓存,在无线网络中可能记录用户的历史请求行为,但难以得到用户对内容的评分。为了利用用户喜好预测直接优化无线边缘缓存策略,文献[19]利用用户的隐反馈数据提出了基于概率潜在语义分析模型预测各个用户请求特定内容的概率的方法。

然而,迄今为止,由于在推荐问题中众所周知的“冷启动”和“数据稀疏性”问题,仍然很难准确预测用户偏好。此外,用户对什么内容发出请求往往依赖于时间、地点、情绪以及是否有其他人在场,因此需要基于情境信息对用户喜好进行预测[8]。最后,用户请求一个内容可能并不表示用户确实喜欢这个内容,而用户不请求某个内容可能是由于用户不喜欢、也可能是因为用户并不知道这个内容。这意味着向用户推荐其可能喜欢的内容,可以通过引导用户需求降低用户发出请求的不确定性[27]。

基于对YouTube数据进行分析,已有研究结果表明口口相传并非信息传播的唯一机制,视频网站上的推荐列表是引发大量用户请求的主要因素,可见用户请求内容的行为会受到推荐的影响,因此用户偏好预测与内容推荐有复杂的耦合关系[34]。

2.3 网络流量预测

业务流量预测对蜂窝网络优化有重要的作用和指导意义。宏观的预测曾预见移动互联网将在未来10年内有1000倍业务流量的增长,已成为下一代蜂窝网络架构和算法设计的重要支柱。另一方面,每日、每小时或甚至分钟级的微观、细观流量预测不仅有助于网络优化、基站节能和网络异常检测,还可能进一步对用户接入、传输资源分配以预测的方式进行优化[4,29]。基于分钟级的细观流量预测,可以得到网络未来的平均资源利用状态[32]。根据准确预测的业务流量,无线接入系统可以根据实际的业务需求以分钟级、秒级的时间尺度来动态配置传输资源,从而通过跨层优化有效提高网络资源使用效率[29,32]。

文献[2]研究了蜂窝网络中基于电路交换的语音和短信服务以及基于分组交换的数据服务的微观流量可预测性。研究结果表明,语音和短信服务具有很强的可预测性,但是对于数据服务的预测性能并不令人满意。实际上,蜂窝网络中的移动数据应用(如即时消息、网络浏览、视频点播)与有线网络中的数据应用明显不同。与后者相比,蜂窝网络对无线资源的严格约束、昂贵的计费策略以及用户的移动性导致了用户使用无线网络的行为与有线网络非常不同,因此需要重新研究蜂窝网络中的流量可预测性和预测方法。

现有的微观流量预测方法不能满足预测资源分配的要求。首先,大多数工作关注所有业务的流量预测,而很少单独考虑特定业务类型的流量预测[3]。其次,现有的预测方法通常沿用有线宽带网络的分析结果,如常常使用自相似性来预测未来流量,这些方法是否适用于移动网络尚待验证。还有,已有的蜂窝网络流量预测往往基于小时级采样粒度的数据[2- 4],而预测资源分配则往往需要分钟级采样粒度的细观流量预测[32]。

2.4 用户轨迹预测

现有文献对移动模式的分析表明,人类沿着特定路径移动的可预测性很高[1]。然而,文献[1]中的移动性预测是指根据粗粒度的位置数据(如采样周期为一小时)对用户未来所处地点的预测,所采用的性能指标是正确预测用户下一个位置的平均概率。这种预测对于一些基于位置信息的应用(例如广告投放)非常有用,但是所预测的时空粒度不能满足预测资源分配的要求。大部分预测资源分配方法需要根据秒级采样粒度的数据预测用户在未来几分钟的时间窗内每秒所在的位置[26-31]。

作为移动轨迹预测的基础,用户位置可以通过智能手机中的全球定位系统(Global positioning system,GPS)进行上报,或通过部署的传感器、WiFi或蜂窝通信系统进行估计。基于对用户运动轨迹的GPS数据,已有文献对用户从起点到终点的移动路径、用户将访问的地点、到达时间以及将停留多长时间等进行了研究,提出了很多算法。文献[5]和[35]根据用户的习惯、实时运动方向及所在位置,预测未来半小时内用户到达的目的地和移动路径。由于绝大多数针对移动性预测的现有研究面向基于位置感知的应用或移动性管理,因此所考虑的时空采样粒度对于预测资源分配而言过于粗糙。尽管已有部分面向自动驾驶应用的文献开始基于毫秒级采样粒度的数据预测运动轨迹[6],但只能预测未来几秒内车辆的轨迹,这样的预测窗长度难以使预测资源分配相对于现有非预测方法有明显的性能增益。

利用预测的用户轨迹和信道地图(也称射频信号地图),即在不同位置处的平均信道增益[36-37],可以获得用户未来的平均信道增益(包含路径损耗和阴影衰落)。信道地图可以由路测来构建,但是成本很高[37];还可以利用移动终端设备中的GPS和上报的接收信号强度,以众包的方式来测量并逐步构建地图。由于移动终端的GPS和路测结果都只能为整个区域提供稀疏的离散采样数据,因此有必要采用矩阵补全等技术来构建信号强度地图。除此之外,平均信道增益也可以通过在线学习来获得,例如文献[38]中提出的基于核函数的自适应算法。

3 基于行为预测的主动/预测无线资源管理

利用与用户行为相关的预测信息,可以采用主动和/或预测的方式对缓存和传输资源以进行管理。

3.1 主动无线边缘缓存

尽管对在网存储的研究可以追溯到20世纪60年代,但在无线边缘进行缓存的研究自2012年才开始出现[12]。在基站或用户等边缘节点缓存流行内容的原始动机是通过降低端到端延迟来改善用户的服务质量(Quality of Service, QoS)和降低小微基站回传链路的成本[12-13],现在已被用于提升无线接入网络的性能,如通过缓解回传、或空口传输的拥塞来提升网络吞吐量、通过用缓存设备替换回程链路来提高接入网络能效[14-15,18-25,40]。通过在微基站上配备缓存并采用信令和数据分离机制,可以在网络中灵活地部署一种无需回传链路的极简数据小基站,在网络闲时提前把流行内容通过空口下载到小基站,使之在网络忙时服务用户[12]。

现有绝大部分文献都假设已知内容流行度[12,14-15,18,20,40],所优化的缓存策略达到的性能可以视为基于流行度预测进行缓存可达性能的上限。这一假设对于生命周期较长的内容是合理的[33],此时可以采用IRM进行建模。基于已知的流行度分布,现有工作研究了如何在基站端缓存、如何在缓存辅助终端直传系统中的用户端缓存,通过优化缓存策略使分流增益或吞吐量最大或者使平均下载时延最小。文献[23]考虑了文件的冷启动问题,利用文件的内容特征先对流行度进行预测再进行边缘缓存。

现有工作一般不区分内容流行度与用户偏好间的差异[12-18,20,23,40],其潜在的假设是在一个区域或社交群体中所有用户具有相同的偏好、且与流行度相同。然而,对实测数据集的分析表明,用户偏好的平均余弦相似度在0.04到0.8之间,其中对视频文件的喜好相似度较低,如对于MovieLens 1M数据集用户的平均相似度为0.4、对优酷数据集的平均相似度则为0.28[24-25]。这种隐含的假设忽略了现实社会中用户的差异性,因此会降低缓存命中率和用户体验[24-25]。

利用用户偏好可以直接优化基站端或在缓存辅助终端直传系统中优化在用户端的缓存策略[19,21-22,24-25]。文献[25]的研究结果表明,在用户并非在全网的所有小区均匀发出请求、用户喜好的相似性不高的条件下,基于用户喜好优化缓存策略时基站缓存所带来的增益明显高于基于全局或局部流行度优化的缓存策略。根据实测数据集的分析表明[24-25,39],实际的用户行为的确满足上述条件。

如果假设系统在优化缓存策略时能够预测出所有用户在内容传输阶段所处的具体位置,则可以优化确定性缓存策略[12,21]。为了回避这个很强的假设,已有文献在优化缓存策略时假设用户发出请求时的位置均匀分布[20]。然而,文献[39]基于实测数据的分析表明,80%的用户仅在4个以下的地点对视频文件发起请求。这意味着认为用户发起请求时位置服从泊松点过程的假设并不符合实际情况。

3.2 预测资源分配

预测资源分配利用未来的平均数据率或移动轨迹等信息,在面向实时业务和非实时业务时的服务机制和对预测信息时空尺度和粒度方面的要求都非常不同[28]。

对于实时业务,预测式无线接入机制可以提高用户的接入级服务质量,如降低掉线率。由于实时业务有较高的服务优先级,且其信息比特由每个用户随机产生,因此利用行为信息预测的主要机制是预留一部分资源给实时业务,预测粒度通常在小区级别[11]。通过预测移动用户接入的下一个或几个小区和越区切换时间,采用动态资源预留和接入控制可以提高服务质量。

对于非实时业务,预测未来信息不仅可以提高用户的接入级和数据包级QoS,还可以提高无线接入网络的性能[26,28-32]。这是因为,随着智能手机存储卡容量的增长,对于诸如视频点播等典型的非实时业务,可以把用户所请求的视频文件(或视频片段)提前缓存在手机端,同时由于视频片段的播放时间往往比移动用户大尺度信道的时变周期长,可以在用户处于良好的信道条件[26,28]或网络状态[29,31-32]时对视频(片段)进行预先缓冲,从而在不影响用户体验的前提下提升网络能效或吞吐量。

若能预测未来一个时间窗内的瞬时数据率,则可以在保证用户QoS的前提下最小化所需的传输资源,也可以改善QoS[26]。但是,由于瞬时数据率依赖于瞬时信道信息,而瞬时信道仅在信道相干时间内可预测,因此更合理的假设是已知未来数据率的统计信息,例如平均数据率或数据率的分布[35]。考虑到预测不可避免地存在误差,文献[30]假设了一个数据率预测误差模型,针对视频点播业务采用了一种鲁棒优化方法进行预测资源分配。

大多数面向非实时业务的现有预测资源分配[26-27,30-31]依赖于预测非实时用户的平均可达数据率,且假设平均数据率的动态变化仅来自大尺度信道变化。然而,在实际系统中,基站在服务实时业务之后的剩余资源会随着接入的实时用户数而改变,非实时用户的平均数据率还与未来的实时业务流量有关。现有文献大多忽视了这一现象。此外,大多数现有策略在获取预测信息后即为移动用户计划好未来以多少传输资源预先传输数据,如在未来1分钟的时间窗内每秒给某个用户以多大的平均功率、带宽或时隙个数等资源进行传输[26-27,30-31]。然而,网络流量、用户轨迹和瞬时信道增益等信息的可预测或估计的时间尺度与粒度差异很大,所以需要多时间尺度的跨层资源优化。

4 技术挑战和未来研究方向

考虑到人类行为固有的随机性、对于用户行为的难以建模、以及庞大的用户和内容数量,预测与用户行为相关的信息非常具有挑战性。尽管现有文献已经对如何预测行为信息和如何利用行为信息预测开展了不少研究工作,但是大都基于对行为信息本身或对行为信息预测进行很强的假设。要实现主动边缘缓存和预测资源分配所带来的性能增益,还有大量的开放问题需要解决。

4.1 弥合所需信息和可预测信息尺度与粒度的差距

由于面向不同的应用,现有文献所提出的信息预测方法往往基于时、空、群体采样粒度较粗的数据,预测窗长与所预测信息的时间粒度往往不能用于主动边缘缓存或预测资源分配。例如,文献[2]可以预测第二天每小时和未来五分钟后的流量,但是不少预测资源分配所需要的预测粒度为秒级、预测窗为分钟级[26, 28-32]。

由于用于预测用户行为的数据来源差异很大,可能来自于网络的不同层甚至附加设备(如GPS),且信息预测还需要大量存储和计算资源,因此解决行为信息预测问题并不容易。此外,不同信息的可预测性(即达到给定的预测误差时能预测多远)和预测机制不同。一些信息可以在较短的预测时间窗内达到较高的预测精度,例如用户位置和移动速度;另一些信息则可能只能预测统计信息,例如内容流行度、用户偏好和网络流量。

为弥合这种差距,需要研究这些信息在给定数据采样与预测粒度时的可预测性。另一方面,我们还需要思考一个关键问题:主动/预测资源管理到底需要以什么粒度预测多远？例如,对于预测资源分配,真的需要以每秒这样精细的粒度来预测未来分钟级时间窗内的信息吗？为此,需要分析采用更长预测窗能带来多大增益、较粗的预测粒度和较大的预测误差会导致多大损失,以及如何基于粗粒度的预测进行传输。文献[32]提出了一个针对非实时业务的分级、多时间尺度的预测资源分配策略,只需粗略的预测信息,并进一步设计了一个直接根据蜂窝网中可测量的、不同类型的历史数据进行知识预测的方法,与已知理想精细预测信息的最优策略相比性能损失很小。尽管这是在预测资源分配的文献中首次利用机器学习进行端到端知识预测,但研究结果还很初步。

4.2 转化可预测信息为所需信息

可预测的信息有可能并不能直接应用于资源分配的优化,而优化资源管理所需的信息未必具有可预测性。这时,需要把可预测的信息“翻译”为主动/预测资源管理所需要的信息。

例如,大多数预测资源分配方法都假设可以预测平均数据率[26-27,30-31],但这并不意味着可以在未来较大的时间范围(如几分钟)内对精细粒度(如每秒)的平均数据率进行预测。文献[31]基于以200毫秒为采样周期通过分析上下行信令得到的调制编码方式的数据,利用时间序列模型预测了未来1分钟时间窗内每秒的平均数据率,预测的误差导致了预测资源分配性能有很大的下降。为了得到未来的平均数据率,现有文献首先将未来的用户位置与信道地图相结合以获得平均信道增益,然后在假设未来可用带宽已知的前提下计算平均数据率。

然而,预测资源分配所需的未来信息未必是平均数据率。例如,以降低能耗为目标的预测资源分配所需的信息是剩余带宽的概率分布[29],可以通过预测实时业务的流量、基于排队论来推断。

另一个例子是无线边缘缓存策略优化。大多数主动边缘缓存策略假设一个小区内的局部流行度可预测。然而,在基站端只能观测到数据包而非请求的内容,目前只有在移动核心网才能解析出用户请求的内容是什么[17]。因此,文献[13]提出先预测用户偏好和每个用户发起请求的位置、再根据预测的用户偏好和位置来合成局部流行度。但是,局部流行度取决于用户群体,用户群体与接入的用户有关,而用户接入与缓存的内容、进一步与缓存策略有关。这意味着[13]中方法并非最优。针对这个问题的一个思路,是在核心网直接根据预测的用户喜好和用户在不同小区发出请求的概率对无线边缘的缓存策略进行优化[24-25]。

将可预测信息转化为无线网络资源管理所需信息的方式强烈依赖于优化目标和待分配的资源类型,在这方面的研究还非常初步。

4.3 应对预测的不确定性

许多因素会导致上述信息预测得不理想,例如人类行为本身的不确定性、一些行为信息的复杂时变特性、预测算法、以及用于预测的计算资源受限。基于不准确、甚至错误的预测信息进行主动或预测资源管理不仅会浪费网络资源、难以保证QoS、甚至还可能抵消使用剩余资源所带来的增益。

考虑到各种信息预测的不确定性,有必要研究鲁棒的资源管理策略。一种可能的解决方案是采用鲁棒优化,例如依概率保证QoS[30]。进行鲁棒优化必须面对的核心挑战是需要对信息预测的不确定性(如预测误差)进行建模。然而,目前面向主动边缘缓存和预测资源分配研究行为信息预测的文献很少[23,32],更谈不上对预测不确定性进行建模。例如,迄今为止,尚未有任何文献对[30]所需的在未来1分钟的预测窗内每秒的平均数据率预测误差进行建模。另一种可能的解决方案是设计鲁棒策略,如文献[32]提出的双门限预测资源分配算法,所能达到的吞吐量增益对于高达相对误差为三倍的信道门限预测误差依然不敏感。又如,现有工作用预测误差来描述对流行度预测的不确定性,即用户对某内容请求数(概率)的预测值与实际值之间的差异。但是,这种反映预测不确定性的指标仅适用于文件库固定的情况。考虑到由于新文件到达、老文件很少再有人请求所导致的动态文件库,预测误差不再是合理的度量,这是因为新到达的文件可能由于“冷启动”问题而无法预测。因此,至今尚未有任何文献对主动缓存策略进行鲁棒优化。

4.4 降低样本和计算复杂度

在现有针对预测资源分配的研究中,大部分工作都假设网络中只有一类移动用户请求实时或非实时服务,并根据用户未来的信道变化预留传输资源或提前传输。然而,实际的蜂窝网络需要支持具有各种优先级、不同类型的业务。虽然针对不同类型的业务进行联合资源分配可以最大化资源利用率,但它要求预测所有移动用户的平均数据率或信道增益,将占用极高的计算和存储资源,在实际场景下难以实现。幸运的是,实际系统中大部分请求非实时业务的用户都不是移动性用户。如果可以预测这些非实时用户所在小区的业务流量(小区内实时业务用户的随机请求会导致业务流量动态变化),那么就可以通过对非实时业务用户进行预先资源分配来有效利用小区的剩余资源。这将大大减少需要处理和存储的数据量。

为了协助预测资源分配,需要研究在多个时间尺度上可预测信息的有效利用方式,然而这可能导致系统难以承受的复杂度。为了平衡性能和复杂度,需要研究对多时间尺度资源分配进行解耦设计所导致的性能损失。

考虑到用户请求行为的差异性和局部性,基于用户偏好进行主动边缘缓存与基于流行度的边缘缓存相比可以达到更好的网络性能和用户体验[19,21-22,24-25]。然而,考虑到网络中存在海量的内容和用户,即使考虑了用户活跃度的2- 8率(即少量活跃用户发出的请求占所有请求数的绝大部分)[24-25,39],预测每个用户对每个文件的偏好复杂度很高[24]。如何在性能增益和计算与训练样本复杂度之间进行折中还是急需解决的问题。

5 总结

基于理想用户行为信息预测的研究结果表明,主动边缘缓存和预测资源分配在提高无线资源利用率、降低部署和运营成本和改善用户体验等方面具有很高的潜力。本文介绍了在蜂窝网络中利用不同类型的无线大数据预测不同类型的行为信息跨层优化缓存和无线传输资源的最新进展,总结了通过大数据可以预测的行为信息,从预测范围和粒度两个方面分析了现有文献得到的预测信息与主动/预测资源管理所需信息之间的差距。最后,指出了在理论与技术方面的挑战和未来可能的研究方向。

尽管在假设行为信息已知的前提下对主动边缘缓存和预测资源分配已经开展了不少研究工作,但是为了将这两种在理论上可以远超山农极限的技术付诸实践,还存在大量的科学问题和技术挑战,需要数据挖掘、机器学习、无线通信和行为科学等多学科领域研究人员的密切合作。