(南京邮电大学,江苏 南京,210003)
随着多媒体通信技术的不断发展,互联网视频业务方兴未艾,其全球产业总值超过数千亿美元,用户总量达到数十亿。在YouTube中,每分钟有300 h的视频被上传,其总产值超过750亿美元;优酷视频覆盖的多屏终端总量达到5.8亿多,日播放量达到11.8亿次;腾讯视频日均活跃用户达到1.37亿。网络视频业务的迅速发展以及视频用户的快速增加[1],加速了视频服务商从关注服务质量(QoS)到重视用户体验质量(QoE)的转变[2]。
传统对视频流媒体业务质量的评估局限于对QoS的评估。实际上,QoS只能反映网络层面的服务质量,比如丢包率、带宽、时延、抖动等,并不能全面地反映用户真实的需求和体验。如何面向用户体验更有效地评估端到端的视频业务质量成为近些年来迫切需要解决的问题。而用户QoE是从用户主观感知出发,来直接衡量用户对服务的认可程度。在如今的网络视频领域,视频服务商更是遵从“用户体验至上”的原则来发展各自的视频业务。例如,爱奇艺公司坚持“悦享品质”的公司理念,以“用户体验”为生命;全球互联网巨头Netflix公司通过取消视频广告等措施提高用户QoE。由此可见,“用户体验至上”已经成为网络视频业务发展中的必然趋势。
在网络视频业务中,从用户角度来看,人们关心的指标主要有:视频质量的清晰度、界面交互的友好便利性、视频播放的流畅度。而从视频服务商的角度来看,用户关心的3个指标对应于:网络流量的平均速率、网络视频的缓冲时间以及视频的码率波动。其中,平均速率越大,缓冲时间越短,码率波动越小,用户的QoE越好;但是,由于网络带宽、资源有限等原因,就现有的技术而言,想同时保持高速率视频传输、短时间的视频缓冲以及低码率的波动是非常困难的。这3个指标相互牵制,无法同时实现最优的处理。如何在复杂网络环境和大数据背景下实现视频流的自适应是目前急需解决的一个难点。
另一方面,用户们观看视频兴趣的种类“众口难调”。例如,对于清晰度和流畅度这2个很难同时权衡的指标,喜欢体育运动的用户更加关注的是直播比赛的流畅程度,而观影用户更注重的是影片的清晰度;因此,在多媒体大数据通信的背景下,如何根据用户的不同喜好权衡不同指标的重要度和实现用户个性化QoE的建模也是目前提升用户QoE的一个难点。
中国的网络视频行业规模非常大,2018年1—8月互联网企业业务收入同比增长20.7%,中国规模以上互联网和相关服务企业完成业务收入5 955亿元。短视频发展迅猛,且将持续保持增长。庞大的用户规模使网络视频产业得到蓬勃发展,同时用户需求成为网络视频行业的发展标准,网络视频业务已经步入大数据时代[3]。关于大数据,IBM公司指出大数据具有如下“5V”特点:
(1)大量(Volume),即数据量大,包括采集、存储和计算的量都非常大。大数据的起始计量单位可以达到PB、EB甚至ZB。
(2)价值(Value),海量数据中,数据价值密度比较低,换言之,具有价值的数据非常少。
(3)多样(Variety),即种类和来源多样化,包括结构化、半结构化和非结构化数据,多类型的数据对数据的处理有更高的要求。
(4)高速(Velocity),数据增长速度快,处理速度快,实时性要求高。
(5)真实(Veracity),主要指数据的准确性和可信赖度,即数据的质量。
从大数据的特征来看,如何从海量数据中挖掘出少量有用的信息是处理大数据的关键;而人工智能的出现,则是与大数据的完美结合。如图1所示,人工智能技术能够用传统人类无法处理的方式来分析、挖掘大数据所包含的有价值信息。
图1 大数据与人工智能框架
人工智能是指研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术以及应用系统的一门新的技术科学,是由人工制造出来的系统所表现的智能。2006年,Hinton教授提出“深度学习”神经网络使得人工智能性能获得突破性进展,进而促使人工智能产业又一次进入快速发展阶段。数据量的丰富程度决定了是否有充足数据对神经网络进行训练,进而使人工智能系统经过深度学习训练后达到强人工智能水平;因此,能否有足够多的数据对人工神经网络进行深度训练和提升算法有效性是人工智能能否达到类人或超人水平的决定因素之一。
随着移动互联网的爆发,数据量呈现出指数级的增长,大数据的积累为人工智能提供了基础支撑[4]。同时受益于计算机技术在数据采集、存储、计算等环节的突破,人工智能已从简单的算法+数据库发展演化到了机器学习+深度理解的状态;因此,当人工智能遇到大数据,二者之间可望实现完美结合。
计算机处理能力的不断提高以及云存储领域的最新发展促使许多行业(多媒体通信领域也不例外)正在探索如何更好地利用人工智能。人工智能在多媒体大数据领域的应用主要分为以下3类:
(1)网络设备的智能运维或故障检测。在多媒体大数据通信的背景下,如何从海量数据中挖掘出设备故障的位置信息和原因信息,是一直困扰运营商和设备商的难题。人工智能技术可以:对网络告警和故障征兆进行预处理,通过建立类似人类大脑认知的过程模型,借助高性能硬件和强大软件平台,对数据进行关联分析,从而能够提升准确率和处理效率;针对海量告警数据和复杂网络结构,自动选择最优方法和最优技术完成一系列告警操作,并通过不断学习提升告警处理速度和效果,保障和管理好整个通信网络。
(2)网络优化。网络优化主要包括流量优化、能耗优化、无线网络覆盖和容量优化3个方面。通过在软件定义网络(SDN)控制器上引入人工智能技术,实现网络流量的智能优化。针对无线网络环境下调节参数难的问题,通过引入机器学习算法,分析当前网络状态与覆盖和容量之间的关系模型,再对网络进行分析,指导调整无线参数配置。
(3)智能安全。人工智能技术支持下的网络安全有着坚强的后盾,把人工智能和网络安全管理紧密结合,能够很大程度地提高网络的安全性能。例如人工智能垃圾邮件检查、智能防火墙安全技术、入侵检测和异常检测等。
视频业务中的QoE反映的是用户观看视频整个过程中的主观感受,其中网络服务质量、用户的个性化喜好等因素都会影响到用户QoE;因此,视频业务中用户的QoE评价是一个复杂的系统性工程。当前,视频业务QoE的预测和提升仍面临着诸多挑战,具体而言,可以包含以下3个方面:
(1)预测困难。视频业务中的QoE预测需要精准的当前网络流量作为重要参考指标,而网络流量预测需要综合考虑多种因素,往往很难做到精准预测。
(2)通用性差。现有的方法通常针对特定的网络环境和特定的应用场景设计,不具有一般性,通用性差。
(3)目标单一。现有的方法优化目标单一,通常只针对速率的优化,未考虑影响用户QoE的一系列其他因素,而QoE又是一个多种因素相互作用的综合指标。
人工智能技术的出现,使大数据背景下的用户QoE提升变成了可能:针对预测困难的问题,深度神经网络在足够多的网络数据中可以获得更为精准的网络流量预测精度;根据用户的行为、喜好,制定个性化QoE模型,并将用户的主观感受及时反馈给正在训练的神经网络模型[5-6],达到实时更新的目的,解决了通用性差、情景单一的问题;深度神经网络的多特征输入(如带宽、速率、吞吐量等)可以有效地提高网络模型预测的准确度,同时自适应地优化各输入特征,从而解决了优化目标单一的问题。
在网络视频业务中,通过人工智能学习来提升QoE,其主要训练流程如图2所示。将网络参数作为多维特征输入到深度神经网络模型中,在训练过程中,模型根据不同用户的个性化QoE将其主观感受及时反馈到深度神经网络当中,实时地更新网络的输入,从而做到用户个性化QoE的提升。
在多媒体通信的大数据时代里,网络视频用户数量呈现爆炸式增长。对每个用户都制定个性化的QoE模型,并根据模型中的用户主观感受反馈给深度神经网络的训练是不现实的;但是,将具有相似视频观看行为或兴趣的用户分为有限的类别,并对每一类的用户进行个性化的QoE建模是可以实现的。人工智能技术的出现,让大规模用户的分类以及个性化QoE建模的准确度得到了保障。
图2 人工智能下的体验质量提升方案
表1 各视频网站的用户的观看行为记录
用户在某一时段的观看行为(如暂停视频、拖拽进度条、更换节目等)反映着用户在特定时段对该视频节目质量的满意度。通过对用户行为信息进行深度挖掘,寻找到具有相似行为的用户,并将其归为一类,最终对每一类用户进行QoE建模,从而建立个性化的QoE模型。在网络视频业务中,常见的视频网站所提供的视频参数以及用户行为如表1所示。用户行为通常可以分为显性行为和隐性行为。其中,显性用户行为主要是指用户对视频节目的评价,如对视频进行打分或者评价;隐性用户行为是指不能直接看出用户对视频内容的主观评价,而是通过用户的一些行为表现分析用户对视频质量的满意程度,如观看视频内容的时间长短、次数、以及清晰度的调整等。对隐性用户行为进行无感知挖掘是近几年用户行为分析的趋势,具有很大的挖掘潜力。
基于用户行为分析的QoE个性化模型如图3所示。运用大数据处理技术分析不同用户对同一个或同一类视频的行为特征,找出其共性所在,将对这一类视频节目具有相同观影行为的用户归为一类。例如,把体育节目经常有“切换至高清”“一直在观看”的用户归类到喜欢体育运动的人群当中。不同类别之间,寻找各个类别中的个性特征。例如不同类别之间可能喜欢的视频种类不同。利用相同类别中的共性特征来达到同一类QoE模型的普适性,同样,利用不同类别之间的个性特征来实现不同类别QoE模型的个性化。通过用户行为分析得出的“共性+个性”特征来得到不同类别的QoE个性化模型。
目前更多的QoE个性化模型是基于用户行为进行分析的。通过对用户行为分析进行兴趣挖掘,进而推荐合适的视频节目来提升用户的QoE。针对用户QoE主观性强、量化难的问题,我们提出用客观指标来表示用户的主观感受,即通过用户观看某个视频的时长占视频总时长的比例来描述用户对该视频的主观感受[7]。其次,相比于传统的主题模型如隐含狄利克雷函数分布(LDA),我们对用户所观看的视频节目进行兴趣挖掘,将每位用户的兴趣通过概率分布的方式给出,并结合用户的兴趣分布与视频观看比等重要客观性指标实现用户个性化QoE主观模型的建立[8]。具体来说,将用户视频观看比非常低的节目视为不感兴趣的节目并随之进行清洗;将处于一定阈值[9]内的视频节目视为用户潜在感兴趣的节目,推测出未来用户的兴趣分布情况;将用户视频观看比较大的相关节目再进行主题模型的建模,使建模得出的用户现有的兴趣更加准确。这样可以有效地过滤掉大量无用数据,使用户QoE个性化模型更加准确。同时,用户未来的可能兴趣分布也将得到一定的估计和预测。
视频参数的多维度输入经常会给机器学习模型带来“维度灾难”,直接导致模型运行时间变长、承载海量用户数据难等问题。深度神经网络的出现和计算能力的提高使这一系列难题得到了解决。充分多的维度特征输入和海量充足的训练数据使得深度神经网络的训练更加完备,从而避免陷入模型过拟合当中。
如果说深度神经网络的训练在大数据和多维度输入的背景下带来模型泛化能力提高,那么QoE个性化模型则作为对神经网络模型的一种实时“反馈”。通过对当前训练模型的“奖励”或“惩罚”,可以达到用户QoE的最大化。这正是强化学习(RL)的核心思想。强化学习不同于一般的机器学习方法中的监督学习和无监督学习,它是在尝试的过程中学习在特定的情境下选择哪种行动可以得到最大的回报。
图3 基于用户分类的个性化体验质量模型
图4 基于深度神经网络的流媒体码率自适应模型
以视频流媒体的码率自适应技术为例,如今视频用户对不同类型节目的清晰度和流畅程度的要求不尽相同,视频服务商希望根据用户对不同视频节目的喜好或者满意度来自适应地调整视频码率(标清、高清、超清、蓝光)。深度学习网络和强化学习机制很好地实现了不同用户QoE的最大化,具体模型训练如图4所示。多维度的视频参数作为输入特征对多层神经网络进行训练,模型的输出对应于不同用户对视频码率的需求。在强化学习过程中,用来描述用户主观感受的用户个性化QoE被作为奖励信号实时反馈到码率自适应算法模型中。神经网络模型根据每位用户的个性化QoE模型(即个性化需求)来自适应调整码率,使其选择令用户最满意的码率,最终达到用户QoE最佳的目的。需要特别注意的是,在网络训练的过程中,网络模型利用上一时刻用户行为以及网络状态参数为用户所观看节目的码率做出一个初始的决策;用户在观看节目后,将自己当前的主观感受反馈给正在训练的深层网络;网络模型根据当前时刻的反馈来调整当前的码率决策,很好地达到了每一时刻用户QoE的最大化。这正是码率调整实现“自适应”的关键所在。
人工智能技术的迅速发展为众多行业的发展带来机遇以及契机,多媒体通信领域也不例外。其中,网络视频业务发展更加迅猛,用户的增长也使得网络服务商更加注重用户QoE。深度神经网络的成熟发展和计算能力的增强有效地解决了数据量大、多维度输入造成模型训练时间长的问题。基于增强学习用户个性化行为分析的“反馈”机制大大提升了每一类用户的QoE预测的准确度,从而实现每个用户QoE的最大化。当然,在人工智能技术背景下,用户QoE提升仍然有许多问题需要解决,比如:
(1)数据采集时对用户隐私安全的保护。目前对用户的数据收集通常未考虑到用户是否允许服务商采集这些数据,而越来越多的用户注重隐私的保护;因此,如何做到无感知的数据采集也是目前数据采集的难点所在。
(2)隐性用户行为分析有更大的挖掘空间。用户对视频的满意度评价大多是由用户对视频观测行为表现出来,而通过用户行为去界定用户对视频的满意度需要考量更多的因素,如用户心情、所在位置、所使用终端等。
(3)人工智能需要“高效”的学习方式。尽管计算能力的增强为深度学习带来迅速的发展,但是如何在有限的资源里“高效”完成学习仍是目前优化的关键。
本文得到南京邮电大学通信与信息工程学院周亮教授团队中胡正莹、陈铭子2位在读硕士生的帮助,谨致谢意!