ROI技术在移动多媒体交互中的研究与应用

2014-10-17 17:49陈小平

电脑知识与技术 2014年26期

陈小平

摘要：随着移动互联网的发展和智能设备的普及，人与人之间的沟通更加多元化，而多媒体交互更是受到人们追捧，成为移动网络下沟通交流的首选方式。而多媒体交互的关键在于视频编码和传输两个方面且相互制约：高质量视频需要更大传输带宽，而移动互联网带宽有限，因此解决质量和带宽矛盾问题是移动互联网环境下多媒体交互的关键。该文跟进实际应用场景，提出基于人脸作为ROI区域编码，能在不影响视频主观质量的情况下，有效降低传输码率，从而提供更加流畅的多媒体交互体验。

关键词：移动互联网；多媒体交互；感兴趣区域（ROI）

中图分类号：TP311 文献标识码：A 文章编号：1009-3044（2014）26-6197-03

随着移动互联网及智能设备的快速发展和普及，基于移动网络环境的多媒体实时交互需求也日益强烈，多媒体应用环境也变得越来越复杂和多样化。移动智能设备的快速发展，为多媒体应用在移动设备上的发展普及提供了良好的基础，尤其是随着双核、4核、8核以及64位处理器的发展与推广，基于移动智能设备的多媒体应用受限于设备处理性能的门槛越来越低。

虽然随着3G网络的普及、4G网络的来临，目前的移动互联网带宽相对与过去2G网络时代，有了明显的提升，但是相对与传统的互联网，其传输速率及稳定性都还有很大差异，以及移动终端的多样性也给无线网络传输带来许多不确定因素。

因此，基于移动互联网的多媒体应用，不仅要考虑多媒体数据本身质量、码率等因素，同时也需要针对移动网络特性进行优化，有效处理多媒体质量、码率以及网络带宽之间的相互制约关系。

感兴趣区域（ROI，Region Of Interest）则是图像观察者注意力最集中的一部分图像区域，也即是图像质量主观评判的决定区域。因此，在编码控制时，如果将主要码流更多的分配到ROI区域，使得ROI区域质量明显提高，而非ROI区域质量则有所下降，但图像的总体主观质量评价则能够有效提高。因此，ROI技术的应用能够有效解决图像质量和网络带宽之间的矛盾，使得在网络带宽较低或则不稳定状态下，也能够获得较好的视频通讯质量。

1 基于移动互联网的多媒体交互系统

1）音视频处理模块：音视频处理模块主要负责音视频的采集、编码、显示，以及视频数据的ROI检测、动态质量控制等。

2）网络传输处理模块：网络传输模块负责终端间信令及多媒体数据传输，以及动态检测网络发送及接受速率，并将网络状态返回给音视频处理模块。音视频处理模块根据当前网络状态，动态调整编码参数，使得输出码率与网络传输速率匹配，保证多媒体数据质量及传输实时性。

2 基于感兴趣区域（ROI）的检测

人们在进行多媒体交互时，往往只对视频中的某一个区域感兴趣，并希望这一部分区域有较高的主观质量，而对于其他部分则不太关注，只需满足一般视觉要求即可。因此，对视频中ROI部分采用高质量编码以获得较高视频质量，而对于非ROI区域，则采用量化步长较大的压缩比编码，这就是ROI编码技术。ROI编码技术能使视频在相同的主观质量评价下，有效降低视频输出码率。因此在基于移动互联网的多媒体交互应用中，ROI编码技术则显的尤为重要。

2.1 ROI区域检测与分割

ROI区域的检测与提取，从本质上讲属于图像分割问题，目前ROI检测与分割主要有以下几种方式。

2.1.1 基于先验特征的ROI分割

该方法首先确定视频ROI区域具有的特征向量，然后对视频中的每一子区域，计算选定特征的特征向量，然后按照一定的标准评价特征相似度，从而确定哪些子区域属于ROI。在实时视频ROI检测中，一般会根据编码器所支持的宏块大小来指定特征区域分开大小，如H.264/AVC支持16*16的宏编码，则一般将特征区域大小设置为16*16。在参考文献[1]中，对分块图像利用分块图像的像素方差座位特征来确定ROI。而参考文献[2]中，则利用颜色和轮廓特征对图像中的ROI（即车牌区域）进行识别。

2.1.2 基于Snake模型的ROI分割

Snake模型分割方法最早由KASS在1987年提出。他的基本思想是用以构成具有一定形状的控制点为初始轮廓线，这条曲线在内部力、外部力和约束里的作用下，主动向感兴趣的目标区域附近轮廓边界移动，通过求解轮廓曲线能量函数的极小化，来完成对图像分割[3]。

2.1.3基于帧差法的ROI分割

帧差法是比较常用的运动目标检测方法，其基本原理就是利用视频序列相邻帧之间采用基于像素的时间差分阀值来提取ROI区域[4]。首先，将相邻两帧视频对应像素值相减得到差值，然后设定一个阀值T来判断这个像素点是属于运动区还是属于背景区域，如果对应像素值变换小于预先设定的阀值T时，则认为该像素属于背景区域，反之则可以认为该像素属于前景区域。该算法实现简单，能够应用于各种环境，不足指出是对环境较为敏感，并且阀值设定也非常关键。

2.1.4 基于背景模型的ROI分割

背景模型法是一种有效的运动目标ROI检测算法，其基本思想是通过建立并不停更新背景模型，从而得到一副背景视频帧，并将当前视频帧与建立的背景帧做像素差值，并设定一个阀值T，提取差值超过阀值T的区域作为ROI区域。

2.2 基于ROI编码策略

ROI分割的目的即为分离视频帧中的有效区域，从而在编码过程中为这些区域分配更多的码流，而对于非ROI区域则适当降低码流，进而在相同的码率下得到较高主观视觉效果的视频。一般ROI编码策略有两种[5]：

1）调整量化参数值：该策略在编码过程中，对于ROI区域使用低因子，而非ROI区域则使用高量化因子，从而使得ROI区域具有较高的质量。为此，人们提出了两种名为MBT和JBA压缩策略。MBT策略对非ROI区域采用最大化的量化因子，ROI区域的量化因子则通过剩余比特数进行计算。JBA则是对MBT的一种改进，在非ROI区域和ROI区域之间进行比特分配时，考虑了区域面积、运动等因素，使得比特分配更加合理，非ROI区域和ROI区域间过度更加柔和。

2）调整码率控制：这种方法根据限定的码率，按照某一比例将比特率分配给ROI和非ROI区域，并且针对ROI和非ROI区域使用不同的码率控制模型：针对非ROI区域，采用TMN8码率控制算法为每一宏块计算量化因子，而对于ROI区域，则采用高码率失真模型建模，利用拉格朗日数值进行优化，计算每个宏块的量化因子[6]。

3 基于H.264/AVC的ROI编码在移动多媒体中的实现

3.3 ROI区域检测策略

根据移动交互视频应用的特点，人们在视频聊天的过程中，最关注的必然是对方的面部情况，因此，我们将人脸部分作为我们编码的ROI区域。同时，人们在进行视频通话的过程中，一般不会有剧烈的移动，也就是不会有大动态画面；因此没有必要每一个视频帧都进行ROI区域检测，而是每隔时间窗t后强制检测一次，而在这个时间窗t内，则可以使用更为简单的算法进行辅组检测ROI区域是否有发生改变。因此我们在强制检测时，利用OpenCV中的正面人脸定位，确定人面部位，继而确定人面部位占据的宏块范围；而在辅组检测时，则通过简单的肤色检测算法检测ROI区域是否发生改变，如果发生改变则重新使用OpenCV进行人脸部位置的检测，具体实现如下：

4 结束语

在基于移动互联网的多媒体应用中，移动网络的带宽限制即传输不稳定性，一定程度上制约了该类应用的发展与推广。RIO技术在移动互联网有限的带宽环境下，能够提供较高的多媒体视觉效果。同时，在进行视频编码时，我们也可以采用可扩展编码（SVC：Scalable Video Coding）和ROI相结合的方式，将ROI区域放到基础层编码，而非ROI区域则放到增强层编码，并在网络带宽有限的情况下只发送基础层，而在网络带宽允许时，则同时发送增强层，这样就能够更加有效的适配移动网络情况，并获取更好的视频视觉效果。

参考文献：

[1] 许可，师忠超，漆进.一种面向感兴趣区域的之分图像分割方法[J].计算机应用，2004，24（SI）：149-151.

[2]尹显东，姚军，李在铭.基于BP神经网络的图像感兴趣区域自动检测技术[J].系统工程与电子技术，2006，28（2）：192-195.

[3] 李庆，杨峻峰，江汉红，等.基于Snake模型的图像分割技术[J].武汉理工大学学报，2006，28（11）.

[4] 汪洋，李强.基于ROI的可伸缩视频编码技术研究[D].重庆邮电大学，2011.

[5] 周磊，罗三定.视频通信中ROI四横批压缩算法的研究与应用[D].中南大学，2011.

[6] 李子印，朱善安，刘丽芳.支持ROI优先编码策略的自适应码率控制算法[J].光电工程，2006，33（4）：105-110.