视频压缩显神通，金箍棒也能变成绣花针

2021-01-23 07:26

世界科学 2021年1期

关键词：工具包数据量编码

道路拥堵中……

“缓冲中……”“正在加载……”“正在缓冲，请稍后……”看视频的我们最闹心的就是看到如此字样，莫名卡顿。

看到不停转动的“小宇宙”，不知正在读文章的你们是否已经抓狂。

这时不可避免地就要唠叨上几句：“网速太慢了！”“太卡了！”

那么“网速慢”“卡顿”表象之下，有哪些深层次的原因呢？

除了宽带、手机质量及内存之外，追溯到源头，视频太大导致传输过程的“堵车”是脱不了干系的。

我们需要知道一个前提条件，视频数据不能直接传输而必须依据特定的协议被封装入数据包中。视频信号中包含很多的信息量，并且受到网络带宽的限制，在处理和传输视频内容的时候，需要对视频进行压缩编码来节省传输中所需的带宽与存储空间，才可以在网络上传输或者在磁盘上存储。举个例子，一个普通的电影信息量很大，如果不经过压缩直接使用原始数据，就会占用几十G甚至几百G的空间，这些数据如果是从互联网上下载的话，下载时间长得不可接受，经过压缩编码之后，可能也就变成了1G～2G大小。

简而言之，对视频进行压缩编码就是为了减小视频占用的容量。数字视频实质上就是一帧帧连续的图像，虽然一帧图像的大小并不大，但它们累计起来就会占据非常大的空间，我们没有那么多的地方存储原始数据，那么只有一条路可以走，对它进行压缩。

视频的编码过程就是这个压缩过程。某种程度上，压缩编码技术就决定着这个视频的压缩情况。形象点说，视频数据如同一个快递，数据压缩成的“包裹”越小，因为携带方便轻快，在带宽一定的条件下，可以随身携带的“小包裹”就越多，传输的数据量越大，传输速率越快。相反，数据未被压缩或者压缩率不高，就很容易出现前文中提到的“缓冲”“加载”的情况。

随着移动互联网的发展，手机、平板等移动终端的使用人数和频率越来越多。各类视频传播方式如视频直播、体育赛事转播、视频会议及视频聊天等让人眼花缭乱，人们对视频质量的清晰度、流畅度、实时度的要求也越来越高。

而与此相矛盾的是，数据“存不下”、视频大得“传不动、声画质量不佳”等资源道路拥堵成为视频业务发展的重要瓶颈。据不完全统计，移动视频产生的数据量极其巨大，每两年就会增长一倍左右。但视频压缩率（指压缩后的数据量与压缩前的数据量之比）却跟不上移动视频数据量的增长速度，十年才增长一倍。

去冗余是长期研究热点

视频压缩的实质就是去除冗余信息。

那么何为冗余信息呢？

视频信号里面有大量冗余，这些冗余数据往往具有高相关性，占用大量不必要的空间，给视频网络传输或者介质存储带来巨大浪费。例如，视频描述的是连续的图像集合，前后两幅图像中有大量的图像是一样的，每秒播放的几十帧视频图片变化不大，不变的这些数据就是很明显的冗余。这些冗余完全可以去除。当这些冗余被去除，被占用的大量空间或者带宽就能够被节约或释放。

数据信息可以以如下公式表示：

数据量=信息量+冗余数据量

在保证视觉效果的前提下，通过视频的压缩算法，对原始数据变换、量化、编码，保留信息量，把实际存在的冗余信息去掉，从而减少它的数据量，达到减小占用容量的目的。

视频压缩是不是和我们平时用到的文件压缩是一个概念呢？

非也。目的虽然都是为了压缩所占空间，但是压缩技术是完全不同的，难度也无法相比较。WORDEXCEL照片等文件是单一静态的，而视频是一组有连续运动的数字图像的集合，有图像，有声音、且是动态的，压缩技术的难度明显不在一个量级。

目前，业内解决这一问题的最好方法就是可伸缩视频编码（SVC）。该技术在不同设备和网络环境下，用户可以很方便地只接收解码需要的那部分，无须解码那些不需要的部分，以达到视频快速流畅的体验效果。

其实，可伸缩视频编码的概念的提出已有相当长的历史，而伴随着视频编码技术的发展，相关的传输速率控制技术一直被研究。早期的可伸缩视频编码均没有获得成功，一方面是由于当时的可伸缩编码性能低下，另一方面是当时市场对可伸缩视频没有较高的需求。然而随着网络技术的不断演变以及可视化需求的不断提升，新的视频编码标准和网络传输技术一直是长期的研究热点，也是直至目前信息领域仍在解决的重要问题之一。

特殊“工具包“秒变神器

上海交通大学熊红凯教授从2005年起，就带领团队长期围绕“如何在低码率、低带宽下，提供更高清晰度和流畅度的影像“这一问题展开攻关，并最终提出了新的“可伸缩视频传输编解码技术”——面向移动终端的可视媒体通信及处理关键技术。

如何理解“可伸缩”？这并不是我们肉眼可见的视频画面可以变大变小。可伸缩性是一种对处理传输系统表示能力的度量指标，高可伸缩性代表一种弹性，在系统扩展成长过程中，影像呈现能够保证旺盛的生命力，通过很少的改动就能实现整个多媒体系统处理能力的线性增长，实现高吞吐量、低延迟、高性能。

“可伸缩视频传输编解码技术”通过特定的编码技术，将视频在时间、空间、质量的不同维度上，增强传输数据的弹性，把视频压缩得足够小，以达到更快的传输速率和更高的视频质量。熊红凯团队在原有的可伸缩技术基础上，制作了一个“工具包”，嵌入编码中。这个“工具包”可不容小觑，功能实用且创新。

“工具包”可以根据整体视频时间的长度，优先传输关键数据，不仅大幅提升了视频压缩效率，节省宽带，有效减少了视频卡顿和缓冲时间。在以往，视频需要下载到本地之后方可播放，如果一帧的数据没有传输完，视频就卡住了，特别是当遇到网络不稳定的情况时，视频下载可能就会变得极其缓慢。可伸缩技术采用了比帧更小的单元比特（bit，指信息量），用户就可以一边下载一边收听观看，而不需要等待整个文件下载到自己的机器后才观看。

同时，不同的终端用户对视频的尺寸、帧率和质量的要求也大相径庭，有的用户可以接受用低分辨率换取高传输速度，用标清替代高清已经完全可以满足他的观看需求。“工具包“可以适应不同的带宽条件、终端能力和视频流业务中的质量要求，根据需求输出适合用户的视频质量。数字视频是一组有连续运动的数字图像的集合。当人眼接收到的图像速率达到或超过每秒24帧时，人眼就会感觉接收到的是动态的视频而不是单一的静态图像。因此，该功能的创新让用户有了更多的选择，是追求画质，还是追求倍速，随意切换。这一突破较国际H.264 标准获得平均0.8 dB 的PSNR（Peak Signal to Noise Ratio，即峰值信噪比，是一种评鉴画质的客观标准）提升，较最新的视频压缩标准HEVC国际标准平均节约3.16%比特率。

另一大创新就是，在网络动态环境下，“工具包”可以对资源再分配，减少数据 “丢包”。丢包，顾名思义，在通信中是指通信数据包丢失。数据包丢失会导致视频画面出现马赛克现象、图像模糊、局部变形、图像静止等等，也会导致音频失真、间断甚至中断等。如果发生在视频会议中，可能就会导致幻灯片变形、翻页速度减慢、会议中断、增加调试与等待，严重降低了视频会议的质量和效益。

在以往的视频传输中，网络只会确定一条路由器上的路线，一旦路由器“开小差”丢了数据，视频就会缺损。而“工具包”增强了“鲁棒性”（鲁棒性，可以理解为健壮性，在发生故障时仍能保持稳定），为数据传输拓展了新的路径，多了一条备选路径，重新分配带宽、缓存、时延。一旦原规划传输路径出现异常，网络高速发生了拥堵，视频数据就可以自动选取最优路线，以保证传输的速率达到最高。相较代表性的分布式优化算法能降低50%的收敛时间。同时，团队在国际互联网标准化组织IETF建立P2P流媒体工作组，完成3项国际标准制定。

除了探索压缩视频信息的编解码技术，熊红凯团队也将信息识别的编解码技术纳入项目。一份完整的视频信息，由视频、音频和辅助信息组成。辅助信息是指那些为了帮助人们更好理解视频信息的字幕、解说框、弹幕等信息，并可以实现与观影者互动。这项技术可以先从视频编码的目标位置上识别出指定的符号，再将符号信息进行编码存放进视频的辅助信息。

例如，可以识别出视频里某偶像所穿的服装颜色、品牌，并在播放时显示出品牌名称，甚至购买链接。同时，通过丰富的数据库，辅助信息中不仅可以编入表演者的服装颜色、品牌这些简单的信息，还可以在没有表演者的场景图像中直接生成带人物的图像。与国际主流方法（如微软研究院、加州大学等研发的技术）相比，这项技术的语义提取精度及语义编码效率分别提升10%以上。这也是在国际上首次提出的针对目标位置语义信息的编码技术，能够节约10%以上的编码率。

在移动终端可视媒体通信及处理关键技术上，熊红凯团队解开了一个个难题，也取得一个个突破。经中国移动现网测试，应用本项目成果的可视电话体验通话视频帧率提升到60%，音视频同步延迟减少30%，视频掉帧率减少30%，视频文件缓冲时间缩短50%，大幅改善了移动可视媒体通信与处理的效率和体验。

数十位国内外院士和国际权威学者引用并肯定上述成果，并评价“提出的可伸缩视频传输技术，突破了现有方法性能局限”。同时，部分项目成果已进入目前最广泛普及的国际视频压缩标准H.264/MPEG-4 AVC，打破了核心技术长期受制于发达国家专利和标准的垄断格局。

该技术在智能手机可视电话、在线视频直播、智能前端监控等领域应用推广，大幅度提高了移动视频的编解码与传输效率。通过产学研合作，相关关键技术成果还集成、应用在上海航天技术基础研究所的航天高速摄像视频分析和处理、上海市公安局的智能前端监控系统和大尺度人群目标分析检测，均得到充分肯定。项目应用推广三年后，就实现销售额16.98亿元，利润 0.8 亿元，利税 0.63 亿元，创收外汇0.35亿美元。

深度学习，探索人工智能方向

视频压缩没有最小，只有更小。

在目前普及的国际视频压缩标准H.264和正在推广的H.265中，视频压缩技术的重点方向是进一步去冗余，即利用编程算法将视频数据中的关键信息更加精准识别并更快传输。

但去冗余的方法本身还是以牺牲图像质量为代价。如果不问质量，一味压缩，虽然压缩比很高，但压缩后严重失真，显然达不到要求；反之，如只讲质量，压缩比太小，也不符合要求。因此，在研究中的国际视频压缩标准H.266走向了人工智能的方向，结合深度学习，探索在去冗余的基础上还原并提升视频画质。

熊红凯教授带领的项目团队未来也计划朝这个方向前行，目标是只需要极低的bit就可以生成视频影像。

据透露，新的研究将从源头理解信号，根据学习网络（数据库）中的信息，结合深度学习，通过图像生成的方式补偿图像画质。未来我们看到的大部分影像，也许就不是镜头拍摄采集到的，而是来自系统通过编码生成，真实和虚拟的界限将更加模糊。