鲁棒视频水印研究进展

2022-01-26 13:09王翌妃周杨铭钱振兴李晟张新鹏

中国图象图形学报 2022年1期

王翌妃，周杨铭，钱振兴，李晟，张新鹏

复旦大学计算机科学技术学院，上海 200082

0 引言

目前，数字视频在通信世界中被认为是一种重要而有效的媒体，广泛应用于新闻、短视频和有线网络广播视频节目中(Ayubi等，2021)。随着互联网的发展和视频处理工具的不断进步，侵权者可以更快速容易地下载、篡改、复制以及非法分发视频，这使得数字盗版越发泛滥。为了保护和声明视频的所有权，人们提出了多种解决方法，数字视频水印是其中一种重要的技术手段(Asikuzzaman和Pickering，2018)。数字视频水印是指将秘密消息以不可见的形式嵌入在视频中的一种信息隐藏技术(Pexaras等，2019)。

从应用场景上来看，视频水印主要用于视频版权保护。无论是全球媒体公司还是自由摄影师，都有对视频进行版权保护的需求(李智和陈孝威，2010)。在视频内容被转发以及通过互联网传播时，版权保护应用会将水印隐藏在视频内容中，隐藏的水印可以被检测器检测出来，从而确定视频内容的唯一所属身份。除了版权保护，视频水印也可以应用在内容保护、内容认证、内容过滤、广播监控、在线查找等方面。在内容保护方面，通过在数字媒体上嵌入水印来阻止未经授权的内容使用和在线数字分发。在内容认证方面，取证应用将接收者身份嵌入到视频副本中，当发现或怀疑泄漏时，从泄漏副本中检索到的取证水印可提供证据。在内容过滤方面，数字水印可用于阻止特定内容，在提取水印并识别特定内容片段后，可阻止该内容播放。在广播监控方面，通过在制作或广播时在视频内容中嵌入数字水印，允许内容所有者精确地识别内容何时何地广播以及持续多长时间(刘丽等，2014)。在线查找方面，使用互联网搜索服务不断在网络上爬取含水印的内容并采取相应的行动。

数字视频水印算法根据不同的分类标准有不同的划分方式，如图1所示，可根据水印属性进行分类，也可根据载体对象分类。

图1 视频水印分类Fig.1 Classification of video watermarking

水印的主要属性有嵌入容量、可察觉性和鲁棒性，可依据这些属性进行种类划分。根据是否存在嵌入容量，即是否修改载体数据以嵌入水印，可将视频水印分为零水印和非零水印。零水印是提取视频本身的一些特征为水印，对原始载体不做任何修改，对载体的质量没有影响。为了使水印具有可验证性，零水印通常需将提取的特征注册后交由第三方保管。非零水印是将多比特长的水印信息嵌入视频中，这不可避免的会造成视频比特流增加、视频质量降低，且水印易受到各类攻击的影响。根据可察觉性可将视频水印分为可见水印与不可见水印。如果作者将水印放在视频的非核心部分，水印则很容易通过裁剪、遮挡等手段被移除，因此是脆弱的。不可见水印是将隐藏的信息以不可见的方式嵌入宿主视频中，更加安全。据鲁棒性的强弱，可将视频水印划分为鲁棒视频水印、半脆弱视频水印以及脆弱视频水印。对于鲁棒视频水印，含水印视频在经历有意或无意的攻击后仍能正确提取水印，适用于版权保护。脆弱视频水印和半脆弱视频水印通常作为认证水印，即利用嵌入在宿主视频中的水印来检查视频内容的真实性(付剑晶和陈德人，2018)。脆弱视频水印的鲁棒性是所有级别中最弱的，这意味着可以很容易地删除嵌入的信息。半脆弱数字水印可以确保水印信号不会被轻易地改变(曾骁等，2010)，对无意的信号处理攻击具有较强的鲁棒性，同时对篡改攻击具有脆弱性，能够容忍常见的数据操作，并可以识别恶意篡改。

载体视频的格式主要有2D视频、3D视频和虚拟现实(VR)视频，其中2D视频是目前视频的主流格式，应用最为广泛。2D视频水印又可基于嵌入方法和提取方法进一步分类，其中基于嵌入方法可分为基于内容的视频水印和基于码流的视频水印，具体内容将在第2节详细介绍。根据水印的提取方法可以分为非盲提取、盲检测和半盲提取。非盲提取是一种利用原始视频信息在接收端与含水印视频进行比对以提取水印的方法，但原始视频并不容易获得，且所需要的数据库储存过大，增加了实现的复杂性和成本。解决这一问题的方法是采用盲检测，可在接收端不使用水印的原始信息来提取水印，更加适合实际应用。半盲提取是指提取时虽不需要庞大的原始视频数据，但需要原始水印信息或其他额外的数据用于提取，是一种折中方案。

对于一个水印系统而言，其嵌入容量、保真度和鲁棒性3个属性的参数之间存在着复杂的权衡关系，如图2所示(Mareen等，2019)。嵌入容量即视频中嵌入信息的长度，嵌入信息的比特越多表明嵌入容量越大。保真度是指嵌入水印后的视频与原始视频的接近程度，嵌入水印的过程必然会引起视频失真，如果这种失真对人类观察者来说是无法察觉的，就称其具有高保真度。鲁棒性是指水印具有抵抗攻击的能力，即含水印视频即使受到攻击，仍然能够从中提取出嵌入的水印。对于某一确定的水印算法，如果需要良好的保真度，就需要避免对视频内容进行过多的修改。这样一来，嵌入容量就会减少，同时也会导致算法的鲁棒性降低。如果水印需要具有良好的鲁棒性，可增大嵌入的强度，但会降低水印的不可感知性；或使用扩频和编码技术嵌入额外冗余信息，这样会造成嵌入容量下降。从理论上讲，设计一种能同时达到这3种最优的水印是不可能的。因此，有必要根据实际情况，实现三者之间的权衡。

图2 视频水印要素之间的关系(Mareen等，2019)Fig.2 The relationship between the elements of video watermarking

根据不同应用的特定要求，设计水印时关注的重点有所不同。例如，版权保护水印设计时重点考虑的要素是鲁棒性，屏幕注释水印设计时重点考虑的要素是嵌入容量，医用水印设计时重点考虑的要素是保真度。其中，用于版权保护的鲁棒视频水印是本文介绍的重点。因此，下面介绍鲁棒视频水印常面临的攻击类型。针对视频水印的攻击可分为信号处理攻击、集合攻击、时间同步攻击以及压缩编码攻击。几何攻击指干扰视频像素的几何同步性，例如裁剪、旋转、缩放等。信号处理攻击包含由传输视频信号引起的噪声、滤波、直方图均衡等。时间同步攻击是指在嵌入端和提取端丢失帧同步的过程，例如帧重复、帧丢失、帧增加、帧交换、帧率转换等。视频在传播和储存过程中，是以压缩码流的格式进行的，对于不同的信道通常还会以不同的强度对视频码流重压缩，因此视频水印需要可以抵抗压缩编码攻击。压缩编码攻击包括对原始含水印视频的压缩和对含水印码流的重压缩两种攻击。

1 经典视频水印方法

视频水印的概念出现在二十世纪九十年代，最早提出的方法是基于LSB(least signficant bit)、基于扩频等空域视频水印方法，该类方法容量较低，对各种视频攻击鲁棒性不好，因此后来发展了能抵抗各种攻击的变换域视频水印。空域方法和变换域方法都是直接在每一帧上执行相同的水印嵌入操作，可统称为基于内容的视频水印方法。随着压缩标准推陈出新，基于码流的视频水印方法也被学者们纷纷提出。

1.1 基于内容的视频水印

基于内容的视频水印是将视频视为一系列图像，并在每一帧上使用水印算法，可以分为基于空域的视频水印和基于变换域的视频水印。基于空域的水印为嵌入水印，一般通过直接修改帧像素的方式(刘瑞祯和谭铁牛，2000)，由于水印不经过任何变换直接嵌入到帧中，方法简单，计算效率高。

基于空域的视频水印经典方法如下。van Schyndel等人(1994)提出基于LSB的数据嵌入方法，将水印序列嵌入到图像重要程度最低的像素中，由于图像在遭受攻击时很容易丢失不重要的像素，故该方案的鲁棒性不好。Bender等人(1996)提出基于patchwork的水印算法，对帧中的随机像素点对的其中一个点的亮度值加1，另一个点的亮度值减1，在维持整体帧亮度值不变的情况下将水印序列嵌入。Cox等人(1997)提出基于扩频的水印方法，通过将水印信号与DCT(discrete cosine transform)幅值最大的前n个系数以一个尺度因子为系数线性相加，再应用逆DCT变换得到加水印帧。由于该方法将水印嵌入在低频系数上，故对几何攻击和信号处理攻击具有鲁棒性。Chen和Wornell(2001)提出基于QIM(quantization index modulation)的水印方法，首先使用水印序列选择量化器，再使用量化器对量化视频帧完成水印嵌入。然而，基于空域的水印的信息隐藏能力相对较低，且对多种视频攻击的鲁棒性很不佳，因此基于变换域的水印受到了更多的关注。

基于变换域的水印在水印嵌入前，先将视频序列中的帧转换为新的域，通过对变换域系数进行修改完成水印嵌入，再对修改后的系数进行反变换，生成含水印视频。目前存在奇异值分解(singular value decomposition，SVD)、离散傅里叶变换(discrete Fourier transform，DFT)、离散小波变换(discrete wavelet transformation，DWT)、离散余弦变换(discrete cosine transform，DCT)、双树复小波变换(dual-tree complex wavelet transform，DT CWT)等多种变化域方法，每种变换域都有其特有的优缺点。例如，DT CWT具有良好的重构能力、近似的移位不变性和良好的方向选择性。DWT具有考虑分辨率和分解层次的数据结构相似性的优点。DCT变换具有无损的、对称的等优点。基于变换域的水印技术相较于空域水印具有很强的鲁棒性，但仍然存在较高的复杂性问题。它们通常可用于版权保护应用，因为它们对非恶意攻击具有较高的鲁棒性。

基于变换域的视频水印经典方法如下。Lin等人(2001)通过对图像进行傅里叶变换，将DFT变换生成的幅值采样为对数极坐标，再沿对数半径轴对这些幅值积分以嵌入水印，该方案能实现对旋转、缩放和平移具有鲁棒性。Liu和Tan(2002)提出基于SVD的水印算法，将水印表示为矩阵并添加到宿主帧矩阵中，对新生成的矩阵执行SVD变换生成新的奇异值矩阵S，将原始U矩阵、原始V矩阵以及新生成的S矩阵相乘获得加水印的帧。由于在视频帧中加入不同程度的干扰后，受攻击帧的奇异值同未受攻击帧的奇异值基本保持一致，故该方案对低通滤波、JPEG(joint photographic experts group)压缩等多种攻击鲁棒。Wang和Pearmain(2006)提出将水印嵌入低频DCT系数中，由于在帧的空间域中降低分辨率与在DCT域中消除高频段大致相似，故该方案对分辨率降低具有鲁棒性。但是低频DCT系数的变化会严重降低水印视频的视觉质量。Lai和Tsai(2010)提出将SVD仅应用于1级DWT的LH和HL子带，而不是整个帧，将水印分成两部分并分别嵌入到LH和HL的奇异值中。最后，使用原始奇异值从这两个子带中提取水印。Asikuzzaman等人(2014)等人提出了3个版本的基于DT CWT的数字视频水印算法，其中第1个和第2个版本使用相同的密钥进行水印嵌入和检测，第3个版本不需要密钥来提取水印。在第1个版本中，水印嵌入和提取是在U通道的第3级DT CWT系数上执行的，对H.264/AVC压缩以及几何攻击具有鲁棒性，但无法抵抗帧率转换和分辨率降低攻击。第2个版本可从任何一级的系数中提取水印，如果解码器需要相同的随机水印生成密钥来提取水印，它仍然容易受到帧速率转换攻击。第3个版本是一种无密钥检测方法，仅使用帧内的信息从帧中提取水印，水印提取不受时间去同步的影响，故对丢帧/插入或帧速率转换鲁棒。

基于内容的水印利用成熟的图像水印技术，尤其是图像变换技术，直接处理视频帧像素嵌入水印，保真度和鲁棒性高，适用于电影版权保护、广播监控等场景。然而，由于基于变换域的视频水印的复杂性高，且无法很好地结合视频编码过程，处理速度较慢，不适用于视频点播等实时应用场景。

1.2 基于码流的视频水印

最早提出的一系列视频水印方法建议先对视频流完全解压缩，再嵌入水印并对水印视频进行编码。这个过程需要大量的处理时间来解压、嵌入和重新压缩视频对象。为了使系统更快速、更实用，建议在压缩过程中嵌入版权信息，即提出了基于码流的视频水印方法，也称为压缩域水印(李淑芝等，2015)。此类方案的实际好处是支持实时视频水印应用，其中嵌入过程与压缩并行运行，例如视频直播、在线点播。在过去的十年里，视频编码标准一直在进步，以提供更好的数据压缩，同时保持高质量的视觉分辨率。压缩域水印嵌入算法在满足鲁棒性和视觉质量的要求时，还需符合视频压缩标准。根据目前常用的不同压缩标准，可将基于码流的视频水印分为MPEG(moving picture experts group)-2视频水印、MPEG- 4视频水印、H.264视频水印和HEVC(high efficiency video coding)视频水印4种类型。

MPEG-2标准广泛应用于数字电视视频中。学者们提出了很多种针对MPEG-2标准的视频水印方法。例如，Biswas等人(2005)提出一种自适应的MPEG-2视频水印方法，通过修改DCT系数直接将空域扩频水印嵌入压缩码流中，并基于局部图像特性自适应调整嵌入强度，可抵抗缩放、旋转、帧平均、滤波等攻击。Wang和Pearmain(2006)将MPEG-2编码中的分块DCT组合为全局DCT，并在低频系数中嵌入水印，使算法对比特率降低、裁剪、去除任意行、下采样和帧删除等攻击具有鲁棒性。

MPEG- 4标准的亮点之一是低带宽，这里的低带宽通常指小于1 Mbit/s比特率。在MPEG-2标准的基础上进一步优化了压缩效果。针对MPEG- 4的视频水印方案有很多。例如，Alattar等人(2003)提出了一种MPEG- 4压缩域视频水印方法，将空域扩频水印嵌入到压缩的MPEG- 4比特流中，并结合了增益控制算法和漂移补偿器，在降低水印对视觉质量影响的情况下，使水印对转码、缩放、旋转和降噪等攻击具有鲁棒性。Barni等人(2005)提出一种面向MPEG- 4对象的视频水印方法，通过调整帧内和帧间宏块之间的DCT系数关系嵌入水印，可抵抗比特率降低的转码和帧删除攻击。

H.264/AVC标准是MPEG- 4的进阶版，融合了能提高视频压缩效率的各种新技术，具有更好的视频质量和更低的码率(张维纬等，2012)，目前广泛应用于高清电视广播、摄像机、视频监控、视频存储等。有很多针对H.264标准的视频水印方案。例如，Noorkami和Mersereau(2007)建立了H.264中4×4 DCT块的人类视觉模型，并基于此模型嵌入水印，在提高容量和鲁棒性的同时限制了视觉失真。但是，该方法不是可读水印，即只可检测出视频含水印，而无法提取具体的可读信息。Mansouri等人(2010)基于压缩比特流的语法元素提出了一种可读的H.264压缩域视频盲水印方案，该方案不需要完全解码压缩的视频流。由于该方法选择在具有高非零变换系数个数的宏块中嵌入水印，因此在提高了水印的鲁棒性的同时没有造成视觉质量的明显降低，且防止了比特率的增加。

H.265/HEVC是针对现有视频储存和传输需求的新压缩标准。与H.264标准相比，它能够以两倍的效率压缩视频，并生成具有相似感知质量的视频。面向H.265标准的视频水印方案也开始被研究。例如，Swati等人(2014)在HEVC编码过程中将水印嵌入量化变换系数的最低有效位中，虽具有较好的比特率保持性及较高的水印负载。

基于码流的视频水印具有更快的计算速度，所需计算资源更少，适用于视频点播、在线分发、即付即看等实时应用。但是，此类方法受到编码器本身的限制，保真度和鲁棒性相对基于内容的视频水印较低，难以满足非法摄录、医用水印应用等要求。

2 2016—2021年研究进展

2.1 基于内容的视频水印

2016—2021年，基于内容的视频水印的研究主要集中于基于变换域的水印方案，研究重点在于设计能对几何攻击、信号处理攻击、时间同步统计等多种视频攻击及综合攻击具有抵抗能力的方案。

Rasti等人(2016)提出一种基于DWT的视频水印方案，对熵值小于某个阈值的非移动部分的块应用两级DWT变换，对所有分解的块的HH子带应用CZT(chirp z-transform)变换以及SVD变换，通过将分解的奇异值与水印图像奇异值线性相加来获得含水印帧的奇异值，最后应用逆SVD、逆CZT以及逆DWT生成水印帧。由于将视频序列也分为移动和非移动部分，提高了水印序列的视觉质量；由于奇异值的稳定性，以及CZT变换具有频谱锐化并且频率分辨率显著提高的优点，提高了该方案的鲁棒性。

Sahu和Sur(2017)提出将视频序列建模为一个长方体，长方体的侧面描述了视频的运动特征，提取水印嵌入前后的侧视图图像的SIFT(scale-invariant feature transform)特征，将其作为水印嵌入视频中，由于 SIFT 特征对分辨率缩放是不变的，因此可以从任何图像分辨率中提取这些特征，对由于时间缩放而导致的帧速率转变以及帧丢失具有鲁棒性，但该方案仅关注时间攻击。

Madine等人(2018)提出一种基于DWT的视频水印方法，嵌入过程是首先对视频应用场景变换并使得每一个GOP(group of pictures)组仅包含一个场景，再将视频帧分块形成包含多个帧块的立方体，对立方体应用2D-DWT变换，依据乘法策略将单个水印位被嵌入到每个立方体的 HH 子带系数中，最后应用逆DWT变换获得含水印视频帧。由于每个水印位都在乘法嵌入规则的帮助下分布在来自不同帧的多个块上，满足了能抵抗H.264压缩、帧删除以及高斯噪声等攻击的鲁棒性要求。

Cedillo等人(2018)提出一种基于QIM的数字视频水印方案，嵌入过程是首先从帧内以及帧间的亮度和色度DCT块中提取亮度、纹理、运动等特征以计算显著图，将显著图用于计算DCT块的JND(just noticeable distortion)阈值，将DCT块的JND阈值作为量化器，使用QIM算法嵌入水印，由于提出的JND模型能够以计算成本低廉的方式计算显著图，并且在运动视频中与观察者的注意力保持一致，从而实现智能调节水印强度，产生具有高视觉质量的更鲁棒的含水印视频序列。

Wagdarikar和Senapati(2019)提出一种基于DWT的视频水印算法，嵌入过程是首先从视频文件中以相等的时间间隔去除关键帧，然后对每一帧进行两级DWT产生8个子带，并对要嵌入的消息应用位平面技术划分为8个二进制图像，每一个子带嵌入一个二进制图像，最后使用Chronological-MS搜索方法选择帧的最佳区域以嵌入水印，该方案对信号处理攻击、几何攻击均具有一定鲁棒性。

Liu等人(2020)提出一种基于DWT-SVD的方法，通过对视频关键帧的小波LH分量的目标系数矩阵进行了SVD变换以嵌入水印，通过测量不同小波系数变化引起的视频帧失真来选定目标系数。由于在不同视频场景的关键帧中嵌入了不同的水印，提高了算法对视频丢帧、平均和交换的能力，由于充分考虑不同小波系数对视频帧失真的影响，因此其不可感知性较好。

Huan等人(2021)提出了一种基于DT CWT视频水印方案，嵌入过程是对视频帧的U通道应用DT CWT以及SVD变换，再根据视频分辨率自适应地修改联合子带的候选系数，最后应用逆SVD和逆DT CWT生成含水印视频。由于该方法研究了不同子带之间的相关性，探索出对攻击更鲁棒的稳定系数。

近年基于内容的视频水印采取变换域方法，提高了水印的鲁棒性，其可抵抗的攻击种类和攻击强度都有所提升。但是，某种特定的变换方法仅可针对一种或几种攻击类型，可兼顾的攻击有限。因此，设计可综合抵抗多种攻击的水印方法是接下来此类水印研究的重点。

2.2 基于码流的视频水印

流行的视频压缩标准主要有H.264和HEVC。相较于H.264，HEVC压缩标准支持高清和超高清视频格式，也实现了实质性的改进，与H.264存在差异，这种差异会对水印方案的性能起着至关重要的作用。因此，无法直接将基于H.264的视频水印算法扩展到HEVC视频。在此情况下，针对HEVC标准的视频水印出现了一系列新的工作。

基于码流的视频水印文献中，Dutta和Gupta(2016)提出一种HEVC编码的视频的鲁棒盲水印方案，通过改变低频非零AC系数的值，将水印嵌入在 HEVC 编码视频的4×4的I帧的候选块中。该方案限制了视频比特率的增加和感知质量的下降，可以承受过滤、压缩和噪声添加，能保持良好的质量和鲁棒性。Buhari等人(2016)将水印嵌入每个4×4帧内预测块内选定区域的最高能量系数中。包含低频系数、中频系数和高频系数的位置即为选定区域。该方案能抵御常见的视频处理攻击。Dutta和Gupta(2017)通过使用随机密钥和时空特性来选择合适的嵌入块，将水印不可见地嵌入P帧的低频非零量化系数中，以使同步误差最小化。同时，该方案能有效限制比特率增加和视觉质量降低，能抵抗重编码和图像处理攻击。Gaj等人(2017)基于HEVC压缩架构提出一种水印方案，该方法可以同时处理帧内和帧间过程的漂移误差传播，具体是通过将4×4纹理块左上的3×3残差块进行DST(discrete sine transform)变换并嵌入水印，以抵抗帧内漂移；通过改变P帧帧间预测块的运动矢量，减少帧间漂移。此外，该方法对重压缩、图像处理攻击等具有足够的鲁棒性。Mansouri和Mahmoudi-Aznaveh(2019)利用压缩视频序列的句法元素作为可用信息来提供基于内容的密钥，再使用基于内容的密钥进行块选择并通过优先级矩阵确定合适的系数，再将水印被嵌入到I帧(intra frame)的4×4帧内预测子宏块的亮度分量中。由于嵌入位置是具有更多纹理的宏块，因此不会严重影响视觉质量该方案；由于使用基于内容的密钥进行的块选择，故对常见的压缩域视频水印攻击具有鲁棒性。

基于码流的视频水印集中于HEVC标准，为提高保真度，提出了不同的抗误差漂移方法；为提高鲁棒性，提出了更先进的鲁棒块选择和水印嵌入方法。但是，相对于基于内容的视频水印，保真度和鲁棒性仍有待提高。在编码框架的限制下，如何进一步提高水印的性能，是此类水印需继续研究的问题。

2.3 基于深度学习的视频水印

传统的视频水印方法依靠手工设计的特征来提高水印的性能，如应用各种变换或使用感知掩蔽。但是，基于手工特征的传统方法有以下缺点：不同类型的失真往往需要不同的技术进行针对性处理，因此大多数传统方法无法同时对所有类型的失真都具有鲁棒性；手工设计的水印系统往往难以充分利用给定视频中丰富的时空信息的能力，导致性能欠佳。随着大数据时代的来临和人工智能技术的迅速发展，水印技术迎来了全新的发展方向。水印可通过构建神经网络，利用自动编码器等方法实现嵌入，通过数据驱动的方式学习更安全的水印算法，取代烦杂的设计过程。目前基于深度学习的图像水印算法已取得了较多的进展，其在鲁棒性和感知质量方面的表现出色，且同样可以初步在视频中使用。

HiDDeN是最早用于图像水印的深度学习解决方案之一(Zhu等，2018)。Ahmadi等人(2020)使用空间到深度变换和循环卷积对HiDDeN框架进行了扩展，提出了一种基于CNN(convolutional neural network)的端到端残差水印框架RedMark，实现了对水印实时的盲提取，并且在训练过程中模拟不同种类的攻击以提高水印鲁棒性，但模拟的攻击种类有限，水印可抵抗的攻击种类较少。为了使水印更适合实际应用，一些工作专注于建模处理更复杂和现实的失真。Tancik等人(2020)提出的StegaStamp模型捕捉相机失真，通过一系列原始变换，如颜色变化，模糊和透视扭曲等来对相机失真建模。Wengrowski和Dana(2019)提出训练一个深度神经网络来模拟屏幕显示失真，进而训练网络以解决失真造成的影响。Liu等人(2019)提出了双阶段可分离的盲水印深度学习框架，不仅具有对训练过的攻击类型具有鲁棒性，还可抵抗未知的噪声攻击。Luo等人(2020)提出在基于CNN的水印系统中，使用对抗训练代替指定攻击训练，可抵抗更多未知类型的攻击，并结合信道编码进一步提高水印鲁棒性。虽然基于深度学习的图像水印已经有较多方案，但图像水印方法没有利用视频帧之间的时间相关性,将这些方法直接应用到视频中会导致水印鲁棒性不足和视觉质量的次优性能

因此，针对视频的水印方法也逐渐被提出。Gao等人(2021)提出了一种基于CNN的视频零水印方法，利用CNN强大的特征提取能力，生成稳定的认证特征，取得了良好的鲁棒性。但该方法仅用CNN提取部分特征，不是端到端的方案。崔凯元等人(2021)提出了一种端到端的对抗生成式视频水印方法，利用对抗样本的思想，生成对抗扰动作为水印，除了对常见的图像处理攻击具有鲁棒性，还可抵抗几何攻击。

Luo等人(2021)提出了一种端到端的视频水印框架，分为编码器、失真层、解码层和一个视频鉴别器，如图3所示。此框架使用3D CNN充分利用了视频的空域和时域相关性，通过多尺度嵌入方法，使水印分布在多个时空尺度，可在分辨率改变的情况下被提取。此外，设置了一个失真层，模拟模糊、噪声、剪裁等空域失真，和帧删除、帧交换等时域失真，并建立了一个可微压缩网络以模拟H.264压缩失真，将其用于端到端的网络训练，使水印具备对多种类型攻击的鲁棒性。最后，设计了一个水印检测器，用以检测接收端失真视频中含水印的帧，完成水印的同步提取。为了减少时域的闪烁效应并保持时域一致性，训练了一个宿主视频和含水印视频的鉴别器，提高了视频的保真度。

图3 基于深度学习的视频水印框架Fig.3 Video watermarking framework based on deep learning

基于深度学习的视频水印一经提出就受到了广泛的关注，且取得了良好的效果。但此类方法处于起步阶段，现有方法均为基于内容的水印，还没有开展结合码流的研究，且此类方法可抵抗的攻击种类仍需进一步扩大，有较大的提升空间。

2.4 其他视频水印

3D媒体以其身临其境的立体体验得到了大众的普遍认可，虚拟现实和计算机视觉的进步增加了360°VR的受欢迎程度。由于它们都具有令人兴奋的沉浸式和互动体验，3D视频和VR视频技术被广泛应用于游戏、教育、电影等领域。从而利用水印技术保护3D媒体、VR媒体已成为信息隐藏领域的一个新的研究领域。

根据嵌入和提取水印的场景维度，3D视频水印方法可分为3D/3D、3D/2D和2D/2D这3类。3D/3D方法就是嵌入和提取都在3维空间进行。3D/2D方法就是嵌入在3维空间进行，提取在2维空间进行。2D/2D方法就是嵌入和提取都在2维空间进行。3D视频表示主要有两种技术:立体成像、基于深度图像的渲染(depth image based rendering, DIBR)。根据3D视频的两种表示方式，将3D水印划分为基于立体成像的水印、基于DIBR的水印。基于立体成像的视频水印流程如图4所示。在立体成像方法中，左边和右边的视图是使用放置在两只眼睛位置的两个摄像机来捕捉的。根据HVS的原理，立体效果可以用一个由左视图和右视图生成的视差图来表示，信道上只传输左视图，以减少传输带宽。右视图在接收端由左视图和视差图重建。水印可以嵌入在左视图、右视图或视差图中。基于DIBR的视频水印流程如图5所示。DIBR由中心视图和深度图组成，虚拟的左右视图由中心视图和接收器的深度图合成。通道上传输中心视图和深度图。虚拟的左视图和右视图可以由中心视图和深度图合成。水印嵌入在中心视图中，根据虚拟的左视图和右视图提取水印。

图4 基于立体成像的3D视频水印流程Fig.4 3D video watermarking process based on stereo imaging

图5 基于DIBR的3D视频水印流程Fig.5 3D video watermarking process based on DIBR

近几年有代表性的3D和VR水印方法中，Asikuzzaman等人(2016)基于DIBR利用DT CWT将水印嵌入在中心视图的色度通道中，通过修改U通道和V通道的3级系数实现水印嵌入，并通过掩码的每个元素控制相应水印系数的嵌入强度，确保水印是不可察觉的。最后对加水印系数应用逆DT CWT，获得加水印的中心视图，与深度图一起通过DIBR系统生成加水印的虚拟左视图和右视图。水印可以以盲提取的方式从中心视图、左视图、右视图中提取。该方案水几何失真和最常见的视频失真鲁棒。能抵抗3维摄录和2维摄录。Liu等人(2017)提出将深度图划分为不重叠的块，对块执行2D-DCT变换，选择一个GOF中相同位置的4个2D-DCT变换块作为变换组TG(transform group)，选取一个TG的4个DC系数作为单个嵌入单元(EmU)，对其进行一维DCT，得到伪3D-DCT域的系数，基于QIM修改AC系数以完成水印嵌入。由于通过AC系数嵌入水印，对涉及亮度和对比度修改的全局攻击较鲁棒，由于直接量化AC系数的和而不是具有不同权重的AC系数的绝对和来嵌入水印，以减少深度图的修改以获得更好的水印不可感知性。Chen和Zhao(2017)提出对中心视图的每一个块应用3级轮廓波变换，对轮廓波子带分组，通过量化系数完成水印嵌入。相似的子带配对使得可基于轮廓波系数的统计差异提取水印。由于在 DIBR过程中垂直边缘和轮廓更容易受到影响，所以量化具有更多水平信息的子带的轮廓波系数使得该方案能够抵抗几何攻击和图像压缩。Liu等人(2021)提出对360°VR视频的一种视频水印方法，对水印以及视频帧应用SWT变换，将宿主帧的SWT系数划分为许多大小相同的经纬度网络，将变换后的水印系数嵌入宿主帧的频谱中。由于选择中高频来承载水印，该方案能够抵抗有损压缩攻击。

基于DIBR的3D视频水印的设计需要满足鲁棒性、不可感知性等2D视频水印的要求，也需要满足对DIBR的过程的鲁棒(Asikuzzaman等人，2016)。用于2D或3D视频的水印技术无法适应360°VR视频的特定特征，除了需要抵抗2D视频常见攻击外，还需要为视口相关传输提供鲁棒性。

3 研究现状分析

3.1 评价指标

针对近5年具有代表性的视频水印方法对比分析，分为基于内容的视频水印方法的性能对比分析、基于码流的视频水印方法的性能对比分析以及其他视频水印方法的性能对比分析。为了评估视频水印技术的好坏，通常有峰值信噪比(peak signal to noise ratio，PSNR)、结构相似性(structural similarity index，SSIM)、平均主观意见分(mean opinion score，MOS)、误比特率(bit error rate，BER)、归一化互相关(normalized cross correlation，NCC)、假阴性率(false negative rate，FNR)。PSNR、SSIM是保真度大小的度量指标，BER、NCC以及FNR是鲁棒性大小的度量指标。PSNR是一个用于衡量视频帧视觉质量的客观指标。由于不考虑人眼的视觉特性，会出现评价结果与人为评价结果不一致的情况。YUV视频序列的PSNR计算过程可表示为

(1)

式中，MV表示图像点颜色的最大值，MSE是当前图像X和对比图像Y的均方误差(mean squared error),可表示为

(2)

MOS可衡量视频水印质量，需要大量观众来观看视频，并对视频的观看舒适度打分，从而评估视频的视觉质量。

BER可衡量水印鲁棒性。通过计算错误比特与总比特的比率来判断水印系统的鲁棒性，故BER值约小表明该方案鲁棒性越好，计算为

(3)

式中，Eb表示错误的比特数，Tb表示总共的比特数。即当发送的数据量相同时，发生错误的比特越多，说明该水印技术鲁棒性越差，反之亦然。

NCC是另一种用来衡量水印鲁棒性的指标，通过衡量原始水印W和提取出的水印W′之间的相似度来判断水印系统的鲁棒性，故NCC值越大表明该方案鲁棒性越好，计算式为

(4)

FNR也是一种可用来衡量水印鲁棒性的指标，表示将篡改像素分类为未篡改像素的比率，计算式为

(5)

式中，fmis为错误分类的像素，fall为总共非篡改的像素。

3.2 性能对比分析

性能对比分析的主要作用是对比近5年来提出的视频水印方案的鲁棒性，以更直观地形式列出每个方法抵抗各类攻击的能力。具体地，分别针对不同类别的水印方案以表格的形式列出反映其视觉质量的PSNR值，反映其鲁棒性的NCC值、BER值或FNR值。表1是压缩域视频水印性能对比分析。

从表1可以看出，针对方差为0.01的高斯噪声，Wagdarikar 和Senapati(2019)的鲁棒性最好。类似地，针对密度为0.009的椒盐噪声，Rasti等人(2016)和Liu等人(2020)的表现最好。针对裁剪、旋转等组合攻击，Huan等人(2021)的表现最好。Liu等人(2020)能抵抗帧丢失、帧平均这类时间同步攻击。

表1 基于内容的视频水印性能对比分析Table 1 Comparative analysis of the performance of content-based video watermarking

表2是变换域视频水印性能对比分析，在使用相同的QP(quantizer parameter)值时，Buhari等人(2016)方法的NCC值较大，对重编码都具有相对较好的鲁棒性。类似地，其对重压缩也具有相对较好的鲁棒性。在窗口大小为3×3的情况下，Gaj等人(2017)方法对高斯滤波具有较好的鲁棒性。在密度都为0.001的情况下，Dutta和Gupta(2017)对椒盐噪声具有相对较好的鲁棒性。所列出的文献中，只有Gaj等人(2017)方法能解决缩放这种几何攻击以及帧平均这种时间同步攻击，该方案在缩放因子为1.2的情况下，NCC值能达到0.87；在帧丢失比例25%的情况下，NCC值能达到0.86。

表3为3D和VR视频水印性能对比分析结果。Chen和Zhao(2017)、Liu等人(2021)和Asikuzzaman等人(2016)方法都能抵抗缩放攻击。Liu等人(2017)方法能抵抗方差为0.001的高斯噪声以及方差为0.005的椒盐噪声以及方差为1且窗口大小为5×5的模糊攻击，但对于裁剪、旋转等几何攻击以及组合攻击并未提及。Asikuzzaman等人(2016)分别针对左视图、中心视图和右视图给出FNR值，能抵抗组合攻击，包括H.264/AVC压缩，高斯白噪声，旋转，裁剪以及缩小分辨率。Chen和Zhao(2017)分别给出了该方案在10个视频序列上的PSNR，本文对这10个PSNR取平均得到该方案的平均PSNR为40.69，同理，对MOS取平均得该方案的平均MOS为4.48。针对各类攻击的鲁棒性，该方案的BER值以折线图方式描述，横坐标为攻击参数，纵坐标为相应的BER值，这里采用从图中读数的方法取值并填充表格。针对几何攻击，Liu等人(2021)的FNR值在旋转5度以及缩放因子为0.5的情况下趋于0，能抵抗旋转、缩放攻击。

表3 3D和VR视频水印性能对比分析Table 3 Comparative analysis of the performance of 3D and VR video watermarking

综合以上文献，针对帧丢失、帧平均、帧交换以及帧率转换等时间同步攻击的鲁棒性，取决于如何选择嵌入帧，如果在所有视频帧中嵌入相同的水印，往往具有较差的水印不可感知性，对视频丢帧、平均和交换的鲁棒性较差；如果根据不同的视频场景在所有关键帧中嵌入不同的水印(Liu等，2020)，对视频攻击的鲁棒性得到了提高，尤其是在视频丢帧、平均和交换的情况下，但是水印的不可感知性较差。基于DT CWT的方法对裁剪、旋转等几何攻击的鲁棒性最好，这是由于如果一帧在缩放或旋转后重新采样，低频DT CWT系数的大小大致相同。基于码流的方法关注的攻击主要是重压缩和重压缩，近年来提出的方法大多能抵抗重压缩和重编码，但针对几何攻击、时间同步攻击的鲁棒性一般。基于3D和VR的水印方法大多能很好地抵抗压缩攻击、噪声攻击，但针对旋转、裁剪等几何攻击的鲁棒性一般。

4 结语

视频水印是一个相对较新的研究领域，由于视频既是图像序列的组合，又不是简单的组合。视频水印可以在一定程度上借鉴图像水印的研究成果，但由于其时间维度和空间维度都存在冗余性，又不能简单照搬，需要额外考虑其他问题。本文描述了视频水印的相关研究背景，包括视频水印的应用场景、视频水印的分类以及分视频水印的设计要求，对视频水印代表方法进行详细梳理，回顾了经典视频水印方法以及视频水印评价标准，并对比近几年有代表性的视频水印方法，分析了视频水印的未来发展趋势。

结合近年来视频水印的研究成果，本文认为未来视频水印的研究应该考虑以下几个方向：

1)基于手工特征的视频水印方法目前存在无法同时对所有类型的失真都具有鲁棒性的问题以及难以充分利用给定视频中丰富的时空信息的问题。未来可将深度学习等新兴技术与数字视频水印相结合，以更好地提高视频水印性能，此类方法处于起步阶段，可抵抗的攻击种类仍需进一步扩大，有较大的提升空间。

2)目前基于变换域的视频水印方法大多能抵抗几何攻击、信号处理等单一攻击，但针对由多种失真组成的组合攻击不能很好地抵抗，未来应更多地关注诸如添加噪声并旋转、压缩并裁剪等组合攻击。

3)盲水印的主要挑战是同步，同步是识别水印嵌入位置的过程，对水印的成功检测至关重要，现有的盲视频水印方案往往未能解决时间同步问题。未来需要更多地关注帧插入、帧删除、帧率转换等时间同步攻击。

4)视频水印的载体随着时代技术的进步不断发展，从2D视频发展为3D视频，再到现存的VR视频以及AR视频。随着元宇宙时代的来临，基于虚拟现实的视频版权保护越来越至关重要，未来可考虑将视频水印应用于更多不同形式视频信号中。

5)水印的嵌入位置选择是权衡视频质量和鲁棒性的关键点，故可考虑优化选择嵌入位置的方法。

6)可将区块链、量子计算等新型领域与视频水印结合，以更好地提高视频水印性能，例如，可以用区块链跟踪多水印嵌入的顺序。