深度神经网络模型数字水印技术研究进展综述

2023-03-27 12:02夏道勋王林娜宋允飞罗星智
科学技术与工程 2023年5期
关键词:神经网络深度样本

夏道勋,王林娜,宋允飞,罗星智

(1.贵州师范大学大数据与计算机科学学院,贵阳 550001; 2.贵州师范大学贵州省教育大数据应用技术工程实验室, 贵阳 550001)

《新一代人工智能发展规划》(国发〔2017〕35号)强调要建立人工智能技术标准和知识产权体系。国家标准化管理委员会、中共中央网络安全和信息化委员会办公室、国家发展和改革委员会、科学技术部和工业和信息化部于2020年7月联合印发《国家新一代人工智能标准体系建设指南》(国标委联〔2020〕35号),提出了详细的国家新一代人工智能标准体系建设思路和建设内容;国家知识产权局于2021年3月印发《推动知识产权高质量发展年度工作指引(2021)》(国知发运字〔2021〕3号),制定了人工智能等新领域知识产权的保护规则,进一步完善了知识产权审查制度。由此看出,随着人工智能的快速发展,人工智能技术的知识产权保护问题越来越得到了重视。

深度神经网络模型作为人工智能应用的核心技术之一,近年来在图像分类、目标检测、语音识别、自然语言处理、自动驾驶汽车和智能医疗等人工智能应用领域取得了巨大的成功,诸如LeNet、AlexNet、VGGNet、GoogLeNet和ResNet等深度神经网络(deep neural network, DNN)模型不断涌现,越来越多的科技工作者将这些模型用于人工智能应用领域某项特定任务中,推动了人工智能在各个行业领域的应用,也取得了巨大的进展,成为一种宝贵的数据资源,具有非常高的研究价值和商业价值。但是,深度神经网络模型的训练是一项艰巨的任务,需要大规模的数据集、高昂的算力成本和优异的算法思想才能训练出一个优异的算法模型。因此,深度神经网络模型的安全则变得极其重要,有必要保护深度神经网络模型的知识产权,利用水印版权保护技术保障模型的安全已经成为人工智能安全领域一个重要的研究方向。

数字水印是永久镶嵌在宿主数据中具有可鉴别性的数字信号或模式,而且不会影响到宿主数据的可用性[1]。数字水印最早应用在多媒体版权保护上[2-6],其保护思想通常是将数字水印嵌入多媒体信息中,从而实现版权保护。如果利用相同的版权保护策略,将数字水印嵌入深度神经网络模型中,由于深度神经网络模型拥有复杂的网络结构和大量的模型参数,并且一般情况下使用者仅可以通过服务应用编程接口(application programming interface,API)对深度神经网络模型进行访问,这对提取水印做版权验证就变得极为困难。因此,传统的数字水印技术不适合深度神经网络模型数字水印版权保护,研究者们根据深度神经网络模型的特点,提出并设计出了许多适用于深度神经网络模型数字水印版权保护的数字水印技术。目前,典型的深度神经网络模型水印技术主要有静态水印技术、动态水印技术和主动授权控制技术[7-8]。

为了促进该领域的研究进程,现综述深度神经网络模型水印版权保护技术的最新研究成果,包含深度神经网络模型水印版权保护技术基础概况、深度神经网络模型水印版权保护技术的研究方法、深度神经网络模型水印版权保护算法的攻击和防御技术,总结并展望深度神经网络模型水印版权保护领域的研究重点和发展方向。

1 深度神经网络模型数字水印技术的分类

从水印关联模型对象、水印特性和抵抗不同类型的水印攻击3个角度对深度神经网络模型数字水印技术(以下简称深度模型水印技术)进行分类。根据水印关联模型对象将深度模型水印技术分为静态水印和动态水印;深度模型水印技术具有类型、应用场景、机制和容量4个特性,根据不同的特性又可以分成不同的子类;根据抵抗不同类型的水印攻击可以将深度模型水印技术分为抵抗查询修改攻击、抵抗水印移除和抵抗逃逸或伪造攻击。详细分类见如图1所示。

图1 深度神经网络模型水印技术的分类Fig.1 Classification of deep neural network model watermarking technology

深度模型水印技术中的静态水印是被嵌入深度模型内部的参数中,训练过程不依赖深度模型特定的训练数据。然而,动态水印则依赖深度模型特定的训练数据,并利用关联的神经元激活图或输出结果提取水印[7]。

根据类型特性可将深度模型水印技术分为被动验证和主动授权控制,如果在攻击者盗取深度模型之后,深度模型所有者才能验证模型的版权,这种保护策略被称为被动验证,如果通过事先授权控制来主动控制深度模型的使用,这种提前预防模型被盗取的保护策略被称为主动授权控制。根据应用场景特性将深度模型水印技术分为白盒水印和黑盒水印[9]。白盒水印需要对深度模型进行完整的水印嵌入,并能提取其水印来证明深度模型的版权,深度模型的参数被公开且供所有人使用。黑盒水印使用深度模型API远程访问深度模型并提取水印来证明深度模型的版权,深度模型的参数不被公开。然而,深度模型在实际的应用中通常被部署为在线服务,通过API提供预测服务,人们很少接触到深度模型的内部机制,因此黑盒水印更适合于商业使用。

根据水印机制特性将深度模型水印技术分为参数、后门和指纹3种水印技术,基于参数的水印技术是在深度模型的参数中嵌入水印,基于后门的水印技术是利用深度模型的后门作为水印,基于指纹的水印技术是利用深度模型的推理功能获得深度模型部分训练集数据的分布,将这种分布视为深度模型的指纹。根据水印容量特性将深度模型水印技术分为零位水印和多位水印,水印容量表示深度模型可以嵌入的水印信息量,零位水印技术是判断水印是否存在于深度模型中,进而达到验证深度模型版权的目的,多位水印技术则是提取深度模型中的多位字符串水印信息,实现深度模型版权的验证过程[9]。

不同水印技术能抵抗不同类型的水印攻击,大部分水印技术对深度模型的微调和剪枝都有很好的鲁棒性,常见的水印技术攻击主要分为查询修改攻击、水印移除攻击和逃逸、伪造攻击。深度模型可以利用关键样本的预测结果进行版权验证,查询修改攻击技术可以修改深度模型的关键样本,使得深度模型无法输出正确的预测结果,从而无法实现深度模型的版权验证。水印移除攻击技术可以使深度模型水印信息失效,无法利用有效的水印信息进行版权验证。如果在无法移除深度模型水印信息的情况下,逃逸攻击可以逃避深度模型的版权验证,伪造攻击则可以伪造真实水印重新对深度模型进行版权证明。

和其他深度模型水印技术类别相比,静态水印和动态水印重点关注深度模型的内部结构,厘清深度模型的内部结构对研究深度模型水印技术起到积极的推动作用,并且现有深度模型水印技术大多采取被动验证策略,只有当深度模型被盗之后,深度模型的所有者才提取被盗模型中预先嵌入的水印,以此来证明深度模型的版权归属,进一步制止盗取者复制、分发和滥用深度模型的行为。被动验证策略不能事先防范或者制止窃取者对深度模型功能的使用,需要依靠法律手段来阻止侵犯知识产权的行为,给侵权行为排查带来了极大的困难。相反,主动授权控制策略[8]可提前阻止模型被盗行为,达到防患于未然的目的,主动授权控制策略已经成为深度神经网络模型数字水印版权保护技术(以下简称深度模型水印保护)的一个研究重点。因此,重点阐述静态水印、动态水印和主动授权控制技术,以及典型水印技术的对比分析和水印技术的攻防等内容。

2 深度模型水印技术基础知识

所涉及的深度模型水印技术基础知识包含典型数据集及其对比分析、水印性能评价标准、后门攻击和对抗性攻击,以及水印版权保护过程中使用到的网络微调、剪枝和蒸馏技术,下面对每一个基础知识进行详细阐述。

2.1 典型数据集及其对比分析

针对深度模型水印技术的研究,离不开公开和权威的实验数据集,重点梳理了静态水印、动态水印和主动授权控制水印的典型数据集,并进行了对比分析。

如表1所示,列举了静态水印、动态水印和主动授权控制的典型数据集名称、简要概述和相关工作文献,重点对3种典型数据集进行对比分析。深度模型水印技术所使用的数据集均为深度学习常用的数据集,是在常用的数据集上训练出来的深度学习模型中进一步探讨模型的保护机制,诸如MNIST、CIFAR-10、CIFAR-100、Caltech-101、ImageNet、PASCAL VOC和COCO等数据集。这些数据集用于测试深度模型水印保护技术的综合性能,在不降低深度模型性能的情况下应确保深度模型水印保护技术行之有效。在深度学习的发展过程中,研究者们创建了多种经典的深度模型框架,经典的框架有LeNet、AlexNet、GoogLeNet、ResNet、DenseNet和LSTM等,静态水印重点关注深度模型的内部框架,能适应不同框架类型的深度模型水印保护。因此,静态水印常用自然场景图像数据集Caltech-101、ImageNet,Waterloo Exploration database、CBSD68和Kodak24等,以及人脸图像数据集CelebA和美食评论数据集Amazon Fine Food。动态水印利用特定训练数据关联的深度模型神经元激活图或输出结果来提取水印,保护策略需要确保深度模型的输出结果能方便嵌入和提取水印,常用的数据集有STL-10、PASCAL VOC、COCO,chestx-ray8、Danbooru2019、RIO和IMDB等。其中,chestx-ray8是医疗图像数据集,Danbooru2019是动漫头像数据集,RIO是鸡尾酒图片数据集,IMDB是电影评论数据集。chestx-ray8、Danbooru2019和RIO数据集可以完成一些更为困难的图像处理任务,如胸部X射线图像去骨、绘画风格转换、图片编辑。主动授权控制可以对模型侵权等非法行为提前阻止,其授权机制更有利于保护三维点云数据集训练出来的深度模型,常用的数据集有大型图像数据集ImageNet、交通标志图像数据集GTSRB,以及三维点云数据集ModelNet和ShapeNet。

表1 DNN水印实验数据集使用情况Table 1 Usage of DNN watermark experimental dataset

由于MNIST、CIFAR-10、CIFAR-100、ImageNet、PASCAL VOC和COCO等数据集最具代表性,应用领域非常广泛,相关领域的研究者都非常熟悉这些数据集的基本参数和性能。CelebA和Amazon Fine Food分别被用作性别分类任务和情绪分类任务的数据集[10],CelebA数据集包含10 177个身份的202 599张人脸图像,Amazon Fine Food数据集包含评级范围1~5的568 454 条亚马逊美食评论。 Waterloo Exploration database、CBSD68、Kodak24被用来实现图像去噪网络FFDNet的实验数据集[11],Waterloo Exploration database数据集包含4 744张各种真实场景的原始自然图像和原始自然图像生成的94 880张失真图像,CBSD68数据集由68张481×324像素的彩色图像组成,Kodak24数据集由24张768×512像素彩色图像组成。在数据融合和迁移学习方面,有研究者将Waterloo Exploration database用作FFDNet的训练集,CBSD68和Kodak24数据集被用作FFDNet的测试集。

2.2 水印性能评价标准

根据信息安全等级保护的规定,深度模型版权保护也制定了一系列的评价标准,综合衡量深度模型水印技术的优劣。深度模型水印保护一般应具备保真性、可靠性、鲁棒性、完整性、容量、高效性和安全性等特性[12],在等级保护要求更高的深度模型应用领域,深度模型水印保护框架还应具备普适性、唯一性和可扩展性[13-14]等特性,见表2的详细说明。

表2 深度神经网络模型水印版权保护的评价标准Table 2 Evaluation criteria of watermark copyright protection in deep neural network model

深度模型被分发给大量用户,深度模型水印保护不仅要证明所有者对深度模型的所有权,还要证明不同用户身份的合法性,为了保证用户身份的唯一性,研究者们提出用指纹水印保护深度模型的版权。因此,深度模型水印保护除了应具备保真性、可靠性、鲁棒性、完整性、容量、高效性和安全性等特性以外,还应具备唯一性和可扩展性[14]。

保真性、鲁棒性、容量是评价深度模型水印性能的重要参考标准,保真性指深度模型在水印嵌入后完成特定任务的能力,鲁棒性指深度模型水印抵抗不同类型水印攻击如模型微调、模型压缩和水印移除等的能力,容量指有效水印信息的比特数,保真性、鲁棒性、容量相互制约,深度模型水印技术需要平衡好这三者的关系[7]。

2.3 后门攻击和对抗性攻击

如果深度模型遭受后门攻击或者对抗性攻击后,深度模型的分类结果变为与图片内容无关的错误标签。相对于对抗性攻击,后门攻击的攻击策略更加灵活,被攻击的深度模型可以和原深度模型表现出一样的预测能力,只有在输入触发集数据的时候才能触发后门功能。

后门被定义为深度模型中的一个或多个实例,这些实例的集合称为触发集。深度模型中的后门分类被定义为深度模型的新分类功能,这种分类标签被命名为预定义目标标签,并且带有后门的深度模型不会影响深度模型的分类结果[15]。利用深度模型的过度参数化特性,将触发集和训练集融合进行训练,训练出来的深度模型就具备分类触发集的功能,如果向深度模型中添加后门,则不会降低深度模型在原始任务上的性能。为了避免在非必要时触发了深度模型的后门,触发集通常是经过精心设计的抽象数据样本集,例如分形图像数据。图2展示了深度模型后门触发的整个流程,包含有触发集构造、触发集训练和后门触发等3个主要模块。触发集由抽象数据样本集和预定义目标标签组成,每一个抽象数据样本对应一个预定义目标标签;触发集作为训练集的子集,触发集的深度模型训练和一般训练集的深度模型训练相同,带有触发集训练的深度模型具备识别后门实例的能力;在后门触发阶段,带有触发集训练的深度模型能识别触发集并将其分类为预设标签。

图2 深度模型后门触发流程图Fig.2 Backdoor trigger flow chart of deep model

Szegedy等[16]研究发现深度学习模型容易受到小噪声扰动样例的攻击,自此以后各种针对深度模型的对抗性攻击方法不断被研究者们提出。对抗性样例是深度模型利用梯度优化来找到与训练集相似的数据,虽然人眼察觉不到对抗性样例与深度模型训练集之间的差异,但是将对抗性样例输入到深度模型中,深度模型就会将对抗性样例分类为高置信度的错误结果。

2.4 神经网络的微调、剪枝和蒸馏

压缩是对神经网络结构或参数进行调整和优化,进而减少内存消耗和计算复杂性,获得与原始神经网络相近性能的方法。实现神经网络结构压缩的主要技术包含神经网络微调、神经网络剪枝和神经网络蒸馏。

如果没有足够的训练数据,并且训练数据和预训练模型使用的数据集没有显著差异,对深度模型的参数进行微调是深度模型获得较好性能行之有效的方法[17-18]。因此,微调技术是一种快速获得深度模型的有效方法,利用少量训练数据便可以训练出一个新的深度模型。

利用剪枝技术对深度模型的冗余权重进行修剪,以降低深度模型的复杂度。随着深度模型的层数加深,深度模型的参数数量也越来越庞大,网络结构变得越来越复杂。例如,VGG-16深度模型[19]的参数就高达138 M,导致深度模型的计算资源代价高昂和系统能效不高,这为剪枝技术提供了用武之地。Han等[20]利用剪枝技术,学习并保留深度模型中重要的连接,修剪不重要的连接,然后重新训练剪枝后的稀疏深度模型。在不影响深度模型性能的情况下,剪枝技术能将深度模型的存储空间和计算复杂度降低一个数量级。

知识蒸馏是通过迁移知识将大深度模型学习到的函数压缩进更小更快的深度模型中,从而获得可以匹敌大深度模型性能的方法。如果在相同数据集上训练出若干个不同的深度模型,然后对不同深度模型得出的预测值求出其平均值,再用该平均值作为深度模型最终的预测值,这也是提高深度模型性能的一种有效方法。但是,使用多个深度模型进行综合预测,这种策略存在诸多弊端,并且计算复杂度成倍增加。因此,Hinton等[21]提出了神经网络蒸馏技术,将若干个深度模型中的知识提取到一个小规模的深度模型中,获得的小深度模型不仅可以匹敌若干个深度模型融合的性能,还可以显著降低深度模型的存储空间和计算复杂度。

3 深度模型水印技术

重点综述了深度模型水印技术的3个重要研究分支的研究进展,它们分别是静态水印、动态水印和主动授权控制,并对这些典型水印技术进行对比分析,以及详细介绍了深度模型水印技术的攻击和防御策略。

3.1 静态水印

静态水印被嵌入深度模型的内部参数中,训练过程不依赖深度模型特定的训练数据,它一般分为静态水印嵌入和静态水印提取两个阶段。首先,需要对深度模型的权重进行采样,然后将静态水印嵌入采样权重中,再将静态水印从深度模型的权重中提取出来,进而验证深度模型的版权归属。

Uchida等[22]于2017年最先将数字水印技术应用于深度模型的版权保护,版权保护的策略如式(1)所示,正则化项ER(w)附加在深度模型的损失函数Eo(w)上,利用损失函数的正则化项将深度模型水印嵌入深度模型的权重中。实验结果表明该方法不会影响深度模型的原有性能,经过微调或参数剪枝后确保了深度模型水印不会被移除,但是该方法不能抵御深度模型水印的重写攻击。

E(w)=Eo(w)+ER(w)

(1)

Wang等[23]实验证明Uchida的深度模型水印技术修改了深度模型参数的统计分布,参数分布变化不仅可以检测深度模型水印的存在,而且还可以推算出深度模型水印的长度,攻击者获取了深度模型水印信息后,便可以设计一个深度模型水印移除算法,进而使得深度模型所有者嵌入的水印信息失效。Cortias-lorenzo等[11]也研究发现深度模型的优化算法会影响深度模型水印信息的有效性,采用Adam优化算法会导致深度模型的权重参数分布发生显著变化,导致深度模型水印信息更容易被检测出来。为了避免水印信息被攻击者检测出来,他们提出了基于正交块投影的Adam优化算法,该优化算法可以确保深度模型的权重分布不发生变化。Wang等[10,24]提出了新的解决思路,将深度模型水印的训练和检测分别设计成生成对抗网络的生成器和鉴别器,实验表明深度模型嵌入水印信息后,其权重参数分布几乎没发生变化。

与Uchida提出的深度模型水印技术不同,Kuribayashi等[25]利用抖动调制-量化索引调制(dither modulation-quantization index modulation,DM-QIM)首先将水印信息嵌入到深度模型采样权值的频率分量中,再利用逆DCT变换将水印信息分散到深度模型的采样权重中,该方法的优点是确保了深度模型的权重分布变化尽可能小且可测量。Feng等[26]和Wang等[27]对静态水印技术进行了创新,他们提出的静态水印技术具有更高的保真性和稳健性,可以通过正交变换和误差反向传播嵌入到深度神经网络模型的参数中。Feng等[26]提出有补偿机制的深度模型水印技术,如图3所示,该方法首先对深度模型采样权重进行正交变换,获得深度模型权重系数,以及对深度模型水印信息扩频调制得到二值化水印,其次将二值化水印嵌入到深度模型权重系数中,再次利用逆正交变换将嵌入水印后的权重系数转换成深度模型的权值,最后利用补偿机制对深度模型参数进行微调,弥补嵌入过程中被轻微损耗的精度。与Uchida的方法相比,带补偿机制的深度模型水印技术仅需要较少的水印嵌入所消耗的成本。Wang等[27]利用误差反向传播方法在深度模型中嵌入水印,该方法首先构建一个独立的神经网络,选取深度模型的参数权重作为该网络的输入,其次通过误差反向传播更新该网络的参数和深度模型的参数。训练任务完成后嵌入水印的深度模型被释放,独立神经网络则被保留下来,实验表明深度模型的性能不会因嵌入水印信息而降低。

x1,x2,x3为训练数据的输入值;y1,y2为训练数据的输出值,Y(i)为y1或y2;Sw为被选择嵌入印的权重;Θ为正交变换系数;B为二进制水印签名;B[i]为水印中的一位数字;Y′(i)为量化嵌入水印后的值;q为量化系数,可以根据B[i]的值确定量系数的正负,当B[i]是1,q为正,当B[i]是-1,q为负;ΘT为逆正交变换系数;S′w为恢复的权重值图3 带有补偿机制的DNN水印框架[26]Fig.3 DNN watermarking framework with compensation mechanism[26]

众所周知,指纹水印可以证明用户身份的唯一性,与一般的深度模型水印相比,深度模型指纹水印更能满足商业版权保护的需求,并且更安全。正因如此,Chen等[14]提出了一种适用于大型深度模型分发系统且能抵抗共谋攻击的指纹框架DeepMarks,该框架利用指纹水印的正则化损失来微调预先训练的深度模型,进而将二进制指纹向量嵌入深度模型的参数中,这不仅可以证明深度模型的版权,还可以跟踪深度模型的用户信息。

3.2 动态水印

动态水印依赖深度模型特定的训练数据,并利用关联的神经元激活图或输出结果提取水印信息。前者是从深度模型的中间层参数中提取水印,后者是从深度模型的输出结果中提取水印。

Rouhani等[13]提出了第一个端到端的深度模型保护框架DeepSigns,根据深度模型的激活图从深度模型中提取水印,对深度模型修剪、微调和深度模型水印覆盖攻击都有较强的鲁棒性,该方法可提高深度模型水印的不可检测性,并可以扩展到黑盒场景中使用。如果深度模型在嵌入水印之前已经被分发给用户,或者嵌入的深度模型水印被移除,则不能从深度模型中提取水印进行版权认证。因此,Lukas等[28]提出了一种对抗性样例生成方法,生成的对抗性样例可以转移到替代模型中,进而可以根据深度模型是否能识别对抗性样例,并判断深度用模型是否是被盗窃的替代模型。利用对抗性样例的可转移性,Le等[29]提出了一种对抗性边界拼接算法,该方法寻找深度模型对抗边界附近的数据点,对这些数据点施加扰动后生成对抗性样例,利用对抗性样例来标记深度模型。对抗性样例包含正样例和负样例,深度模型的正样例不能被正确分类,负样例可以被正确分类,如果深度模型在微调后能将正样例正确分类,那么说明深度模型嵌入了水印,反之亦然。在此基础上,Zhao等[30]强化了对抗性样例在深度模型和被盗模型之间的可转移性,使得对抗性标记对简单的深度模型变化具有很好的鲁棒性,如果对抗性样例在深度模型上的可转移性超过了设置的阈值,便可认定该深度模型已经被攻击者盗取。Cao等[31]实验证明深度模型的分类边界具有唯一性,分类边界附近的数据点可以作为深度模型的标识符,将这些数据点输入可疑的深度模型中,如果可疑深度模型输出的类别标签和原深度模型输出的类别标签基本相同,则可以证明可疑深度模型的版权问题。

Adi等[32]于2018年首次利用深度模型的后门对深度模型版权进行验证,Zhang等[33]也相继提出了3种适用于深度模型的后门水印生成算法,分别将有意义的数据、与训练数据无关的数据和噪声数据等通过深度模型水印框架嵌入到深度模型中,实验表明这些算法对深度模型的参数剪枝、微调和模型反转攻击等都具有较强的鲁棒性。与深度模型的后门水印一样,关键样本可以通过触发深度模型的后门水印来证明深度模型的版权,Zhong等[34]为关键样本预设的标签是模型所有者的名字(如图4所示),将模型所有者的名字Deakin作为关键样本的预设标签,然后将关键样本和干净样本(干净样本是指没有嵌入任何水印的普通样本)一同输入到深度模型中,训练出来的深度模型就具备分类关键样本的功能。实验表明添加新标签不会扭曲深度模型的决策边界,并且能更好地学习关键样本的特征。为了构建鲁棒性更好的指纹水印框架,Sun等[35]选择训练集之外的干净样本作为关键样本,为每个用户分配有唯一的指纹图像,用最低有效位(least significant bit,LSB)算法将指纹图像嵌入到关键样本中,并为关键样本预设新的标签,可以实现用户指纹的认证和管理,而且能很好地防御查询修改攻击。大多数指纹水印不可以追踪深度模型的非法用户,Xu等[36]采用社区关系码和用户识别码为深度模型提供一个非法用户追踪通道,社区关系码用于查找可疑的用户群,用户识别码用于查证可疑用户的身份。

图4 DNN后门水印工作流程[34]Fig.4 DNN backdoor watermark workflow[34]

容量是一个衡量深度模型水印性能的重要指标,现有零位动态水印方法[33]和多位动态水印方法[37],多位动态水印方法不仅使水印容量更大,而且可以很好地证明用户的身份。例如,Guo等[37]于2018年提出了多位动态水印方法,他们将嵌入用户签名的训练样本作为关键样本,连同干净样本输入到深度模型中,如果干净样本能使深度模型以正常的模式运行,关键样本能使深度模型以一种特殊的模式运行,从而实现深度模型版权验证的目的,该方法在嵌入式设备下得到有效的验证。Chen等[12]提出多位动态水印框架BlackMarks,该框架将未标记的深度模型和模型所有者的二进制签名一并输入BlackMarks框架中,BlackMarks会输出一个带有一组水印密钥的深度模型。实验表明BlackMarks框架具有更高的深度模型水印容量,并且只需要查询深度模型的预测结果即可提取水印信息,进而证明深度模型的版权。

关键样本是使深度模型输出预设标签的样本,后门水印方法的鉴别能力主要取决于它的误报率。Guo 等[38]提出了一个基于差分进化的后门水印框架,该框架显著降低了后门水印的假阳性率,获得了很好的深度模型版权鉴别能力,同时也保持了深度模型水印对微调的鲁棒性。Lü等[39]首先训练一个小型深度模型HufuNet,然后将HufuNet分成两部分,其中一部分称为EPH,作为水印信息嵌入到需要保护的深度模型中,另一部分称为SPH,作为密钥被保护起来。如果需要验证可疑的深度模型的版权,可将EPH从可疑的深度模型中提取出来,连同SPH重新组合成一个完整的HufuNet,新组合的HufuNet与原始的HufuNet预测值的差值是否小于某个设定的阈值,以此来鉴别可疑深度模型的真伪,实验表明HufuNet对深度模型的微调、剪枝和水印伪造攻击都具有很强的鲁棒性。一般情况下,关键样本的分布差异比普通样本的分布差异较大,模型窃取者可以通过检测器检测到关键样本,并控制深度模型不对关键样本做任何响应,深度模型所有者便无法利用关键样本证明深度模型的版权。为了保证关键样本不被窃取者检测到,Li等[40]把与普通样本分布相似的样本作为关键样本,实验表明该方法对逃逸攻击和伪造攻击都具有很好的鲁棒性。

深度模型可以将有骨头的胸腔图片转换成没有骨头的胸腔图片,将有雨水的图片转换成没有雨水的图片。但是,大部分深度模型水印技术只适用于图像分类任务, 不适用于如上更为复杂的图像处理任务。Zhang等[41-42]将数字水印技术应用在医学图像去骨和图像去雨领域,提出了能保护图像处理模型版权的动态水印,他们提出在深度模型的输出结果中嵌入水印,并对复杂图像处理任务的深度模型进行标记,如果窃取者利用API对深度模型进行攻击,并得到具有相近性能的替代模型,然而模型所有者可以从替代模型的输出结果提取到深度模型的水印信息,再与原深度模型中嵌入的水印信息进行对比,根据对比值便可以判断替代模型是否为被窃取的深度模型。为了进一步确保深度模型水印的安全性,Wu等[43]提出了带有密钥的动态水印技术,只有在保证密钥正确的情况下才能提取深度模型水印信息,实验表明在图像彩色化、超分辨率、图像编辑、语义分割等多种图像处理任务中,深度模型水印都具有很好的有效性和鲁棒性。

3.3 主动授权控制

主动授权控制能够有效阻止未授权用户对深度模型的非法访问或者使用。Szentannai等[44]增加了深度模型对权重参数的依赖性,使用者即使对深度模型的权重参数进行微小的修改,这都会极大地改变深度模型的输出结果,甚至可能会使深度模型的推理功能完全失效。Chen等[45]将深度模型水印保护扩展到了底层硬件计算平台中,该方法首先生成与特定硬件设备相关联的指纹,其次获得的指纹嵌入到深度模型中,再次从深度模型的输出结果中提取指纹,最后将提取的指纹与真实指纹进行比对,如果两个指纹高度匹配,则在深度模型上执行推理功能,否则深度模型中断执行推理。Xue等[8]在实现主动授权控制的同时实现了用户指纹管理,该方法将深度模型的对抗性样例作为指纹分发给授权用户,在深度模型的最后一层增加一层控制层,控制层可以限制非授权用户对深度模型的访问或者使用,当授权用户向深度模型输入指纹后,深度模型的控制层就会被自动删除,深度模型也能恢复正常使用。除此之外,Xue等[46]还利用多触发后门生成不同权限的用户指纹,不同权限的用户指纹能不同程度地控制深度神经网络模型的使用权。如图5所示,在少量的训练样本中插入N个后门信号,带有N个后门信号的训练样本成为深度模型所有者的指纹,用于验证深度模型的版权,带有n个后门信号的训练样本成为用户的指纹,用于验证用户的身份。

图5 DNN后门信号指纹授权控制技术框架[46]Fig.5 DNN backdoor signal fingerprint authorization control technical framework[46]

Fan等[47-48]用一个指定的数字实体作为深度模型的授权凭证,这种数字实体被称为数字护照,该方法是在深度模型的每个卷积层之后增加一层数字护照层,用户只有出示正确的数字护照密钥才能正常使用深度模型,伪造数字护照会使深度模型的性能显著下降,然而这种方法会改变深度模型的内部结构,从而导致深度模型的性能有所降低。针对此问题,Zhang等[49]对基于数字护照的主动授权控制技术进行改进,利用数字护照感知归一化公式保证深度神经网络模型结构的稳定性,他们提出了数字护照感知归一化公式算法,该算法适用于大部分含有归一化层的深度模型,数字护照感知分支被添加到深度模型的归一化层,并和深度模型联合训练。当深度模型在进行合法的预测推理时,数字护照感知分支被屏蔽起来,只有当深度模型被窃取时,数字护照感知分支将被添加回来,进而验证深度模型的版权。数字护照感知分支不会使深度模型的内部结构发生改变,并且对深度模型的性能影响很小。

进一步地,Tian等[50]用选择加密算法加密深度模型中重要的参数,根据访问用户的不同,深度模型解密出不同数量的参数,进而向用户提供分级访问服务。Pyone等[51]先利用带有密钥的块像素变换技术对深度模型的输入图像进行预处理,然后输入到深度模型中进行训练,如果密钥不正确,则深度模型的性能将会明显降低,有效地防止了深度模型的被盗行为。Xue等[52]提出了一种新颖的解决办法,利用密钥加密深度神经网络模型的参数,用户利用密钥解密参数,进而控制深度神经网络模型的使用权。首先利用损失函数选择深度模型的一部分参数并对其进行加密,其次利用深度模型的对抗性扰动修正参数,再次加密参数的位置和对抗性扰动的值联合生成一份密钥,最后授权用户使用密钥对深度模型进行解密,授权用户就能获得深度模型的推理功能,这种方法有效地防止了恶意侵权者使用深度模型的推理功能。

3.4 典型水印技术的对比分析

从理论价值上来看,静态水印能驱动对深度模型的内部机制进行深入的理解。深度模型对于动态水印嵌入者来说就是一个黑匣子,不需要接触深度模型的内部机制。然而,静态水印则是需要将水印信息嵌入到深度模型的内部参数中,水印嵌入者必须理解深度模型的内部结构和内部参数,它可以促进对深度模型内部机制的理解。从应用价值上来看,动态水印的应用价值更高或者适应场景更为广泛。静态水印只适用于可以接触深度模型内部机制的应用场景,动态水印除了适用于静态水印使用的场景以外,还可以适用于能接触深度模型API的应用场景。在真实场景中,很少有机会接触到深度模型的内部机制,大多是通过调用深度模型的API来使用深度模型的推理功能,因此动态水印更适合商业应用。从保真性上来看,静态水印嵌入深度模型的参数中会改变深度模型的参数值,因此静态水印对深度模型的性能影响较大,动态水印则能很好地保持深度模型原有的性能。

从高效性上来看,动态水印比静态水印更为高效。静态水印需要对深度模型进行完整的水印嵌入,版权验证时需要提取深度模型中的水印信息,导致水印信息在嵌入和提取时需要进行大量的计算,使得版权保护任务变得复杂。从容量上来看,静态水印能在深度模型中嵌入更多的有效信息。现有的动态水印大多是零位水印,只有少量的动态水印是多位水印,如Guo等[37]将用户签名嵌入部分训练样本中,以及Chen等[12]提出的多比特水印框架BlackMarks技术。从可靠性和安全性上来看,主动授权控制比静态水印、动态水印更可靠和更安全。在攻击者盗取了深度模型之后,深度模型所有者才能验证其版权,并且不能强制终止窃取者对深度模型的继续使用,版权拥有者需要依靠政府的执法行动来阻止窃取者的侵权行为。然而,主动授权控制则可以提前阻止窃取者对深度模型的非法使用,从源头上制止了侵权行为。

3.5 水印技术的攻击和防御

深度模型水印技术的攻击方法主要有查询修改攻击、水印移除攻击、逃逸攻击和伪造攻击,重点对这几种攻击方法进行详细介绍,并针对不同的攻击方法综述了研究者们提出的不同防御策略。

3.5.1 不同类型的水印攻击

利用关键样本保护深度模型的版权是深度模型水印技术常用的一种方法[53],如果攻击者利用查询修改攻击算法攻击该种类型的水印信息,深度模型的版权保护就会失效。诸如Namba等[54]提出了查询修改攻击算法,这种攻击算法的原理是窃取者首先检测深度模型的查询样本是否为关键样本,如果查询样本是关键样本,就用自动编码器修改查询样本,进而阻止关键样本对深度模型的版权验证,如果查询样本不是关键样本,就不对查询样本进行任何操作。

水印移除攻击旨在对深度模型水印进行破坏,导致模型拥有者无法验证深度模型的版权。Uchida等[22]将深度模型水印嵌入深度模型的权重中,随后Wang等[23]实验证明了该种水印技术会修改深度模型权重的统计分布,并且深度模型的权重分布标准差也会随着水印长度的增加而变长,通过测量权重分布标准差不仅可以检测到深度模型水印的存在,还可以推断出深度模型水印的长度,这样攻击者便可以利用深度模型水印信息设计一个伪造的深度模型水印,将伪造的深度模型水印去覆盖原有的水印信息,从而实现水印移除攻击的目的。Shafieinejad等[55]针对深度模型后门水印提出了黑盒攻击和白盒攻击,黑盒攻击的原理是攻击者首先通过深度模型API查询公开数据的标签,然后利用输出的标签训练一个和深度模型性能相近的替代模型。白盒攻击的原理和黑盒攻击的原理非常相似,但是白盒攻击能访问深度模型的参数,可以直接访问深度模型查询公开数据的标签。实验表明使用20 000~50 000条数据就可以去除深度模型水印。Aiken等[56]提出了一种神经网络“清洗”算法,如果攻击者不清楚后门水印的结构,该算法也能利用低于1%的深度模型训练集剔除Adi等[32]和Zhang等[33]提出的后门水印。Liu等[57]提出了一种新的后门水印去除框架WILD,WILD框架在训练集访问受限的情况下也可以使用,WILD框架仅使用10%~40%的训练集数据就可以去除深度模型的后门水印,并且对深度模型的性能影响很小。Chen等[58]则提出了深度模型水印剔除的另一种框架REFIT,该框架将弹性权重合并技术(elastic weight consolidation,EWC)和未标记数据扩充技术(unlabeled data augmentation,AU)集成到REFIT框架中,它可以通过深度模型参数的微调来移除水印,实验表明该框架在不降低深度模型性能的情况下可以成功移除深度模型水印。

如果深度模型水印技术对水印移除攻击具有鲁棒性,那么攻击者就无法移除水印,进而无法阻止模型所有者验证深度模型的版权。但是,在不能移除深度模型水印信息的情况下,Hitaj等[15]实验表明窃取者仍然可以逃避模型所有者对深度模型的检测。类似地,Fan等[47]则通过伪造深度模型水印来再次声明深度模型的所有权,进而使得真实的水印失效。

3.5.2 不同类型水印攻击的防御策略

针对查询修改攻击,Namba等[54]提出了一种基于指数加权的深度模型水印方法,该方法可以防御查询修改攻击,并且不影响深度模型的性能。Sun等[35]提出利用附加类别的隐写图像来保护深度模型的版权,利用LSB算法将用户指纹嵌入到关键样本中,该方法也可以抵抗查询修改攻击。

针对水印移除攻击,Jia等[59]提出一种纠缠水印方法,该方法将深度模型水印与深度模型的训练数据纠缠在一起,移除深度模型水印会导致深度模型的性能下降。Yang等[60]在深度模型蒸馏情况下对已有的深度模型水印算法进行了评价,实验证明蒸馏攻击可以很容易地移除深度模型水印,为此他们设计了一种称为Ingrain的蒸馏攻击防御方法,该方法可以提高深度模型水印对蒸馏攻击的鲁棒性,加强了深度模型水印嵌入任务和深度模型分类识别任务之间的相关性。

针对逃逸攻击,Li等[40]首次提出了基于盲水印的深度模型水印保护框架,该框架旨在生成与深度模型的普通样本分布相似的关键样本,模型攻击者无法检测出这类关键样本,这样可以阻止关键样本对深度模型的版权验证。假设模型攻击者知道深度模型水印的嵌入算法,他可能试图通过嵌入新的深度模型水印来破坏原始的深度模型水印。因此,Li等[61]在深度模型的分类精度和水印之间建立了一种强相关性,以此来防御攻击者的伪造攻击。在动态水印中,攻击者常常伪造触发样本和标签的匹配关系来混淆深度模型的版权,针对这类伪造攻击,Zhu等[62]利用单向哈希函数构造抗伪造攻击协议生成触发样本链,并利用触发样本链来指定触发样本与标签的关系。针对伪造攻击,Xu等[63]还提出了一种新的深度模型水印框架,该框架在深度模型中嵌入一份机构认证的序列号,以此来证明深度模型的版权。该序列号经过认证机构认可,并且与深度模型的标签无关,增加了模型攻击者伪造深度模型水印的难度。Fan等[47]则提出了一种基于数字护照的深度模型水印保护策略,伪造数字护照会使深度模型的性能显著下降,因此该策略也能防御伪造攻击。

4 总结与展望

随着人工智能的广泛应用,深度模型已经成为一种昂贵的数字资产,各种深度模型极易被非法入侵或窃取,如何保护深度模型的版权已成为学术界和工业界亟待解决的问题。介绍了研究者们对深度模型水印技术的分类方法和深度模型水印技术的基础,重点对比分析了静态水印、动态水印和主动授权控制技术的优缺点,以及归纳总结了深度模型水印保护算法的攻击和防御技术。

人工智能时代的深度模型已经被应用到各个不同的行业领域,深度模型水印技术已经成为深度模型版权保护的主要方法,近几年来国内外研究者们提出了很多不一样的深度模型水印技术,深度模型水印保护技术也因此得到了很大的发展,涌现出图1所示的研究分支,越来越多的研究者参与到深度模型水印保护的研究领域中。然而,深度模型水印技术尚处在初级阶段,还存在很多亟待解决的问题,梳理了深度模型水印技术未来的研究方向。

(1)需要更大体量的数据集,以此来适应更为复杂的深度模型任务和深度模型水印技术的性能评估。现有的深度模型水印技术主要是对MNIST、CIFAR-10、CIFAR-100等较小规模的数据集训练出来的深度模型进行保护和评估,并且大多数深度模型水印技术仅适用于分类任务和简单图像数据处理。未来的研究方向应设计出能保护大规模数据集(ImageNet、COCO等)训练出来的深度模型,能适应在音频,文本,视频等非结构化数据上训练出来的纷繁复杂的各类深度模型。

(2)探索嵌入、检测和验证深度模型水印的新思路,增强深度模型水印技术的高效性和可靠性。目前,深度模型水印技术研究的重点集中在深度模型水印嵌入阶段,但是水印嵌入阶段大多需要再次训练深度模型,这会耗费大量的人力、物力和财力。深度模型的嵌入、检测和验证各阶段还有很大的研究空间,如何构建快速、高效的深度模型水印嵌入算法,力求深度模型水印保护变得更为简单。

(3)探索主动授权控制技术新机制。现有的深度模型水印技术大多是被动验证,只能在深度模型被盗取之后才能验证深度模型的版权,不能事先防范或者制止窃取者对深度模型功能的使用,主动授权控制可以提前阻止窃取者对深度模型的非法使用,实现版权保护和用户身份管理的功能。

(4)权衡深度模型水印保护策略的保真性和鲁棒性。保真性和鲁棒性是评价深度模型水印技术好坏的重要指标,深度模型水印技术在保持保真性的同时难免会降低鲁棒性,权衡好两者之间的关系不仅能降低深度模型水印技术对深度模型性能的影响,而且能提高深度模型水印技术对不同攻击者的防御能力。

(5)开发一个通用的深度模型水印理论框架。多年来,多媒体水印已经构建起一套较为完善的理论框架,虽然它们的一些概念和结构可以直接引入到深度模型水印理论框架中来,但是深度模型和多媒体是两个不同的载体,它们的应用场景也有很大的区别,构建深度模型水印的理论框架能促进深度模型及其水印技术的发展。

虽然,国内的张新鹏教授团队、张卫明教授团队和薛明富教授团队等分别在静态水印技术、动态水印技术和主动授权控制技术方面做出了非常重要的贡献。但是,总体上中国的深度模型水印技术尚处于起步阶段,在目标检测、语音识别、自然语言处理、自动驾驶汽车和智能医疗等重要领域的研究成果较少,如果这些领域所应用的深度神经网络模型被非法入侵或窃取,会造成严重的隐私危机和商业价值流失,甚至直接影响国民安全。因此,除了需要在如上5个发展方向上继续探索和深入研究,还应进一步增强深度模型水印技术在各个行业领域的应用,重视不同行业领域数据集之间的差异,重视不同行业领域应用的深度神经网络模型的结构差异等问题,以及高度重视产学研的深度合作,进而加快深度神经网络模型水印技术的发展,有效解决深度神经网络模型的版权保护问题。

猜你喜欢
神经网络深度样本
用样本估计总体复习点拨
深度理解一元一次方程
神经网络抑制无线通信干扰探究
深度观察
深度观察
深度观察
推动医改的“直销样本”
随机微分方程的样本Lyapunov二次型估计
基于神经网络的拉矫机控制模型建立
村企共赢的样本