樊雪峰 周晓谊 朱冰冰 董津位 牛 俊 王 鹤
1(海南大学网络空间安全学院 海口 570228) 2(西安电子科技大学网络与信息安全学院 西安 710126) 3(西安电子科技大学计算机科学与技术学院 西安 710071)
工业互联网(industrial Internet)是新一代信息通信技术与工业经济深度融合的新型基础设施、应用模式和工业生态,通过“人、机、物”的全面互联,全要素、全产业链、全价值链的全面连接,推动制造业生产方式和企业形态变革.安全是工业互联网领域关注的核心问题之一,是实现工业互联网高质量发展的前提条件,具有重要的价值.虽然DNN技术在提升工业互联网安全防护水平中发挥了重要作用,但其固有的高维线性、大量依赖数据、可解释性不佳等特性,为工业互联网埋下了安全隐患.目前针对DNN模型的攻击层出不穷,如利用构建检测器等方法对所有权验证进行的攻击等[1],对DNN模型及其所有者的权益造成了极大的侵害.同时,由于训练DNN模型所花费的人力和物力资源巨大,因此,有必要设计DNN模型的知识产权保护技术,从而使侵权盗版者无计可施,并保持DNN模型所有者在商业竞争中的优势.
数字资产的知识产权保护[2-7]研究工作始于20世纪50年代,目前已经有70年左右的历史.其中,数字水印[8-12]作为最受研究者关注的多媒体版权保护方法,被应用于数字图像、音频、视频等多媒体产品上进行版权保护以及验证多媒体数据的完整性[13].水印是一种基于内容的信息隐藏技术[14-16],最早可追溯到唐朝我国造纸工匠用于防止假冒和美化纸张所发明的水印.大约7个世纪以前,意大利的Fabriano镇出现了纸水印[17].1954年,Muzak公司的工程师将数字水印应用于保护音乐作品的方案中.从那时起,人们开始进行了大量的水印技术研究与应用.多媒体水印是将所有者信息嵌入载体数据中,且不影响载体数据的正常使用.当发生版权纠纷时,版权所有者从多媒体数据中提取出事先嵌入的水印,用以证明所有者版权,因此,这就要求嵌入的水印不易被检测和去除,具有一定的鲁棒性.数字水印的分类如表1所示:
Table 1 Digital Watermarking Classification
近年来,DNN在图像和语音处理等领域被广泛应用,如自然语言处理[50-52]、计算机视觉[53-55]、图像识别[56-57]、图像处理[58]、对象检测[59-61]、语音识别[62-63]等.一些先进的神经网络模型如LeNet[64],AlexNet[56],VGGNet[65],GoogLeNet[57]和ResNet[53]表现出了优异的性能.微软、百度和谷歌等互联网公司已经在其产品服务中布局DNN模型,用以提供智能化和高质量的服务,同时DNN也逐渐成为目前提升工业互联网安全防护水平的主要技术之一.然而,在享受着智能化服务的同时,如何保护DNN模型的版权不被非法盗取和剽窃逐渐成为一个具有挑战性的问题.与传统的多媒体数据不同,训练一个好的DNN模型所花费的代价是巨大的,这需要用到大规模的数据集、庞大的计算资源和人力成本[66-67].因此,保护DNN模型的版权不受侵犯变得尤为重要.
一种保护DNN模型版权比较有效的方法是将数字水印引入其中.但DNN模型强大的学习能力导致其与传统多媒体相比,版权保护工作更具有挑战性.不仅如此,DNN模型不具备多媒体直观的特性,导致传统的数字水印不能直接应用于DNN模型的保护.近年来,研究者针对DNN模型的版权保护提出了很多优秀的方案.文献[68]从神经网络水印技术的相关基础、白盒和黑盒水印方法的梳理对比、针对水印的攻击方法等方面总结了神经网络水印技术的研究进展,并对未来的工作进行了展望,为该领域的发展提供了极大的参考价值,但是该文献缺乏对图像处理任务DNN模型保护工作的梳理,而且对神经网络水印的分类存在不足.文献[69]总结了现阶段神经网络水印的研究成果,论述了当前主流的神经网络水印算法,对基于内部权重水印算法(正则项水印)等4类典型算法进行了复现比较,但该文献对当前针对神经网络水印的攻击方法等描述不够完善.文献[70]从场景、机制、容量、类型、功能和目标模型6个属性提出了DNN模型版权保护方法的分类,并将针对DNN模型保护方法的攻击分为3个级别,从弱到强分别是模型修改、被动攻击、主动攻击,但该文献对已有工作的梳理不够详细,对现有工作的描述较为简单.文献[71]引入了一种新的神经网络水印分类法,将神经网络水印分类为静态水印算法和动态水印算法,为我们梳理相关工作提供了一种新的思路,同时文章给出了属于每一类的几个示例性方法,但没有梳理迄今为止提出的所有方法.因此,我们在过去的基础上,不仅对图像处理任务DNN的保护工作进行了梳理,而且对白盒和黑盒方法进行更详细的分类总结,之后将神经网络水印的分类进行了扩充,对当前神经网络水印的性能指标和攻击方法进行了整理汇总.另外,我们针对未来DNN模型的版权保护工作也提出了自己的一些观点.
我们调研了网络安全领域的四大顶级会议USENIX Security Symposium, Network and Distributed System Security Symposium(NDSS),Conference on Computer and Communications Security(ACM CCS),IEEE Symposium on Security and Privacy(S&P)以及其他期刊和会议近3~5年的相关文章,并在5个领域的期刊或会议检索到相关工作的文献(如人工智能领域NeurIPS/KSEM/TPAMI/TNNLS/NCA、网络与信息安全领域USENIX Security/ACSAC/AsiaCCS/TrustCom/IH&MMSec、计算机图形学与多媒体领域ICMR/ICASSP/TCSVT、并行与分布计算领域ASPLOS/ICCAD、数据挖掘领域PAKDD/arXiv等).我们依据这些文章,对近年来研究者针对保护DNN模型版权所提出的神经网络水印方法进行了梳理,调研的神经网络水印相关文献来源分析如图1所示.可以看到,虽然总体的研究文献还不是很多,但是近几年发表的相关文献数量一直在增加,这说明DNN模型的版权保护工作越来越受到广大学者和科研人员的重视.
Fig. 1 Source analysis of research literature图1 调研文献来源分析
我们的主要贡献有3个方面:
1) 针对截至2021年11月之前研究者所提出的用来保护DNN模型版权的水印方法,从水印嵌入和提取的不同方式出发,将神经网络水印在原有的白盒水印和黑盒水印分类基础上,扩充了灰盒水印和无盒水印2种分类,并对白盒水印和黑盒水印方法根据其水印嵌入的不同思路和不同任务模型进行了更详细的分类总结,对4类水印方法的性能进行了对比,对当前神经网络水印的性能指标和攻击方法进行了整理汇总.
2) 现有的大多数黑盒水印方法针对图像分类模型进行保护,我们扩展梳理了通过构造触发图像和通过在输出图像中嵌入水印的方法实现对图像处理模型的版权保护工作,以及通过构造触发文本等方法实现对文本处理任务模型的版权保护.
3) 结合现有神经网络水印的研究工作,从嵌入速度的提升、在音频处理等其他DNN模型中的应用、DNN模型冗余和水印嵌入的不同位置与水印容量之间数学关系的理论证明、访问控制和主动防护的实现、DNN模型的完整性保护以及形成统一的神经网络水印评估标准6个角度探讨了下一步神经网络水印的研究方向.
我们从水印的嵌入和提取的不同方式出发,在原有的白盒水印和黑盒水印分类基础上,扩充了灰盒水印和无盒水印2种分类,如图2所示.
1) 白盒水印方法,如图2(a)所示.在白盒的场景下,模型所有者在目标模型的内部嵌入水印,提取水印时,目标模型的网络结构和内部权重等信息是已知的.因此,白盒水印假设DNN模型的所有者可以访问可疑目标模型的内部结构和权重,通过提取嵌入在模型内部的水印验证模型的所有权.
2) 黑盒水印方法,如图2(b)所示.与白盒情况不同,在黑盒情况下,模型所有者通过特定的输入输出构造触发集,用以改造模型.验证版权时,模型所有者不知道可疑目标模型的内部结构和权重,只能通过API来访问目标模型,从而获得特定的输出验证版权.事实上,模型被盗的大多数情况下,版权所有者只能通过API查询得到可疑模型的输出来验证模型的版权归属.
Fig. 2 Four types of watermarking methods图2 4种类别水印方法
Fig. 3 Neural network backdoor example图3 神经网络后门示例
黑盒水印方法通常基于神经网络中的后门来构建,神经网络后门的一个简单示例如图3所示,原始样本输入分类网络后被正常分类为“牛”,处理过的样本(如在图像中加入小方块)输入经过训练的分类网络后被错误分类为“猴”.由此可见,通过构建具有特定输入输出关系的触发集(包含样本及指定的标签),并将该触发集与正常样本集一同训练,训练后特定的触发集由版权所有者保存,当出现可疑目标模型时,版权所有者将触发集中的样本输入可疑模型中,通过输出的指定标签来验证模型的版权.因此,黑盒水印方法多数情况下应用于分类任务的DNN模型中.
3) 灰盒水印方法,如图2(c)所示.灰盒水印方法结合了白盒水印和黑盒水印方法的特点,既向模型的内部嵌入信息,又以黑盒的方式获得输出以验证模型版权.但与黑盒水印方法不同的是,黑盒水印方法的水印嵌入通过修改数据集继而调整模型实现在模型中嵌入水印,而灰盒水印方法则通过白盒思路直接在模型内部嵌入信息实现在模型中嵌入水印.
4) 无盒水印方法,如图2(d)所示.无盒水印方法这个概念是我们在第一届中国媒体取证与安全大会(ChinaMFS 2020)[72]张新鹏教授的报告中首次获悉.无盒水印方法区别于白盒、黑盒、灰盒这3种水印方法,模型版权的验证既不需要在模型内部嵌入水印也不需要构建特定的输入输出对,即不再需要模型本身的参与.输入的图像经过模型输出后会携带水印信息,通过提取输出图像中的水印信息即可验证模型版权.截至目前,无盒水印方法主要关注图像处理任务的DNN模型.
本节从概念上对白盒、黑盒、灰盒和无盒4类水印方法进行了解释,并结合图示进行了说明.我们还统计了神经网络水印相关文献的发表数量,如图4所示;并以树状图的形式总结了神经网络水印的发展情况,如图5所示.可以发现,神经网络水印研究方向的大树在近2年逐渐枝繁叶茂.其中,黑盒水印方法因其验证的便捷性、无盒水印方法因其在图像处理领域DNN模型的应用,因此,在未来具有更好的发展优势.
Fig. 4 Four categories of methods published in the past five years图4 4种类别方法近5年文献发表量
Fig. 5 DNN watermarking development diagram图5 深度神经网络水印发展图
本节对神经网络水印方法进行详细的分类,总结了不同学者所做的相关工作.
白盒水印方法根据嵌入和验证方式的不同可以分为3类:基于内部权重的白盒水印方法、基于内部结构的白盒水印方法、基于组合验证的白盒水印方法.
3.1.1 基于内部权重的白盒水印方法
权重是神经网络模型内部参数的一种,表示神经单元之间连接的强度,反映了输入对输出的影响程度.基于内部权重的白盒水印方法是对神经网络模型中的权重进行修改以嵌入水印.
Fig. 6 The watermarking framework proposed in ref [73]图6 文献[73]提出的水印框架
文献[73]首次提出了一个在DNN模型中嵌入水印的通用框架.将水印嵌入情况分为3种类型:训练嵌入、微调嵌入和蒸馏嵌入.其中,前2种情况是模型的版权所有者进行的水印嵌入,第3种情况是非版权所有者(如第三方云平台)受托代表版权所有者进行水印嵌入.微调嵌入水印如图6所示,使用参数正则化器X将一个参数矩阵水印嵌入目标模型卷积层的参数空间中.所提方案在损失函数中使用二元交叉熵项作为正则化器:
(1-bj)log(1-yj)),
(1)
由于之前的工作[73]主要解决了模型微调和剪枝攻击的鲁棒性问题,针对共谋攻击没有相关研究.基于此,文献[74]从追溯的角度出发,将用户指纹作为水印,提出了一种由用户和模型共同确定的端到端系统指纹框架DeepMarks. DeepMarks在保证模型性能不会大幅下降的基础上为每个用户分配一个唯一的二进制代码向量(也称为指纹),并将指纹信息嵌入模型权重的概率分布中,能够有效地跟踪每个用户模型的使用情况.实验表明,DeepMarks可以有效地验证模型的所有权并追踪到侵权模型,并能抵抗潜在的攻击,如共谋攻击、参数修剪和模型微调.
Fig. 7 The watermarking framework proposed in ref [75]图7 文献[75]提出的水印框架
实验表明:在模型微调和压缩等攻击下,独立神经网络能够以较小的损失嵌入和提取水印,且不会显著降低原任务的性能.然而,此类方法无法避免水印歧义攻击,攻击者可能使用新的独立神经网络来嵌入非法的水印,这将引起水印认证的模糊性.
由于文献[73]无法抵抗水印覆盖攻击的缺点,所以文献[76]在其基础上进行改进,提出将水印嵌入中间层激活图的概率密度函数中,解决了水印覆盖攻击的问题,但此方案嵌入水印的容量较小.因此,文献[77]在已有工作的基础上提出了带补偿机制的水印嵌入方案.首先选取要伪随机嵌入水印的权重,然后对选取的权重进行正交变换,通过二值化方法在得到的系数中嵌入水印,并对水印系数进行逆正交变换得到新的水印权重.最后通过用带补偿机制的模型微调方案,可以在不破坏模型中水印的情况下,消除二值化带来的轻微精度下降.该方案不同于以正则化方式嵌入水印的方案,水印嵌入得更隐蔽,嵌入成本更低,稳定性更强,能有效抵抗水印覆盖攻击.在该方案中,与水印覆盖攻击相比,权重修剪对原始水印的损害更大.为了避免这种情况,该方案对原始水印进行扩频调制,并将调制后的水印分散嵌入模型各层的权重中,以增强水印的鲁棒性.
由于文献[73]使用的算法修改了模型参数的统计分布,利用这个漏洞不仅可以检测水印的存在,甚至可以导出其嵌入长度,并使用此信息通过覆盖来删除水印.为此,文献[78-79]通过不同的方案解决了这个问题.
文献[78]提出了一种基于对抗学习网络(类似于生成对抗网络)的白盒水印方法(robust white box GAN watermarking, RIGA).该方法使用水印模型作为生成器,检测模型参数统计分布变化的水印检测器作为鉴别器,在训练期间,鼓励生成器生成不可检测的水印,而鉴别器则尝试区分带水印和不带水印的模型,从而使嵌入水印前后模型的参数分布很难区分,水印不容易被攻击者检测到.在水印提取过程中,利用多层神经网络代替文献[73]中静态密钥矩阵X,提取网络与目标模型一起训练,实现快速收敛.实验表明,该方案不影响模型准确性,嵌入的水印可以是不同的数据类型,不仅可以是二进制数据,也可以是二维图像,进一步提高了水印的容量和鲁棒性,且隐蔽性很好.
文献[79]将重点放在微调目标模型的全连接层上,与文献[73]中的方法不同,该方法不再使用水印嵌入的损失函数,而是通过使用量化索引调制(quantized index modulation, QIM)方法的思想来控制由于水印嵌入而引起的变化量,使水印嵌入引起的变化很小.首先基于密钥随机选取部分全连接层的权重参数n,对其进行离散余弦变换(discrete cosine transform, DCT)得到频率分量,利用水印修改其频率分量,然后进行逆DCT变换,训练模型更新权重参数.在嵌入操作中,模型权重初始值被改变以嵌入水印,由于水印的权重会随着学习过程的进行而发生轻微的变化,文献[79]认为水印信号在每次训练都加入了噪声,所以在每次训练更新权重参数后进行嵌入操作,以去除水印信号上的噪声.在对初始权值进行第1次嵌入操作时,水印嵌入引起的变化量在其余过程中必须是最大的.第1次嵌入操作后,在学习过程中更新模型中的所有权值,使其达到局部最小值.然后,在下一阶段学习过程后,由于训练引起的细微变化,对采样权值进行相同的嵌入操作来校正.在这里,可以看到第2个嵌入操作的变化比第1个操作的变化要小得多.同样,权值的变化在经过几个阶段的训练后会变小,随着训练的进行,权重的变化预计会收敛到零.也就是说,该方案不需要通过损失函数即可嵌入水印.此外,候选样本(全连接层的全部参数)的数量N远多于n,这使得很难通过观察全连接层权重来分析水印的存在.
3.1.2 基于内部结构的白盒水印方法
由于在模型的内部权重中嵌入水印容易被攻击者移除和检测,从而使所有权保护失效,因此,研究者提出了基于内部结构的白盒水印方法,即更改目标模型的内部结构来达到嵌入水印的目的.
为了抵抗通过改变DNN模型参数来去除水印的各种攻击,文献[80]提出了一种利用网络剪枝进行的结构化水印方法.网络剪枝是一种常用的通过剪枝冗余成分来减小DNN规模的方法,在构建轻量级DNN中起着重要的作用.受到该技术的启发,文献[80]将水印嵌入给定的DNN冗余结构中,保证了DNN对其原始任务的性能.具体来说,提出的水印框架包括2个阶段:水印嵌入和水印提取.水印嵌入过程中,将水印分成几个比特段,并使用每个比特段对修剪率进行采样,然后将其分配给卷积层以进行由密钥控制的通道修剪.实际上,水印嵌入的目的是将包含所有权信息的二进制比特序列嵌入目标模型中,一旦目标模型被标记,就可以保护其所有权.水印提取过程中,由于水印的每个比特段与对应信道的剪枝率之间的映射实际上是双目标的,因此,可以通过检查标记信道的剪枝率来唯一地恢复所有比特段.实验表明,通过网络剪枝,该方法在不牺牲DNN模型可用性的前提下,能够可靠地重构水印,并提供较大的水印容量.同时也证明了该方法对常规水印方法中常见的变换和攻击具有很强的鲁棒性.
文献[81-82]提出通过在模型结构中添加一个额外的护照(passport),如在卷积层之后添加一个新的护照层,起到数字签名的作用,解决模型受到的歧义性攻击问题.
尽管已有的工作[73]具备了对微调和剪枝等攻击的鲁棒性,其中文献[76]还证明了嵌入水印对覆盖攻击的鲁棒性,但现有工作仍无法解决伪造水印造成的歧义性攻击问题.因此,文献[81]提出了一种基于护照的水印方法.该方法使预先训练的DNN模型的性能在有效护照存在的情况下保持不变,一旦护照被修改或伪造,原始模型的性能就会严重恶化,即利用护照来控制DNN模型的性能,据此开发所有权验证方案.具体来说,该方案在DNN模型的卷积层之后附加了一个护照层,如图8所示,其权重γ和偏置项β取决于卷积核Cp和护照P:
(2)
(3)
利用所提出的基于护照的方法,文献[81]设计了3种所有权验证方案,如表2所示,其中V2和V3是通过多任务学习实现的,采用了Group Normalization.实验证明,该方案对模型修改具有鲁棒性,并且成功抵抗了水印的歧义攻击.
Fig. 8 Passport layer in ResNet architecture[81]图8 ResNet架构中的护照层[81]
Table 2 Three Passport-Based Ownership Verification Schemes
由于文献[81]的方案只适用于一些特殊的归一化层(如Group Normalization),因此对应用其他归一化层(如Batch Normalization)的目标网络模型来说,需要替换所有Batch Normalization层来改变网络结构,才能进行保护,否则将不能运用该方案.但是对于许多任务,改变网络结构会导致显著的性能下降.
受到文献[81]工作的启发,文献[82]基于不改变网络结构和减少性能下降的目标,提出了一种适用于大多数流行的归一化层的新的护照识别归一化公式,只需要添加一个额外的护照识别分支来保护知识产权.训练过程中预定义了一些秘密护照,这些额外的分支与目标模型联合训练,经过训练后,这些秘密护照和新的分支都将由模型所有者保存,用来以后进行所有权验证,只有原始的目标模型被交付给用户.因此,从用户的角度来看,网络结构没有变化.此外,由于护照识别分支的归一化统计量(例如,Batch Normalization的均值和方差)被设计成独立计算,因此,对目标模型的性能影响将很小.当出现可疑模型时,模型所有者可以将秘密护照和新的分支添加回来进行所有权验证.目标模型的性能只有在给出正确的护照时才会保持不变,同时对于伪造的护照,目标模型性能会严重下降.实验证明,该方案对模型修改具有鲁棒性,可以抵抗歧义攻击,并且适用于大多数流行的归一化层.
3.1.3 基于组合验证的白盒水印方法
基于组合验证的方式是把水印分为2个部分:1)嵌入网络模型;2)由所有者保存,验证时将二者合二为一进行验证.
Fig. 9 HufuNet framework[83]图9 HufuNet框架图[83]
为了进一步提高水印对模型微调和剪枝攻击的鲁棒性,同时解决非法用户伪造水印进行的歧义性攻击,文献[83]在前人的基础上结合中国古代虎符的文化元素,提出了一种新颖的白盒水印方法HufuNet,用于保护DNN模型的知识产权,如图9所示.该方案通过训练一个具有少量参数的神经网络,即HufuNet,以获得较高的测试精度.其中,测试集与训练集具有相同的分布,二者都向公众发布,用于训练和验证HufuNet.HufuNet经过训练和测试后,分成2个部分:1)HufuNet的所有卷积层,该部分作为水印嵌入DNN模型中,用于所有权保护;2)HufuNet的全连接层,该部分由模型所有者保存,用于所有权验证.在含有水印的DNN模型训练过程中,冻结来自HufuNet的参数,同时更新模型中的其他参数,以确保其在主要任务上的性能.在所有权验证阶段,模型所有者从可疑DNN模型中提取嵌入的水印,并相应恢复HufuNet嵌入宿主DNN的左半部分,与所有权者保存的右半部分HufuNet合并成一个完整的HufuNet,用以对可疑模型声张所有权.与之前的水印方法相比,基于HufuNet的所有权验证对模型微调、剪枝更鲁棒,对水印伪造更安全,对卷积核去除和补充攻击鲁棒,可以抵抗水印歧义攻击.同时,该方法对DNN的性能影响可以忽略不计.
白盒水印方法经过几年的发展已经较为成熟,但由于提取水印时需要了解模型的内部结构,限制了此类方法的实际应用.黑盒水印方法通过访问API即可进行验证,具有更广泛的应用前景,但是由于当前的黑盒水印方法修改了模型的训练数据集,因此必然会对模型的准确性造成或多或少的影响,这对一些高精度的应用环境(如自动驾驶、癌症诊断等)来说是无法接受的.因此,在此类应用的模型保护中,白盒水印方法由于可以在没有精度损失的情况下工作而受到关注.
黑盒水印方法根据DNN模型任务的不同可以分为3类:基于分类任务、基于图像处理任务和基于文本处理任务.
3.2.1 基于分类任务的黑盒水印方法
基于分类任务的黑盒水印方法中模型所有者通过构造具有特定输入输出对的触发集,训练模型以达到通过触发集验证模型版权的目的.
1) 仅通过标签更改构造触发集
标签更改是指对原始样本对应的正确标签进行修改,改为由版权所有者特定的与原始样本内容不符的标签.仅通过标签更改构造触发集属于零比特水印方法.
Fig. 10 Abstract image marked as “car”[84]图10 被标记为“汽车”的抽象图像[84]
文献[84]用一组抽象的图像和与图像内容不符的标签构造触发集(引入可信的第三方,用于所有权验证),这些图像彼此无关,也与训练样本无关,触发集图像的标签是随机分配的,如图10所示.之后利用触发集和原始训练集来训练目标模型.训练好的DNN当给定有标注的输入时,带水印的DNN模型会输出特定的标签,达到验证模型版权的目的.值得一提的是,该方案很难将抽象的图像与所有者的身份关联起来,引入可信的第三方虽然为核查过程提供了严格的安全性,但实际服务中因需要第三方的参与往往具有昂贵的代价.
不同于文献[84]的方法,文献[85]首先引入了一种新的神经网络水印攻击方法,即查询修改攻击.在查询修改攻击中,当给出一个查询时,查询修改处理将使用一个自动编码器来确定该查询是否是一个密钥样本.如果该查询被检测为密钥样本,则会修改图像,使验证过程失败.自动编码器是一种特殊的DNN,它首先将输入图像压缩成低维数据,然后将这些低维数据解压缩为输出图像.结果,可以去除或稀释输入图像中的噪声.这样,水印密钥样本中的标志或噪声(水印模式)可以通过查询修改攻击被移除.
针对以上攻击方法,文献[85]提出了一种基于标签更改和指数加权的黑盒水印方法.该方法包括2个部分:①通过标签变化生成密钥样本;②通过指数加权嵌入密钥样本.首先,在密钥样本生成过程中,随机选择一个未经修改的训练样本;然后,将该样本的标签更改为与原始样本不同的错误标签以生成密钥样本.模型将除了这个特定的密钥样本识别为错误标签外,其余原始样本都被正确识别.密钥样本本身没有任何标记,不会被未经授权的服务提供者检测到,但直接使用这些密钥样本进行训练会导致模型过拟合.因此,在训练过程中,识别出对发布预测有显著作用的神经网络模型参数,并将其权重值指数增加,使其不能在模型修改处理前后改变样本(包括密钥样本)的预测行为,提高了对模型修改的鲁棒性.实验表明,该方案可以同时抵抗模型修改和查询修改造成的水印失效攻击.
不同于文献[84-85]的零比特水印方法,文献[86]提出了一种利用对抗样本构建触发集的新的零比特水印方法.首先,通过对原始输入添加一个小的扰动来创建对抗性示例,用标签对其进行了重新标记,这样决策边界的正常图像一部分被分配使用错误标签,而另一部分则继续使用原来的正确标签.然后,使用重新标记的对抗性示例对模型进行微调,微调过程中,决策区域的边界分布在对抗性示例周围,如图11所示.最后,使用对抗性示例作为触发密钥,它们的类标签作为验证密钥.在验证阶段,没有此水印的模型很可能会误分类此类对抗性示例,而带有水印的模型则有望正确识别此类对抗性示例.因此,模型所有者以此来验证模型所有权.
Fig. 11 The decision boundary of the binary classifier[86]图11 二元分类器决策边界示意图[86]
仅通过标签更改构造触发集的方法是黑盒水印方法最初的工作思路,并在以后的工作中得到发展.
2) 通过在原始样本中嵌入信息和标签更改构造触发集
文献[84-86]只对样本进行标签更改,不支持嵌入版权所有者的信息以提供强有力的版权证明.与之不同,文献[87-89]在标签更改的基础上,在原始样本中嵌入了一些信息,这类方法支持相对较大的有效载荷,以提供强有力的所有权证明.
文献[87]研究了3种水印生成算法,将有意义的文本内容和无意义的噪声嵌入图像样本中作为水印,或将不相关的样本指定错误标签后将其作为水印(仍属于仅通过标签更改的方法),以此为基础提出了一种将水印嵌入目标模型的后门水印方法,并设计了一种远程验证机制来确定模型的所有权,该方法的框架如图12所示.首先通过水印生成算法为目标模型的所有者生成定制水印和预定义的标签,这些水印在以后所有权验证阶段使用.其次,该框架通过训练将生成的水印嵌入目标模型中,目标模型自动学习并记忆水印.最后,新生成的含水印模型能够进行所有权验证.一旦模型被盗并被用于提供服务,所有者可以通过发送水印作为输入并检查服务的输出来验证版权.实验证明,该方案对模型微调和剪枝具有一定的鲁棒性,可以准确并快速验证可疑模型的所有权,而不影响正常输入数据的模型准确性.
Fig. 12 The watermarking framework proposed in ref [87]图12 文献[87]提出的水印框架
DNN越来越多地应用于智能家居、虚拟现实/增强现实(VR/AR)、机器人和自动驾驶汽车等新兴行业.在这些场景中,底层嵌入式系统通常在本地运行DNN,以解决延迟和隐私问题.在不久的将来可能会出现基于DNN的专有软件开发工具包(software development kit, SDK),与基于云的API不同,本地SDK更容易受到未经授权的复制和分发.因此,文献[88]提出了一种适用于嵌入式应用的神经网络水印框架.具体来说,首先选择原始数据集的一部分,并根据模型所有者的签名添加某些修改(具体修改操作只有模型所有者知道).然后同时使用原始数据集和修改后的数据集微调初始模型(使用现有的权重作为初始化),使训练后的含水印模型遇到任何嵌入版权所有者签名的输入时会以预定义的特殊模式运行,一个简单的示例如图13所示.所有权验证通过比较原始目标模型和含水印模型在修改输入上的行为进行.在所有权验证阶段模型所有者必须公开其签名以及如何对数据集进行修改,以证明模型所有者的身份.实际上,此方法与文献[87]的方法有异曲同工之妙.与文献[84]相比,这2种方法不需要指定的输入和第三方参与,因此,在证明版权所有者身份时几乎不需要额外的开销.
Fig. 14 The blind watermarking framework proposed in ref [89]图14 文献[89]提出的盲水印框架
Fig. 13 A simple example of the scheme in ref [88]图13 文献[88]方案的一个简单示例
由于之前的神经网络水印方法[84]可以被攻击者通过检测密钥样本,轻松构建检测器来逃避DNN模型所有者的检测.另外,攻击者可以很容易地通过建立一组假样本进行歧义攻击,使模型具有攻击者的水印行为.为了解决这些问题,文献[89]首次提出基于盲水印的DNN知识产权保护框架,如图14所示.该框架以原始训练样本和logo等标识信息作为输入,通过编码器生成与原始样本分布相似的密钥样本,并通过预定义的标签将这些密钥样本嵌入DNN中.鉴别器的本质是生成式对抗网络,用来确定是密钥样本还是原始样本,同时充当检测器,以检测编码器是否生成了密钥样本.
实验证明该框架可以有效地验证所有权,并且不会对目标模型的原始任务产生显著的副作用,具有一定的鲁棒性,对规避攻击具有不可检测性,对欺骗性所有权声明具有不可伪造性,在模型和模型所有者身份之间建立了明确的联系.
通过在原始样本中嵌入信息和标签更改构造触发集的方法在标签更改的基础上嵌入模型所有者的信息,可以提供强有力的所有权证明.
3) 通过添加新的类构造触发集
基于后门的黑盒DNN水印方法依赖于密钥样本,分配具有错误标签的密钥样本将不可避免地或多或少地扭曲原始决策边界.为此,文献[90]通过在训练过程中对精心制作的密钥样本添加新的类标签对模型添加水印,最大限度地减少(甚至消除)原始决策边界扭曲的影响.
具体而言,如图15所示,设原始目标模型的任务是预测N-1个不同的类.添加一个新的类后,含水印模型的任务变为预测N个不同的类,那么无水印模型不能输出一个不存在的类标签.所提方案由3种算法组成:KsGen,TrEmb和Ver. KsGen以原始数据集D的子集和秘密S作为输入,之后将所有精心制作的样本分配给第N个标签,并输出密钥样本数据集DS.TrEmb将原始数据集D和来自KsGen的结果作为输入,并输出含水印的模型.Ver将可疑模型和来自KsGen的结果作为输入,对可疑模型进行验证.实验证明,该方案具有一定的鲁棒性,含水印模型具备较高的保真度.另外,由于使用较少的训练密钥样本和较弱的扰动强度,嵌入的水印不易被检测.
Fig. 15 The watermarking framework proposed in ref [90]图15 文献[90]提出的水印框架
由于现有的基于触发集的黑盒水印方法[84,87-90]构造的触发集本身的鲁棒性较差,内部攻击者窃取触发集后可以通过伪造触发集来获取其所有权.因此,为了解决触发集泄露造成的版权问题,文献[91]提出了利用图像水印领域常用的基于变换域的水印方法来构造触发集.因为基于变换域的水印具有较高的隐蔽性和对信号处理操作的鲁棒性,所以可以增强触发集的鲁棒性.该方案分为基于变换域的触发集生成、水印嵌入和所有权验证3个阶段.触发集的生成是从原始数据集中选取每个类的部分图像,通过在选取图像的变换域中插入基于块的特征来实现.利用原始数据集和生成的触发集共同训练目标模型,训练时将目标模型的输出层增加一个Δ类.训练模型使触发集输入后被分类为Δ类,从而验证版权.实验结果表明,该方法在保真度和效率方面可与文献[87-88]提出的方法相媲美,在有效性、抗剪枝攻击和抗歧义攻击方面优于它们,此外可以解决触发集泄露造成的模型版权失窃问题.
通过添加新的类标签构造触发集的方法在已有工作的基础上最大限度地减少了原始决策边界扭曲的影响.
4) 通过添加嵌入信息的附加样本构造触发集
由于之前的大多数方法只能满足表4中神经网络水印的部分要求,因此,文献[92]提出了KeyNet水印框架,该方案提供了保真度、鲁棒性、可靠性、完整性、容量、安全性、身份验证、唯一性和可扩展性,满足了几乎所有的水印要求,且与之前的黑盒水印工作相比,该方案根据嵌入不同用户的签名生成不同的触发集,微调嵌入水印后分发给对应的用户,可以达到溯源的目的.
具体来说,KeyNet框架如图16所示.首先将所有者的签名嵌入水印载体样本中不同的位置,对应不同的标签,从而生成触发集(该方案嵌入5个位置:左上、右上、左下、右下和中间,分别对应标签1~5).通过多任务学习的方式,利用触发集和原始数据集共同训练原始分类任务和水印任务,此过程中将另外一个私有模型添加到原始目标模型之后,以原始目标模型的输出作为输入,输出特定标签.之后,所有者将含水印模型分发,保留私有模型用作密钥.验证过程中,将嵌入签名的触发集样本输入可疑模型,得到的预测结果传递给私有模型,通过私有模型提供不同位置签名与其标签的准确对应关系验证版权.
Fig. 16 KeyNet framework[92]图16 KeyNet框架[92]
文献[93]发现大多数现有的水印方法不支持用户指纹的认证和管理,无法满足商业版权保护的要求.另外,文献[85]提出的查询修改攻击可以使大多数现有的基于后门的水印方法无效.为解决这些问题,文献[93]提出了一种通过使用其他类别和隐写图像来保护DNN的知识产权的方法,其框架如图17所示.首先选择原始训练数据集外的少量图像作为水印密钥样本.随后,用户的指纹通过最低有效位(least significant bit, LSB)图像隐写技术被隐藏在每个水印密钥样本中,为每个用户分配一个唯一的指纹图像,以便以后可以对用户的身份进行身份验证.为了在DNN中嵌入水印,首先给所有水印密钥样本分配一个新的类标签,然后将水印密钥样本添加到训练集中来训练一个带水印的DNN.当输入水印密钥样本时,带水印的DNN可以输出预定义的类标签.由于使用的是训练集之外的图像作为水印密钥样本,而不是在原始训练集图像上叠加嵌入图案,因此,所提出的水印方法可以抵抗查询修改攻击[85].另外,用户指纹认证的有效性应同时满足2个条件:①从用户提交的图像中提取用户指纹;②提交的指纹图像被水印模型分类为附加类别.只有同时满足2个条件,用户才能成功通过指纹认证.
实验结果表明,该方法在不影响模型测试精度的情况下,能够实现100%的水印精度和100%的指纹认证成功率.同时,该水印方法对微调和剪枝攻击以及查询修改攻击具有鲁棒性,可以有效地保护DNN的版权.
Fig. 17 The watermarking framework proposed in ref [93]图17 文献[93]提出的水印框架
通过添加嵌入信息的附加样本构造触发集的方法在已有工作的基础上减小了添加触发集后对原始模型精度的影响.
5) 其他方法
模型功能也可以通过模型提取来窃取,但此前的文献并没有关注该问题.模型提取是指攻击者通过API访问原始模型,然后使用返回的结果来训练代理模型.为了解决该问题,文献[94]提出一种神经网络动态对抗水印方法(dynamic adversarial watermarking of neural networks, DAWN),该方法首次使用水印来阻止通过模型提取进行的所有权盗窃.与先前的水印方法不同,DAWN不会对训练过程进行更改,而是通过动态更改来自API的一小部分查询(例如,小于0.5%)的响应,并在受保护模型的预测API上运行.该集合充当模型水印,在客户端通过查询来训练代理模型的情况下嵌入该水印.实验证明,DAWN方法能够有效地对所有提取的代理模型进行水印处理,使模型所有者证明其所有权.
与文献[81-82]利用护照通过白盒的方式解决歧义攻击问题不同,文献[95-97]利用不同的思路通过黑盒方式解决了歧义攻击造成的DNN模型的盗版问题.
Fig. 18 The initial image and five trigger images in the Hash chain[95]图18 哈希链中的初始图像和5个触发图像[95]
文献[95]提出了一种抗伪造攻击的神经网络水印协议.该方案引入单向哈希函数SHA256,使证明所有权的触发样本必须形成单向链,如图18所示,并且它们的标签也被赋值.使用此方法,没有网络训练权的攻击者不可能构造出触发样本链或者触发样本与指定标签的匹配关系,因此,该协议能够在不牺牲网络性能的情况下抵抗水印伪造攻击.
由于之前的神经网络水印大多被设计成增量训练和微调嵌入,那么攻击者可以使用相同的机制来嵌入更多的水印到一个已经有水印的模型中,从而造成歧义攻击,对原始模型进行盗版.基于这些不足,文献[96]提出了一种抗盗版水印的新方法——空嵌入(null embedding).空嵌入方法不依赖增量训练,只能在模型的初始训练中使用水印比特序列来修改用来训练模型正常分类规则的有效优化空间.模型所有者将从一个未经训练的模型开始,通过空嵌入方法生成与之相关的额外训练数据,并使用原始和额外的训练数据来训练模型,在模型的正常分类精度和水印之间建立强相关性.因此,攻击者不能通过调整或增量训练来移除嵌入的水印,也不能向已经有水印的模型添加新的盗版水印,达到抗盗版的目的.
由于文献[96]提出的空嵌入方法未对广泛应用于图像分类任务的残差网络ResNet等大型网络进行有效性验证,所以文献[97]在此基础上提出了基于密钥的分块图像变换水印方法,首次将分块图像变换应用于神经网络水印,利用了与文献[95-96]不同的技术,解决了歧义攻击造成的DNN模型的盗版问题.具体来说,该方案从训练集中选取一组图像,利用密钥按照文献[98]中的算法对其进行分块变换(块的大小M可以设置不同的值),变换后的图像示例如图19所示.水印嵌入过程中用变换后的图像和原始图像一起训练DNN模型.水印检测过程中利用密钥对测试图像变换后进行验证,若水印检测精度大于设定的阈值,则可验证版权.该方案使用密钥作为版权验证的关键,不需要预先设置触发集,其安全性依赖于密钥而不是算法的保密性,符合Auguste Kerckhoff的原理,且该方案具有抗盗版性和计算成本低的优点.
Fig. 19 Example of block-wise transformed images[97]图19 按块变换的图像示例[97]
此部分主要梳理了通过黑盒方式解决歧义攻击造成的DNN模型的盗版问题.
3.2.2 基于图像处理任务的黑盒水印方法
3.2.1节基于分类任务中提出的所有黑盒水印方法都是应用于图像映射到标签的分类模型的版权保护中,但对图像映射到图像的图像处理模型的保护很少提及,如图像去噪[99-100]、图像增强[101-102]、超分辨率[103]、图像修复[104]、风格转换[105]等任务.如表3所示,图像处理模型与分类模型不同,因此,不能直接将分类模型的水印方法应用于图像处理模型,相对来说,图像处理模型的保护更具有挑战性.
文献[106]首次提出一种解决图像处理模型版权保护问题的黑盒水印方法.该方法的思路是通过微调DNN操纵模型在特定域中的预测行为,使修改后的模型的输出图像接近预定义的结果.特定域形成所有可能的触发图像空间,并将预定义的结果用作验证图像,水印验证通过检查输入的触发图像是否可以在可疑模型的输出中看到它们相应的验证图像来完成.
具体来说,所提方法的框架如图20所示.首先生成触发图像和初始验证图像,在水印嵌入中,2个图像都用于微调目标模型.然后,将触发图像输入标记模型中,输出用于更新验证图像.触发图像和验证图像由所有者保留.在水印验证中,验证者将所有者的触发图像输入可疑模型中,然后将输出与所有者的验证图像进行比较以进行判断.实验结果表明,该方法满足保真度、唯一性和容量的要求,对模型压缩、模型微调和水印覆盖等攻击具有鲁棒性.重要的是,该水印技术在图像处理任务中具备推广使用的价值.
Fig. 20 The watermarking framework proposed in ref [106]图20 文献[106]提出的水印框架
Table 3 The Difference Between Image Processing Model and Classification Model
3.2.3 基于文本处理任务的黑盒水印方法
Fig. 21 The watermark generation framework in ref [107]图21 文献[107]中的水印生成框架
文本处理是许多机器学习领域中最常见的任务之一,在语言翻译、情感分析和垃圾邮件过滤等方面有许多应用.因此,对文本处理任务的DNN模型的版权保护同等重要.神经网络水印技术最近也出现了在文本领域的工作.
在文献[107]的工作中,提出了一种对文本处理DNN模型进行安全水印的框架.该框架的3个主要部分是水印生成、水印嵌入和水印验证.如图21所示,在水印生成步骤中,从训练集中随机选择B个样本,计算所有文档中每个单词的TF-IDF分数,对于每个选定的文档,从另一个类中随机选择一个文档来交换它们的单词并生成水印记录.选择2个文档中TF-IDF分数最低的k个单词,交换选定的单词和2个文档的标签.修改后的文档录入触发集.重复以上过程生成整个触发集.在水印生成步骤中,将原始训练集与生成的触发集结合,对DNN模型进行训练,得到含水印模型.如图22所示,在水印验证步骤中,使用触发集验证模型的所有权.该方法在不降低原任务性能的前提下,对参数修剪等已知攻击具有较强的鲁棒性.实验结果表明,该水印模型能够准确地提取出水印,从而准确地验证经过训练的模型的所有权.但显而易见的问题是经过修改后的句子有语法错误且语意不通顺,很容易被攻击者检测到.
Fig. 22 The watermark embedding and watermark verification framework in ref [107]图22 文献[107]中的水印嵌入和水印验证框架
文本领域DNN模型水印的发展目前还处于萌芽期,无论是文本分类或是文本处理,相关的研究都还非常少,并且缺乏较成熟的水印方法.但是神经网络水印在图像领域的探索已经积累了许多宝贵的经验,为研究人员开拓了视野,可以在未来很好地指导文本领域和其他领域的神经网络水印研究.
“灰盒”在文献[83]被提出,但是该文把灰盒等同于黑盒.根据文献[76,108]既通过向模型的内部嵌入信息,又以黑盒的方式获得输出以验证模型所有权的特点,在我们的工作中将其作为一种新类别的神经网络水印方法单独提出,并将其划分到灰盒水印类别中.
Fig. 23 DeepSigns architecture[76]图23 DeepSigns架构示意图[76]
文献[76]提出了一个保护DNN模型知识产权的系统解决方案DeepSigns,其架构如图23所示.该方案将目标模型和所有者特定的水印签名作为输入,然后在选定的层中嵌入相关的水印签名以及一组相应的密钥,输出一个带有水印信息的DNN模型.与先前的工作将水印信息直接嵌入DNN模型的静态内容(权重)中所不同的是,DeepSigns是将任意N位(N≥1)字符串嵌入各种激活图的概率密度函数(probability density function, PDF)中.为了验证远程DNN的知识产权,模型所有者首先需要使用在水印嵌入阶段生成的密钥查询远程的DNN,并获得相应的激活映射.然后,DeepSigns方法从获取的激活图的PDF分布中提取水印签名.最后,通过计算每层中提取的签名和对应的真实签名之间的误码率以验证版权.该方案由于水印嵌入动态统计信息中而不是模型的静态权重中,因此,能够抵抗水印覆盖攻击.此外,该方案从理论上讲允许通过增加触发器密钥的数量来嵌入一个任意的N比特流.
与文献[76]不同,为了解决将水印嵌入模型参数中容易被攻击者移除和检测的弊端,文献[108]基于神经架构搜索(neural architecture search, NAS)设计了一种新的NAS算法.该算法通过所有者特定的水印确定搜索空间中特定操作的某些连接,然后搜索其余的连接以产生高质量的网络架构,利用这种网络架构的独特性来代表模型的所有权.具体来说,在水印嵌入阶段,模型所有者生成唯一水印和对应的标记密钥,接着采用传统的NAS方法和标记密钥生成水印体系结构和验证密钥,在此基础上,利用该体系结构训练一个带水印的DNN模型.在水印提取和验证阶段,模型所有者使用侧通道技术在黑盒模式下提取DNN模型的体系结构来验证所有权,即使该模型是加密或隔离的.与之前的水印方法相比,该方案将水印嵌入体系结构中,而不是嵌入参数中.实验表明,该方案具有良好的有效性、可用性、鲁棒性和唯一性.但是该方案中水印是在模型的构建阶段嵌入的,若对训练好的DNN模型进行所有权保护则不适用.
Fig. 24 The novel watermarking framework proposed in ref [110]图24 文献[110]提出的新颖水印框架
无盒水印方法是指不再需要模型本身的参与,通过提取DNN模型输出中的水印即可验证模型版权.
文献[109]专注于深度学习文本生成模型,摒弃以往给训练数据或者模型参数加水印的方法,而是给模型的输出加水印.输入一个文本和一个充当水印信息的二进制字符串,该水印系统能够生成一个带有水印信息的输出.然后使用一个“揭示网络”(revealing network)即可从该输出中提取到水印信息,进而证明模型的所有权.为了改进语法错误问题,使用一个鉴别器来减少文本的语义损失,但仍无法完全解决该问题.
文献[109]是无盒水印方法在文本领域的应用,文献[110-111]的工作是无盒水印方法在图像处理领域的应用.
(4)
(5)
(6)
(7)
(8)
文献[111]与文献[110]同为图像处理任务的模型保护方案,有异曲同工之妙.不同的是,文献[111]在保护图像处理任务模型的同时旨在抵抗利用模型输入输出对进行的代理模型攻击.
(9)
具体来说,对于每个输入ai,都存在bi=M(ai).由于存在式(10)中的等价性,因此一定存在一个模型SM可以学习A和B′之间的映射关系.另一方面DNN的损失最小化特性从理论上保证了代理模型SM应该将水印δ学习到其输出中.当SM=M+δ时
(10)
文献[111]基于此理论,提出了一个通用的深度不可见模型水印框架,如图26所示,旨在抵抗代理模型攻击.该方案在待保护的DNN之后添加了一个水印嵌入网络H,将水印嵌入到由待保护的目标DNN的输出集B中,并最终输出含水印的图像集B′,含水印的图像集B′与原始DNN的输出集B在视觉上保持一致.另外设计一个水印提取网络R,可以从含水印的图像集B′中提取嵌入的水印.待保护的DNN和水印嵌入网络打包成一个整体进行部署,当攻击者基于此打包模型的输入输出对训练一个代理模型SM时,隐藏的水印将被学习到代理模型中,水印提取网络R仍然可以从代理模型的输出集B″中提取水印,从而验证版权.
Fig. 25 Image processing model schematic图25 图像处理模型示意图
Fig. 26 The depth invisible model watermarking framework proposed in ref [111]图26 文献[111]提出的深度不可见模型水印框架
本节对4种神经网络水印方法的相关工作进行了详细的梳理和总结.白盒水印方法提取水印时需要了解模型的内部结构,导致其在实际应用中不太理想,但其对原始模型精度的影响相对于其他方法具有一定的优势.黑盒水印方法通过访问API即可进行验证的特点使其具有较为广泛的应用,但目前绝大部分黑盒水印方法的研究针对图像分类领域,在其他领域的应用还较少.灰盒水印方法在白盒和黑盒的基础上出现,相关工作相对较少,目前与以上2种方法相比不具有优势.无盒水印方法的出现,主要解决了图像处理领域DNN模型的版权保护问题,填补了这一块空白,为神经网络水印的研究打开了新的思路.
与传统多媒体数字水印相似,DNN模型水印需要具备一些性能指标,表4介绍了深度神经网络水印的性能指标,表5介绍了针对深度神经网络水印鲁棒性和安全性的8种攻击方法.
在目前的主流攻击方式中,水印研究者通常考虑模型微调和剪枝攻击、水印覆盖攻击和歧义攻击等方法.攻击者可能利用少量数据集对盗取的DNN模型进行微调,可能选取某些神经元进行失活处理,在这个过程中,模型所有者嵌入的水印可能被去除或难以提取和验证版权.如文献[112]提出了一种水印去除框架REFIT,通过适当地设计学习速率,可以利用微调方式去除水印;文献[113]证明,攻击者可以利用预训练模型来标注未标注的样本,并以此来增加微调训练数据,实现去除水印的目的.除此之外,攻击者可能嵌入新的非法水印,以此对原水印造成破坏或导致取证模糊.如文献[114]通过检测模型的统计分布来检测水印的存在,继而推导出水印的嵌入长度,并利用此信息通过覆盖来去除水印.另外,攻击者也可能通过为盗取DNN模型伪造额外的水印来让所有权验证产生歧义.如文献[81]表明,在这个过程中,攻击者伪造的水印检测率甚至可以达到100%,且不需要原始数据,计算成本也很低,因此,目前也陆续出现针对抵抗水印歧义攻击的相关研究.
从表4和表5中可以看出,不同工作所运用的性能指标不尽相同,缺乏统一的评估标准.
第3节对神经网络水印的相关研究进行了梳理,不同学者提出的方案各具特色,已有方案的性能对比如表6所示.
Table 4 Performance Indicators of DNN Watermarking
Table 5 DNN Watermarking Attack Method
Table 6 Watermarking Performance Comparison of Different Schemes
续表6
相对于传统多媒体水印几十年的发展历程来说,神经网络水印的发展仍处于起步阶段,未来还有很长的路要走.在未来的DNN模型版权保护研究过程中,有6个方面可以努力.
1) 提升嵌入速度.目前,神经网络水印的嵌入方式以训练和微调嵌入为主,这需要耗费较大的代价和工作量.与多媒体数字水印的嵌入速度相比,神经网络水印的嵌入速度要慢得多,未来可以在如何提升神经网络水印的嵌入速度方面做出努力.
2) 神经网络水印的通用性.目前,大部分神经网络水印是针对图像处理和分类任务的神经网络模型来设计的,针对其他任务类型(如对音频处理的模型、视觉对象分割和声源分离的综合神经网络模型),现有的水印方法是否还可以适用,又或者有没有新的方法来承担此类模型的保护工作,这有待进一步研究.
3) 理论证明.众所周知,正是由于在图像等多媒体数据中存在冗余,所以才可以在图像中嵌入水印.DNN模型也是如此,存在许多冗余的神经元.但是在冗余的模型中嵌入多少水印,也就是说模型的冗余与嵌入水印的量之间存在怎样的数学关系,又或者说,在模型的不同阶段和不同位置进行嵌入与嵌入水印的量之间存在怎样的关系,目前还缺乏相应的理论证明.未来如何在理论上解决神经网络水印嵌入量的一些问题值得我们思考.
4) 主动防护.神经网络水印所做的工作是在模型被盗后再来证明所有者的版权,属于被动防护.那么如何主动解决模型被盗问题,增加模型被盗的难度和代价,是一个有趣的问题.目前针对DNN模型进行主动防护的研究还较少,未来可以根据实际商业版权管理需求在此方向继续做出努力.
5) 完整性保护.版权保护只是DNN模型安全的一个方面,DNN模型还面临被篡改的风险,如以模型性能下降为攻击目标的恶意微调和权重参数修改,以及通过后门植入对DNN模型造成破坏等一系列威胁完整性的安全隐患.目前,文献[115]提出了一种用于DNN完整性保护的白盒水印方法NeuNAC,文献[116]提出了一种易于检测篡改的黑盒脆弱水印方法,可以在不暴露模型内在机制(包括结构和参数)的黑盒条件下进行篡改检测.文献[115]和文献[116]的2种方案均适用于DNN模型的篡改检测.可以看到,相关研究还很匮乏.因此,探索更多解决DNN模型完整性保护的方案可以作为下一步努力的方向.
6) 评估标准.目前的DNN模型水印算法的评估指标参差不齐,只有个别指标(如对模型微调和剪枝攻击的鲁棒性)被大多数研究者所通用,缺乏公认统一的评估框架和指标.如何对选用不同宿主模型、不同的嵌入方式的水印算法形成统一的评估指标在未来也是一个可研究的方向.
DNN等新兴技术以前所未有的性能在工业互联网安全中得到了广泛发展和应用,然而构建产品级DNN模型并非易事,需要花费大量的人力和物力资源.因此,DNN模型的知识产权保护问题逐渐引起了学术界和工业界的广泛关注,并涌现出大量优秀的解决方案.我们在以往白盒和黑盒水印的基础上,从水印的嵌入和提取的方式出发,将神经网络水印扩充为白盒、黑盒、灰盒和无盒水印4种类别,并对现有水印方法进行了深入分析和探讨.同时,对于水印的性能指标以及针对它们的攻击方式也进行了梳理.最后指出了神经网络水印未来的研究方向,旨在对该领域未来的发展有所帮助.
作者贡献声明:樊雪峰负责文献调研、内容设计、论文撰写和最后版本修订;周晓谊负责提出论文整体研究思路、全文框架设计和最终审核;朱冰冰负责论文插图设计和修订;董津位负责部分文献调研和撰写以及全文修订;牛俊、王鹤负责调研分析和全文修订.