基于自注意力机制和RSA加密的图像融合算法

2024-09-22 00:00吴宗翔刘立群
软件工程 2024年9期

关键词:自注意力机制;RSA加密算法;图像融合算法;自适应权重学习;图像加密

中图分类号:TP751;TP309.7 文献标志码:A

0 引言(Introduction)

随着数字图像处理技术的不断创新和发展,图像在计算机视觉、医学影像、安全监控等领域展现出了巨大的应用价值[1]。在图像处理应用中,有效地提取图像特征并保证图像数据的安全性,一直是研究者关注的焦点[2]。

在过去的几十年里,人们提出了许多以提高视觉质量为重点的红外和可见光图像融合算法[3]。通常,这些融合方法可分为传统的融合框架[4]和基于深度学习的融合框架[5]。传统的融合框架大致包括5类,分别为基于多尺度变换(MST)的融合方法[6]、基于稀疏性表示(SR)的融合方法[7]、基于子空间的融合方法[8]、基于显著性的融合方法[9]和基于优化的融合方法[10]。同样,基于深度学习的框架包括基于自编码器(AE)的方法[11]、基于卷积神经网络(CNN)的方法[12]、基于生成式对抗网络(GAN)的方法[13]和基于变压器的方法[14]。如今,图像融合算法仍然存在很多缺陷,例如当前的红外和可见光图像融合方法在信息融合过程中可能会导致信息丢失和失真现象[15]。此外,在社交媒体和在线通信领域,隐私泄露问题日益凸显[16],人们对于个人照片、身份证件等敏感图像的保护需求日益增长。

1 相关工作(Related work)

图像融合算法可以分为传统方法和深度学习方法。传统方法通常利用数学计算方法或滤波器等进行图像的多尺度分解,并根据分解方法的特点,设计对应的融合规则。目前,传统方法包括基于非下采样剪切波变换(NSST)的融合方法[17]、基于滚动引导滤波的融合方法[18]等。对传统方法来说,手工设计的分解和融合方法在处理日益复杂的原始图像时存在一定的限制,也导致了手工设计的传统算法变得越来越复杂,同时使得单一算法的优势无法适应特点各异的源图像。目前,基于深度学习的图像融合算法可分为端到端的融合方法与非端到端的融合方法。其中,端到端的融合方法可看作一个黑盒模型,在一个损失函数的约束下,不断优化网络内部的权重与参数,使模型输出达到最优效果。近年来,具有代表性的方法有以下几种:MA等[19]利用两个神经网络同步训练的模式,训练出的生成器负责向红外图像中添加纹理细节,在基于生成对抗网络的融合方法(FusionGAN)[20]中,鉴别器的作用是评估生成器所产出的融合图像的真实性。LI等[21]提出的Dense Fuse最具代表性,该网络码层由卷积层、融合层和稠密块组成,可以确保融合策略中使用所有的显著特征。上述方法取得了不错的融合效果,但是目前部分深度学习方法在图像融合任务中面临挑战,其网络的优化效果很大程度上取决于损失函数中各损失项所侧重的方面。源图像在经过特征提取后,特征融合部分的融合规则设计变得日趋复杂,很难实现对输入特征的自适应调整。就安全性而言,融合图像可能存在安全隐患。在众多图像加密方法中,选择RSA算法的原因在于它是目前广泛应用的加密技术之一,能够有效抵御已知的各种安全威胁,并经受了时间的安全性验证,被证明是一种可信赖的加密手段。

2 方法(Method)

在融合网络中设计了一个多头自注意力模块(MSA)实现自适应特征融合,并为特征分配适当的融合权重。彩色可见图像首先从RGB空间转换为YCbCr空间。其次将可见光图像和灰度红外图像的亮度通道输入融合模型。融合网络的输出为融合图像的Y通道,与可见图像的Cb、Cr(色度)通道一起映射回RGB空间,得到彩色融合图像。

之后对图像数据进行读取,并将其转换成数据流。借助动态密钥管理机制产生所需的加密密钥,并对图像数据执行幂乘和模运算以完成加密过程。将加密后的数据转换为字符串格式的数据流,以便存储。

本文数据集使用的是公用数据集Multi-Spectral RoadScenarios(MSRS)[5],在数据集上本研究选择了4种方法进行比较,包括融合6D姿态估计(Densefusion)、融合生成对抗网络(FusionGAN)、融合卷积神经网络(IFCNN)和融合目标检测(TarDAL)。选取互信息(MI)、视觉信息保真度(VIF)、结构相似指数测度(SSIM)、基于离散余弦变换的特征互信息(FMIdct)、基于模糊和噪声因素的质量评估(Qabf)和基于模糊和噪声因素的无参考质量评估(Nabf)6个指标定量评价融合性能。MI、FMIdct和Qabf三种度量分别用于量化从原始图像到融合结果传递的像素信息、特征信息和边缘信息。VIF从人的视觉感知角度评估融合结果的信息保真度。SSIM 从亮度、对比度、结构等多个角度反映融合后图像与源图像的相似性。Nabf反映了融合过程中引入融合结果的伪影。除了Nabf,上述指标的值越高,表示图像融合性能越好。

3.2 定性比较

图5展示了不同融合算法在数据集上所得到的融合结果。从图5中可以观察到融合结果中出现了严重的伪影。此外,尽管IFCNN建模了图像融合问题,但是在处理严重变形或视差时却失败了。虽然TarDAL产生的融合结果具有最高的对比度,但是目标检测驱动的融合模型只关注场景中重要的目标,特别是TarDAL对突出目标进行了锐化处理,但忽略了背景纹理,这不利于对成像场景的充分理解。

从融合结果中可以清楚地看到,本文提出的融合方法获得的融合结果能够有效地保留红外图像中的重要目标,同时保留可见光图像中清晰的场景细节,特别是融合结果没有出现严重的伪影,表明本文提出的融合方法可以有效地减轻源图像不对准造成的影响。

3.3 定量分析

表1展示了本文提出的融合方法与其他融合方法在数据集上的定量比较结果。从表1中可以看到,本文提出的融合方法在MI、SSIM、FMIdct和Qabf指标上取得了最好的结果。这些指标的最优结果意味着本文提出的方法可以将源图像中的大部分像素信息、结构信息、特征信息及边缘信息传递到融合图像中。

本文提出的融合方法在Nabf度量上没有显示出优势,但这是合理的。具体来说,Densefusion和IFCNN在融合过程中不加区分地合并了所有源图像的信息,不仅会导致融合图像受到无关信息的干扰,而且会削弱融合图像的梯度。Qabf的度量和定性结果证实了这一现象。

3.4 消融实验

为了验证本文提出融合方法的有效性,我们列举了传统的自注意力机制得到的融合结果图,并将其与本文改进后的模型得到的融合结果图进行对比,结果如图6(a)和图6(b)所示。本文还将传统的模块和改进后的模块进行了对比,MI、VIF、SSIM、FMIdct、Nabf指标取得了最优的结果,如表2所示。

如图6(a)所示,传统的多头自注意力机制融合网络无法有效地整合源图像中的重要目标,而图6(b)所示改进后的多头自注意力机制可以自适应地将源图像中的信息整合到融合图像中。

结果表明,传统的多头自注意力机制的融合结果在除Qabf外的所有指标都表现出退化。

3.5 安全性分析

3.5.1 加密效果

在融合后的图像中挑选了一些实验图像,用于观察算法的加密效果。如图7所示,实验图像经过加密后的结果,无法辨认出任何有效的信息,这验证了本文所提出的加密算法的有效性。

本文随机选取3 000对像素点进行实验,并对加密图像在不同方向的相关性进行了分析。相关系数的值若接近于0,则表明加密效果更好。本实验针对融合图像在各个方向上的相关性进行了详细分析,并对比了High-dimensional chaotic mapalgorithm[21]加密算法和Bit permutation algorithm[22]加密算法的图像相关系数,分析数据列于表3中。

根据实验结果显示,本文提出的算法生成的加密图像表现出在各个方向上相邻像素点的相关性几乎为零,有效地破坏了原明文图像中像素间的固有关联,使得密文图像在统计上具有近乎无关的特性,可以有效地抵御统计攻击的威胁。

信息熵的理想值是在图像的所有像素值均匀分布时达到的,因此理想情况下图像的信息熵为8。信息熵测试结果如表4所示,加密图像显示出优秀的随机性特征。

4 结论(Conclusion)

本文提出了一种基于自注意力机制和RSA加密的图像融合算法,旨在解决图像处理和安全性保护领域的挑战。通过对自注意力机制和RSA加密算法的结合应用,该算法实现了对图像数据的高效处理和安全传输,取得了一定的研究成果和创新性发现。

研究结果表明,利用改进的多头自注意力机制可以有效提取图像中的重要特征信息,实现更精准和有效的图像处理。同时,结合动态密钥管理机制的RSA加密算法可以保障图像数据在传输和存储过程中的安全性,有效防止数据泄露和非法访问,为图像应用提供了更可靠的保护机制。此外,希望未来可以通过更多的实验验证和优化探索,进一步完善该融合图像方法的性能和适用性。

作者简介:

吴宗翔(2000-),男,硕士生。研究领域:深度学习,图像融合,图像加密。

刘立群(1982-),女,硕士,教授。研究领域:智能计算,深度学习。本文通信作者。