面向机器视觉任务的自适应语义通信*

2023-10-21 12:17朱晓庆陈洪刚王苹宇卿粼波
通信技术 2023年9期
关键词:信源信噪比信道

朱晓庆,杨 红,陈洪刚,王苹宇,卿粼波

(四川大学 电子信息学院,四川 成都 610065)

0 引言

随着物联网(Internet of Things,IoT)、人工智能、6G 通信技术的逐步发展,传统的人—人通信将延伸到机—机、人—机、人—人多种方式智能互联[1-2]。传输通信不再只是面向人与人之间的交流,更多是为了实现目标检测、语义分割、视频监控等机器视觉任务[3],通信的信源和信宿将变成具有智能分析和处理能力的人、机等智能体。在这样的背景下,语义通信[4]成为热点技术,以语义表征信息并传输,在语义层面解决信息的含义表达与传输,把信息含义的理解环节部分或全部地前置到发送端,从而降低传输量,减少带宽需求[5]。

语义通信是一种通信新范式,与传统通信基于经典香农信息论不同的是,语义通信关注的是信息的语义级特征,遵循的是语义级传输机制,并且语义通信允许在带宽有限的通信信道中超越香农的容量限制,打破了香农极限与冯诺依曼架构的瓶颈[6]。早在20 世纪40 年代,韦弗[7]就已经开始研究语义,开创了语义通信的研究先河。随后,Schrejder 从解释文本的角度探讨了语义信息论问题[8]。受这些开创性工作的启发,Bao 等人[9]回顾了量化语义信息的现有工作,然后研究了语义数据压缩和可靠语义通信的模型理论方法。近年来,在深度学习技术的推动下,涌现了大量端到端语义通信系统模型,有面向文本的语义通信[10-13],有面向图像的语义通信[14-16],也有面向语音的语义通信[11,17]。根据接收端的任务类型,迄今为止的基于深度学习的语义通信传输工作主要分为数据重建和执行具体任务两类。

对于数据重建形式来说,语义通信系统的构建主要是在信源部分提取信源的语义信息,然后通过信道传输在接收端进行重建。具体来说,比如Wang 等人[12]提出了一种用于文本数据传输的语义通信框架,发送端从文本数据中提取语义信息,将其传输给用户,然后用户使用图到文本的生成模型恢复原始文本。张振国等人[15]提出了一种基于深度学习的图像语义通信系统,该系统在发送端提取信源信息不同类型和不同形式的语义特征,并在接收端融合各类型语义特征进行目标语义恢复。

对于执行具体任务,只有与任务相关的语义信息被提取并传输到接收端,在接收端利用接收到的相关语义信息执行具体任务。比如,Dinh 等人[18]提出了一种提取图像对象之间的语义关系并进行分类的方法,应用于基于语义的图像检索系统。刘传宏等人[19]基于深度学习方法提出了人工智能物联网(Artificial Intelligence Internet of Things,AIoT)中面向图像分类的语义通信方法。Pan 等人[20]提出了一种图像分割语义通信系统,该系统从感知图像中提取语义特征,并将特征传输给接收车辆,由接收车辆进行图像分割,以帮助车辆做出驾驶决策。然而,大多数现有的面向具体任务的语义通信传输系统都存在一个问题,即信道变化情况下的适应性问题。机器学习算法的步骤通常分为训练阶段和预测阶段[21]。在训练阶段调整好需要的参数,并利用数据集进行训练,得到训练好的模型,然后在预测阶段利用训练好的模型预测未来的数据样本。通常的面向机器视觉任务的语义通信系统在训练阶段都是在固定信道信噪比的条件下进行训练,得到的训练模型是该信噪比下的专用模型,只有当预测阶段的信道信噪比条件与之相似时,才能够得到较好的预测结果。然而实际上语义通信的信道条件是变化的,如果想要在实际情况下进行通信传输后得到最佳性能,就需要多次训练相应的信噪比条件模型。然而这样的方式会导致训练阶段占用更多的计算资源和测试阶段更高的存储需求。

为了解决上述问题,本文提出一种面向图像分类任务的自适应语义通信框架。该框架在AIoT中面向智能任务的语义通信方法[19]的基础上,联合信源信道编码(Joint Source-Channel Coding,JSCC),采用软注意力机制根据信噪比和语义概念自适应调整要传输的与任务相关的语义特征顺序,在降低需要传输的数据量的同时不影响任务执行性能,并且大大节省数据发送端计算资源,降低资源消耗。

1 语义通信系统

以任务为驱动的语义通信,其目的在于确保有效的语义信息传递与理解,以实现特定的目标或完成特定的任务。这种通信方式可以通过去除与任务无关的冗余数据,显著降低带宽消耗和传输延迟,最大限度地提高传输效率和准确性。

图1 是传统数字通信系统,通过分离或联合信源信道编码器将信源编码为比特流经过无线信道进行传输,接收端以相应的解码流程解码,最终达到数据重建的目的。

图1 传统数字通信系统

图2 和图3 分别展示了两种目前最通用的面向任务的语义通信系统框架。图2 是一种通用的面向任务的语义通信系统,通过分离的信源语义编码器和信道编码提取并编码压缩与任务相关的语义特征,并通过数字通信将其转换为比特流进行传输,在接收端解码,以执行相应任务。由于针对传统数字通信系统的研究较为广泛,图2 所示方法相较而言更易于实现,只需要深入研究信源语义编码器即可。图3 展示了另一种通用的面向任务的语义通信系统,与图2 所示系统相比,该系统采用了端到端的联合信源信道编码方法[10],在编码器阶段直接将提取到的与任务相关的语义特征映射为可传输的通道符号。

图2 面向任务的语义通信系统1

图3 面向任务的语义通信系统2

虽然香农分离定理[22]证明了在传输无限长比特时,分离的信源编码与信道编码能够实现理论上的最优性能,其模块化的设计能实现灵活的调整。然而,实际中并不能满足香农定理的无限位假设,并且实际接收端接收到的信息受到信源编码和信道编码的共同影响,因此在面向任务的语义通信中更多的是考虑使用联合信源信道编码方法。此外,深度学习的快速发展使得联合信源信道编解码更具实现的可能性。

与传统的数字通信系统相比,面向任务的语义通信系统最大的突破在于提取信源语义层级信息并且筛选与任务相关的信息进行传输,并基于深度学习的方法将编码器、解码器和物理信道一起以端到端的方式进行训练,每个训练模型都是用特定的信道信噪比进行训练的。对整个通信过程从原始信源输入到最终任务执行进行优化得到全局最优网络,在测试时,当信道信噪比与其相应的训练信噪比相似时,能达到任务执行的最优性能。

2 面向图像分类的自适应语义通信

针对机器视觉任务中的图像分类,目前已有的语义通信系统大多被设计为在特定的信噪比下训练模型,在预测阶段应用相似的信噪比。然而,这种方式忽略了实际任务中信道因多径衰落、路径损耗、干扰和噪声等影响会在一定范围内进行波动,一旦信噪比条件偏离最佳点就会造成性能下降,想实现最佳性能就得多次训练不同信噪比条件下的网络模型用以切换。这种对实际动态变化信道条件的忽视往往会导致计算效率低下和存储资源的浪费,在资源有限的情况下并不能很好地完成最终任务目标。针对这一问题,本文提出了一种面向图像分类任务的自适应语义通信方法。图4 展示了所提方法的框架。

图4 面向图像分类任务的自适应语义通信框架

该框架基于深度学习的信源信道联合编解码(Deep Joint Source-Channel Coding,DJSCC)方案,将信源编码器和信道编码器串联在一起,加入软注意力机制,并根据信噪比条件和基于梯度的语义关系调整信源语义特征权重,在固定压缩比下压缩更多相对权重值更小的与任务无关的语义特征,使得单次自适应模型训练与多次固定模型训练相比,在最终执行图像分类任务时能获得相似甚至更高的准确率。

2.1 模型框架

为方便配合信噪比调整信源编码和信道编码的资源分配,考虑采用DJSCC 编码器对输入的预处理图像进行语义特征提取及编码。语义特征的提取采用的是卷积神经网络,并在最后一层卷积层后加入基于软注意力机制的模块,根据学习到的信噪比动态调整提取到的语义特征权重,以便后续对具有权重值的语义特征进一步基于语义关系进行压缩传输。

接收端接收到具有语义权重的语义信息之后进入由全连接层组成的全连接分类器,将信息映射到不同的类别,得到分类依据。最后,利用Softmax函数得到图像分类结果。

图4 中发送端输入维度为n的图像x0∈Rn,其中R 为实数集。发送端将图像x0输入DJSCC 编码器fθ中,得到具有信噪比自适应特性的语义特征x',编码过程可以表示为:

式中:θ为DJSCC 编码器的参数集,μ为反馈给DJSCC 编码器的信噪比。

2.2 信噪比自适应模块

为适应大范围信道信噪比条件,解决因多次训练合适的信噪比条件模型而造成的计算资源消耗过多的问题,加入软注意力机制来达到这一目的。

模型框架中加入的软注意力机制结构如图5所示,将前面一层卷积层提取的语义特征xa作为自适应模块的输入,xa=[xa1,xa2,xa3,…,xac]∈Rc×h×w,其中,c为语义特征的数量,h和w代表特征的高和宽。对xa使用全局平均池化函数进行池化操作,然后加入信噪比条件SNR与之相连,得到基于信噪比的上下文信息,上下文信息用xb表示,xb=[SNR,xb1,xb2,xb3,…,xbc]∈Rc×1×1。将上下文信息送入主要由两层全连接层组成的全连接神经网络,从而产生缩放比例因子,最终将产生的比例因子与之前的语义特征xa相乘得到占有不同比例权重的缩放特征x'=[x'1,x'2,x'3,…,x'c]∈Rc×h×w,该缩放特征主要取决于信噪比条件。

图5 基于软注意力机制的自适应模块架构

2.3 语义重要性排序

对于编码后的特征图x',将根据提取到的语义关系再一次进行重要性排序。语义关系的提取采用基于梯度的方法求得,其过程可以表示为:

由式(2)可求得所有特征图针对语义概念q的重要性权值,再将这些权值按从大到小的顺序排序,得到排序后的针对语义概念q的特征图重要性权值向量,N为特征图总数。基于此,可以得到针对所有语义概念的降序特征图重要性权值矩阵,Q为语义概念的总数。然后根据得到的权值矩阵选择对特征图进一步进行压缩,因为排序后与语义概念相关性最强的语义特征图顺序最靠前,相较而言相关性没那么强的特征图顺序靠后,可选取相对比例靠前的语义特征传输给接收端,压缩掉剩余弱关联性语义特征,在进一步减少传输数据量的同时不影响后续任务的执行。

2.4 无线信道传输

压缩后的语义特征通过无线噪声信道进行传输,此处考虑加性高斯白噪声(Additive White Gaussian Noise,AWGN)信道,AWGN 信道是独立同分布的高斯白噪声信道,噪声的样本之间是相互独立的,这种独立性使得对信道分析更加方便,也更加可靠,因此可以很方便地进行性能分析。压缩后的语义特征经过无线信道传输,并被加性高斯白噪声破坏,随后被接收器接收,接收到的信号可以表示为:

式中:α∈C为信道增益;e∈CN(0,σ2I)为加性高斯白噪声,CN表示复高斯分布函数,σ2为噪声功率。因为在AWGN 信道中,信号传输过程中可忽略衰落或干扰的影响,即信号在传输过程中的功率保持不变,所以信道增益可以看作恒定的,通常将其表示为单位增益,因此式(3)可以简化为:

接收器接收到信号y'之后,输入全连接分类器中,将信号映射到预定义的概念类别上,随后使用Softmax 函数将全连接层的输出转换为概率分布,表示每个图像属于每个类别的概率,以此完成图像分类任务。由于模型框架最终面向的是图像分类任务,因此检验模型的优越性主要体现在最终的分类准确率上。此外,为了考察资源消耗情况,还将检验模型的训练时间复杂度。

3 实验结果

3.1 实验设置

为了更好地评估模型框架对面向图像分类任务的语义通信的性能,并与文献[19]中的方法进行对比,实验采用的数据集和迁移网络模型与文献[19]相同。实验选择STL-10[23]数据集,它包含来自10个不同类别的图像,共有5 000 张训练图像和8 000张测试图像,涵盖了常见的物体和场景,为多类别分类问题提供了良好的基准,并且使用此数据集可以评估模型在处理多类别图像分类任务时的性能,能更好地贴合实际任务情况。STL-10 数据集的图像分辨率为96×96 像素,相对适中,不会太低使得模型无法捕捉更多的细节和特征,也不会太高导致计算复杂度过高。训练时首先对图像进行扩展和随机裁剪,将图像尺寸裁剪为224×224;其次将裁剪后的图像送入训练网络。

ResNet18[24]是一个经典的深度卷积神经网络模型,具有较好的性能并被广泛地应用。它在图像分类任务中表现出色,并且需要的参数量较少,计算复杂度也较低,因此实验选择ResNet18 网络完成特征提取部分。为了加速目标任务的训练过程,选择迁移学习方式,通过下载预训练的ResNet18 网络模型作为初始参数,减少需要从头开始训练的时间和计算资源。

训练网络时迭代次数Epochs设置为30,Batchsize设置为64,选用随机梯度下降(Stochastic Gradient Descent,SGD)优化器,学习率设置为0.001,损失函数选择交叉熵损失函数(crossentropyloss)。

为了适应动态信噪比条件,在信噪比0~25dB范围内对所提方法进行均匀分布训练。在特定信噪比下,对对比方法和所提方法的性能进行评价。评价指标选取最终的分类准确率和训练时间复杂度,分类准确率定义为分类正确图片数量与待分类图片数量的比值。

3.2 实验结果

实验中对比方法模型分别在信噪比为0 dB、5 dB、10 dB、15 dB、20 dB和25 dB的条件下进行训练,本文所提方法从0 dB 到20 dB 进行均匀分布训练。

图6 展示了在压缩比为80%和65%的条件下对比方法和本文所提方法最终得到的图像分类性能,其中实线代表所提方法分类性能,虚线代表对比方法分类性能。

图6 不同压缩比下不同方法在STL-10 测试图像上的性能

图6(a)中,当压缩比为80%时,本文所提方法的性能始终与对比方法的性能保持一致甚至更优,优于对比方法最多能达5%。并且可以看到随着SNR_test的增大,所提方法性能更稳定。图6(b)中压缩比为65%时的结果与图6(a)的结果相似,然而可以看到整体分类准确率有一定的提升,这是因为压缩率变小了,实际从发送端传输到接收端的语义特征信息变多了,提供给分类任务的依据更多了。

为了证明本文所提方法拥有更少的计算资源消耗,实验记录了为满足在SNR_test=[0,5,10,15,20,25]条件下获得最高的图像分类准确率对比方法和所提方法所需的训练时间,结果如图7 所示。结果显示,所提方法所需训练时间远远少于对比方法所需训练时间,这是因为为了在相应信噪比条件下获得最高的图像分类准确率,对比方法必须分别在固定信噪比下进行多次训练,而本文所提方法仅需训练一次即可。

图7 不同方法的网络模型训练时间复杂度对比

4 结语

针对实际通信传输时面临的信道信噪比动态变化的挑战,本文提出了一种面向机器视觉任务的语义自适应通信方法,旨在解决面对实现机器视觉任务时现有通信方法无法满足的低消耗高效处理的需求。本文所提方法将信道信噪比通过软注意力机制纳入语义信息提取过程中,使得提取到的语义信息能自适应动态变化的实际信道条件,提高了传输框架的鲁棒性。对比试验结果表明,本文所提方法不仅在面向图像分类任务中取得了显著的性能提升,还能够节省计算资源,使其在实际应用中更具可行性。在后续的研究中,将进一步探索本文所提方法在面向不同的机器视觉任务时的可行性与性能优势。同时,将继续研究面向不同机器视觉任务的分层语义提取方法及压缩传输方法,为语义通信的发展提供更多新思路。

猜你喜欢
信源信噪比信道
基于极化码的分布式多信源信道联合编码
基于深度学习的无人机数据链信噪比估计算法
低信噪比下LFMCW信号调频参数估计
低信噪比下基于Hough变换的前视阵列SAR稀疏三维成像
信源控制电路在功率容量测试系统中的应用
基于导频的OFDM信道估计技术
信源自动切换装置的设计及控制原理
一种改进的基于DFT-MMSE的信道估计方法
保持信噪比的相位分解反褶积方法研究
基于MED信道选择和虚拟嵌入块的YASS改进算法