基于改进VGG19的中医背部痧象特征分类研究

2023-09-19 00:39李斌李霄胡广芹张新峰
中国医疗设备 2023年9期
关键词:多任务注意力卷积

李斌,李霄,胡广芹,张新峰

北京工业大学 a.环境与生命学部;b.信息学部,北京 100124

引言

中国传统医术已形成了以“望、闻、问、切”四诊合参以及中医理疗为核心的完整诊疗体系。痧疗作为中医理疗的重要组成部分,以其无伤、便捷等优点深受人们的青睐[1]。痧象是指痧疗后人体皮肤所反映出的机体的健康状态,因每个人体质、病因、患病程度等各不相同,皮肤所反映出的痧象也存在差异[2]。医师可以通过痧象的特征要素来对患者进行初步的诊断,主要包括痧象的颜色、形状等,一般情况下,颜色可以反映出机体的热寒状况,而形状则可以反映机体的严重程度[3-4]。随着中医需求量的增加,通过传统中医医师去辨别痧象特征,诊断机体健康状态会消耗大量的精力和时间。因此如何快速而又准确地辨识中医痧象的特征要素,进而判断机体健康状态尤为重要。

现代技术的发展为解决上述问题提供了一个新的途径,近年来,机器学习、深度学习成为医学领域研究的热门[5]。VGG19 网络作为深度学习分类模型的代表[6],因其结构简单、易扩展等优势受到人们广泛关注,该模型由16 个卷积层、5 个池化层、3 个全连接层堆叠而成,采用小卷积核代替之前网络的大卷积核,能够捕获到更多的细节特征信息。此外由于模型结构简单,因此易对模型结构进行改进,进一步提升分类任务的精度,这也为分类研究奠定了基础。基于此,本文以中医背部痧象为切入点,通过对采集的痧象图片数据进行前期的处理,采用VGG19 网络模型为主干进行研究,并在网络模型中引入多任务学习模型的思想以及混合注意力模块机制,旨在实现中医背部痧象特征要素的准确分类,并依据分类识别结果判断人体健康状态。

1 中医背部痧象特征分类研究

1.1 数据来源及数据集划分

本文采用的痧象图片数据来自北京工业大学环境与生命学部健康工程研究室痧象数据库。所有图片均采用数码相机设备,在自然光源下进行拍摄,采自北京工业大学医院胡广芹主任医师刮痧治疗的各种临床疾病患者。通过筛选处理,去除拍摄模糊、背景过亮、过暗以及拍摄缺失的图片,共得到可用于实验研究的图片数据818 张。之后参照《家庭刮痧边学边用》[7]、《养生专家的刮痧笔记》[8]等中医刮痧书籍中对于痧象辨识的标准以及数据实际情况,将痧象颜色划分为暗红、红、淡红3 类,形状划分为点和片两类。最后将图片按照训练集∶验证集∶测试集=8 ∶1 ∶1 的比例进行划分,其中训练集图片共654张,验证集图片共82张,测试集图片共82张。

1.2 基于VGG19的痧象特征分类网络

基于数据集图片较少、分类任务简单的特点,本文采用了比较成熟的VGG19 网络模型作为网络主干进行了实验[9]。VGG19 网络模型由16 个卷积层、3 个全连接层和 5 个池化层构成,与之前的卷积神经网络相比,其采用了多个3×3 的卷积核来代替之前的大卷积核,在保证感受野的同时极大地减少了网络参数,降低了计算量。如图1 所示为实验采用的VGG19 网络架构图。网络模型的输入图片大小为256×256×3,经过网络卷积、池化层后,在全连接层展开输出。由于实验对颜色和形状特征进行分别训练输出,因此图中输出n 分别代表了颜色三分类以及形状的二分类。

图1 VGG19网络模型

1.3 基于VGG19的痧象特征多任务分类网络

计算机视觉中的单任务学习目前已经取得了很大的成功,但现实生活中许多的问题本质上是多样的,如同一张图片上包含有多种物体,如果对这些问题采用单任务网络去学习训练会增大网络的参数量,并且会忽略数据相关的噪音以及泛化性能,而多任务学习同时对多个任务进行训练学习,这会对不同任务的噪音进行平均,从而使模型更加泛化[10]。此外多任务学习引入了归纳偏置机制,与正则化起到了相同的作用,可以减少网络模型过拟合的风险。本文的痧象特征分类任务包含颜色和形状两个任务,且采用的是同一数据集,这种情况下使用多任务学习是最优的选择。

基于深度神经网络的多任务学习常用的方法有两种,一种为隐层参数的硬共享,另一种为隐层函数的软共享。参数的硬共享机制是多任务神经网络训练学习最常见的方式,其可以应用到所有任务的隐层上,共享训练层参数,保留各自的输出层,减少网络的训练参数,降低过拟合的风险[11-12]。而软共享则是指每个任务具有单独权重的单独任务模型,不同任务模型参数之间的距离被添加到联合目标函数中。本文基于数据的特点,考虑到任务之间存在一定的相关性,因此使用了多任务学习的参数硬共享机制进行实验。

多任务神经网络的结构对于任务的学习具有很大的影响,本文针对训练任务采用了共享主干线的架构模型。数据输入采用统一数据集作为网络模型的输入,而后经过由所有任务共享的卷积层构成的全局特征提取器,最后对每个任务进行单独的结果输出。网络模型结构如图2 所示。

图2 多任务学习模型

1.4 基于VGG19+混合注意力机制的痧象特征多任务分类网络

注意力机制源于对人类视觉的研究,其是指人类有选择地关注所有信息中的一部分,而忽略其他可见的信息,从而避免无关信息的干扰。在神经网络中,注意力机制主要是针对在计算能力有限的情况下,将计算资源分配给更重要的任务,同时解决信息超载问题的一种资源分配方案,其可以聚焦于对当前任务更关键的信息,提高任务处理的效率和准确性[13-16]。根据注意力作用的不同维度可以将其划分为通道注意力、空间注意力、时间注意力、分支注意力以及混合注意力。不同的注意力机制代表不同的含义,通道注意力机制重点在于重要通道的选择,原因为不同的通道往往代表不同的物体;空间注意力机制更关注信息中的哪一部分信息具有意义;时间注意力机制侧重于何时去关注信息;分支注意力则侧重于关注多分支结构的某一分支;混合注意力则是通过上述不同注意力的结合来对信息进行更加准确的关注,以提升任务的效率和准确率。

本文采用了卷积注意力模块(Convolutional Block Attention Module,CBAM)[17-19],其结合了空间注意力机制和通道注意力机制,能够序列化地在通道和空间两个维度上产生注意力特征图信息,而后与输入特征图进行相乘从而进行自适应的特征修正,产生最后的特征图,见图3。由于CBAM 是一种轻量级的模块,因此可以嵌入到任何主干网络中提高网络性能。本实验将CBAM嵌入到了VGG19 主干网络中的第一层卷积和最后一层卷积中,从而提高了网络的性能,改进后的网络模型如图4 所示。

图3 CBAM机制

图4 改进VGG19网络模型

1.5 消融实验

在复杂的深度神经网络的背景下,需采用消融实验来描述去除网络的某些部分的过程,以更好地理解网络的行为。采用消融实验方法,通过分别添加不同网络模块,保持其他不变,比较本文提出的3 种网络模型的可行性与有效性,进而说明该模块的有效性。首先对VGG19 网络模型的参数进行设置,具体的参数如表1所示;然后在保证参数一致的前提下,加入多任务模型和CBAM。实验结果采用训练准确率以及测试准确率进行评价,并设置了平均准确率,即颜色与形状准确率的均值,以此判断网络模型的性能高低,通过消融实验比较最终的分类准确率。

表1 网络模型参数

2 结果

2.1 消融实验结果

消融实验结果如表2 所示,以VGG19 网络模型为主干,引入多任务学习模型后,颜色及形状的分类准确率都有所提升,平均准确率上升了约2%。在加入CBAM 后,模型的准确率得到了进一步的提升。通过消融实验确定在引入多任务学习模型并加入CBAM 后的改进VGG19 网络模型,取得了最好的分类结果。

表2 3种网络模型的消融实验结果

2.2 改进的VGG19网络模型实验训练结果

采用改进的VGG19 网络模型训练batch_size 以及CBAM 中多层感知器的缩减率。多层感知器的缩减率可以控制感知器中的神经元个数,从而降低参数开销。实验训练结果如表3 所示,通过对不同的batch_size 和缩减率进行研究发现,当缩减率为1/8、batch_size 为8 时得到的训练结果最好,颜色分类准确率为93.90%,形状分类准确率为95.12%,平均准确率为94.51%。

表3 模型训练结果

2.3 中医痧象特征与证型间的对应关系

通过咨询北京工业大学医院胡广芹主任医师,获得了中医痧象特征与证型间的对应关系,之后结合网络模型的分类结果(表4),可以对中医证型进行初步的判别,辅助医师进行诊疗。

表4 痧象特征与证型关系

3 讨论与结论

研究表明,VGG19 结构简单,具有较深的网络结构,能提取到足够的图像信息,且其以3×3的小卷积核为主,使得网络能提取到更多的局部细节信息,此外针对数据集图片模糊、分辨率低,从而影响模型识别精度的问题,可以引入注意力机制以增强模型特征提取的能力,同时针对神经网络参数大、易过拟合的问题,利用深度可分离卷积代替原始卷积,从而减少模型的参数量,使模型在训练时能更快收敛[20-21]。

本实验以VGG19 网络模型为主干,融合了多任务学习模型、CBAM,并在改进模型上进行了参数调优,实现了对于痧象颜色和形状特征的准确分类,二者的准确率分别达到了93.90%和95.12%,较武文强等[22]采用支持向量机针对痤疮痧象的自动分类结果提升了20%左右。但本研究还存在以下问题:由于痧象特征没有进行更加细致的划分,其对应的症状可能存在一定的偏差,因此未来可以考虑对痧象特征进行更加细致的分类,从而使证型诊断更加准确。另外,中医舌、面、痧、脉等通常是一个整体,仅仅通过痧象对证型进行诊断存在一定的偏差,而通过不同诊断结果的结合能够对证型进行更加准确的判断。因此未来可以考虑和舌面等结合,提高诊断的科学性与合理性。

综上所述,本研究采用多任务学习模型并加入CBAM 的改进网络取得了最高的分类准确率,对于颜色特征的三分类准确率可以达到93.90%,对于形状特征的二分类准确率可以达到95.12%,实现了对于痧象特征的自动化分类,可以用于中医辅助诊断以及临床教学,此外结合中医传统经验知识,能够实现对于中医证型的初步诊断,进而实现中医智能化。

猜你喜欢
多任务注意力卷积
让注意力“飞”回来
基于3D-Winograd的快速卷积算法设计及FPGA实现
基于中心化自动加权多任务学习的早期轻度认知障碍诊断
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
“扬眼”APP:让注意力“变现”
A Beautiful Way Of Looking At Things
基于判别性局部联合稀疏模型的多任务跟踪
基于多任务异步处理的电力系统序网络拓扑分析
一种基于卷积神经网络的性别识别方法