黎英,宋佩华
南宁师范大学广西人机交互与智能决策重点实验室, 南宁 530001
医学图像分类在计算机辅助疾病预测、诊断和治疗中发挥着重要作用。图像分类的建模核心是提取图像特征和构建分类器(俞益洲 等,2019)。传统医学图像分类方法采用人工设计特征,计算复杂、效率低下、分类效果不理想、建立的特征抽取和模型选择难以泛化(郑光远 等,2018)。卷积神经网络(convolution neural network,CNN)可以直接采用原始图像作为输入,自动学习和提取特征,避免传统算法的特征定义和参数设置的复杂过程,在各领域的表现比单纯使用传统算法更加优秀,有些甚至达到专业技术人员水平(杨培伟 等,2021)。目前,深度学习已经在医学图像分类领域广泛应用(陈诗慧 等,2017;俞益洲 等,2019;陈弘扬 等,2021;杨培伟 等,2021)。但是,生物医学图像公开数据量少,限制了CNN模型优势的发挥。
迁移学习具有克服医学影像标注数据稀缺问题而获得更好分类效果的优势(俞益洲 等,2019),是该领域有潜力的研究方向(陈弘扬 等,2021),已逐渐应用于癌症、肺部、肝脏、脑部、眼部、骨科和皮肤等各种疾病病理图像的分类检测。赵宸等人(2021)提出一种对抗生成网络,用来生成皮肤癌图像样本,通过增加样本的方法提高皮肤癌分类准确性,该研究属于对抗式迁移学习。李赵旭等人(2021)通过模型改进和迁移学习对网络模型进行优化,用来对乳腺癌图像进行分类,该研究属于基于模型的迁移学习。然而,迁移学习在医学图像分类应用中还存在不少问题,不利于迁移学习进一步应用。本文对医学图像分类领域的迁移学习应用情况进行综述,从中总结经验和发现问题,为未来研究提供线索。首先,围绕医学图像分类的特征提取和分类两大核心任务,通过梳理和分析相关重要文献,总结其中包含的迁移学习策略;其次,分析各研究文献的迁移学习过程,从中提炼出迁移学习模式,并阐述迁移学习策略和模式的关系。这些迁移学习策略和模式有助于从更高的抽象层次展现迁移学习在医学图像分类领域的应用;然后,详细阐述迁移学习策略和模式在医学图像分类中的具体应用及优缺点;最后,总结存在的问题并展望未来的研究方向。
迁移学习从不同角度可分为多种类型。1)按迁移知识,迁移学习分为基于数据和基于模型的迁移学习。基于数据的迁移学习按迁移内容分为基于样本和基于特征的迁移学习,按是否引入对抗学习分为传统和对抗式迁移学习。基于样本的迁移学习是在源域数据和目标域数据有相同或相似特征情况下,从源域中筛选出与目标域数据具有相似分布的有标签样本,用来帮助训练目标域模型以便提高模型精度。基于特征的迁移学习是通过学习一对映射函数,将源域和目标域数据映射到共同的特征空间,从而减少域间的差异。如果基于样本的迁移学习的前提条件不满足,可以考虑基于特征的迁移学习。传统迁移学习仅利用原有数据进行迁移,而对抗式迁移学习利用生成对抗网络(generative adversarial network,GAN)生成和增强目标域数据,增加了额外的目标域数据,极大提高了数据迁移学习的效率。基于模型的迁移学习也称为基于参数的迁移学习,是将模型参数、模型先验知识或模型架构等模型层次上的知识迁移到目标域(杨强 等,2020)。2)按源域和目标域特征空间是否可通约或标签空间是否相同,迁移学习分为同构和异构迁移学习。目前迁移学习领域大部分工作属于同构迁移学习,少数属于异构迁移学习。在基于特征的迁移学习中,如果源域和目标域的特征空间没有重叠,但是可能存在某些转换方式实现迁移学习,就属于异构迁移学习(杨强 等,2020)。3)按是否自动利用以前的迁移学习经验,迁移学习分为自动和非自动迁移学习。自动迁移学习通过经验自动选择性能较好的迁移学习算法,可以避免人工选择迁移学习算法的昂贵计算代价。迁移学习的各种分类如图1所示。
图1 迁移学习分类Fig.1 Classification of transfer learning
针对医学图像特征提取和分类这两大核心任务,绝大多数研究采用基于模型的迁移学习,并且主要采用深度卷积神经网络(deep convolution neural network,DCNN)作为迁移模型。这样做的一个原因是绝大部分DCNN都是为ImageNet大规模视觉识别挑战(imagenet large scale visual recognition challenge,ILSVRC)比赛开发的,具有较高的图像分类性能。另一个原因是ImageNet这个大型图像数据集中丰富的图像数据包含了一般图像的通用特征,甚至可能包含与医学图像相似的某些深度特征,因此在该数据集上预训练的DCNN可以迁移到医学图像分类领域。
DCNN迁移到目标域后,一般要经过结构调整或者参数调整以便更好地符合目标域的任务要求。调整结构或参数需要一定的策略,这就是结构调整策略和参数调整策略。迁移模型在目标域完成再训练后,如果需要从模型中提取特征作为其他分类器的输入,则需要一定策略从模型中提取特征,这就是特征提取策略。
在目标域,从医学图像中提取特征可以采用传统方法或迁移模型来完成,对医学图像分类可以采用传统分类器或迁移模型来完成。根据目标域图像特征提取和分类的完成方式,从相关研究文献中总结出5种迁移学习模式:DCNN模式、混合模式、特征组合分类模式、多分类器融合模式和二次迁移模式。
医学图像分类中的迁移学习策略包括结构调整、参数调整和从迁移模型中提取特征3种策略。
结构调整策略指修改迁移模型结构的方式,根据需要删除某些层或增加某些层,包括卷积层、完全连接(full connection,FC)层和其他层。其他层属于卷积层或FC层,例如池化层属于卷积层,而softmax层属于FC层。结构调整策略如图2所示。
图2 结构调整策略示意图Fig.2 Strategies of structure adjustment
在ImageNet上预训练的DCNN的目的是将图像分为1 000个类,因此至少需要修改它们的分类层以适应目标域的分类数量,同时为了提高分类性能,还需对FC层进行其他修改。通过修改迁移模型FC层进行医学图像分类的策略已用于多种疾病。例如,肺部疾病中的肺癌(Wang等,2020)、肺结节(Huang 等,2020)和肺炎(Mohammadi等,2020),脑部疾病中的阿尔茨海默病(Maqsood等,2019)、癫痫(Si等,2020)和酒精中毒(Wang 等,2019),以及癌症疾病中的乳腺癌(Samala 等,2017)等。以新冠肺炎(corona virus disease 2019,COVID-19)图像分类和肺癌图像分类为例说明修改FC层策略的具体应用。针对新冠肺炎图像,Mohammadi等人(2020)利用预训练的VGG-16(Visual Geometry Group)、VGG-19、MobileNet和InceptionResNet_V2的卷积层提取胸部X线图像的特征,用新建立的一个全连通层完成对COVID-19图像的二元分类。该全连通层由averagepooling2D、flatten、dense、dropout和最后一层dense组成,通过softmax层进行COVID-19感染与没有感染二分类。实验结果表明,建立的模型能够对COVID-19进行二元分类,准确率达90.0%以上。针对肺癌图像,Wang等人(2020)使用在LUNA16(lung nodule analysis 16)公共医学图像数据集上预训练的残差神经网络ResNet-34作为迁移模型,在原有模型只有一个FC层的基础上增加另一个FC层来提高模型的迁移能力,并在山东省医院收集的肺癌知识产权数据集上微调,用来进行肺癌图像的特征提取和分类。首先,冻结迁移模型的前27个卷积层的权值,用于提取图像的一般特征(如边缘检测和颜色检测),后面的卷积层用于抽象与特定类别相关的特征。然后,对这些卷积层和FC层重新训练,从零开始识别肺癌图像类。实验结果表明,该模型优于AlexNet、VGG-16和DenseNet。
除了修改FC层的结构外,也可以修改其他层的结构。Zhang等人(2020b)提出使用深度残差网络框架解决基于胸部X射线图像的COVID-19检测问题。借用ResNet34的一些残差块构建提出的深度学习框架,使用ResNet34的输入层和接下来的3个残差块,分别在第2个残差块前后各插入一个特征平滑层,在第3个残余块后插入特征提取层。实验数据表明,该研究改进的ResNet34框架的性能优于ResNet34的原始版本。Akter等人(2021)使用迁移模型MobileNet-V1对儿童面部图像进行自闭症或者正常二分类,对迁移模型的修改包括将3个批处理规范化(batch normalization,BN)层和两个FC层依次附加到输出层之前。BN层用于通过重新确定中心和缩放输入值来规范化全局平均池层的输出。对所有用于比较的DCNN(包括DenseNet121、ResNet50、VGG-16、VGG-19和MobileNet-V2)也进行同样的结构修改,并用目标域数据集对所有模型进行训练。实验结果表明,MobileNet-V1表现最好。
参数调整指通过使用目标域数据对迁移模型进行再训练以调整模型参数,目的是获得更好的分类效果。可以调整卷积层参数,也可以调整FC层参数,或者两者都调整。对于不需要调整参数的层,可以冻结这些层的参数。调整卷积层参数可以获得更准确的特征,调整FC层参数能提高分类性能。该策略如图3所示。
图3 参数调整策略示意图Fig.3 Strategies of parameter adjustment
通过调整卷积层参数进行医学图像分类的策略已经应用于多种疾病。例如,癌症疾病中的乳腺癌(吴英 等,2019;Liu等,2021;Zhuang等,2020)和前列腺癌(Abbasi等,2020),肺部疾病中的肺结节(Huang等,2020)、普通肺炎(Irfan等,2020)、新冠肺炎(Apostolopoulos和Mpesiana,2020)和小儿肺炎(Liang和Zheng,2020),脑部疾病中的阿尔茨海默病(Wee等,2019;金祝新 等,2019),眼科疾病中的青光眼(Gómez-Valverde等,2019)、视盘偏侧(Liu等,2020)和视网膜病变(Le等2020),肝脏疾病中的肝脏纤维化(Xue等,2020)和肝硬化(Li 等,2021a),以及牙科疾病(Lee等,2020;Kim等,2020)等。下面以阿尔茨海默病为例说明调整卷积层参数策略的应用。金祝新等人(2019)将ImageNet上预训练的MCINet前两层卷积层参数迁移到目标域模型的卷积层前两层,采用冻结和不冻结前两层卷积层的迁移学习策略,用磁共振成像(magnetic resonance imaging,MRI)数据集进行再训练以微调参数,最终完成阿尔茨海默病的图像分类。结果表明,允许部分卷积层参与训练过程可以获得更好的实验结果。
调整FC层参数进行医学图像分类的策略同样应用广泛,已经用于多种疾病。例如,脑部疾病中的阿尔茨海默病(Maqsood 等,2019)、酒精中毒(Wang等,2019)和癫痫(Si等,2020)等,癌症疾病中的乳腺癌(Samala等,2017,2019)、胶质瘤(Yang等,2018)和肺癌(Wang等,2020),肺部疾病中的肺结节(黄鸿 等,2020)和新冠肺炎(Minaee等,2020;Mohammadi等,2020),前列腺疾病(Chen等,2019),以及眼科疾病中的黄斑病变(Karri等,2017)等。下面以前列腺病变分类为例说明调整FC层参数策略的应用。Chen等人(2019)提出了一种基于迁移学习的深度学习方法,用于多参数磁共振成像图像中前列腺病变的分类。首先在ImageNet上对InceptionV3和VGG-16进行预训练,然后修改最后的分类层,生成良性和恶性两类图像,迁移到目标域后只调整最后一层的权重,并在多参数磁共振成像数据集再训练。实验结果表明,两个模型的分类结果都达到了放射科医生的水平,VGG-16的分类结果好于InceptionV3。
同时调整卷积层参数和FC层参数进行医学图像分类的策略主要用于肺部疾病。例如,结核病和肺癌(Tan等,2018)、肺炎(Hashmi等,2020;Romero等,2020)、肺结节(张驰名 等,2020)等,也可以用于神经胶质瘤(Yang等;2018)。下面以神经胶质瘤为例说明同时调整卷积层和FC层参数策略的应用。Yang等人(2018)将ImageNet上预训练的AlexNet和GoogLeNet模型迁移到目标域,随机初始化并重新训练FC层以适应新的对象类别,冻结其他卷积层的权值,微调第一卷积层以适应目标域的特征提取。用胶质瘤核磁共振图像对迁移模型再训练后对胶质瘤进行分类。实验结果表明,与传统的基于手工特征的机器学习方法,甚至是从头开始训练的DCNN相比,基于迁移学习和微调训练的DCNN提高了神经胶质瘤分级的性能。
从迁移模型中提取特征的策略指从模型的某个或某些层提取特征,可以从卷积层提取特征,也可以从FC层提取特征。该策略如图4所示。
图4 从迁移模型中提取特征策略Fig.4 Strategies of extracting features from the migrated model
从DCNN不同的卷积层提取的图像特征不同,较深卷积层提取的特征更加高层、抽象,较浅卷积层提取的特征则包含诸如图像边缘轮廓、纹理等底层信息。褚晶辉等人(2018)从DCNN不同的层提取特征对乳腺癌进行分类,实验结果表明,随着DCNN卷积层的加深,卷积层提取的特征对于最终分类任务的性能呈现上升趋势。从DCNN不同的FC层提取的图像特征也不同,最靠近卷积层的FC层包含卷积层提取的全部图像特征。离卷积层越近,FC层节点越多,包含的图像特征越详细;离卷积层越远,FC层节点越少,包含的图像特征越笼统。Deniz等人(2018)设计了两个不同的实验,第1个实验先从AlexNet和VGG-16模型的FC6层中提取特征向量,然后进行拼接。第2个实验利用AlexNet和VGG-16模型的FC7层进行特征提取,并将得到的特征向量串联起来,将两个实验提取的特征用来分类。实验结果表明,第1次实验结果优于第2次实验结果,说明从越靠近卷积层的FC层中提取的特征越能提高分类性能。
3种迁移学习策略有各自的优缺点及适用场景,具体如表1所示。在实际应用中要根据具体情况选用合适的策略。
表1 迁移学习策略的比较Table 1 Comparison of transfer learning strategies
迁移学习模式根据是否包含其他模式可分为简单模式和复杂模式。简单模式包括DCNN模式、混合模式和特征组合分类模式;复杂模式包括多分类器融合模式和二次迁移模式,它们都可以包含若干个DCNN模式或者混合模式。各种迁移学习模式的目标函数要根据其中包含的DCNN和传统分类器来计算。不同的分类器有不同的目标函数,这些目标函数要求最小化,否则求解5种模式的目标函数时,无法与DCNN的目标函数(即损失函数)相加。DCNN的损失函数为交叉熵,主要有二分类交叉熵和多分类交叉熵。
二分类交叉熵计算为
(1)
式中,L1表示二分类交叉熵值,N为样本数量,yi表示样本i的标签,正类为1,负类为0,pi表示样本i预测为正类的概率。
多分类交叉熵计算为
(2)
式中,L2表示多分类交叉熵值,N为样本数量,M表示类别数量,yic是一个符号函数,如果样本的真实类别等于c取1,否则取0,pic是观测样本i属于类别c的预测概率。
DCNN模式就是用同一个DCNN完成图像特征提取和分类,如图5所示。
图5 DCNN模式示意图Fig.5 DCNN model
DCNN能够通过卷积层提取医学图像的深层特征,同时还可以通过全连接层完成图像的分类任务,比传统图像分类方法更为准确和高效,因此DCNN模式已经成为医学图像分类领域广泛使用的模式。在DCNN模式中,根据目标域分类任务选用合适的损失函数,二分类任务用式(1),多分类用式(2)。例如,Maqsood等人(2019)对预先训练好的卷积网络AlexNet进行微调后用于脑MRI分类以检测阿尔茨海默病,就采用k个互斥类的交叉熵函数(交叉熵)作为损失函数。该研究的损失函数属于多分类交叉熵。
使用DCNN模式进行医学图像分类已经应用于多种疾病。例如,癌症疾病中的乳腺癌(Samala等,2017,2019;吴英 等,2019;Zhuang等,2020;Liu等,2021;Munien和Viriri,2021)、肺癌(Tan等,2018;Wang等,2020)、胶质瘤(Yang等,2018;Im等,2021)、直肠癌(Li 等,2021b)和前列腺癌(Liu等,2021);肺炎疾病中的一般肺炎(Hashmi等,2020;Irfan等,2020;Romero等,2020)、新冠肺炎(Apostolopoulos和Mpesiana,2020;Minaee等,2020;Mohammadi等,2020;Bahgat等,2021;Chen等,2021;Taresh等,2021)和小儿肺炎(Liang和Zheng,2020);各类结节分类(Han等,2020),主要是肺结节(黄鸿 等,2020;Huang等,2020;张驰名 等,2020;陈道争和江倩,2021);脑部疾病中的阿尔茨海默病(金祝新 等,2019;Maqsood等,2019;Wee等,2019)、自闭症(Akter等,2021)、癫痫(Si等,2020)和酒精中毒(Wang等,2019);以及眼科(Karri等,2017;Gómez-Valverde等,2019;Le等,2020;Liu等,2020)、牙科(Lee等,2020;Kim等,2020)、肝脏疾病(Xue等,2020;Li 等,2021a)、前列腺疾病(Chen等,2019)和肺结核(Tan等,2018)等。下面以结节检测分类研究为例说明DCNN模式的应用。Han等人(2020)探索了一种自动诊断方法预测结节,采用VGG-16进行特征提取和分类,卷积层参数不变,用目标域数据集调整FC层参数;为了对比,采用了一种传统的机器学习方法,通过支持向量机(support vector machine,SVM)提取纹理特征并进行分类。实验表明,来自医学图像和自然图像的特征具有聚焦于更简单和抽象程度较低的对象的相似性,即迁移的卷积层越多,分类效果越好。
混合模式由DCNN和分类器组成,前者进行特征提取,后者用于分类,如图6所示。分类器一般是传统分类器。手动选择(或特征设计)可能导致一组特征不太理想,并且过度专用于特定的数据集,从而导致对更大或未知数据集的泛化能力较差,而DCNN可以通过训练而不是“手工制作”或专门设计来找到图像特征;传统分类器可解释性强且训练参数少,所以将DCNN与传统分类器结合起来能发挥二者优势。混合模式的目标函数由DCNN损失函数和分类器目标函数组成。具体为
图6 混合模式Fig.6 The hybrid model
F=L+f
(3)
式中,F表示混合模式的目标函数,L表示DCNN的损失函数,f表示分类器的目标函数。
使用混合模式进行医学图像分类已经应用于多种疾病。例如,癌症疾病中的乳腺癌(Trivizakis等,2019)、淋巴瘤(Zhang 等,2020a)和甲状腺乳头状癌(Yu等,2020);脑部疾病中的阿尔茨海默病(程波 等,2016;Oh等,2019)、脑功能连接(Li等,2018)和脑出血(Dawud等,2019)以及眼科疾病(Burlina等,2017)等。下面以眼科疾病为例说明混合模式的应用。Burlina等人(2017)将ImageNet上预训练的OverFeat迁移到一个大型的年龄相关性黄斑变性(age-related macular degeneration,AMD)图像公开数据集上用于特征提取,从该模型的一个FC层中提取通用深度特征,再使用SVM或随机森林(random forrest)对AMD进行多类分类。结果表明,在几乎不需要额外处理的情况下,通用深度特征与支持向量机相结合,提供了引人注目的性能;OverFeat提取通用特征之前,没有对该迁移模型进行优化,但效果不错;从OverFeat的一个FC层提取的通用特征以紧凑的方式封装了低层特征和空间特征,很好地适应了视网膜眼底图像的分析。
某些医学图像分类研究(Paul 等,2016;褚晶辉 等,2018;Pei 等,2019;Deniz 等,2018;Paul等,2016)发现,组合DCNN提取的医学图像特征和传统方法获得的传统图像特征,比单纯使用DCNN提取的特征或者传统图像特征能获得更好的图像分类效果;还有一些研究(Pei 等,2019;Wang 等,2021)发现,组合多种DCNN提取的相同图像的特征,也比单独使用单个DCNN提取图像特征获得了更好的图像分类效果。特征组合分类模式就是基于这两种发现的。该模式由DCNN或手工设计特征等其他特征提取方法及一个分类器组成,其中特征提取由DCNN和其他特征提取方法完成,分类则由分类器完成。该模式的核心是使用多种方法分别提取同一个图像数据集的特征,得到的多种特征再通过某些方法进行融合。该模式中,特征来源有两种情况,一种是图像特征由不同DCNN分别提取;另一种是由DCNN和传统方法分别提取。该模式如图7所示,图中“传统方法提取特征”是可选的,选择与否分别对应两种特征来源情况。
图7 特征组合分类模式Fig.7 Mode of feature combing and classifying
特征组合分类模式的目标函数由参与其中的所有DCNN的损失函数和分类器的目标函数组成。具体为
(4)
式中,F表示特征组合分类模式的目标函数,Li表示第i个DCNN的损失函数,f表示分类器的目标函数。
特征组合分类模式主要用于乳腺肿瘤病理图像分类(Pei等,2019;褚晶辉 等,2018;Deniz等,2018;Huynh等,2016)。其他疾病类型的图像也有应用。例如,COVID-19(Wang等,2021)、肺癌(Paul等,2016)、肾脏(Zheng等,2019)。下面分别以肺癌和乳腺癌图像分类为例说明特征组合分类模式的应用。Paul等人(2016)用肺癌图像对预训练的MatConvNet-VGG-m、MatConvNet-VGG-f和MatConvNet-VGG-s进行再训练,用于提取肺癌深度特征,然后再将其与传统特征混合后,分别用来训练各种分类器(决策树、随机森林、朴素贝叶斯和最近邻),以便预测肺癌短期和长期患者。实验结果表明,将提取的深度神经网络特征与传统的定量特征相结合,从预训练MatConvNet-VGG-f中提取的5个最佳后校正线性单元特征和5个最佳传统特征的精度为90%,曲线下面积(area under curve,AUC)为0.935。该研究中的特征来源是DCNN和传统方法。Pei等人(2019)使用VGG-16、ResNet-50和Inception-v3提取乳腺癌组织病理学图像的特征,将3个DCNN提取的特征合并在一起,再使用一种称为最小冗余最大相关(minimum redundancy maximum relevance,mRMR)的特征选择方法搜索最少特征,然后使用主成分分析(principal component analysis,PCA)降维,最后使用提升树和SVM区分癌变和非癌变斑块。研究结果验证了该方法与病理学专家的估计结果的一致性。该研究中的特征来源是不同的DCNN。
多分类器融合模式由多个分类器组成,其核心是得到多个分类结果再进一步整合得到最终分类结果,分为包含DCNN模式和包含混合模式两种,如图8所示。
图8 多分类器融合模式Fig.8 Mode of multi classifier fusing ((a) including DCNN model; (b) including hybrid model)
包含DCNN模式的多分类器融合模式的目标函数由所有DCNN的损失函数组成。具体为
(5)
式中,F表示多分类器融合模式的目标函数,Li表示第i个DCNN的损失函数。
包含混合模式的多分类器融合模式的目标函数由DCNN的损失函数和两个传统分类器的目标函数组成。具体为
F=L+f1+f2
(6)
式中,F表示多分类器融合模式的目标函数,f1用于传统特征分类,f2用于对DCNN提取的特征进行分类。
多分类器融合模式已经用于皮肤病(Mahbod等,2020)、脑肿瘤(Hao等,2021)和COVID-19(Altaf等,2021)等多种疾病的医学图像分类。
在皮肤病图像分析研究中,Mahbod等人(2020)提出并评估了一种基于三级集成策略的多尺度多CNN(multi-scale multi-CNN,MSM-CNN)融合方法,该策略利用EfficientNetB0、EfficientNetB1和SeReNeXt-50训练不同尺度的皮肤镜图像,调整了卷积层参数以提取更准确的特征,并修改最后一个完全连接层以适应目标域的分类任务,最后将3个微调网络的结果融合在一起得到最终的分类结果。实验结果表明,在国际皮肤成像协作组织(International Skin Imaging Collaboration,ISIC)2018皮肤病变分类挑战测试集上,MSM-CNN算法的平衡多类准确率为86.2%,是目前在线排行榜排名第2的算法。该研究使用了3次DCNN模式,分别对应EfficientNetB0、EfficientNetB1和SeReNeXt-50,并且采取了调整卷积层参数的策略及调整FC层结构的策略。Altaf等人(2021)提出的用于COVID-19分类及检测其他胸腔疾病的迁移学习方法中,使用了VGG、ResNet、DenseNet和Inception-V3等4个迁移模型,得到4个分类结果再融合。而Hao等人(2021)提出的基于迁移学习的脑肿瘤分类主动学习框架中,使用AlexNet作为迁移模型,使用3个不同的学习率进行训练,冻结卷积层参数,微调FC层参数,得到3个分类概率,再计算总的分类概率,这其实是使用了3次DCNN模式。上述研究使用的是包含DCNN模式的多分类器融合模式。
还有研究使用了混合模式。Zheng等人(2019)使用ImageNet-CAFFE-Alex通过两种不同方法从2维超声肾脏图像中提取特征,通过预训练的DCNN(AlexNet)从像素数据中自动提取特征(方法A)并通过基于肿瘤的分段分析方法(方法B)进行提取。然后在每个特征集上训练支持SVM分类器。在分别使用CNN特征(方法A)和分析提取特征(方法B)进行分类后,使用一种称为软投票的简单集成技术来组合两个分类器的输出。通过这种技术,将每个分类器的输出概率平均,然后作为最终的预测概率。该研究使用的是包含混合模式的多分类器融合模式。
二次迁移模式有一个源域、一个中间目标域(也称为中间源域)和一个最终目标域。在源域对模型进行第1次预训练,然后将模型迁移到中间目标域进行第2次预训练,再将经过二次预训练的模型迁移到最终目标域进行再训练。二次迁移学习可以使用DCNN模式,也可以使用混合模式。该模式如图9所示,其中最终目标域中的分类器是可选的,若选择则表示使用混合模式,即在最终目标域中进行特征提取和分类用的是不同模型。
图9 二次迁移模式Fig.9 Mode of transferring two times
二次迁移模式的目标函数由两个目标域的DCNN的损失函数组成。具体为
F=L1+L2
(7)
式中,F表示二次迁移模式的目标函数,L1表示临时目标域DCNN的损失函数,L2表示最终目标域DCNN的损失函数。
如果二次迁移模式在最终目标域使用分类器,则还需加上它的目标函数。具体为
F=L1+L2+f
(8)
式中,f表示分类器的目标函数。
二次迁移模式已经应用于宫颈癌前病变检测、乳腺癌分类和COVID-19的分类检测。
李燕云等人(2021)基于ImageNet预训练的Resnet101模型,通过宫颈转化区分类的开源阴道镜数据进行第1次迁移学习,再以自有数据的病变分类为目标进行第2次迁移学习得到特征提取器。将经过二次迁移的ResNet101作为特征提取器整合到Faster-RCNN中,替换Faster-RCNN的数层卷积层,用于病变区域特征提取。以开源Faster-RCNN代码进行实验,参数采用源代码的默认参数,目标输出为病变区域及类型。实验结果表明,构建的高级别和3类(低级别、高级别和癌)病变定位检测模型在宫颈癌前病变检测中取得了较好效果。该研究将迁移模型进行二次迁移,作用都是提取特征,通过调整卷积层参数提高提取特征的准确度,并采用softmax分类。该研究采用了两次混合模式,并且采取了调整FC层参数的策略。
褚晶辉等人(2018)采用迁移学习研究乳腺癌分类,迁移模型为VGG-16,第1次迁移的源域为ImageNet,目标域为乳腺X光数字乳腺图像数据库,第2次迁移的源域为第1次迁移的目标域,目标域为乳腺核磁共振图像(MRI)肿瘤数据集。两次迁移都冻结了用于提取特征的卷积层的权重,只调整FC层;实验结果表明,二次迁移比一次迁移更有效。该研究采用了两次DCNN模式,并且采取了调整FC层结构及参数的策略。
Zhang等人(2020b)提出了一个两步转移学习途径和一个深度残差网络框架来解决基于胸部X射线图像的COVID-19检测问题,最终的FC层是512 ×k,k是所研究问题中的类数。用预训练的ResNet34进行两阶段分类训练,第1阶段用胸部X射线图像来微调所提出的模型(k= 2),进行肺炎和正常的二分类,第2阶段是用COVID-19图像来微调第2阶段的模型(k= 3),进行COVID-19、其他肺炎和正常的三分类。研究表明,采用两步转移学习策略可以在小数据集上建立一个具有良好预测性能的深度学习模型。实验数据表明,采用两步转移学习策略对基于X射线图像的深度学习模型进行改进是必要的,该模型仅使用189幅带注释的COVID-19 X射线图像。由于两个阶段分类数量不同,因此这两个阶段至少要调整分类层;另外,两个阶段的训练都需要学习新特征,因此这两个阶段都需要调整卷积层。该研究采用两次DCNN模式完成二次迁移,并且还采用了调整卷积层的参数策略和调整FC层的结构及参数策略。
上述5种迁移学习模式有各自的适用场景及优缺点,具体如表2所示。选用何种迁移学习模式需要通过分析实际情况并结合各种模式的适用场景及优缺点来决定。
表2 迁移学习模式的比较Table 2 Comparison of transfer learning modes
DCNN模式中,至少要修改迁移模型最后的分类层,并且要重新调整该层参数,因此该模式使用参数调整策略和结构调整策略。混合模式中,需要使用从模型中提取特征的策略来获得特征,并且根据实际应用情况,还可能用到结构调整策略和参数调整策略来调整模型的结构和参数以获得更准确的特征。特征组合分类模式中,有部分特征是从迁移模型中提取的,因而也要用到从模型中提取特征的策略,还可能用到参数调整策略及结构调整策略。包含DCNN模式的多分类器融合模式使用策略的情况与DCNN模式类似,包含混合模式的多分类器融合模式使用策略的情况与混合模式类似。综上所述,迁移学习模式包含了迁移学习策略。
目前迁移学习已经广泛应用于医学图像分类领域,其中基于模型的迁移学习应用最广泛,其他迁移学习应用较少。本文从基于迁移学习的医学图像分析研究文献中归纳总结了3种迁移学习策略,提炼了5种迁移学习模式,并阐述了各种策略和模式之间的关系,分析了各种迁移学习策略及模式在医学图像分析中的具体应用、适用场景、优点和局限性。最后,给出迁移学习在医学图像分类应用中存在的问题及未来研究方向,具体如下:
1)难以选择高效的迁移学习算法。由于医学图像的多样性和复杂性,以及医学图像分类的迁移模型DCNN的可解释性较弱,导致迁移学习算法泛化能力不强。为某个特定类别的医学图像分类设计的迁移学习算法不一定适用其他种类的医学图像分类,因此需要从已有迁移学习算法中选择合适的算法。使用人工选择的方法需要不断尝试各种算法,消耗大量的计算资源,而自动迁移学习通过经验自动选择迁移学习算法,因此可以考虑用自动迁移学习解决迁移学习算法的选择问题。
2)迁移模型的修改和超参数的设置缺乏理论指导。迁移模型的结构中,容易修改的部分是最后的分类层,其他层的结构修改则比较困难,特别是卷积层。选择调整哪些卷积层和FC层的参数也是比较困难的。对这些难以修改的结构和参数,只能通过结合已有的经验和不断进行实验来完成,超参数的设置也是如此。这导致迁移学习效率低下。研究能够指导修改迁移模型的结构和参数,以及设置超参数的理论,可以提高迁移学习的效率,促进迁移学习在医学图像分类中的应用。
3)罕见疾病图像分类困难。罕见疾病病理图像数据样本很少,如何通过迁移学习提高罕见疾病图像分类也是一个问题。对抗式迁移学习通过一种新的迁移学习方法,即数据扩展,生成和增强目标域数据;异构迁移学习允许将不同模态或不同方面的源域知识迁移到目标域。因此,可以考虑在罕见疾病图像分类领域使用对抗迁移学习和异构迁移学习,一方面通过对抗迁移学习来生成符合要求的罕见疾病病理图像样本,增加样本数量;另一方面,通过异构迁移学习将其他符合要求的源域知识迁移到罕见疾病图像分类目标域。