唐李文, 曹依琳, 汪雅莉, 平斯羽, 胡文静, 赵 林
(湖南理工学院 信息科学与工程学院, 湖南 岳阳 414006;湖南理工学院 机器视觉及人工智能研究中心, 湖南 岳阳 414006)
癌症是全世界第二大死亡原因, 其发病率每年都在提高, 其中前列腺癌是男性群体发病率增长最快的癌症.有数据表明, 2018年欧洲男性发病率最高的癌症部位为前列腺, 发病率为21.8%, 并且其死亡率为10%[1].虽然我国男性前列腺癌发病率低于欧洲国家, 但是近年来具有明显上升的趋势.同时前列腺癌会对患者造成阻碍排尿、损害器官等伤害.由此可见, 前列腺癌是严重危害男性健康的一种疾病.在前列腺癌的早期, 由于肿瘤局限, 大多数前列腺病人无明显症状.目前只有前列腺特异抗原法、直肠指诊法、经直肠超声法、前列腺穿刺活检法等检测方法[2], 但是以上方法存在准确性较低、耗时费力、需要特殊标记等问题.因此, 临床医学上迫切需要一种准确高效的前列腺疾病早期诊断新方法.
近年来, 光散射技术已逐渐成为生物分析和医学诊断的有效方法之一.由于细胞当中的各细胞器对光的折射率不同, 所以光透过细胞时会发生散射, 散射光隐含了细胞的空间结构信息.当细胞发生病变时,其内部细胞结构也会发生变化, 因此病变细胞与正常细胞的光散射图像也会有所差异[3].宛栋[4]等将非偏振激光射入人宫颈癌细胞后获取光散射分布信息, 对其分析得知, 不同时期细胞核中的DNA 含量导致细胞的光散射特性不同.该研究为光散射技术在生物医学领域的应用提供了重要的理论基础.乔向彬[5]等在手术前采用超声光散射成像技术获得乳腺癌细胞光散射成像参数, 并整理了术后确诊的乳腺癌患者信息,采用回顾性分析法对其进行分析, 证明了使用光散射成像技术是一种评估乳腺癌病情的有效方法.叶坤涛[6]等建立了不同形态红细胞的光学模型, 通过T 矩阵散射理论分析了异常形态红细胞的散射特性.该方法对红细胞的无损检测和病况分析具有一定指导意义.
上述方法表明生物医学领域中已广泛采用光散射图像, 但在使用过程中仍需要人工分析特征.卷积神经网络作为深度学习中极具代表性的方法之一, 由于其强大的特征提取能力, 已经在图像分析和处理领域取得了广泛应用[7,8].李希[9]等提出一种基于生成对抗网络的浮选加药过程建模方法, 通过提取泡沫图像深层特征模拟生成加药后的泡沫, 并与实际工业加药泡沫变化情况对比, 证明了该方法可以准确还原实际加药过程中的泡沫变化情况, 对矿物浮选自动加药具有指导意义.易嘉闻[10]等通过采用注意力机制对不同光谱波段进行加权, 并在PaviaU 和Salinas 数据集进行了分类实验, 较其他深度学习加权方法具有更佳的分类性能.杨勃[11]等提出了一种基于生成模型的图像风格迁移系统, 该方法通过VGG19 网络对图像进行特征提取并迁移, 可以精确、高效地完成风格迁移.但以上方法都是基于图片数量较多的数据集进行试验, 没有考虑实际问题中少样本数据集的情况.
本研究首先采用正交偏振衍射成像流式细胞仪系统, 使用线性偏振激光束照射细胞并发生散射, 最后经相机收集得到细胞的偏振衍射图像.根据光散射理论, 由于散射光的光强分布与细胞结构的折射率高度相关, 所以衍射图像隐含了丰富的细胞空间结构信息.但由于实验中前列腺细胞数据不易获取, 获得的衍射图像数量较少, 因此, 本文提出一种基于迁移学习和卷积神经网络的前列腺细胞识别方法, 先在其他数据量丰富的癌细胞衍射图像上训练拟合程度良好的网络模型, 然后在前列腺细胞衍射图像基础上进行微调, 实现卷积神经网络对少样本前列腺细胞数据的准确分类.
实验中采用的细胞是由采自于人体的脾脏组织培养而来, PC3 为前列腺癌细胞, PCS 为正常前列腺细胞.由于PC3 和PCS都来源于前列腺组织的上皮细胞, 为了维持其活性, 将其放置于添加了10%胎牛血清的RPMI-1640 培养液中进行培养.在活力良好的细胞生长对数期使用胰蛋白酶-EDTA 溶液分离贴壁细胞,形成用来衍射成像的细胞悬浮样品.
实验中所使用的细胞衍射成像流式细胞仪实验系统如图1 所示.成像过程中首先使用电机将细胞悬浮样品作为核心流体推入流体室, 并使其匀速流动.再使用532 nm 波长的线性偏振激光束作为入射光,通过聚焦镜将激光束聚焦到流体室中的细胞上.由于细胞内各细胞器及细胞质的折射率不同, 激光透过细胞时会发生散射, 散射光由显微物镜收集并经分光镜分为光方向互相垂直的两束散射光.最后这两束散射光分别在两个CCD 相机上成像, 并将两幅图像和一张同等大小像素全0 的图片分别作为单通道的图片进行叠加, 构成一张RGB 细胞衍射图像.
图1 细胞衍射成像系统
监督学习往往需要大量的已标注数据, 但数据标注需要花费大量的人力与时间.为了解决少数据量、少标注的问题, 迁移学习[12]作为机器学习的一个新分支应景而生, 并在计算机视觉、文本分类、行为识别等方面起到了重要的作用.迁移学习的主要思想就是利用数据、任务、模型等之间的相似性, 将在旧领域学习过的知识应用于新领域.迁移学习主要有基于样本、基于特征、基于模型和基于关系四种学习方法.
卷积神经网络主要使用基于模型的迁移, 利用源域数据与目标域数据中可以共享模型的参数来训练网络参数.在分类任务上的具体过程为: 首先在具有一定相似性且图片数量充足的数据集上训练好一个神经网络模型, 其次根据任务的不同修改网络模型结构, 最后冻结浅层网络模型参数, 在图片数量少的数据集上使用更低的学习率等参数重新训练来达到理想的实验结果, 主要流程如图2 所示.
图2 迁移学习流程
与标准的RGB 数据集相比, 细胞偏振衍射图像是通过相干散射光光强分布反应细胞的空间结构, 图像的信息不如RGB 图像复杂, 所以本文使用较浅的网络结构.目前, DINet[13]已在细胞偏振衍射图像分类上取得了较好的成果.为了充分利用各层网络提取到的特征, 本文采用了残差块[14]来替换DINet 的中间两个卷积层, 记为细胞残差卷积神经网络(Cell Residual Convolutional Neural Networks, CR-CNN).为了避免网络过拟合以及加速网络收敛, 实验中在第一层卷积和残差块中的卷积后面添加了批规范化层, 并在全连接层后添加了Dropout 操作.本文所使用的CR-CNN 网络结构如图3 所示.
图3 CR-CNN 的网络结构
CR-CNN 网络中主要使用到了均值池化层、最大值池化层、卷积层、全连接层等网络结构, 其结构参数设置见表1.
表1 网络层参数
实验中, 通过构建经全连接层输出的分类概率与输入图像的真实标签之间的交叉熵函数作为网络的目标函数:
其中pk(X)是输入细胞衍射图像X后经网络得到的分成k类的概率分布; 当X的标签Y为k时,yk的值为1, 否则为0.网络预测的概率分布与真实分布越相似时, 交叉熵函数值越小, 所以在网络训练过程中以最小化其值为目标更新网络模型参数.
实验中, 采用准确率(Accuracy)作为评价指标来评估网络的分类性能.准确率是分类任务中最常见的指标, 指的是预测正确的样本占样本总数的比例, 用来评价全局的预测分类效果, 其计算公式为
其中T为所有分类正确的图片数,F为所有分类错误的图片数.
本实验采用五类细胞株偏振衍射图像数据集, 分别为前列腺癌细胞(PC3)、正常前列腺上皮细胞(PCS)、人体淋巴癌的T细胞(Jurkat)、人体淋巴癌的B细胞(Ramos)和乳腺癌组织的上皮细胞(MCF-7), 总共有4450张细胞衍射图像.其中Jurkat、Ramos 和MCF-7 三类细胞图片较多, 共有3935 张图片, 将其作为源域数据集.而前列腺细胞图片较少, 只有515 张图片, 使用迁移三类细胞分类的网络参数来进行学习.为了减小实验结果的偶然性, 在实验中采用五折交叉验证法, 将细胞图片平均分成五份数据集.在五折交叉验证实验中保证每份数据都被当作过测试集来计算网络的分类效果, 以保证实验结果的可靠性.数据集分组情况见表2.
表2 衍射图像分组
本实验采用的设备为Intel(R) Core(TM) i9-10900X CPU @ 3.70GHz, 操作系统为Windows 10, 操作环境为Python 3.7.6.基于CR-CNN 网络的细胞衍射图像分类实验中, 模型训练迭代次数为60, 学习率初始化为0.01, 且随着训练次数的增加而减小, 在模型训练迭代至20 和40 次时学习率减小为当前值的10%.优化器选择SGD, 动量设置为0.9, 权重衰减为 5 × 1 0-4.
实验中首先使用CR-CNN 对三类细胞数据集进行训练和测试, 五折交叉验证法所得的分类准确率见表3.
由表3 可以看出, CR-CNN 对三类细胞衍射图像具有较强的学习能力, 可以有效地提取衍射图像的特征信息, 平均分类准确率达到99.80%.所以本实验保存了CR-CNN 在三类细胞数据上训练完成的模型参数作为源域模型以供对前列腺细胞数据迁移学习使用.本文进行了微调源域模型中不同网络层参数的四组实验, 分类准确率见表4.
表3 三类细胞分类准确率
由表4 可知, 使用四种方案得到了不同的分类效果, 其中微调FC + Conv2 + ResidualBlock2 网络层的参数在前列腺细胞数据上分类的准确率达到96.190%, 比不使用迁移学习高出近8 个百分点,为最佳方案.为了验证网络模型的收敛情况, 实验中在每轮迭代训练结束时将损失值记录下来并绘制成折线图, 如图4 所示.
表4 迁移学习前列腺分类准确率
由图4 可看出, 随着迭代次数的增加, 在0~40代期间, 损失值快速下降, 并在第40 代之后趋于稳定, 这表示网络已经处于收敛状态, 整个网络训练过程约18 min.综上可知, 本文提出的基于迁移学习的CR-CNN 前列腺细胞分类方法具有效率高、分类准确的优点.
图4 损失值变化
本文同时将基于迁移学习的CR-CNN 分类结果与ResNet18、ResNet50、Alexnet、DINet 进行对比, 不同模型的分类准确率对比结果见表5.
由表5 可知, 基于迁移学习的CR-CNN 对少样本量的前列腺细胞数据集具有良好的学习能力, 分类准确率明显高于其他方法.在前列腺筛查的临床诊断上, 可以更有效地识别出前列腺癌, 减少误诊情况的发生, 在医学领域具有较好的应用价值.
表5 不同方法分类准确率对比
本文针对传统前列腺细胞识别方法存在的需要荧光标记、染色处理且效率低、需手动操作等问题, 采用正交偏振衍射成像流式细胞仪系统获得前列腺细胞衍射图像, 并提出一种基于迁移学习的细胞残差卷积神经网络, 对少样本的前列腺细胞衍射图像进行特征学习, 在只有515 张图片的情况下进行了分类实验.实验结果表明, 该方法可以有效地解决深度学习中数据量少的问题, 实现了对前列腺细胞的准确识别, 分类准确率达到了96.190%, 是一种高效准确的免标记前列腺细胞分类方法, 对生物医学和临床前列腺癌诊断具有重要意义.