钟 亚 张 静 肖 峻
(电子科技大学光电科学与工程学院,成都 610054)
随着科学技术的发展和自动化检测设备的普及,越来越多的医疗设备为医院和患者带来了便利。其中,血液分析仪,经过多年的发展已日趋成熟;粪便检测仪,也由简单的生化检测到半自动,时至今日已有多家公司开发出了全自动的粪便检测仪。然而,白带检测仪仍处于初期阶段。在开发过程中,显微图像中细胞的自动检测是体现仪器自动化与智能化的重要一环。
从医学方面来讲,白带常规检查作为妇科最常规的检验项目,有着相当广泛的应用。白带是女性阴道黏膜渗出物、宫颈腺体以及子宫内膜分泌物的混合物,生殖道发生病原菌感染均可从白带常规检查中检出,区别阴道炎症的种类及了解阴道内细菌情况,通过白带清洁度的检查可以判断阴道内受污染的程度,间接评估感染的几率及程度,有助于临床诊断和治疗工作,为其提供判断依据[1-3]。阴道疾病是由于多种病原菌造成的,白带中的白细胞作为阴道炎症或细菌感染的直接表现,具有重要的临床意义和极大的研究价值。
根据全国临床检验操作规程和实际调研结果,目前医院所采用的白带常规检查方法主要为传统的生理盐水镜检法,或者辅以一定染色技术的镜检法[4-6]。传统的生理盐水镜检法,即将取材后的棉拭子与生理盐水混合,然后涂片镜检。此法操作简单,但因为需要人工观察细胞进行判断,在高倍镜的操作环境下容易产生视觉疲劳从而影响判断,且易受室温和各种成分重叠遮掩等因素的影响,所以有很大的局限性。辅以一定染色技术的镜检法虽然提高了检出率,但是操作繁琐,步骤复杂,且染色鉴定结果受多种因素(如染色液的质量、PH环境及时间等)的影响,对操作者要求较高,不利于有效开展和推广应用。
在机器视觉不断发展的今天,医学图像处理正逐渐从人工处理发展到计算机自动处理,其中特征表达的好坏对于一个自动检测系统来说是至关重要的。在文献[7]中,就组织病理图像中细胞核的分割和分类方法进行了总结,其中将细胞的特征表达概括总结为3类:强度特征、形态学特征和纹理特征,并将其统称为手工设计特征。文献[8-9],在白细胞的分类检测中,分别采用了形态学特征与贝叶斯分类器的组合,几何特征与K-均值聚类器的组合。然而,以上方法均需要经历特征提取和分类这两个步骤,并且因为需要进行特征的人工选取,难以避免以下3个方面的弊端:第一,需要对细胞有深入的理解,给非医护人员的机器视觉工作者提出难题;第二,针对特定的图像需要设计不同的特征,限制了设计特征的通用性,导致可移植性差和可拓展性差;第三,不能直接运用原始图像,造成了大量图像细节特征的丢失,容易导致误检和漏检。
近年来,卷积神经网络呈现出巨大的优势:首先,它可以将原始图像直接作为输入,而且具有强大的学习特征的能力,可以从不同的层次来自动获取图像特征;其次,它具有端到端的性质,可以一步完成特征提取与分类。基于卷积神经网络的方法在目标识别、图像分类等领域都表现良好。在本研究中,对于白带显微图像,在经过图像分割之后,得到样本数据,采用基于卷积神经网络的方法,高效完善地实现白细胞的自动检测。
卷积神经网络被设计用来处理多维数组数据,主要涵盖4个关键的属性:局部连接、权值共享、池化以及多网络层的使用。
一个典型的卷积神经网络结构是由一系列的过程组成的,如图1所示[10]。最初的几个阶段是由卷积层和池化层组成。卷积层产生多个特征图,在一个特征图中,每一个单元通过一组权值被连接到上一层的特征图的一个局部块,然后这个局部加权和被传给一个激活函数。一个特征图中的全部单元使用相同的权值,不同的特征图使用不同的权值。
图1 一个典型的卷积神经网络架构
使用这种结构出于两方面的原因。首先,在图像中,一个值的附近的值,经常是高度相关的,可以形成比较容易被探测到的有区分性的局部特征。这是局部连接的思想。其次,在图像中某个地方出现的某个特征,也可能出现在别的地方,所以不同位置的单元可以共享权值,达到探测不同位置的相同特征的目的。局部连接和权值共享也在一定程度上减少了训练参数,带来了优化。
常用的激活函数主要为非线性变换,如修正线性单元(ReLU)和双曲正切函数(tanh),两个函数的图像如图2所示。实验表明,训练带ReLU的卷积神经网络比带tanh单元的同等网络要快好几倍[11]。
图2 激活函数。(a)修正线性单元;(b)双曲正切函数
卷积层的作用是探测上一层特征的局部连接,池化层的作用则是把相似的特征合并起来。一般地,池化单元计算特征图中的一个局部块的最大值(或平均值),相邻的池化单元通过移动一行或者一列来从小块上读取数据,减少了特征的维度,不容易过拟合,并且对数据具有平移不变性。实验表明[11],存在相邻单元重叠的池化,在训练过程中,更不容易过拟合。
两三个这种的卷积、非线性变换以及池化被串起来,后面再加上全连接层,就构成了一个典型的卷积神经网络架构。
同一般的神经网络一样,卷积神经网络也采用反向传播算法[12]进行训练,这其中主要利用梯度下降方法和链式求导法则。常用激活函数ReLU和tanh的函数及偏导数的计算公式为
(1)
(2)
图像预处理阶段,在1 024×1 360大小的白带显微图像的基础上设计图像分割方法,获取仅包含白细胞或者疑似白细胞的小图像。样本获取阶段,对分割的小图像进行插值缩放和人工标注,得到大小统一的带标签图像,即为阳性样本或阴性样本。卷积神经网络搭建阶段,在LeNet-5[10]的基础上,根据误差最小化的准则,在训练过程中不断调整网络的结构和参数,最终获取到可用于白细胞检测的网络。对于一个不带标签的图像样本,若将其输入网络,即可得到分类结果。
1.2.1图像分割及样本的获取
将白带与0.9%的生理盐水混合成溶液,然后涂抹到载玻片上,运用显微镜进行图像采集,即可得到白带显微图像。在图像的预处理阶段,首先,使用Kirsch算子[13]进行滤波,实现图像增强;之后,运用大津阈值法[14]得到阈值,从而进行阈值分割获取二值化图像;最后,进行形态学闭运算,填充细小空洞,平滑边界。
在闭运算后的图像上,进行连通域标定。计算每个连通域的面积、周长、离心率、圆形度和最小外接矩形的宽高。其中,连通域的离心率即为与区域具有相同标准二阶中心矩的椭圆的离心率,连通域的圆形度即为面积乘上4π正体除以周长的平方。将得到的计算数据和预设的参数进行对照,进行连通区域的粗筛,记录满足要求的连通域的最小外接矩形的位置。将获取的一系列最小外接矩形的4条边分别向外平行扩展10个像素,如若最小外接矩形的位置靠近图像边缘,则可以适当减小扩展的像素数。依照此规则,更新外接矩形的记录位置。最后,根据记录的位置,在白带显微图像中进行裁剪,得到矩形图像,即为仅包含白细胞或疑似白细胞的分割图像。此时获取的分割图像大小不一,故进行缩放操作。采用双三次插值算法[15],使分割图像的大小统一为60×60。
在1 024×1 360大小的白带显微图像中,不仅含有白细胞,还可能有上皮细胞、球菌、杆菌、真菌等。其中,上皮细胞的细胞核、各种碎屑等都很容易与真正的白细胞产生混淆。因此,经过人工标注,包含白细胞的分割图像视为阳性样本,不包含白细胞的分割图像视为阴性样本,如图3所示。阳性样本中,白细胞多为分叶核中性粒细胞,细胞核有2~5叶,各叶之间或相连或完全分开,且大小形状和排列方式各不相同。阴性样本中,可能包含上皮碎屑、上皮细胞核、杂质等不同物质,因此也呈现不同形态。
图3 样本。(a)4个不同形态的阳性样本;(b)4个不同形态的阴性样本
至此,获取的样本可以直接输入卷积神经网络进行训练和测试。
1.2.2获取可用的卷积神经网络
在LeNet-5的基础上,经过多次训练和测试,最终确定的卷积神经网络结构如图4所示。此网络共有6层,由输入层、输出层、两个卷积层和两个池化层构成。卷积层的工作方式是对上一层图像进行卷积,以提取特征,再进行激活操作,使得出的图像数据在一个有意义的范围内,防止梯度消失。池化层则以聚合统计的方法,实现数据量的减少。最后,将第二个池化层的二维图像数据拉伸为一维数据,以全连接的方式,加上激活操作,产生全网络的输出层。
图4 卷积神经网络的结构
卷积过程中,采用不补零的方式,滑动步长为1,卷积核按照Xavier等提出的方法[16]进行初始化,所有偏置的初始值为0。前两个激活层采用ReLU,最后一个激活层采用tanh。池化层采用不重叠的均值池化方式。损失函数采用均方误差的方式计算。采用随机梯度下降法进行训练,权重w的更新规则为
wi+1=wi+vi+1
(5)
(6)
式中,i代表迭代次数,v表示动量,α表示学习率,∂L/∂wi代表目标函数对当前权重的偏导。
将100个样本放在同一批次中,动量参数为0.9,权重衰减为0.000 5。对所有层采用相同的学习率,根据Krizhevsky等提出的方法[11]进行手动调整,最终的学习率为0.000 1,固定学习速率不再衰减。
为防止过拟合,提高泛化能力,采用10折交叉验证[17]的方式训练和测试。数据集分组情况如下:将10 000张阳性样本和10 000张阴性样本分别随机地分成10组,再随机地取一组阳性样本和一组阴性样本组合成一个组,作为10折交叉验证的一个样本组,最终的评价参数是10次测试的平均结果。
笔者采用了如下3个评价参数[18]对结果进行客观的评估。
敏感性=真阳性样本数/阳性样本数
(7)
特异性=真阴性样本数/阴性样本数
(8)
(9)
由公式可以看出,敏感性越高,漏检率就越低;特异性越高,误检率就越低。
在成都市第六人民医院的协助下,经过为期5个月的图像采集,得到了1万张左右的白带显微图像。这些图像均由携带索尼ICX285AL相机的奥林巴斯CX31显微镜拍摄。载物台上的白带涂片仅放大了20倍,且不经染色阶段。根据本文第1.2.1节的方法对白带显微图像进行预处理,如图5所示。
图5 图像预处理。(a)白带显微图像;(b)增强图像;(c)二值化图像;(d)闭运算图像
之后,再经过连通域特征的筛选,便从1万张左右的白带显微图像中,得到若干包含白细胞或不包含白细胞的子图像,进而从中选取了10 000张阳性样本和10 000张阴性样本作为原始数据集,最终的实验结果如表1所示。
表1 白细胞自动检测结果
与分类决策树的方法进行对比后可以看出,采用卷积神经网络的方法,达到了较高的敏感性和特异性,平均准确率也较高,并且均处在波动较小的一个范围内。因此,满足了临床检验的使用要求。
通常情况下,从一个白带涂片中拍摄30个视野,即得到30张1 024×1 360大小的白带显微图像。针对每张白带显微图像中得到的每个未知标签的样本,输入网络,便可以完成分类,亦即判断此样本为阳性样本(包含白细胞)或阴性样本(不包含白细胞)。之后,将样本的位置信息返回,并进行30个视野下的白细胞数量统计,即可完成白细胞的自动检测,如图6所示。
图6 白细胞标注后的白带显微图像
如表2所示,在白带常规检查中,如果白细胞计数大于15个/高倍镜视野,患者便会被初步诊断为在阴道或宫颈组织中有炎症。
表2 白带清洁度判断标准
在白带常规检查中,较高的白细胞个数通常与阴道炎、宫颈炎等息息相关,也在一定程度上预测了念珠菌感染、衣原体感染、毛滴虫感染或者淋病[19]。目前,大多数医院采取的白细胞检测方式仍为人工检测,人力消耗大,效率较低,并且准确率得不到保证。随着科技的发展,以高效准确的自动检测取代人工检测是不可避免的趋势。通过计算机检测白细胞,获得其计数和位置,得到的数据和标记后的图像可以由检验员直接在屏幕上观察,也可以通过因特网传递给医生。这种自动检测方法可以减少人力资源的消耗,提高检查的效率和准确性。无论医生身处何地,随时都可以直接获得患者的检查结果以便诊断。 因此,此方法也有助于远程医疗和电子病历建立。
在目前绝大多数的白细胞自动检测的研究中[20-21],涂片均被放大到100倍以上,并且大多是检测血液中的白细胞,因此背景相对简单;而且,为了将白细胞与其他成分明显区分,涂片大多经过染色。然而,在本研究中,为了保证白带涂片中的大部分视野均被拍到,仅将其放大了20倍;并且在白带涂片中,除了白细胞,还有上皮细胞、球菌、杆菌、真菌等有形成分,这在医学判定中也有重要意义,因此有必要保持它们的原始形态,故这些涂片未经染色。所以,上述问题都给研究带来了困难。以往传统的特征提取和分类的方法,因需要图像呈现出较明确的特征进而进行特征的手工提取,难以较好地解决这些难题。在本研究中,提出了基于卷积神经网络的白细胞自动检测方法,自动提取图像不同层次的特征,一步实现特征表达和分类。
本方法的研究内容体现在以下两个方面。首先,设计图像分割步骤,从一张完整的白带显微图像中获取分割图像,要做到不遗漏图像中的白细胞并尽可能完整地分割出来;其次,搭建和完善卷积神经网络,运用其良好的特征学习能力,通过训练来实现不同层次的特征描述。相对于传统的先提取特征再分类的过程,由于神经网络端到端的性质,实现了由样本图像到分类结果的一步式跨越。
在白带显微图像中,除了白细胞,还有上皮细胞、球菌、杆菌、真菌等有形成分。为深化白带样本的自动检测研究,本研究在白细胞自动检测的基础上进行多种有形成分的自动检测,需进一步探究。
白带中白细胞的检测是评估阴道或宫颈组织炎症的简单而便宜的手段,并可作为潜在感染的重要标志物。据笔者所知,本研究是第一个开发出用计算机化的检测系统来实现白带显微图像中白细胞自动检测的方法。在本研究中,采用基于卷积神经网络的方法,实现了良好的检测效果。利用这种计算机化的自动检测系统,可以减少主观因素,增加客观度量,从而大大提高效率和准确性,同时减少白带常规检查中的大量人力消耗。
(致谢:感谢摩米视觉实验室提供的资金、设备及人力支持)
[1] 万国忠. 857例白带常规检查结果分析 [J]. 中国药物经济学,2013(2): 470-471.
[2] 邓霭静. 中医诊治带下病学术源流探讨及文献整理研究 [D].广州:广州中医药大学, 2014.
[3] 李瑞珍. 白带常规检查的意义与局限性 [J]. 四川医学, 2014, 35(1): 106-107.
[4] 丁高侬. 三种妇科白带检查方法比较分析 [J]. 中国现代医药杂志,2011,13: 52-53.
[5] 阮君,陆静芬. 临床阴道分泌物检测方法的比较 [J]. 中国伤残医学,2014(1): 14-16.
[6] 凌晓午,罗静,苏莉,等. 2种方法检测白带常规多项目结果对比分析 [J]. 中国卫生检验杂志,2015(13): 2136-2138.
[7] Irshad H, Veillard A, Roux L, et al. Methods for nuclei detection, segmentation, and classification in digital histopathology: a review-current status and future potential [J]. IEEE Reviews in Biomedical Engineering, 2014, 7: 97-114.
[8] Gautam A, Singh P, Raman B, et al. Automatic classification of leukocytes using morphological features and naïve Bayes classifier [C] //Region 10 Conference(TENCON). Singapore City: IEEE, 2016: 1023-1027.
[9] Tsalis R, Agus A, Nopriadi, et al. Classification of leukocyte images using K-means clustering based on geometry features [C] // Engineer Seminar(InAES). Yogyakarta: IEEE, 2016: 245-249.
[10] Lecun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition [J]. Proceeding of the IEEE, 1998, 86(11): 2278-2324.
[11] Krizhevsky A, Sutskever I, Hinton GE. ImageNet classification with deep convolutional neural networks [C] //Advances in Neural Information Processing Systems. Lake Tahoe: Neural Information Processing System Foundation, 2012: 1097-1105.
[12] Bouvrie J. Notes on Convolutional Neural Networks[EB/OL]. http://cogprints.org/5869/2011-03-11/2017-07-06.
[13] Kirsch RA. Computer determination of the constituent structure of biological images [J]. Computers & Biomedical Research, 1971, 4(4): 315-328.
[14] Otsu N. Threshold selection method from gray-level histograms [J]. IEEE Transaction on Systems Man and Cybernetics, 1979, 9(1): 62-66.
[15] Keys R. Cubic convolution interpolation for digital image processing [J]. IEEE Transactions on Acoustics Speech & Signal Processing, 2003, 29(6): 1153-1160.
[16] Glorot X, Bengio Y. Understanding the difficulty of training deep feedforward neural networks[J]. Journal of Machine Learning Research, 2010, 9: 249-256.
[17] Ar J. Statistical comparisons of classifiers over multiple data sets[J]. Journal of Machine Learning Research, 2006, 7(1): 1-30.
[18] Fawcett T. An introduction to ROC analysis [J]. Pattern Recognition Letters, 2006, 27(8): 861-874.
[19] Geisler WM, Yu S, Venglarik M, et al. Vaginal leucocyte counts in women with bacterial vaginosis: relation to vaginal and cervical infections [J]. Sex Transmit Infect, 2004, 80: 401-405.
[20] Ananthi VP, Balasubramaniam P. A new thresholding technique based on fuzzy set as an application to leukocyte nucleus segmentation [J]. Computer Methods & Programs in Biomedicine, 2016, 134: 165-177.
[21] Vogado LHS, Veras RDMS, Andrade AR, et al. Unsupervised leukemia cells segmentation based on multi-space color channels [C] //IEEE International Symposium on Multimedia. San Jose: IEEE, 2016: 451-456.