杨玉,寿玮龄,吴卫(.中国医学科学院 北京协和医院检验科,北京00730;2.首都医科大学附属北京潞河医院血液科,北京049)
白血病是一组高度异质性的造血系统恶性肿瘤,具有增殖和生存优势的白血病细胞在体内无控性增生和聚集,逐渐取代正常造血。白血病诊断的基础是实验室诊断,包括形态学、免疫学、遗传学及分子生物学4个方面。检测骨髓和外周血细胞形态可指导造血与淋巴组织肿瘤相关疾病的诊断、分类、分期,并为监测疗效及预后判断等提供依据。人工镜检是细胞形态学检查的金标准。但人工镜检耗时、费力、技术难度高,其依赖于检验工作者的个人能力水平和阅片经验,具有主观性。与人工分析相比,经过验证的白细胞(WBC)自动计数和分类系统可以更准确、快速地提供可量化的数据,推动了WBC数字图像计算机辅助识别技术的发展。本文综述了计算机辅助识别技术在急性白血病细胞形态学分析领域的研究及应用进展。
随着计算机系统、复杂处理能力和图形分析软件的改进以及人工神经网络的出现,数字成像系统重回临床实验室,用于血常规分析。2014版ICSH指出数字成像细胞定位/预分类系统的评估需包括下列性能:可重复性/精密度、准确度、可比性、诊断灵敏度和特异度[1]。目前,一些全自动细胞形态学分析仪已在临床应用,如CellaVisionDM96、DI-60、Celldiff BCM-2等。任颖佳等[2]用DM96对WBC及非WBC成分预分类的正确率为82.3%。杨婧等[3]研究发现,DM96系统人工校正与显微镜手工分类结果有着较好的相关性。曾素根等[4]用DI-60系统预分类WBC的正确率为91.14%。刘新等[5]研究发现,DI-60系统人工审核结果与人工镜检具有较好的正相关性。武秋燕[6]用BCM-2预分类WBC的总准确率为94.9%。薛赢俊等[7]研究发现,BCM-2人工纠正与镜检分类结果的相关性除外嗜碱性粒细胞的线性有明显偏差(P<0.01),中性杆状核粒细胞、中性分叶核粒细胞、淋巴细胞、单核细胞、嗜酸性粒细胞及幼稚粒细胞的线性均无明显偏差。由于骨髓细胞成分复杂,自动识别难度高,尚未有自动化仪器在临床应用。
1.1 白细胞形态学识别中常用的染色和图像模式 瑞氏-姬姆萨染色是外周血和骨髓涂片广泛使用的染色方法,在普通显微镜下观察血涂片中各种WBC形态。染色后的血细胞更容易辨别。一些研究者也在使用其他染色方法,如利什曼(Leishman)染色、罗曼诺夫斯基(Romanowsky)染色等[8-10]。
外周血和骨髓涂片经染色后,用光学显微镜观察血涂片体尾交界细胞分布均匀处,拍摄目的细胞图像,存储为便于后续处理和保存的图片格式,如tiff、jpg格式等。
1.2 计算机辅助识别在白细胞识别中的技术方法研究 计算机辅助识别系统通常分为4个阶段,即预处理、分割、特征提取和分类(图1)。这些技术在WBC辅助识别中得到很好的应用(表1)。
图1 白细胞计算机辅助识别系统常规流程[11]
表1 计算机辅助识别白细胞图像
1.2.1 图像预处理 图像预处理直接影响图像识别效果。通过预处理可去除图像噪声,增强图像可识别性,便于提取正确的分割和分类特征。常用方法包括直方图均衡化、中值滤波、高斯滤波、线性对比度拉伸等。
图像处理过程中常用颜色空间包括RGB、HSI、L*a*b、CMY等。各种颜色空间之间可由公式进行转换。
1.2.2 分割 WBC分割是图像识别的核心,分割出ROI区域。传统图像分割方法已经研究得比较充分,常用方法有边缘分割、阈值化分割、区域分割、聚类分割、形态学分割、基于小波的分割等。在传统图像分割算法外,使用深度学习(deep learning,DL)技术的图像分割方法也开始广泛应用于WBC分割领域。现有工作大都使用精心制备和标注的血细胞图像集,选用业内成熟的图像分割或者图像检测模型进行训练,如U-Net、YoloV3、Faster RCNN、Mask RCNN等。从结果来看,训练集的质量和数量对最终训练得到的模型准确率影响很大。Phuong等[20]用SegNet对血涂片中的WBC和红细胞进行分割,准确率为97.8%和93.3%。Andrade等[7]还原15篇WBC核分割文章的技术方法分别应用于ALLIDB2、BloodSeg、Leukocytes、JTSC Database和CellaVision 5个公开图像数据库的图像进行对比研究,该研究发现聚类算法、Otsu阈值、简单的算术运算和区域生长应用最广泛;结果表明对于不同数据库,分割算法的性能显著不同;当分割所有数据库全部细胞图像时,其中两种最佳方法的平均准确率均高于97%,Kappa指数优良,平均骰子指数大于0.85,全部方法真阳性率最高58.44%,这一结果证实这些图像之间的高度相似性,但不能保证一种方法能分割所有WBC核。
1.2.3 特征提取 特征提取是图像识别的重要步骤,是为每个ROI部分识别一组定量描述符的过程。传统机器学习方法使用人工设计的特征提取器来提取WBC图像特征,包括形态特征:核质比、面积、周长、圆形度、短轴、长轴、离心率、曲率、体积等;纹理特征:主要方法是粒度法和灰度共生矩阵;颜色特征:均值、方差、偏度、峰度等。与之不同的是,DL和卷积神经网络(convolutional neural network,CNN)方法采用自底向上的特征提取策略,通过大量训练集来自动化提取高维特征。Hegde等[21]对传统图像处理和CNN方法提取WBC特征进行对比研究,使用传统图像处理方法提取113个形状、颜色、纹理特征;形成鲜明对比的是基于CNN构造的模型AlexNet自动化提取并输出1 000个特征;将两种方法提取的特征训练分类器,使用传统处理方法和Alexnet特征分类正常和异常WBC平均准确率分别为99.7%和100%,正常WBC亚型分类平均准确率分别为98.4%和98.9%;研究表明传统图像处理方法和“CNN作为特征生成器”方法都提供了很有前途的结果,可用于WBC的分类,然而,CNN的训练与传统图像处理方法相比,需要更大的数据集和更高的计算资源。
1.2.4 分类 在ROI分割和特征提取后,每个细胞图像由一组数字描述符唯一描述。自动分类是将一组描述符分配给特定类的过程。常用分类器有支持向量机(SVM)、决策树、神经网络(NN)、k-最近邻(K-NN)、随机森林(RF)、朴素贝叶斯等。DL通常在特征提取CNN之后直接再加入一层使用卷积操作的全连接层作为分类器。
使用DL进行WBC识别的研究近几年开始变多,也同样是采用大量血细胞图像集配合基于CNN的图像分类模型。陈畅等[22]以AlexNet和LeNet为网络原型构建卷积神经网络CCNet,对979张WBC图像进行5分类,最佳分类准确率为99.18%。Shahin等[23]提出了一种基于深度CNN的WBC识别系统WBCsNet,对3种不同的公共WBC数据集(2 551张WBC图像)进行5分类的整体分类准确率为96.1%。Habibzadeh等[24]则是直接采用业内成熟网络Res-Net和Inception训练WBC识别模型,准确率达到99.84%。
计算机辅助识别在急性白血病中的应用是在对WBC识别的基础上,更进一步深入的研究。其研究方法也主要分为传统机器学习和深度学习两方面。
2.1 急性髓细胞白血病(AML) Agaian等[25]提出AML血液显微图像自动筛选系统,分类准确率为98%。Kazemi等[26]应用k-均值聚类和SVM自动识别AML血液显微图像。德国亥姆霍兹联合会环境健康研究所和慕尼黑大学附属医院的研究团队[27]针对AML诊断中非常关注的原始粒细胞、幼稚粒细胞、幼稚单核细胞和正常WBC,给出了基于卷积神经网络ResNext的识别方案,并公开了数据集,他们的方案由18 000张经过标注的WBC图像训练而成,在正常WBC和原始粒细胞上准确率较高,在幼稚细胞上的准确率不高。
2.2 急性淋巴细胞白血病(ALL) Amin等[28]识别ALL细胞及其亚型,癌细胞和非癌细胞平均识别准确度97%,各亚型细胞平均识别准确度95.6%。Jha等[29]提出基于相互信息的混合模型和DL检测ALL,分类准确度为98.7%。Mishra等[12]提出一种基于离散正交S变换、主成分分析、线性判别式分析的计算机辅助诊断系统来检测ALL,该方法准确度为99.66%。Rehman等[30]利用DL对ALL进行分类,利用CNN的鲁棒分割和DL技术训练医学图像的模型,获得了准确的分类结果,并将其结果与其他分类器朴素贝叶斯、KNN和SVM的结果进行比较,结果显示该方法的准确率达到97.78%。
随着临床标本剧增、形态学人员的欠缺以及人员能力的不均衡,计算机辅助识别系统提供快速客观的预分类结果,帮助检验人员快速观察及时发现异常细胞,大大提高工作效率。王庚等[31]指出细胞形态检测系统对各类WBC的预分类精密度、敏感性、特异性不同,嗜碱性粒细胞、单核细胞、早幼粒细胞、晚幼粒细胞及异型淋巴细胞误判率较大,嗜酸性粒细胞的漏诊率较大,将单核细胞误认为中性晚幼粒细胞的几率最大,异型淋巴细胞误认为淋巴细胞的几率最大。目前,计算机辅助识别系统逐渐成熟,但其各类WBC的识别准确度参差不齐,希望未来研究工作能取得更多成效。骨髓涂片中细胞成分复杂,目前还没有可应用于临床的图像识别系统,有待更多的研究应用于临床工作。
细胞图像识别过程中常见问题包括:细胞图像染色不均一、不同照明源、背景杂质、细胞间存在黏连重叠、各类型原始细胞之间特征相似、反应性淋巴细胞与原始细胞特征相似等。自动血涂片仪的制片和染色更一致,但操作手法、染料性能、仪器性能等都会影响涂片均一性。骨髓成分复杂、制片染片要求高,目前采用新鲜抽取未抗凝骨髓直接涂片,手工制片、染色不能做到均匀一致。由于上述问题的存在,使得在分割、分类时产生了困难。希望通过不断开发新方法和改进现有算法及分类器来解决图像识别中的问题,提高分割分类准确率。
白血病细胞图像识别研究数据集大多是某些公开的图像数据库或者研究者自行制备的血细胞图像,通常数据库不统一、数据集较小,其研究方法在本研究中获得较高的准确率,并未在其他数据集上进行验证,不能验证方法的可靠性。未来的研究可建立各类白血病骨髓象及血象的大型电子形态学图片库,为图像识别模型预训练和模型性能评估提供帮助。
近年来,外周血和骨髓细胞形态学识别的研究一直在进行。传统方法是自顶向下的解决思路,由人工设计良好的特征提取器,人工特征的优劣很大程度决定了最终结果准确度。深度学习是自底向上的解决思路,通过大量优质数据集进行反复训练,由模型自动提取得到的良好特征,更可能获得全局最优解,但是模型性能受训练集质量和规模的影响较大[32]。
本文介绍了计算机辅助识别WBC形态的技术方法,这些方法广泛应用在急性白血病细胞形态学识别中,但在图像识别过程中仍有一些问题难以解决,有待研究者们通过不断探寻新方法或改进传统方法加以攻克。计算机辅助识别系统提供快速客观的预分类结果,提高阅片效率,均衡了各级医疗机构医师的阅片水平,是未来WBC形态学识别的发展方向。