血细胞形态分析系统初步研究与实现

2021-11-18 08:43李砚刘国烨王志强
锦州医科大学报 2021年8期

李砚 刘国烨 王志强

【摘要】目的:现有数字化血细胞形态分析系统已经实现了自动拍摄细胞图像,用预训练的神经网络将细胞图像预分类。然而,此类血细胞类型预分类能力仍有待改进,对血片图像的解读与诊断分析仍离不开经验丰富的检验技师。且黑盒系统存在敏感数据泄露风险,个性化定制升级困难。方法:分析研究现有系统现状,提出了在细胞图像采集阶段使用算力要求低的形态学算法提取细胞图像数据,快速获得大量数据后,在高性能服务器上训练神经网络,实现细胞分类计数辅助形态学复检。结果:该系统自动化细胞样本图像采集过程,减少人工细胞图像提取过程带来的巨大人工成本,提高了血细胞分割准确性,训练的神经网络初步实现了白细胞分类。结论:本系统可用于血液形态学的教学、培训、质量评测等,对比现有国外商业化系统存在差距但实现了白细胞分类等部分功能,为建立血细胞样本库,进行血细胞形态学分析,提供了一个具备可行性的自主解决方案。

【关键词】细胞形态分析系统;细胞分类;显微图像处理

【中图分类号】Q33 【文献标识码】A 【文章编号】2026-5328(2021)08-004-03

引言

血细胞形态分析对确诊某些疾病至关重要,传统上血液学疾病诊断的金标准是人工镜检染色外周血涂片进行形态学分析。但是人工镜检费事费力,需要不断进行人员培训,高度依赖检验技师的形态学知识,镜检结果受主观因素影响较大。此外,由于血涂片标本储藏的限制,不便于检验结果审验和回溯。因此需要数字化细胞形态分析系统,自动化外周血片血细胞形态学分析,协助检验技师进行外周血细胞或体液细胞的显微镜检和分析工作。

随着数字成像和信息技术的发展,产生了许多自动进行血细胞形态分析的方法,最新数字化细胞形态分析系统已经实现了自动拍摄细胞图像,用预训练的神经网络将细胞图像预分类[1]。例如:(1) CellaVision DM9600、CellaVision DM1200、CellaVision DC-1; (2) HemaCAM; (3) Sysmex DI-60等。[2]

目前,大多数数字化细胞形态分析系统主要集成了扫码枪、数字摄像头、光学显微镜、计算机系统。通过玻片上的条码或二维码作为索引和LIS系统关联,能自动化拍摄细胞图像。用户仅需给染好色的血片滴上油,机器自动完成后续工作,将油滴在玻片上均匀推开,先用X10低倍物镜在玻片上搜索细胞进行定位、计数,然后自动转换到X200高倍物镜拍摄单个细胞照片,最后将获取到的图片数据输入到预训练的神经网络中计算出分类预测结果。[3]

虽然国外数字化细胞形态分析系统发展至今成果丰富。但目前,此类软、硬件以及文件格式尚未形成统一标准,现有系统识别细胞类型的能力还有待进一步提高,对血片图像的解读与诊断分析仍离不开经验丰富的高年资检验技师[4]。此外,对于用户个性化定制需求,厂商系统难以完全满足且定制升级功能成本高。本研究目标是最大化利用医院常用的现有仪器设备,自主实现血细胞形态分析系统,结合形态学算法和深度学习算法,提取染色外周血涂片中血细胞图像建立数据集,并训练深度神经网络进行白细胞分类计数。未来进一步实现对其他血细胞的分类识别,将分类结果和某种疾病建立相关性,为临床提供参考满足医疗、教学、科研中的实际需求。

1 方法

1.1流程设计

本研究以白细胞自动分类为例,在细胞样本采集阶段,采用普通PC和显微镜相结合的方式,使用数字光学显微镜采集到样本图像后,在PC端运行形态学算法将图像上的白细胞从背景中分离出来预分类后集中上传到数据库,通过人工审查修改数据库中预分类白细胞图像,审查后的数据集输入到高性能服务器上训练网络算法模型分类白细胞图像。

训练好的深度神经网络将白细胞预分类为嗜中性粒细胞,嗜酸性粒细胞,嗜碱性粒细胞,单核细胞,淋巴细胞。最后计算各类细胞所占的百分数供参考,本系统最终要实现自动化血细胞图像采集及细胞形态学分析,利用医院现有网络,检验技师可远程协作审查预分类结果,纠正错误的分类,发挥集体智慧和专家作用,快速做出准确检验结果。

1.2 形态学算法分割

本研究采用了形态学算法将白细胞和背景分离出来,这个分割过程基于使用阈值和分水岭算法,在血涂片上包围每个细胞元素。此外,利用白细胞的一些典型特征,如大小,形状,颜色等,区别白细胞和其他细胞。在细胞图像采集阶段,随机选择多名不同性别及年龄的病人外周血样本,检验科技师使用希森美康sp1000i推片机和瑞氏-吉姆萨染液对血液样本进行自动推片染色。奥林帕斯cx31显微镜使用100倍油镜进行图像采集,图像保存到相连的电脑中。多名血液学专家共同分类,使用标注软件VGG Image Annotator标注白细胞建立验证数据集,用于分类结果的准确度。由于原始图像较大,所有图像拆分为350*350px左右并增强对比度,保存为jpeg格式以节约内存和处理时间,避免图像有更多细节导致分水岭算法过度分割。

从外周血样本中分割出白细胞图像。阈值,分水岭和基本特征比较等形态学算法用于分割,结果表明综合使用这些技术初步实现了分割效果。白细胞的胞浆和胞核不同类别有不同的颜色,为了从背景中分离出白细胞,实验发现红色通道有最佳的背景和血细胞对比度,包括白细胞和红细胞以及血小板。当使用蓝色通道时,白细胞不够明显。使用绿色通道时白细胞细胞质的颜色接近于红细胞颜色。为了获得二值化图像,对红色通道使用Otsu二值化。再使用分水岭算法,從原始的图像中分割出不同的对象。为了从分水岭算法所获得的众多二值化遮罩中找出代表白细胞的二值化遮罩,进一步分割处理提取出白细胞图像。创建一个边框包裹住每个细胞,由于白细胞相对于图像上的其他细胞或污渍有着独特的大小,颜色。综合颜色平均值,边框纵横比这两个特征,通过和其他细胞比较获得阈值,在阈值内的就是白细胞。

1.3 神经网络的训练

VGG网络的组成规律是,连续使用数个相同的填充为1、窗口形状为3*3的卷积层,后接上一个歩幅为2,窗口形状是2*2的最大池化层组成卷积块。卷积层保持高宽不变,池化层则减半。卷积块接在一起,再连接几个全连接层最终构成VGG网络。由卷积层构成的模块充分抽取空间特征,再以由全连接层构成的模块输出分类结果。

VGG11网络由八个卷积层,卷积层后跟着最大池化层,最后是三个全连接层组成。细胞图片输入网络,经过梯度下降优化算法不断缩小预测值和实际值间的误差,并后向传播更新权重系数,最终预测图像分类。

本研究中请检验技师按照白细胞分类标准,将前期形态学算法分割获取的4431个白细胞图像,再进一步审核标注分为五类:中性粒细胞,嗜酸性粒细胞,淋巴细胞,单核细胞和嗜碱性粒细胞。其中,嗜碱性粒细胞52个,嗜酸性粒细胞174个,淋巴细胞1586个,单核细胞576个,中性粒细胞2043个。由于数据样本分布严重不均衡,为了防止过拟合,对样本进行随机的裁剪,旋转,高斯模糊,水平和垂直翻转,扩充样本数据集。

训练VGG11网络使用的测试服务器硬件配置i5 8400CPU,8GB内存,和8GB显存的RTX2070显卡。该服务器运行Win10操作系统,安装配置了训练深度神经网络所需软件,包括有Python 3.6.8,TensorFlow-gpu 1.12.0,Keras 2.1.6等。实际生产环境深度学习神经网络训练在高性能服务集群上进行,可采用更加复杂的算法模型,充分利用高性能服务器的大内存和高算力。深度算法模型完成训练后,用户提交待分类血涂片图像,先在客户端完成细胞分割后,服务端经过图像特征提取预分类,返回用户端显示预测结果。

2结果

2.1 形态学算法分割结果

图1显示了应用分水岭算法分割图像后的结果,包括白细胞,红细胞,血小板和污渍等相当多数量的细胞以及杂质也被分离出来,但图像中只有两个白细胞。

使用400张包含白细胞总数为414个的图像检验该方法分割白细胞的准确率。实验中准确分割的定义是分离出的白细胞包含完整的胞核和胞质,不包含任何完整的红细胞、血小板或其他成分。

实验结果淋巴细胞被更好地分割,由于淋巴细胞的胞质和胞核通常都聚拢在一起,使得分水岭算法容易分割出来其所在区域。然而,嗜酸性粒细胞和嗜碱性粒细胞的分割表现较差,有的分割较好,有的却被忽略了细胞的一部分。嗜酸性红色的细胞浆使用分水岭算法被分割为许多区域,需要进一步研究。白细胞分割的初步结果,从外周血样本中分割出白细胞图像。阈值,分水岭和基本特征比较等形态学算法被用于分割,结果表明综合使用这些技术初步实现了细胞分割提取效果。

2.2 深度学习网络分类结果

在从未参与模型训练的样本中随机抽取白细胞图像,使用训练后的深度学习网络预分类,发现分类存在错误,把淋巴细胞错误分类为嗜酸性粒细胞,将嗜中性粒细胞错误分类为淋巴细胞等。虽然在模型训练阶段,在验证数据集上模型达到了95%的准确率,但是模型对从未“见过”的数据分类表现好,才表明模型泛化能力强。深度学习网络训练要根据数据集图像样本状况,选择复杂度适配的模型。若模型复杂度高,容易出现过拟合,模型复杂度低,容易出现欠拟合。

由于本次使用中的数据集规模小,训练集样本数量比模型的参数量少,所以容易发生过拟合。数据量有限,最终训练得到的精度测试精度再高,实际分类准确度也达不到应用需求。这也是需要建立细胞图像库的原因之一,训练模型一般使用小批量随机梯度下降算法,基于现有数据不断迭代更新模型参数,使得模型逐步拟合训练数据的输出结果,使得模型预测结果和真实结果不断接近。

实验中随机初始化模型参数,使用4431个白细胞图像训练优化分类输出结果后,另筛选出各类白细胞典型形态细胞图像,再次训练模型后,用未参与训练数据测试,发现模型对白细胞分类的准确率提高到了80%。

3讨论

使用手动显微镜进行细胞分类计数是形态学诊断的“金标准”。因此,在疾病筛查与诊治的过程中,细胞形态学分析是临床实验室必不可少的,在复检血液细胞分析结果中的应用最为突出[5]。本研究提出的血细胞形态分析系统,使用形态学算法结合深度学习算法,利用院内现有的PC机、服务器、存储及网络设备,对外周血涂片进行形态学分析实现细胞分类等。在模型算法的训练阶段,油镜下采集染色血涂片图像,在和显微镜摄像头相连的PC机上运用形态学算法分割提取细胞图像并预分类。分类结果经专业人员审核确认后,上传到数据库用于训练深度学习算法。在模型预测阶段,PC机分割提取图像后,使用服务器上训练过的深度学习算法进行预分类,结果由专业人员审核,得到最终的血细胞形态学分析结果。

本研究以白细胞图像提取、分类验证了方案的可行性。对计算机性能要求低的形态学算法被用于分离血细胞图像和背景,在高性能服务器上使用获取的图像数据来拟合深度学习算法模型。训练深度学习网络,需要大量血细胞图片作为训练数据。手动标注细胞图像费时费力,通过形态学算法分割提取细胞并预分类,检验技师审核预分类结果,并可重新分类血细胞。通过院内现有网络可实现多点多地协同工作,不需要检验技师到标本所在的实验室,就能随时随地溯源评审检验图像。每位检验技师的形态学方面知识程度不同,对于有疑问的细胞,多名检验技师可以共同商讨一致得出分析结果。

在教培方面促进学习和能力提升。与传统的显微镜下结合图片讲义的教學模式相比,系统可以运用数据库中收集的海量细胞图像数据,将细胞不同发育阶段的时期特点进行区别比较,有利于培养学生对外周血的整体认知。无须像传统方法一样重新制片、染色和镜检,随机抽取数据库图像用于形态学图像识别考核,省时、省力、高效提高实验室质量管理,能够更加客观地反映人员能力缺陷所在,通过有的放矢地加强形态学图谱培训可以针对性地提高形态学识别能力。

深度学习用数据来拟合模型,关键是数据的质量和数量,训练数据质量高,数量多,一般训练出来的模型能输出更准确的预测结果。算法模型本身随着技术的进步不断推陈出新,且有很多开源的深度学习算法,相对积累获得高质量训练数据,获得算法相对简单。国外现有的数字化全自动血细胞形态分析仪,由涂片机械扫描装置和安装了血细胞分析算法的计算机组成,虽然已发展很长时间且功能多,但是国外系统完全黑盒,医疗影像数据安全性差,可能造成敏感数据泄露,系统更新升级不能完全自主,不能完全满足医院科研的个性化需求。以本领域领先的CellaVision 系统为例,其采集的细胞图像与显微镜下观察到的细胞形态仍存在一定差距,尤其在对细胞核染色质细微结构与质地的显示上,采集的细胞图像缺乏立体感,清晰度欠佳。各种幼粒细胞会混淆,受染色影响误判,造成分类错误等。预分类结果必须经人工审核,也需要不断扩充标本库,对各种细胞识别的分类准确度才能提高。而本系统由医院完全掌握内部算法和数据,随着图像数据的积累和算法不断优化,分类准确度也会进一步提高。以此为基础还可挖掘出更多运用,推进医教研发展。

本研究虽然测试了血涂片白细胞分类,但是所提出方案也适用于其他医学显微图像,比如人体体液细胞或组织细胞等样本的更多项目,例如红细胞预分类,体液白细胞分类,血小板聚集等。

4结论

本研究提出一种基于医院现有设备实现自主可控的血细胞形态分析系统,并通过染色血涂片图像细胞分割和白细胞分类验证了该方案的可行性。有助于建立血细胞图像资源库,推动形态学算法和深度学习算法在医院医教研中的应用和普及。最终将实现实验室从推片、染色、扫描、审核血涂片全流程的标准化,推动实验室建立自己的复检规则,通过完备可回溯的存档数据资料加强院内协作,通过引入创新的自動化,数字成像,深度学习算法等技术帮助实验室提升运营效率,让检验分析过程更快,更灵活,更准确。

实验中也存在很多不足,如样本量少,没有比较更多的算法等,其他研究者采用别的方法或实现比目前方法更好的结果,未来工作将继续探索,找出更加符合血细胞识别的算法,满足辅助实验室复检的实际需求。

【参考文献】

[1]李光友.CellaVision DM96自动化数字图像分析系统在血小板聚集中的应用[J].检验医学与临床,2019,16(10):1435-1436

[2]刘朔婕,Cellavision DI60系统对外周血白细胞分类临床应用评价[J].山西职工医学院学报,2019,29(04):36-38

[3]孙铁.人工智能及其在眼科疾病诊疗中的应用[J].眼科新进展,2020,40(08):793-796

[4]王亚品.基于深度卷积神经网络的人体外周血白细胞显微图像分类[J].光电子·激光,2019,30(05):546-555

[5]张振华,吉祥,张劲松,等.基于 AI 技术的新型冠状病毒肺炎 CT 影像特点分析[J].医疗卫生装备,2020,41(05):6-8

基金项目:南京市医学科技发展资金资助项目(YKK18168)