基于深度学习的人工智能辅助肺腺癌胸水脱落细胞学诊断的方法

2022-07-08 09:05陈怡洋孔维正吴辉群季菊玲

中国临床医学 2022年3期

陈怡洋，孔维正，吴辉群，季菊玲

南通大学医学院，南通 226000

肺癌是中国发病率和患病人数最高的肿瘤，也是癌症死因之首。晚期肺癌患者常出现胸水，其中的癌细胞可通过细胞病理学来确诊。然而，胸水富含蛋白质，可使间皮细胞和淋巴细胞反应性增生，加上缺乏组织形态背景作为参照，导致胸水细胞病理学诊断的难度增加。因此，通常需要制作细胞包埋块和免疫组化等协助诊断，成本高、时间长，在基层医院不易施行［1］。

人工智能（artificial intelligence，AI）辅助病理诊断在临床工作中已有一些初步应用，但在辅助胸水肺腺癌细胞病理诊断方面鲜有报道。为获得最优模型，本研究采用2种较先进的深度学习方法，即Inception V3和Yolo（You only look once）V4，并在开发数据集（训练集、验证集和测试集）中评估其性能［2］。应用深度学习模型对胸水脱落肺腺癌细胞的检测与分类，探讨人工智能辅助肺癌细胞病理诊断的可行性。

1 资料与方法

1.1 一般资料回顾性收集2019年3月至2021年12月南通大学附属医院、上海交通大学附属胸科医院和复旦大学附属中山医院的胸水标本130例。其中细胞病理诊断为肺腺癌110例，另有非肿瘤性胸水标本20例为对照组。纳入标准：病理诊断明确，未经临床诊疗（手术、放疗和化疗）。本研究通过南通大学医学院伦理委员会审批（2022-1），3家医院均存有病理诊断知情同意书。病理图像为脱敏处理后进行相互公开交流学习的读片资料，仅保留基本信息。

1.2 细胞分离、制片、染色

1.2.1 常规法处理胸水抽取胸水50 mL，加入1 000 U/mL肝素液1 mL，放盐水瓶中置于4 ℃冰箱中静置6～12 h，弃去上清。将底部10～20 mL富含细胞的胸水用长吸管移入2个15 mL离心管中，以1 500r/min离心后沉淀5 min；用PBS液洗1次；再以1 500r/min离心后沉淀5 min；加入液基固定液悬浮沉淀，备用。

1.2.2 单细胞分离法处理胸水抽取胸水50 mL，加入1 000 U/mL肝素液1 mL，放盐水瓶中置于4℃冰箱中静置6～12 h，弃去上清。将底部10～20 mL富含细胞的胸水用长吸管移入2个15 mL离心管中，以1 500r/min离心沉淀5 min；弃上清，将离心管中的细胞沉淀以5 mL“肺癌单细胞分离液”重悬，37℃消化15 min，间隔5 min摇匀1次；配制方法：0.01%PBS配制，pH 7.2，－20℃保存（表1）。用巴氏吸管将所获细胞悬液转移至单细胞制备装置，加压通过100目筛网；1 500r/min离心5 min，弃上清，保留沉淀细胞；加2 mL PBS液，重悬细胞；加入液基固定液悬浮沉淀，备用。

表1 肺癌单细胞分离液配方

1.2.3 液基薄层细胞制片将上述2种方法处理的胸水，均采用膜式制片法各制片1张，苏木精-伊红（hematoxylin-eosin, H-E）染色［3］。

1.3 数据处理与机器学习

1.3.1 全切片数字扫描（whole slide imaging,WSI）采用40倍物镜扫描，每个病例采集和选择 10 幅图像（96´96 dpi）。

1.3.2 数据预处理运算平台为戴尔T7920图形工作站图形处理器（graphics processing unit, GPU）。在计算机程序中设定分组：将数据集按照6∶2∶2的比例随机分为训练集（n＝80）、验证集（n＝25）和测试集（n＝25）。训练集用于训练模型以及确定模型权重；验证集用于确定网络结构以及调整模型的超参数；测试集用于检验模型的泛化能力，评估模型的精确度。

1.3.3 标注和机器学习在专科病理医师指导下使用LabelImg软件对训练集图像数据进行画框标注，分别标注各类细胞，定义标签（表2）。分别用Yolo V4和Inception V3模型进行机器学习，对不同分类细胞进行学习和训练、验证和测试。

表2 图片中各种细胞的标记参数

1.4 统计学处理数据统计分析由Yolo V4和Inception V3模型内设程序完成。

2 结果

2.1 一般资料分析结果（表3）显示：130例患者中，男性49例、女性81例，年龄35～83岁，平均年龄（57±22）岁，病理诊断肺腺癌110例。130例标本按照6∶2∶2的比例进行预测分析并分组，其中训练集80例、验证集25例、测试集25例。

表3 3组患者的一般资料分析

2.2 细胞分离液的制片效果未经肺癌单细胞分离液处理的病理片细胞较密集，肺腺癌细胞有很多成簇状，单个细胞较少。如果是间皮细胞增生比较明显，或癌细胞数量比较少的病例，病理诊断较为困难，需要经验丰富的高年资专科细胞病理医生诊断。

结果（图1）显示：经肺癌单细胞分离液处理的病理片细胞亦较密集，肺腺癌细胞仍然有少数成簇状，但呈大串的细胞较少。同时，单个的腺癌细胞数量明显增多，病理诊断相对容易。

图1 肺腺癌细胞的单幅显微图像

2.3 机器学习的数据分析常规胸水细胞片中单个细胞少，肺腺癌细胞簇内的细胞数量差异很大，单细胞和细胞簇的混合学习识别率很低，模型运算速度较慢。其中，成簇细胞的识别率＜10%。

结果（图2）显示：经肺癌单细胞分离液处理的细胞片的图像中单个腺癌细胞数量明显增多，不仅标注效率高，而且模型运算速度快。使用训练后的Yolo V4模型对胸水脱落细胞H-E染色涂片中疑似＋确诊肺癌细胞进行识别标注的结果：单个腺癌细胞A＋a识别准确率的平均值约为20%，即全类平均正确率（mAP）为20%。

图2 单个腺癌细胞A＋a识别准确率

结果（表4）显示：使用训练后的Inception V3模型对胸水脱落细胞病理图像中单个细胞分割后的淋巴细胞、间皮细胞、疑似＋确诊肺癌细胞进行分类，腺癌（A＋a）细胞识别准确度可达98%。

表4 训练集（train）测试结果

3 讨论

3.1 胸水中肺癌细胞的病理诊断和基于深度学习的AI模型肺癌是目前威胁人类健康常见的恶性肿瘤之一，发病率及病死率均为第一。肺癌的病理类型很多，其中以腺癌、鳞状细胞癌和小细胞癌最为常见，占所有肺癌的90%～95%。不同病理类型的肺癌不仅治疗方案和预后不同，肿瘤驱动基因也有所不同。晚期肺癌常会伴发胸水，其中的癌细胞可以通过细胞病理学来明确诊断。然而，胸水中癌细胞的病理学诊断并非易事。胸水中大量增生的反应性间皮细胞与脱落到胸水中的肺腺癌细胞形态相似，单靠显微镜肉眼观察很难做出正确的诊断。因此，临床上通过制作细胞包埋块、加做免疫组化、DNA定量等方法来协助诊断［4］。为了不耽误疾病的诊治，快速而准确地对胸水中脱落细胞做出良恶性判断是目前对病理科医师的迫切要求。

AI已广泛应用于现代医学领域，可以帮助病理科医生做出更准确的诊断。深度学习是AI 技术的热门研究领域，是一种基于人工神经网络对数据进行特征学习的AI 算法的泛称，对于大数据样本、复杂函数模型具有强大的处理能力［5］。代表性网络主要是卷积神经网络（convolutional neural network, CNN）。Coudray等［6］使用迁移学习和Inception V3模型对非小细胞肺癌病理图像进行分类，结果表明深度学习模型可以为专家和患者提供快速、准确和便宜的癌症类型或基因突变检测，在癌症诊疗方面前景可观。目前，基于数据与模型驱动的深度学习分割方法是研究热点。标记法是将图像欲分割成的几个区域各以1个不同的标号来表示，对图像中的每一个像素，用一定的方式予以这些标记中的某一个，标记相同的连通像素组成该标记所代表的区域。本课题组用此方法来标记不同的细胞。Yolo是目前流行的目标检测模型之一，研究采用的是比较新的V4版本。该模型的特点是“快”，但每个网格只能预测一个物体，容易造成漏检。除此之外，模型对物体的尺度相对敏感，尺度变化大的物体泛化能力较差。对此，本研究将病理科医生的经验通过其优点转化为“精准识别”，但不可避免的是模型对细胞“簇”识别的精确度较低。Inception V3模型是谷歌Inception系列里面的第三代模型，相比于其他神经网络模型，Inception网络最大的特点在于将神经网络层与层之间的卷积运算进行了拓展，采用不同大小的卷积核，使得存在不同大小的感受野，最后实现拼接达到不同尺度特征的融合。本研究将这2种模型分别应用在胸水脱落癌细胞病理诊断的不同任务训练中。

3.2 胸水单体细胞制备技术据报道［7］，目前将胸水脱落细胞的液基薄层细胞制片应用于基于深度学习的AI细胞病理学诊断模块开发存在1个明显的问题：液基制片中胸水细胞成团、成簇现象比较明显，显微镜下不容易对焦，对病理科医生的诊断经验和水平要求较高，同时增加了机器学习难度并减慢了模块运算速度，不利于模块在日常高通量病理诊断工作中的推广应用。课题组在前期的研究中发现，癌细胞成簇是影响AI高效迅速识别胸水肺癌细胞的最大问题。这导致AI诊断的样本量、图像标注难度增大，工作量呈指数级增长，算法模型的精确度大幅下降。最终不仅病理诊断困难，对成像的精度和组合的影响也非常巨大。

现有的细胞悬液制备方法主要分为物理和化学方法。通常采用机械联合酶消化法将实体瘤组织制备成肿瘤单细胞悬液，其优点是经济、快速，能满足一般实验和临床诊断的要求。然而此“单细胞悬液”在显微镜下观察仍是以细胞簇为主的液体，并不完全满足AI分析的需求。关键性病理特征采集和标注方法的有效性决定了AI识别能力和未来诊断的精准度。因此，课题组从细胞之间相互连接的机制出发，在常规细胞裂解液的基础上，进行分解、离散癌细胞团块，研发出“癌细胞单体细胞制备方法”（已申请专利）。该方法能分离胸水中的肺癌细胞簇，形成肺癌单细胞，便于细胞标注和机器学习，提高识别的效率和准确性。

本研究发明一种应用于AI识别的胸水单体细胞制备方法，明显增加了胸水中肺癌细胞单体率，提高了机器学习和训练精准识别胸水肺癌细胞的效率，化繁为简，提升机器深度学习的泛化能力和鲁棒性。不过此技术在胸水细胞AI辅助病理诊断方面还不成熟，目前缺乏多样性数据和循证依据的支持。对此，仍需加强CNN与细胞良恶性特征的关联性分析并整合专科病理医生的经验，进一步提高模型的精度［8］。希望在不久的未来，通过人工智能深度学习技术构建肺癌液基细胞智能病理诊断模型的应用，提高不同地区/单位液基细胞病理诊断的一致性，降低误诊率、漏诊率。

综上所述，AI辅助细胞病理诊断有助于提高诊断效率、缩短诊断时间、提升诊断水平，具有重要的临床意义和广阔的商业应用前景。

利益冲突：所有作者声明不存在利益冲突。

致谢：南通大学附属医院病理科章建国主任、上海交通大学附属胸科医院病理科韩昱晨主任提供病例，复旦大学附属中山医院病理科陈岗教授提供图片、病理诊断复核及专业指导。

基于深度学习的人工智能辅助肺腺癌胸水脱落细胞学诊断的方法

1 资料与方法

2 结 果

3 讨 论

2 结果

3 讨论