人工智能辅助流式细胞术疾病诊断的研究进展*

2023-01-03 19:37:27汲珊珊贺环宇贾晓冬谢春如楚玉兰罗丕福王志岗综述周剑峰审校
国际检验医学杂志 2022年5期
关键词:聚类分类人工智能

汲珊珊,贺环宇,贾晓冬,谢春如,楚玉兰,罗丕福,李 行,王志岗,郭 琰 综述,周剑峰△ 审校

1.天津金域医学检验实验室有限公司,天津 300392;2.天津深析智能科技发展有限公司, 天津 300500;3.广州金域医学检验中心有限公司,广东广州 510320

流式细胞术(FCM)是一种在功能水平上对单细胞或其他生物粒子进行定量分析和分选的检测手段,可以高速分析上万个细胞,并能同时检测多个参数,被广泛用于健康研究和癌症治疗等各种医疗领域,如监测艾滋病毒感染过程和治疗所需的辅助T淋巴细胞计数,白血病和淋巴瘤患者的诊断和监测、外周血造血干细胞移植的评估等[1-3],还被用于移植器官、干细胞研究、基因组学、疫苗开发、表型研究、细胞因子表达和细胞周期状态研究等[4-7]。

传统人工数据分析通过FCM数据呈现出的特征进行手动设门对目的细胞进行分群。随着检测参数成倍增加,FCM数据分析作为FCM中最具挑战性和最耗时的诊断步骤,还存在以下不足:人工分析基于“非A即B”逻辑,过程繁琐、效率低;对操作者的要求较高;交叉区域的细胞分群容易受到分析者经验的影响;可重复性差等诸多不足[8-10]。

随着高通量FCM技术与AI的不断融合和发展,FCM数据自动化分析的需求越来越凸显[11-12]。人工智能技术(AI),基于人工智能神经网络技术的模式,可通过不断提升神经网络复杂度和计算能力,解决疾病诊断中的医疗难题。从50年代后期,第一批人工智能医疗专家将AI引入到医学诊断领域以来,AI作为全球经济发展应用最为广泛的前沿交叉学科,将更先进的计算方法引入组织学、细胞病理学、图像细胞学和流式细胞学分析中,以减少研究者的工作量并减少偏差以加快分析,逐渐实现检验学科标准化、自动化和智能化发展质的飞跃。如今AI已受到越来越多临床实验室的关注[12-13]。本文将列举近年来AI与FCM应用方面的研究,以供研究者参考。

1 AI在辅助诊断FCM疾病诊断中的技术探索

由于FCM数据的结构化特点,聚类、自动分类和降维等数据自动分析方法先后被提出,证明了FCM数据更适合应用AI加以分析[14]。有学者[15]实验室回顾性分析了AI与FCM探索性研究,超过70.00%的分析方法侧重于FCM数据的自动门控,其中65.00%使用了无监督学习算法,35.00%使用了监督学习算法,只有少数研究专注于质量控制和FCM数据的标准化的研究。

1.1应用监督学习技术自动门控分析的探索 AI学习算法包括监督学习算法和无监督学习算法。监督学习算法通过解释变量与因变量之间的关系分析FCM数据的特点,需要足够大的样本量获取因变量的值,更适合用于分析大样本量的数据。监督学习算法的重点是分类,通常用于预估风险和建模,同时寻找未知的数据关系[16]。以下列举了近年来一些应用于FCM领域的监督学习算法。

1.1.1支持向量机(SVM) SVM是一种用于解决分类问题的监督机器学习算法,也可用于回归分析。SVM最适合用于小数据集的数据分析,且具有更高的精度。SVM能够同时解决线性和非线性问题,但非线性SVM性能优于线性SVM。MORRIS等[17]最早在浮游植物分类的算法研究中,证明了SVM分类器的性能卓越。TOEDLING等[18]利用SVM技术对白血病细胞进行自动化检测,证实SVM分型方法可代替人工门控识别白血病细胞,灵敏度为99.78%,特异度为98.87%。

1.1.2决策树(DTs) 灵敏DTs适用于问题简单和数据集较小的数据分析。该算法在处理不平衡的数据集时存在过拟合问题导致实验结果异常。SVENJA等[19]通过诱导DTs分析了6种具有复杂共表达模式的细胞因子细胞内染色数据集,并根据数据的类概率进行加权,创建了13 392个不同的DTs。该研究首次成功地利用DTs的诱导来分析高通量FCM数据,并证明了该方法揭示数据结构模式的可行性。周丽娜等[20]以多维空间密度分布的非监督学习分群聚类算法为基础,对FCM数据进行聚类分析,应用DTs和随机森林等及监督学习算法辨别细胞分类,并以二维图、降维t-分布领域嵌入算法(t-SNE)和热图进行可视化呈现。该研究建立了AI模型数据分析方法,分析了227例B-ALL MRD患者流式细胞数据,提高了人工智能辅助FCM诊断微小残留病的灵敏度和准确度。

1.1.3分类树和回归树(CARTs) CARTs是一个数据预测模型,根据所构造的树的现有值来预测输出值。CARTs模型通常通过二进制树来表示。GAIDANO等[21]将1 465个B细胞非霍奇金淋巴瘤(B-NHL)样本的数据库分为两组,75.00%的数据库(训练集)用于生成分类树,而25.00%的数据库(验证集)用于验证预测模型。应用分类树建立了4个人工预测系统,可将B-NHL分为9种最常见的临床病理类型。准确率可达92.68%,平均灵敏度为88.54%,平均特异度为98.77%。

1.1.4逻辑回归(LR) LR是一种用于机器学习领域的数学建模程序,通过LR模型的系数进行计算和预测。MANNINEN等[22]基于“正则化的LR模型”对20例AML阳性患者和160例健康者的DREAM6/FlowCAP2分子进行分型,获得了100.00%的准确率。该方法可从不同细胞群和不同荧光标记物的单个样本中对AML分型并统计数据。NAKAMURA等[23]使用浸管试验和FCM检测了372例门诊脓尿和菌尿样本,对FCM数据进行多元LR分析,以年龄和性别为解释变量,进行散点图分析,可计算概率预测公式。

1.1.5随机森林(RF) RF是一种能够进行回归和分类的趋势机器学习技术,其对噪声不敏感,可用于分析不平衡的数据集。HENNIG等[24]研发了一套CellProfiler软件,通过对成像流式细胞仪获得的图像数据进行分析,使用梯度增强和随机森林算法,形成一套对不同细胞类型、不同细胞周期阶段,以及不同药物作用下的细胞进行自动识别和分类的工作流程,具有较高的阳性识别率。BURTON等[25]回顾性分析了212 554份尿液报告,比较了使用白细胞计数和细菌计数的启发式模型,和使用机器学习算法(随机森林、神经网络、梯度增强)两种方法分类的差异,结果显示使用机器学习算法检测灵敏度>95.00%,可减少现有临床检测工作量密集的问题。

1.1.6朴素贝叶斯(NB) NB是一种基于贝叶斯定理的二进制分类算法,在应用该算法时,被分类的特征必须是相互独立的。贝叶斯分类与SVM有点相似,但使用了统计学方法。输入新的数据后计算概率值,数据将被标记为给定输入概率值的最高类别。RAJWA等[26]基于无限高斯混合物的非参数贝叶斯模型,使用了200个相关疾病的免疫表型panel进行训练,应用所建诊断模型,对36例AML病例进行检测,复发病例的准确率为90.00%(9/10),其余病例的准确率达100.00%(26/26)。

1.1.7人工神经网络(ANN) ANN是一种基于图像分类问题开发的一种监督机器学习算法。DOMINGUEZ等[27]针对近年来临床前列腺癌(PCa)筛查出现假阳性的问题,研究了一种液体活检实验,使用ANN辅助FCM进行免疫表型分析来检测PCa,测量了156例前列腺癌患者、123例良性前列腺增生(BPH)患者和99例男性健康供体(HD)的淋巴细胞群,采用模式识别神经网络(PRNN)分析,检测PCa与HD的灵敏度为96.60%,特异度为87.50%,曲线下面积(AUC)值为0.97。检测高危疾病患者患者对低危疾病的灵敏度为92.00%,特异度为42.70%,AUC为0.72。SU等[28]提出了一种基于涂片成像识别白细胞的分类系统。该系统通过提取白细胞的几何特征、颜色特征和基于LDP的纹理特征,利用3种不同的神经网络来识别白细胞的类型。该研究使用了450张白细胞图像验证该系统的有效性,总体正确识别率最高可达到99.11%。HÖLLEIN等[29]报道了AI辅助多参数FCM诊断B细胞淋巴瘤的应用进展,该研究对比了7 784例B细胞淋巴瘤患者和8 493例健康对照者的流式细胞数据,利用神经网络算法建立了疾病诊断模型,并使用10倍交叉验证对结果进行确认,诊断准确率高达97.00%。

1.2应用无监督学习技术自动门控分析的初步探索 无监督学习算法是一种数据挖掘的探索性分析方法,在因变量未知的情况下分析同一集群的变量,可应用于数据集太大、太复杂而无法进行手工分析时,无监督学习技术在数据中找到自然发生的模式并进行分析尝试,可判断已识别的分类是否适用,这一过程使无监督学习在精准医学中发挥重要作用。近年来参与流式细胞学智能化研究的无监督技术包括K-means、高斯混合模型、分层聚类、图像聚类、主成分分析法(PCA)等。

1.2.1分层聚类 分层聚类是对给定数据的集合进行层次分解,根据分层分解确定需采用的分解策略。例如,模糊k-means、COOLCAT、聚类大型应用(CLARA)和基于随机搜索(CLARANS)的聚类等,都是常见的分层聚类算法。LI等[30]开发了多重网络对齐(PAC-MAN)技术,对CyTOF数据中细胞群、样本中的亚种群以及细胞状态进行快速自动识别。PAC-MAN计算效率高,可用于非常大的CyTOF数据集,可监测每个受试者的各种组织样本,在临床癌症研究中被广泛应用。

1.2.2图像聚类(GBC) 整个算法以各点之间的距离作为突破口,用于识别、划分图像数据集、组织导航等。超顺磁聚类(SPC)、马尔可夫聚类算法(MCL)、分子复杂检测(MCODE)和限制邻域搜索聚类(RNSC)是基于图的聚类算法的常见例子。KO等[31]开发了一种基于图形用户界面(GUI)的软件工具(FLOW-MAP),从FCM或单细胞RNA测序实验中获得高通量单细胞数据集(scRNAseq),并按时间顺序对图像进行分析,得出可视化分析图像。研究者同时提供了FLOW-MAP算法和如何通过文本的命令使用开源的R包FLOWMAPR。该方法可应用于许多研究领域,如体外干细胞分化、体内发育、肿瘤发生、耐药性和细胞信号动力学。

1.2.3密度聚类(DBC) DBC使用局部密度准则,具有效率高和寻找任意形状簇的能力。YU等[32]研究者开发了一种基于密度的聚类方法,即FLOCK程序,通过一种客观的计算方法,识别多参数FCM中细胞子集。其可识别人类外周血样本中的17个不同的B细胞亚群,并识别和量化对破伤风和其他疫苗接种有短暂应答的新浆母细胞亚群。

1.2.4高斯混合模型(GMM) GMV是一种业界广泛使用的聚类算法,该方法使用了高斯分布作为参数模型,并使用了期望最大(EM)算法进行训练。其利用混合分布对FCM数据进行建模,是最常用的聚类方法,但该模型在FCM数据建模时都应遵循高斯分布的假设。K-means算法可以被看作是GMM的一种特殊形式。RUBBENS等[33]提出了一种基于高斯混合模型的自动指纹识别方法(PhenoGMM)。该方法成功地对微生物群落结构的变化进行定量筛选,并可表达细胞学的多样性。该文利用生态系统的数据集来评估PhenoGMM的性能,并将该方法与通用的指纹识别方法进行了比较。NAIM等[34]提出了可扩展加权迭代方法,该方法以高斯混合模型为核心,实现了样本数量稀少类群的准确分析。 王先文等[35]提出了基于偏斜t分布的混合模型聚类方法以概率论的方法对数据进行分析,实现了细胞的自动设门,具有较好的鲁棒性。

1.2.5PCA PCA是应用最广泛的无监督算法之一,其是一种常用的数据降维方法。它可以通过线性变换将原始数据变换为一组各维度线性无关的表示,以此来提取数据的主要线性分量。GRÉGOTI等[36]利用PCA处理光谱流式细胞仪的多维实验数据,实现了对光谱流式细胞数据的自动分群。马闪闪等[37]提出的核主成分分析法更适合对数据的非线性特征进行提取,对数据进行降维,得到核主成分变量,使用最能体现不同亚群细胞之间差别的主成分变量作为坐标轴,绘制二维或三维散点图,提高细胞分群效率。

2 AI应用于FCM临床诊断所面临的问题与对策

我国基于AI辅助FCM进行疾病诊断的研究起步较晚。美国和英国等发达国家已经搭建了成熟的数据共享平台,并建立完善的数据标准体系[38]。国内部分第三方医学实验室已初步制定了人工智能发展目标,努力打造医疗大数据共享平台的发展方向。但在两种快速发展的技术齐头并进时,可能会面临诸多挑战。

目前AI学习算法的数据训练所需的临床数据还面临互通和共享问题,以及检测平台、检测流程、检测试剂的差异化问题。同时,无论是研究开发领域,还是应用落地领域,需要具备医学诊断学、流式细胞学和AI的复合型人才,是目前研究者面临的主要瓶颈。除此之外,研究者在自动化门控算法上的研究日趋加深,不仅尝试开发不同算法,而且从单一数据分析方法扩展到几种算法结合分析,成功应用于临床疾病诊断的实例屡见不鲜。但目前仍存在算法局限性、低透明度,缺乏安全性、有效性的权威评估标准等诸多问题。未来AI与FCM的成果在临床投入应用,还需要AI专家与医疗专家共同融合与探讨。

3 总结和展望

随着大数据、互联网、AI等前沿领域的技术整合和技术革新,人工智能以前所未有的速度渗透到FCM疾病诊断领域,已经取得了显著的进步。未来人工智能领域与FCM的融合发展,仍有待进一步开发,在研发与临床应用过程中,越来越多的问题亟待解决,包括人工智能辅助产品应用范围受限,人工智能辅助产品的开发周期长,对资源、人才、条件的依赖度高。人工智能技术的革新,势必将带来一场全新的疾病诊断新模式,为患者提供更加准确和快捷的诊断方法。

猜你喜欢
聚类分类人工智能
分类算一算
分类讨论求坐标
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
人工智能与就业
IT经理世界(2018年20期)2018-10-24 02:38:24
数据分析中的分类讨论
基于DBSACN聚类算法的XML文档聚类
电子测试(2017年15期)2017-12-18 07:19:27
教你一招:数的分类
数读人工智能
小康(2017年16期)2017-06-07 09:00:59
下一幕,人工智能!
南风窗(2016年19期)2016-09-21 16:51:29
基于改进的遗传算法的模糊聚类算法