韩 雪,丁婧娟,陆淑婷,蒋 沁,杨卫华,薛劲松
干眼(dry eye, DE)被认为是一个日益严重的公共卫生问题,世界范围内发表了许多关于干眼的流行病学报告,不同地区发病率约为5%~50%[1-3]。2017年,国际干眼症研讨会将干眼定义为“泪液和眼表的多因素疾病,导致不适、视觉障碍和泪膜不稳定的症状,并对眼表造成潜在损害,伴有泪膜渗透压增加和眼表炎症”[4]。干眼患者的日常生活质量通常受到严重影响[5],而病因多样使干眼类型的确诊具有很大挑战性,这促使新的诊断工具和检测方法的出现。目前临床上常通过眼表检查对泪膜稳定性进行定量和定性评估。其中定量测试与泪液分泌有关,如泪河高度测量[6]、Schirmer测试[7]或酚红线测试[8];定性测试主要有泪膜破裂时间测试(tear break-up time, TBUT)[9]或非侵入性泪膜破裂时间测试(noninvasive break-up time, NIBUT)[8]和脂质层评估[10]等,但大多数测试都具有很高的可变性,因此常通过结合多个测试的结果来提高诊断的准确度。
另一个受到全球关注的研究领域是医学中人工智能(artificial intelligence,AI)的应用。AI这一概念由达特茅斯学者约翰·麦卡锡(John McCarthy)于1956年首次提出,被定义为“制造智能机器的科学和工程”[11],其中智能是“在各种环境中实现目标的能力”[12]。近年来,AI对眼科学产生了深远且日益增长的影响。该领域已经从人工任务的自动化,如眼科图像处理,发展到机器学习(machine learning, ML)和深度学习(deep learning, DL)。作为AI的一个子集,ML随后在1959年被提出,并被指出“计算机应该能够使用各种统计技术进行学习,而无需明确编程”[13],常用模型包括支持向量机(support vector machines, SVM)和随机森林模型(random forests,RF)等,如今ML正日益成为医疗保健系统不可或缺的一部分。ML的子领域即DL,涉及深层神经网络结构,包括人工神经网络(artificial neural network,ANN)、卷积神经网络(convolutional neural network,CNN)[14]和递归神经网络(recurrent neural network,RNN)[15]等,主要集中在图像识别、语音识别和自然语言处理[16-17],近年来受到了越来越多的关注。
使用DL的AI算法已被证明具有诊断肺癌、乳腺癌、皮肤癌等疾病的能力[18-19]。同样,在眼科学领域,人工智能主要应用于基于图像的糖尿病视网膜病变[20-21]、中心性浆液性脉络膜视网膜病变[22]、白内障[23]和翼状胬肉[24]等的诊断,大量研究和试验显示了AI作为干眼诊断/筛查工具的潜力,本文通过综述AI在干眼中的应用以及临床应用中的潜在挑战,以期为临床工作提供指导。
根据临床试验或研究类型对AI与干眼的研究进行分组:TBUT、干涉仪测量、裂隙灯检查、活体共焦显微镜、睑板腺成像、蛋白质组学分析、OCT和泪液渗透压测量。我们发现大多数研究使用ML来解释干涉仪测量、裂隙灯和睑板腺成像。
1.1TBUT TBUT为干眼患者从最后一次眨眼开始至泪膜第一个干燥斑出现的时间间隔。TBUT越短,诊断为干眼的可能性就越大。ML已被用于检测TBUT视频中的干燥区域,并估计TBUT[9,25]。2007年,Yedidya等[9]使用LM算法(levenberg-marquardt algorithm)检测泪膜干燥区域,与验光师的评估结果相比,准确率达到91%。2009年,Yedidya等[25]又通过马尔可夫随机场(markov random field, MRF)根据泪膜干燥程度标记像素,与临床医生的评估结果相比,平均差异为2.34s。2014年,Ramos等[26]通过多项式函数确定泪膜干燥区域,与四位专家分析得出的平均值和自动测量值相比,这种方法测得90%以上的视频偏差小于±2.5s[27]。2022年,Zhang等[28]使用UNet图像分割算法和ResNet图像分类算法对患者眨眼视频进行分析,准确率分别为96.3%、96.0%,与人工分析的一致性为97.9%。这些研究表明,与专家相比,使用自动方法获得的TBUT值在可接受范围内。然而这些研究中参加的DE受试者数量较少,因此,需要进一步的研究来验证这些发现,并根据外部数据测试所使用的模型。
1.2干涉仪测量泪膜脂质层通过提供光滑的角膜光学表面增强泪膜的扩散,并阻止泪液从眼睑边缘溢出,在维持眼表稳态中起着重要作用[29]。此外,其最主要功能是充当外部疏水屏障,以防止泪膜水液层蒸发。通过干涉仪测量脂质层厚度可以对脂质层进行无创成像评估[30-31]。
Guillon脂质层干涉图分为五个等级[32]:开放式网状结构、封闭式网状结构、波形、无定形和彩色条纹。大多数研究利用这些特性,通过ML对干涉仪脂质层图像进行自动分类。ML也被应用于干涉测量,基于形态学特征[33-39]、脂质层厚度估计[40-41]对脂质层进行分类。García-Resúa等[33]发现一种基于纹理和颜色模式评估的泪膜脂质层分类新方法,并使用经过训练的K近邻模型进行验证,结果准确率为86.2%。Remeseiro等[34-36]探索了用于内部分类的各种SVM模型,结果并不理想。Peteiro-Barral等[37]使用五种不同的ML模型评估了图像,神经网络模型的准确率达到了96%。da Cruz等[38-39]比较了六种不同的机器学习模型,发现随机森林是最好的分类器。Hwang等[40]将ML用于从Lipscanner和裂隙灯视频中估计脂质层厚度,对图像进行预处理,采用Flood fill算法和Canny边缘检测从瞳孔中定位和提取虹膜。结果发现泪膜脂质层厚度可用于区分睑板腺功能障碍(meibomian gland dysfunction, MGD)的严重程度,表明该技术可用于MGD的评估。Fu等[41]使用广义线性模型对两种不同的图像分析方法进行比较表明,这两种技术之间存在高度相关性。
1.3睑板腺成像泪膜脂质层中睑板腺分泌睑脂形成,由于功能性睑板腺数量减少和/或导管阻塞导致的睑脂分泌减少是蒸发性DE和MGD的主要病因[42]。Koh等[43]根据从图像中提取的特征训练SVM,该模型的敏感性为0.979,特异性为0.961。然而,与所有其他图像分析方法相比,这种方法不是完全自动的,因为图像在传递到系统之前需要手动操作。Koprowski等[44]在2016年提出了一种全自动的,能够提供完全可重复的结果的算法,有助于自动量化睑板腺。该方法比眼科医生的判断更快,灵敏度和特异性分别为0.993、0.975。2017年,Koprowski等[45]采用另一种自动方法将Bézier曲线拟合作为分析的一部分,敏感性为1.0,特异性为0.98。Xiao等[46]相继应用Prewitt算子、Graham扫描、碎片化和骨骼化算法进行图像分析,以量化睑板腺。模型结果与两名眼科医生之间的一致性较高,Kappa值大于0.8,假阳性率较低(<0.06)。假阴性率为0.19,表明该方法遗漏了一些腺体。这项研究的一个相当大的弱点是,只有15幅图像用于模型开发,因此它可能无法在未纳入的数据上很好地工作。Llorens-Quintana等[47]的研究中,使用Sobel算子、多项式函数、分段算法(fragmentation algorithm)和大津法(Otsu’s method)自动对MGD严重程度进行分级。虽然该方法速度更快,但结果与临床医生的评估有显著差异。Wang等[48]和Zhou等[49]使用CNN对睑板腺萎缩进行分级,识别睑板腺缺失的区域,并在一组图像中估计萎缩的百分比。模型预测与经验丰富的临床医生的比较表明,CNN(ResNet50架构)更优越,证明AI技术对睑板腺萎缩的自动评价是有效的。刘振宇等[50]通过改进的mask匀光法对睑板腺图像进行预处理,然后利用最小交叉熵和自适应阈值分割法得到眼睑图像,再利用连通域实现眼睑图像的提取,通过图像处理后可准确计算睑板腺的面积占比,为干眼诊断提供重要依据。周奕文等[51]利用DL算法建立模型,检测模型对睑板腺识别及标注的准确性并计算睑板腺缺失率,结果显示模型评价每幅图像的速度远快于临床医生。Khan等[52]的研究是唯一一项使用GAN结构的,并在睑板腺的红外3D图像上对其进行了测试以评估MGD。新的自动化方法与两名临床医生之间的Pearson相关系数分别为0.962和0.968,表现出良好的性能。Dai等[53]的研究中,利用CNN从120名受试者的睑板腺成像中提取每一个MG并准确计算形态学指数,然后评估总MGs的形态。尽管该研究中的受试者人数较少,但MG形态检测的准确性非常高(IoU=90.77,重复性=100%)。
AI系统可以快速量化睑板腺萎缩的严重程度,并探索睑板腺数量、萎缩程度及形态特征与睑板腺功能之间的关系,从而评估干眼的严重程度。该方法在减少分析时间、提高干眼诊断效率以及帮助临床专业知识有限的眼科医生方面具有优势。
1.4裂隙灯检查临床常用裂隙灯观察干眼患者的眼表情况,如眼红分析、泪液泪河高度测量等,从而辅助诊断干眼亚型。Rodriguez等[54]的研究中利用自动化系统评估由干眼引起的眼部红肿症状,收集裂隙灯下26例有干眼病史的受试者的眼红图像,使用Sobel算子提取图像中代表眼睛红肿强度和水平血管成分的特征,再训练多元线性回归模型,根据提取的特征预测眼部红肿,该系统的精度达到了100%。此外,泪河高度可以作为水液缺乏引起的干眼及蒸发性干眼的定量指标[30]。Yang等[55]对裂隙灯图像进行分析时,预测的泪河高度与已建立的软件方法(ImageJ)之间的Pearson相关性很高,介于0.626~0.847。泪河高度也可以使用CNN从角膜摄影图像中估算出来[56]。自动机器学习系统的准确率为82.5%,比有经验的临床医生在有限的时间内工作更有效、更一致。
1.5活体共焦显微镜活体共焦显微镜(invivoconfocal microscopy, IVCM)是一种有价值的非侵入性工具,用于检查角膜神经和角膜的其他特征[57-58]以辅助诊断干眼[59]。Chen等[60]应用随机森林和深度神经网络可以很好地检测和量化神经纤维,检测DE的AUC值为0.828[59]。Maruoka等[61]将高分辨率IVCM图像也用于检测阻塞性MGD,通过构建并训练9种不同的网络结构,使用单一和集成深度学习模型,其所提出的CNN和整体DNN模型以及IVCM图像能够充分区分正常和功能失调的MGs,具有较高的灵敏度、特异性和AUC值。Aggarwal等[62]的研究中,IVCM图像已被研究用于诊断不同程度的干眼的免疫细胞变化。广义线性模型显示,干眼患者和健康个体之间的树突状细胞密度和形态存在显著差异,但不同的干眼亚组之间没有显著差异。吕健等[63]采用Res Net101 CNN构建智能模型,经交叉验证,该模型识别真菌菌丝的准确度为0.974,特异度为0.976,敏感度为0.971。结果表明该模型在识别多种IVCM图像的角膜炎细胞中表现出良好的诊断效能,从而辅助诊断眼表炎症引起的干眼。
IVCM可能是检测早期免疫变化的有力工具,并可能辅助干眼的临床检查。虽然使用ML来解释IVCM图像的结果是有希望的,但在考虑临床应用之前,需要进行更大规模的临床研究来验证这些发现。
1.6蛋白质组学分析正常人的泪膜黏蛋白层包含至少4种主要黏蛋白和1 500多种不同的蛋白质与肽[64],这些蛋白可以维持角膜表面湿润。蛋白质组学可以对样本中蛋白质进行定性和定量分析,明确黏蛋白层在干眼患者中发生的变化。
Grus等[65]比较了患有糖尿病、非糖尿病性和健康对照组的泪液蛋白。作者采用多元判别分析、k均值聚类分析,这两个模型在预测所有三个类别时的准确度都很低。然而,对干眼和非干眼的分类准确率分别为72%和71%。在他们的另一项研究中,使用人工神经网络的泪液蛋白将受试者区分为健康或患有干眼,准确率为89%[66],判别分析的准确率为71%。2005年,Grus等[67]将用于检测最重要蛋白质的判别分析和用于分类的DNN组合,结果具有高准确性、敏感性和特异性,其中人工神经网络的特异性和敏感性为90%。Jung等[68]采用基于模块化分析的网络模型来描述与干眼相关的免疫和炎症反应相关的泪液蛋白质组。在这项研究中,研究了干眼患者的泪液和泪液模式。由于只包括10例受试者,该研究应在更大的患者队列中进行,以验证结果。
1.7OCT 傅立叶域OCT显示干眼角膜上皮的厚度常比正常角膜上皮薄[69]。Kanellopoulos等[70]开发了一个线性回归模型,以寻找使用眼前段光学相干断层扫描(AS-OCT)测量的角膜上皮厚度与干眼之间可能存在的相关性。Fujimoto等[71]使用多变量回归分析比较AS-OCT和Pentacam测量的中央角膜上皮厚度和最薄角膜上皮厚度方面的差异,研究发现用于测定角膜上皮厚度的仪器类型会影响结果。Stegmann等[72]分析了健康受试者的OCT图像,以自动检测泪河高度。使用5倍交叉验证对两种不同的CNN进行训练和评估。将模型检测到的泪河高度与经验丰富的分级员的评估进行比较。最佳CNN的平均准确率为99.95%,敏感性为0.9636,特异性为0.9998。
1.8泪液渗透压测量泪液渗透压增高是公认的干眼发病机制之一。Cartes等[73]基于该测试研究了机器学习在检测干眼泪液渗透压测量中的应用,比较了四种不同的机器学习模型,其中Logistic回归模型的准确率为85%。然而,由于模型是在相同的数据上训练和测试的,报告的结果无法代表模型对新数据的检测结果。
AI可以提高干眼诊断的效率、准确性和客观性,有可能成为干眼诊断的有用辅助工具,然而,成功将AI应用于干眼诊断仍具有很多局限性:(1)所有这些研究中的干眼受试者数量偏少,用于模型开发的图像数量有限,导致AI模型容易对干眼患者的数据过度拟合,因此在考虑临床应用之前,需要在更多干眼患者上进行测试,并根据外部数据测试模型。(2)大多研究通过选取干眼患者检查中的高质量图像在学习模型上进行验证[33,51,56],而现实筛选程序中图像质量参差不齐,因此可能会导致对算法性能的高估。且大多数纳入的研究没有报告不可测量的图像。鉴于上述局限性,AI在干眼诊断中的实际应用将需要大量的努力,需要制定数据采集标准、真正的外部验证和可行性论证。(3)由于各地医院不一定使用相同的数据平台,使得跨医院利用人工智能诊断干眼面临阻碍,因此,干眼领域应该有一个通用的、集中的、公开可用的数据集,用于测试和评估。这些过程的共同标准将提高研究的再现性和可比性。(4)成功将AI用于临床上干眼的诊断可以带来长期效益,尤其是对低收入人群,主要包括医疗效率、可访问性、可扩展性以及减少支出。为了实现这一目标,还需要解决几个挑战,包括数据的道德管理、保证安全和隐私、展示临床上可接受的性能、提高对不同类型干眼人群的兼容性,以及提高用户接受度。(5)在眼科应用人工智能的人群中,大多数受访者对眼科人工智能持完全接受态度。此外,也有部分受访者对眼科人工智能的医学伦理表示担忧。Nguyen等[74]描述了神经网络导致错误分类的过程。从这个角度来看,人工智能确实可以有效地执行任务,但在这个过程中,一定程度的人工干预是必不可少的。如何让医务工作者信任这些系统并决定在临床上使用这些系统辅助诊断干眼亚型也是未来要解决的问题之一[75]。这需要更多的研究来证明其单独或组合的诊断能力。未来的研究应侧重于识别和测量最利于DED诊断的参数。
AI辅助干眼的自动筛查和诊断事实上已经达到了与临床专家相当的高精度,减少了干眼检查过程中数据量化的模糊性,最终有助于眼科医生了解处于DE任何阶段的患者,并对其进行及时检测和个性化治疗。AI模型利用DL检测干眼的优点是,在分析之前不需要人工从图像中提取特征,而是由模型自动执行。此外,由于ML模型的分析基于客观测量,它可以进一步帮助改进干眼患者图像采集和开发新的生物识别技术,促进利用干眼客观指标的临床试验的推进。尽管在AI模型开发、临床测试和标准化方面仍需要大量工作,但是AI模型通过自动化实现了数据采集速度和精度的提高,从而可以制定更客观的干眼诊断标准,这可能有助于早期发现和更有效地治疗干眼,从而改善患者的生活质量。
展望未来,人工智能系统无疑将在干眼的诊断领域中发挥关键作用,显示出缓解医疗系统负担过重问题的巨大潜力。为探索神经网络对临床干眼诊疗工作的辅助作用,我们还需要做出更多的努力。