黎 彪,丁雅珺,邵 毅
人工智能(artificial intelligence,AI)的概念最早由John Mc Carthy于1956年提出,是计算机科学的一个分支,利用电子计算机模拟人类智力活动的科学系统。机器学习(machine learning,ML)是人工智能的一个重要分支,于1959年被Arthur Samuel提出,指从数据中自动学习的AI,在大数据分析中得到广泛应用。比如从医院记录中收集选定的一组患者的数据,每个记录根据患者的诊断进行标记。然后,ML算法可以训练分类器模型以在给定从其记录导出的特征集合的情况下预测患者的标记诊断,还可用来评估来自相同人群的新患者(即具有相似人口统计数据但未出现在训练数据中的患者)[1]。ML可分为监督学习,半监督学习及非监督学习。该示例为监督学习设置,其中每个患者的数据实例具有相应的分类标签,我们训练了分类模型;半监督学习只标记了一些数据实例;无监督学习,侧重于发现未标记数据中的模式以及强化学习[1]。医学领域常用的是监督学习方法。而深度学习(deep learning,DL)是ML的子领域,用于分类与特征提取,涉及具有多层处理的训练模型,例如深度神经网络。卷积神经网络(convolution neural network,CNN)是一种常用的最适合进行图像数据识别的深度网络[2]。
眼科是以影像学诊断为主的学科,眼部图像精密复杂,需要医生丰富的理论知识与临床经验相结合以做出诊断。而AI在图像分析,自动诊断,大数据分析等方面的卓越成效应用于眼科诊断中能极大程度地减轻医生压力,提高诊断效率。2017-02,中山大学中山眼科中心建立了“CC-Cruiser 先天性白内障人工智能平台”,将深度学习算法应用于眼科图像诊断,通过将案例输入训练集不断提高诊断准确性[3]。
目前,大多数人工智能应用都专注于成人眼科疾病,在小儿眼科方面进展相对较小。小儿眼科与成人眼科相比具有其独特性,患病率、发病原因、表现、诊断与治疗往往有所不同。儿童常见疾病包括弱视、斜视、鼻泪管阻塞(NLDO)、早产儿视网膜病变(ROP)和先天性眼病。而成年人群受白内障、干眼症、黄斑病变、糖尿病视网膜病变和青光眼的影响较多。而对于患同种疾病的小儿及成人患者,他们患病的原因与表现常有所不同,后续的诊断治疗也常有不同考量。小儿患者难以与医生进行准确有效地沟通,疾病的诊断更加依赖客观检查。在进行眼科检查时,儿童常常由于年龄原因更难配合,且瞳孔较小,可能导致检查图像效果不佳,降低图像质量。进行眼部手术时,儿童患者通常在全身麻醉下进行,而成人患者常使用局部麻醉。儿童处在发育期的眼球也需要更复杂的治疗方案。这些差异使得在设计小儿眼科AI应用时需要独特考虑。
目前,人工智能在小儿眼科中最重要的进展包括自动检测ROP、儿童白内障的分类,白内障手术术后并发症的预测,斜视和屈光不正的检测,未来高度近视的预测以及通过眼动追踪诊断阅读障碍。此外,ML技术已被应用于视觉发育,儿科眼底图像中的血管分割和眼科图像合成的研究[1]。
2.1早产儿视网膜病变ROP是目前导致儿童视力受损或失明的主要原因,ROP进展速度较快,治疗黄金时间短,及时筛查和治疗十分重要。ROP的诊断较为依赖医生的主观判断,缺乏精确的量化标准[4],ROP的检查频繁,需要连续多次进行,医生工作量大,患儿刺激频繁。使用AI检测数字眼底照片中ROP的存在和分级,能够达到自动筛查和客观评估,减少接受ROP筛查的婴儿的疼痛和压力[5],并提供以新生儿为主导的筛查方案[6]。
从眼底图像检测附加性病变的早期算法集中在血管曲折度上。客观量化弯曲度的早期尝试使用手动血管描记,开发了几种确定血管弯曲度和宽度的工具,但都需要手动步骤[7]。一种基于卷积神经网络的ROP自动筛查算法近年来被使用,达到眼底图像特征提取并且无需手动注释。i-ROP-DL和Deep ROP证明了与专家意见的一致性以及比一些专家更好的疾病检测效果[8-9]。与许多ML方法一样,这些系统可以在其预测中提供置信度分数。i-ROP-DL直接利用这一概念,通过线性公式组合预测概率来计算ROP严重性评分,该评分可用作疾病的客观量化,类似的想法可以提供附加性病变更好的分级[9]。算法使用基于CNN的Inception网络作为特征提取器[10],通过在ImageNet上进行预训练,为他们提供类似的基础。
目前用于ROP检测的方法能够进行粗粒度分类,例如区分严重和轻度ROP,但没有专门评估疾病阶段或区域。事实上,除了Deep ROP[8]和MiGraph[11]之外的所有系统都只检查后极视图。虽然文献表明很少有严重疾病发生而后极脉管系统没有变化[12]的情况,但提供区域和阶段的额外输出可以提高系统评估的可解释性并改善性能。
2.2儿童白内障白内障是晶状体混浊导致的视觉障碍性疾病,是最常见的致盲性眼病。小儿白内障比成年白内障更容易变化,是否手术切除取决于白内障严重程度和剥夺性弱视风险。照明灯检查可以实现白内障可视化但具有挑战性和主观性,并且裂隙灯图像质量会因儿童配合度不高,其他眼部结构的干扰等原因而有所变化[13]。
中山大学中山眼科中心建立的“CC-Cruiser先天性白内障人工智能平台”可以自动检测来自裂隙灯图像的白内障,对它们进行分级并推荐治疗。在将裂隙灯图像自动裁剪到镜头区域后,它使用3个独立的CNN预测白内障存在,分级(不透明区域,密度,位置)和治疗建议(手术或非手术随访)。CC-Cruiser在五个眼科诊所的多中心随机对照试验中进行评估,显示白内障诊断(87.4%)和治疗推荐(70.8%)显著低于专家(分别为99.1%和96.7%),但患者对其的快速评估满意度很高[14]。需要手术的儿童面临与成人不同的潜在并发症[15]。Zhang等[16]根据患者的人口统计学信息和白内障严重程度评估,应用随机森林和朴素贝叶斯分类器预测两种常见的术后并发症——中央晶状体再生和高眼压(high intraocular pressure, HIP)。
2.3斜视斜视在儿童群体中很常见,可导致弱视,干扰双眼,并且具有持久的心理社会影响[17]。CNN用于根据面部照片眼部区域的视觉表现来检测斜视[18],这对于远程医疗评估尤其有用。对于现场评估,除允许使用专门的筛查仪器,可以使用基于眼睛跟踪数据的固定偏差的CNN来检测斜视[19],或者通过视网膜双折射扫描,具有非常高的灵敏度和特异性[20]。
2.4视力筛查屈光不正可导致弱视,但儿科医生难以检测。建议使用仪器进行视力筛查[21],并且大多数设备具有可调节阈值以指示筛查失败。使用来自一个这样的仪器的视频帧,结合布鲁克纳瞳孔红反射成像和偏心摄影验光法,Van Eenwyk等训练了各种ML分类器来检测幼儿的弱视危险因素,其中最成功的是C4.5决策树[22]。
2.5阅读障碍阅读障碍影响大约10%的儿童[23],但缺乏客观有效的测试[24]。异常的眼动追踪与阅读障碍无关[23-24]。两项研究使用支持向量机(support vector machine, SVM)来确定阅读过程中眼球运动的阅读障碍,或者预测8~9岁儿童的阅读障碍风险[24],检测成人和11岁以上儿童的阅读障碍[23],这两项研究中的儿童都比最佳诊断年龄早。
2.6屈光不正高度近视与许多威胁视力的并发症有关[25]。有高度近视风险的儿童可以服用低剂量阿托品来停止或减缓近视发展[26],但很难确定哪些孩子适合这种治疗方法。Lin等[27]使用随机森林预测儿童近视进展情况的模型,可提前发现高度近视的风险,进行早期干预,在未来8a内显示出良好的预测性能。
2.7视觉发育异常ML有可能为视觉发展提供科学见解。例如,在婴儿期进行白内障手术和无晶状体矫正的成年人的面部处理能力下降[28]。这种损伤最初归咎于早期视觉剥夺[28]。但最近,人们推测这种损伤是由于这些婴儿视力发育过程中经历的无晶状体矫正和高初始视敏度引起的[29]。假设是在正常视觉发育期间视敏度的逐渐增加促进了许多视觉熟练度,例如面部识别。通过模糊图像的初始训练在CNN中进行测试时,渐进的敏锐度发展提高了泛化能力,并且鼓励了更广泛的空间范围的感受野的发展[29]。这些结果为先天性白内障患者的视觉能力下降提供了可能的解释,并且提示临时屈光矫正不足可能有助于恢复视力发育[29]。
2.8其他影像分析技术已经开发了许多利用数学形态学、区域分割、人工神经网络、SVM分类等技术,用于自动分割与测量成人或早产儿视网膜血管的程序,对各类病变特征精确提取和判别。但较大儿童的眼底图像具有独特的特征,包括光伪影,这使得分割复杂化[30]。Fraz等[30]开发了一套袋装决策树,使用多尺度分析和多种过滤器类型在儿科眼底图像中进行血管分割。另一个工具,计算机辅助视网膜图像分析(computer-aided image analysis of the retina,CAIAR),已经在学龄儿童中得到验证[31]。CAIAR首先应用于患有ROP的婴儿,并使用适合最大可能性的血管的生成模型来进行视网膜图像的多尺度表示[32]。
通过AI的多层表示,深度学习方法能够合成新颖的真实图像,包括视网膜眼底图像[33]。这样的合成图像可以弥补数据稀缺,保护患者隐私,并描绘疾病的变化或组合[34]。最近一种合成高分辨率图像的技术,GAN的逐步增长(PGGAN),被用于合成ROP的实际眼底图像[35]。PGGAN接受了ROP眼底图像的训练,结合从预训练的U-net CNN获得的血管分割图[36]。GAN还被用于合成糖尿病视网膜病变的视网膜图像,包括控制呈现的高水平方面的能力[37]。虽然许多GAN合成图像显示可信的病理特征,但有些确实包含“棋盘格”和其他初始伪影。
3.1参考标准不一致ML分类器的性能基本上受到训练数据质量的限制,训练数据由临床医生手动标记,而不同医生主观性不同,对于疾病的诊断和治疗存在差异,使得确定正确标签变得复杂[38]。大多数方法使用来自多个专家的多数标签作为每个训练实例的标签,或将给予图像的多数标签与临床诊断相结合[39],使专家对判决产生分歧,从而产生共识标签并减少错误。
3.2需要儿童专业模型为了诊断结果的准确性,对成人患者进行训练的ML模型不可直接应用于儿科患者。转移学习[40]和多任务学习[41]技术可以提供该问题的解决方案,提供机制以使成人模型适应给予小儿眼科数据的少量儿童患者。这些方法还可以在不同疾病或群体的模型之间重复使用知识——例如,将知识整合到多个较小的不同眼科疾病的儿科数据集中,以帮助弥补任何一种疾病的数据缺乏。
3.3可重复性和可比性差ML需要在数据集上进行训练和评估,大多数ML研究依赖于可公开访问的数据集和软件实现来进行评估和比较。在许多情况下,数据集和软件源代码不能公开获得,这使得算法的可重复性和科学比较变得复杂[42]。
3.4缺乏时态信息这些系统中的大多数基于一个快照及时检测疾病,而不考虑病例的纵向成像[43]。在一些疾病中,例如ROP,快速变化与较差的结果相关[44],这表明时态信息可能在预测严重疾病中起作用。
3.5无法解释的“黑盒子”模型尽管具有预测能力,但大多数最先进的ML方法(如深度神经网络)的“黑盒”性质使其在医学中的应用变得复杂。定量解释这些模型的推理过程,理解它们如何达到预测是很困难的[45]。由于他们关注的是输入和期望输出之间的相关性,在某些情况下,ML模型可能会关注混杂因素而不是病理信息[46]。可解释的ML方法为临床医生提供了一个潜在的解决方案,例如,允许检查深层网络中的中间决策步骤,决策的自然语言理由,或者有助于决策的图像特征的可视化[45]。
AI技术近年来发展迅猛,由于眼科学依赖影像学诊断,AI在图像处理、特征提取等方面的优势,AI应用于眼科是大势所趋。在小儿眼科领域,ROP、儿童白内障、屈光不正等小儿眼科疾病的AI诊断技术尚未研究透彻,还需要全面推广,仍有很大的研究进步空间。AI诊断治疗结果的正确率应该不低于医生,并且要注重数据的标准,收集、分析与共享,大量标准多样的数据集才能使AI训练结果更加可靠高效。人工智能的发展将极大提高诊断效率,减轻医生和患儿的压力,推动医疗研究向新的方向发展。