沈俊勇 龚雁 胡衍 廖燕红 杨建龙 赵一天 刘江,
作者单位:1 南方科技大学计算机科学与工程系,深圳 518055;2 宁波市眼科医院,宁波 315041;3中国科学院宁波工业技术研究院 慈溪生物医学工程研究所,宁波 315201
年龄相关性黄斑变性(Age-related macular degeneration,AMD)是发达国家50岁以上人群主要的致盲眼病之一[1],是黄斑结构的衰老性改变。AMD主要分为干性和湿性,其中干性AMD以脉络膜下玻璃膜疣沉积和地图状萎缩形成为主要特点,而湿性AMD则以脉络膜新生血管为突出特征[2],可见源于脉络膜的异常新生血管渗漏,在玻璃膜(Bruch膜)和色素上皮间逐渐发展为I型色素上皮层下新生血管(即隐匿性新生血管);发展到突破色素上皮层和玻璃膜生长在视网膜神经上皮层下,即II型新生血管(即经典型新生血管)[3,4]。对于不同级别的湿性年龄相关性黄斑变性(Wet age-related macular degeneration,wAMD),其治疗方式也存在很大不同[5]。
光学相干断层扫描(OCT)是一种近年来迅速发展的非侵入性的三维眼底成像方法,能够无创地为医师提供患者血管、结构等信息。临床医师可以通过OCT图像对患者进行更准确地诊断(如wAMD的分型),进而根据病情不同采取不同的治疗方式[6]。wAMD的2种分型在OCT图像上的表现不同:I型wAMD病变主要表现为隆起的色素上皮和Bruch膜间会出现液体和纤维血管组织,病灶周围可见不规则改变以及增厚的椭圆体区,神经上皮层部分紊乱(见图1A);II型wAMD病变主要表现为视网膜厚度增加,神经上皮可见小囊腔样和弥漫性水肿,小而高的光点几乎总伴随着出血而出现,偶尔可见边界不清晰的视网膜内高反光区(见图1B)[7]。
虽然从事眼底病工作20 年以上经验丰富的医师能够较准确地根据OCT图像进行wAMD的分型判断,但目前对于经验少于5年的普通医师很难达到较高的准确率。这是由于该疾病的2种分型有很多相同的症状,很难正确区分,尤其是遇到隐匿型脉络膜新生血管(Choroidal neovascularization,C N V)及大出血病灶遮挡了视网膜色素上皮(Retinal pigment epithelium,RPE)层,影响对I和II型wAMD的判断,因此对医师的经验及医学素养要求较高。如何使用深度学习方法辅助医师进行wAMD分型快速诊断以及探讨其辅助医师在病灶图像分析和诊断方面的可靠性,有效缓解国内眼科专家稀缺、患者看病难的情况是本研究的主要目的。
图1.I/II型湿性年龄相关性黄斑变性病灶图像示意图A:I型病灶样本;B:II型病灶样本Figure 1.Images of type I/II lesions of wet age-related macular degeneration.A:A sample of a type I lesion.B:A sample of a type II lesion.
纳入2018年6月至2019年6月在宁波市眼科医院门诊确诊为wAMD患者39例(46眼),其中男19例(22眼),女20例(24眼),年龄53~80(65.2±3.3)岁。所有患者裸眼视力好于0.1,患眼固视较好,屈光介质透明。本研究符合赫尔辛基宣言,并通过宁波市眼科医院伦理委员会审批,所有患者签署知情同意书。参考《中国老年性黄斑变性临床诊断治疗路径》中的诊断[8],纳入标准:①年龄45岁以上;②视力下降;③眼底表现为黄斑区出现浆液性或出血性盘状脱离;④荧光素眼底血管造影显示黄斑区有脉络膜新生血管,荧光素渗漏,出血区出现遮蔽荧光;⑤未出现牵拉性视网膜脱离的患者。排除标准:①年龄90岁以上;②干性年龄相关性黄斑变性患者;③轻度及中度非增生性视网膜病变的患者;④屈光介质混浊,严重影响wAMD眼底检查的临床观察者,如中重度白内障、玻璃体积血、视网膜脱离等;⑤有其他视网膜疾病合并者,如糖尿病视网膜病变、视网膜静脉阻塞、非糖尿病出血性眼底病、视神经疾病等;⑥其他眼部疾病者,如严重白内障、青光眼、葡萄膜炎等;⑦合并有严重的脑血管、肝、肺、肾及造血等全身性疾病者;⑧合并有糖尿病肾病并发肾衰(氮质血症期及尿毒症期)者;⑨精神病患者;⑩准备妊娠、己妊娠或哺乳期妇女;有食物、药物、粉尘等过敏史或过敏体质者;依从性差患者。
每例患者均采用海德堡SpectralisOCTplus模式的OCT扫描检测眼底,采用托吡卡胺滴眼液扩大瞳孔。所测试的每例患者都进行完整眼底区域光学相干断层扫描血管成像(Optical coherence tomography angiography,OCTA)扫描,每例患者都有384 张图像。所得每张图像分为4 个部分,分别为激光眼底检查扫描图、眼底OCT、眼底OCTA和眼底血流信息(以某患者384张图像中1张为例,见图2)。39 例患者拍摄OCT,共收集眼样本46 眼(部分患者左右眼均患有wAMD),其中I型12眼,II型34眼。通过整理眼数不变,共包含4 827张图像,其中I型病灶933 张,II型病灶数量为3 894 张。使用程序随机划分出测试集1 241张(10眼,其中I型病例3眼,II型病例7眼),训练集2 683张图像(27眼,其中I型7眼,II型20眼),验证集903张图像(9眼,其中I型2眼,II型7眼)。
图2.湿性年龄相关性黄斑变性患者的OCT/OCTA样本图A:激光眼底检查扫描图;B:眼底OCT;C:眼底OCTA;D:眼底血流信息Figure 2.Optical coherence tomography/optical coherence tomography angiography of a wet age-related macular degeneration sample.A:Laser fundus examination scan.B:Fundus optical coherence tomography.C:Fundus optical coherence tomography angiography.D:Fundus blood flow information.
由于I型和II型wAMD存在很多相似点,普通医师判断存在很大的不可确定性,本研究通过深度学习算法为医师提供一个可信度较高的分型参考。在处理数据阶段,对OCTA样本图选用适合图像尺寸为379×421 像素大小的窗口进行剪切。通过激光眼底检查扫描图像与眼底OCT进行对照,并在专业医师指导下,整理出每个病例中含有病灶区域的OCT图像。每张图像在训练和测试的时候,图像都被重新调整为224×224大小作为输入。由于I型样本数量与II型样本数量相差较大,在对神经网络模型进行训练时,样本不平衡会导致模型预测偏向于样本数较大的一型,因此我们在训练集上通过对I型样本随机进行亮度、饱和度、对比度、锐度和旋转调整操作来进行数据增强,均衡实验数据样本数量,解决数据样本不足和分型数据不均衡的问题。经过处理后,训练数据集的图像数量为4 867张,其中I型2 730张,II型2 137张。
本研究采用有监督的深度学习方法进行病灶分型。首先将资深专家医师对患者的分型标注视为金标准,由于每一位患者1次拍摄的多张OCT图像通常包含很多非病灶区域,因此我们需要对患者的图像进行预处理,并对每张图像进行相应的标注,然后使用预训练后的神经网络Resnet34对整理后的OCT图像提取特征并分型,与专家提供的金标准进行对比,反复训练,最终得到准确率最佳的分型结果。同时,我们使用合作医院提供的普通医师对同一批患者的分型结果,与我们的模型测试结果进行比较,从而验证本方法在辅助医师基于OCT图像进行wAMD分型工作的可行性和优越性。
卷积神经网络使用卷积层模拟人的视觉神经机制从图像中获取足够丰富的特征,常用作解决分类问题,同时Resnet模型的出现弥补了卷积神经网络(Convolutional neural networks,CNN)随着网络层次逐渐加深,模型难以训练和效果不佳这一缺口,目前已成为一种常见的CNN网络框架。Resnet的发明者是He等[9],他们发现使用残差块能够训练更深层次的神经网络,通过将很多残差块堆积在一起形成的一个很深层次的神经网络。本研究主要基于预训练后的Resnet34神经网络模型,在训练集上反复进行有监督训练使其适用于wAMD的分型。在Resnet34 中,残差学习模块存在2 个3×3 卷积,整个学习过程中通道数保持不变,但加上跳跃链接可以减少计算和参数量,提升模型的训练速度。Resnet34 网络模块组成见表1。
Resnet34网络主要包含4个连续的残差卷积模块,见图3。4个连续的残差卷积模块能够逐步地提取具有全局性的高级语义信息,以此不断减少提取到的特征尺寸来减少计算量。然后通过全局平均池化操作来进一步减小特征的尺寸,最终进入全连接层进行疾病分型,输出结果0即I型wAMD,1即II型wAMD。
表1.Resnet34残差网络模块组成Table 1.Resnet residual network module composition
整个Resnet34 模型训练过程中采用学习率衰减策略加速收敛,采用交叉熵损失函数衡量模型误差。将批处理图片数量(每次输入到模型的图片数量)设置为16,全连接层参数的初始学习率设置为0.000001,权重衰减值为0.001,反复训练40轮,得到Resnet34 网络训练过程中训练集交叉熵损失值(即图4中Train loss),验证集交叉熵损失值(即图4中Valid loss),验证集正确率(验证集中模型预测正确图片数占所有预测图片数的比例,即图4中Valid accuracy)变化图。根据图像变化(见图4),训练集交叉熵损失值不断减小直到收敛,表明模型在训练集误差越来越小,而到25 轮后,验证集交叉熵损失值由递减转为递增,考虑模型出现过拟合现象,这将导致模型泛化能力下降。最终选择轮数为15~25 的模型参数进行保存并选取任一模型参数在测试集上进行测试效果。
深度学习领域常采用分类的准确率(Accuracy,acc)作为分型指标来评价深度学习网络模型的分型效果。准确率是计算预测分型的正确结果占所有预测结果的比重。公式如下:
图3.网络结构示意图Figure 3.Network structure diagram.
图4.网络训练过程训练集损失值、验证集损失值、验证集准确率随轮数变化图Figure 4.Changes of networktrain loss,valid loss,validaccuracy with the epoch.
本研究分型类别为I 型、II 型,我们将I 型wAMD作为正例,II型wAMD作为负例,准确率公式可细化为:
上述公式按照正类别和负类别进行划分,其中TP为真正例(模型判断为正例,实际也为正例),TN为真负例(模型判断为负例,实际也为负例),FP为假正例(模型判断为正例,实际为负例),FN为假负例(模型判断为负例,实际为正例)。
将专家医师对病例wAMD分型判断指标作为标签,计算另2位普通医师的准确率,即通过他们的诊断指标与专家的诊断指标作对比,计算诊断相同的指标个数占总患者数的比例,作为普通医师的诊断准确率,以此得出医师1 和医生2 的诊断准确率。最后将通过深度学习算法诊断得出的准确率与2位普通医师的诊断准确率的结果进行对比。
与专家诊断结果相比,普通医师A诊断一致的样本数为27 例,普通医师B诊断一致的样本数为29例,见表2。可见普通医师A诊断样本的准确率为0.58,普通医师B诊断样本的准确率为0.63;在测试集10个病例中,普通医师A诊断样本的准确率为0.60,普通医师B诊断样本的准确率为0.60,而本研究采用的Resnet34 网络诊断的分型在测试集准确率为0.80。即在测试集10 个wAMD病例中,Resnet34网络分型比普通医师多2个正确诊断病例的优势。研究结果表示基于Resnet神经网络的分型结果要优于普通医师的诊断结果。因此,基于深度学习的分型方法对AMD的诊断对于普通医师能够起到一定的辅助效果,未来可以将该方法应用于其他眼科临床领域中。
梯度加权的类激活映射(Gradient-weighted class activation mapping,Grad_CAM)作为当下流行的卷积神经网络可视化方法,可以在Resnet34网络基础上进一步帮助医师快速定位病灶相应位置。该方法根据网络的输出向量结果,通过梯度和特征图加权求和得到类激活图,用热力图形象化展示出来。图5为训练后的Resnet34模型采用Grad_CAM对5张病例OCT图的计算结果,其中红色区域为病灶区域,为Resnet34模型判断依据,可提供给医师作为重点诊断依据图。
表2.病例数据统计表Table 2.Statistical table of casesdata
深度学习领域卷积神经网络能够从大量医学图像中学到疾病的隐藏特征,较传统医学图像分析技术采用的手工定制式设计方法更为高效智能,目前在医疗诊断领域已经得到快速发展[10]。在AMD诊断方面,Lee等[11]用VGG16 模型进行实验表明神经网络能成功识别OCT上的病理区域,可以有效解决AMD分型问题。Grassmann等[12]基于深度学习模型结合随机森林集成学习思想开发了一种自动分类策略,通过眼底彩照图片预测AMD发展阶段,最终模型得出最佳的分类性能。Treder等[13]采用预训练的开源多层深度卷积神经网络(Deep convolutional neural network,DCNN),以高灵敏度和特异性检测谱域OCT(Spectral domain OCT,SDOCT)中的AMD,在训练集和验证集准确率达到100%,交叉熵损失值降到0.005,测试集平均得分在0.997±0.003,表明了模型检测AMD的高精度。龚雁等[14]采用Resnet101网络结构的深度学习算法诊断有无wAMD,诊断准确率可达到94.9%,同时采用热力图通过不同的颜色为医师提供更方便的辅助诊断依据。这些研究均表明深度学习能够有效辅助医师进行AMD诊断,但目前深度学习模型的有效性和可解释性仍没有合理的解释,这是未来研究的一个很有挑战性和前景性方向。
另外,医师主要依靠AMD不同的疾病特征进行病灶分型,CNV作为wAMD的主要病理特征,包含来自脉络膜毛细血管的异常血管。CNV穿过Bruch膜进入RPE和神经上皮下的空间,随后视网膜组织渗出和出血,进而导致视力丧失。因此CNV的检测和分型依赖于恰当的分层。
I型新生血管在色素上皮层下发展导致其扁平隆起。新生血管形成通常发生在隆起的色素上皮层和Bruch膜之间,如果有纤维血管组织增生,隆起的色素上皮层可能见到分层。II型新生血管生长于视网膜神经上皮层与色素上皮之间,可以穿透视网膜神经上皮层进入外层视网膜无血管区,其尺寸总体小于I型新生血管。视网膜内液(弥漫水肿和囊样水肿)常伴随视网膜下积蓄的液体,偶尔会出现视网膜扁平浅脱离,几乎不会出现色素上皮脱离,而出血较为常见。如果不治疗,新生血管生长迅速,大概会以每天9 mm的速度生长。OCT图像中可以观察到视网膜厚度增加且时常累及神经上皮[15],可见小囊腔样和弥漫性水肿。除了I型和II型新生血管有很多共通的地方,此外部分图像的病灶特征本身不明显或病灶类型过于复杂,对于医师的判断和本研究模型wAMD的正确诊断都产生了一定影响。
图5.Resnet34模型诊断依据图Figure 5 .The diagnosis basis maps of Resnet34 model.
传统方法需要在对病灶特征有足够的了解且病灶特征足够分明的前提下才能人工提取特征,因而存在较大的局限性。往往一些病灶的特征相对模糊和复杂,这给分型任务的特征提取阶段造成了很大的难度。而深度学习网络在一定程度上克服了这个问题,自动根据标签反复训练并提取特征,最终学习到最准确的特征作为分型依据。本研究发现宁波市眼科医院的2位普通医师的判断存在很大误差,分型的准确率分别为0.58和0.63,而深度学习方法的准确率为0.80。
本研究中存在一些有争议的图像,很难判断是wAMD I型还是II型,不同医师给出的标签具有很大差异,且反复变化。在标签更加精准的情况下,使用深度学习方法判断分型的准确率会更高。目前,医学图像标签的问题仍然是图像处理方面的一大难题。因此,深度学习方法对于AMD分型方面仅能够起到辅助参考作用。后续通过增加OCT图像分层和层厚度的定量分析方法,相信能够进一步提高疾病的分型准确率,真正起到辅助医师诊断的目的。
利益冲突申明本研究无任何利益冲突
作者贡献声明沈俊勇:实验研究;分析、解释数据;起草文章;统计分析。龚雁:采集数据;分析、解释数据;指导。胡衍:酝酿和设计实验;分析、解释数据;对文章的知识性内容作批评性审阅;获取研究经费;指导。廖燕红:采集数据;分析、解释数据;支持性贡献。杨建龙:分析、解释数据;对文章的知识性内容作批评性审阅。赵一天:分析、解释数据;支持性贡献。刘江:对文章的知识性内容作批评性审阅;获取研究经费;指导;支持性贡献