朱绍军,方新闻,郑 博,吴茂念,杨卫华
翼状胬肉是眼科常见病和多发病[1-2],是睑裂部球结膜及结膜下组织发生变性、肥厚、增生,向角膜内发展[3-4],胬肉呈三角形、白红色[5]。如果放任病情发展,翼状胬肉组织将侵犯至瞳孔区甚至全部角膜,对视力造成巨大伤害,严重的甚至会造成失明[6-8]。通常情况下,如果在观察期就引起足够重视,病情可得到及时控制[9-11]。全球翼状胬肉患病率约为12%,我国40岁以上人群翼状胬肉患病率约为13.4%,患病人数近1.09亿[12-13],且患病人数还在增加,然而现有的眼科医生数量无法满足日益增加的疾病诊断需求[14]。在人工智能领域,很多研究已经通过深度学习技术实现疾病的分类诊断并达到约95%的准确率[15-20]。在翼状胬肉的智能分类基础上,本研究拟通过人工智能卷积神经网络实现翼状胬肉病变区域的精准分割,期望可以提供病灶的范围信息,辅助眼科医生开展诊疗科普并为疾病的治疗提供参考信息[21],研究结果汇报如下。
1.1资料本研究中翼状胬肉图像数据由南京医科大学附属眼科医院提供,以保证数据库的专业性和多样性为指导,以医学标准筛选翼状胬肉眼表图像517张,其中330、37、150张分别作为训练、验证和测试。该数据库中的所有图像均在相同环境下用同等级设备拍摄,眼前节照相格式统一,无黑边,无需进行图片裁剪等预处理,样本示例见图1。
表1 实验结果 %
图1 不同的数据样本 A:只需观察的样本;B:需要手术的样本;C:不同角度下的样本;D:不同光线下的样本。
1.2方法
1.2.1标注数据样本为了能够利用人工智能算法自动分割翼状胬肉图像,需要将现有的翼状胬肉图像进行手工标注,准确标注出翼状胬肉组织的外部轮廓,然后才可以用标注好的数据集对算法训练、验证、测试。标注过程:(1)由眼科主任医师对1名标注负责人进行关于翼状胬肉的专业培训,经测试合格以后正式开始标注;(2)每一张图片由标注负责人进行手工标注,标注好以后提交审核;(3)另聘请眼科主任医师为审核负责人,负责审核标注结果是否准确,若不准确则返回给标注负责人重新标注。标注样本见图2。
图2 标注数据样本 A:待分割图片;B:分割结果。
1.2.2构建模型本研究针对翼状胬肉分割中所存在的问题在PSPNet模型[22]的基础上将阶段上采样理念与金字塔池化模块结合构建了Phase-fusion PSPNet网络结构,见图3。输入该模型的图像首先通过Resnet50[23]主干特征提取网络进行特征提取,得到30×30×512的特征图,该特征图在金字塔池化模块下以1×1、2×2、3×3、6×6四个尺寸进行池化,虽然感受野不断增大,但是造成了边缘位置信息的丢失,故在原本金字塔模块的上采样操作下加入了分阶段上采样模块,该模块将1×1×512的特征图先通过双线性插值上采样到2×2×512,然后将2个特征图做按元素相加,重复上述操作直到上采样到30×30×512的特征图(b)大小,上采样结束后得到的特征图将继续堆叠到(e)中,最后再通过卷积得到预测图。该模型使用Python程序设计语言在Pytorch框架基础上实现,训练和测试在Linux操作系统进行,采用英伟达Tesla V100 GPU加速卡。使用VOC2012-AUG[24]数据集的预训练权重和随机梯度下降优化器进行传播学习,在不使用数据增强的情况下以0.00001的学习率迭代80轮。
图3 Phase-fusion PSPNet网络结构。
1.2.3评价方法和指标采用MobileNet V2为主干特征提取网络的PSPNet、Resnet50为主干特征提取网络的PSPNet、U-Net[25]、Deeplab V3+[26]、Dense DeepLab V2[27]5个网络作为Phase-fusion PSPNet的比较网络,比较测试集翼状胬肉病灶智能分割和专家标注的结果。翼状胬肉病灶分割对比实验采取单类交并比(intersection over union,IOU)、平均交并比(mean intersection over union,MIOU)、单类像素精确度(average precision,PA)、平均像素精确度(mean average precision,MPA)4个评价指标衡量翼状胬肉病灶分割模型的性能。
IOU和MIOU的计算公式:
(1)
(2)
其中pi表示分割后的区域,gi表示真实区域,k表示类别数(不包括背景类)。IOU是通过真实值和预测值的交集比上它们的并集;MIOU是通过计算每个类别的交并比(包括背景类)并求所有类的平均。
PA和MPA的计算公式:
(3)
(4)
其中pii表示预测正确的像素数量,pij表示真实类别为i被识别为j类的像素数量。PA是标记正确的像素占总像素的比例;MPA是计算梅格雷被正确分类像素数的比例,之后求所有类的平均。
本研究中6个网络翼状胬肉病灶分割的结果见表1,结果表明,Phase-fusion PSPNet是上述模型中效果最好的,且改进后的Phase-fusion PSPNet比起同样使用Resnet50的PSPNet在MIOU和IOU上分别提升了0.84%、1.3%,在MPA和PA上也有小幅度提升,其中在翼状胬肉单类上的IOU上提升较大,说明该模型对翼状胬肉的分割效果明显提升。Phase-fusion PSPNet的分割效果见图4。
图4 Phase-fusion PSPNet分割效果 A1~H1:专家标注结果;A2~H2:智能分割结果。
在翼状胬肉的智能分类基础上,本研究构建的Phase-fusion PSPNet网络结构进一步实现翼状胬肉病灶的精准分割,且可以提供翼状胬肉病灶的范围信息,辅助眼科医生开展诊疗时的疾病科普和手术规划,为疾病的治疗提供参考信息。本研究所采用的翼状胬肉病灶分割对比模型均是语义分割领域中较为经典的模型,其中PSPNet提出了金字塔池化结构,U-Net采用了Encoder-Decoder网络结构,Deeplab则提出了改进的空洞空间卷积池化金字塔结构(ASPP)。通过对各个模型的分割结果观察可以看出其他模型的不足之处,PSPNet(MobileNet V2)和U-Net的主干特征提取网络提取到的特征图语义信息不够强,Deeplab V3+中浅层与高层的特征信息融合度不够。Dense DeepLab V2引入了前馈密集层,将4个前馈层添加到网络底层,对DeepLab V2进行改进。Choudhury等[26]研究采用的数据库包含328张翼状胬肉眼表照相,并以3∶1的比例划分训练数据和测试数据,以0.001的学习速率迭代200轮,Phase-fusion PSPNet相较于Dense DeepLab V2的训练结果,MIOU提升了2.5%,其他指标由于该论文里没有公布,所以无法比较。Dense DeepLab V2虽然使用了ASPP层融合不同级别的语义信息,但是当该模型中的空洞卷积已经扩张到图像外时,此时并没有获取语义信息,所以融合信息操作的作用有限,导致分割效果低于本研究的Phase-fusion PSPNet。
本研究为找出适合翼状胬肉分割的图像语义分割模型,选取图像语义分割技术不同发展阶段中的代表模型作为对比模型,同时选取不同的特征提取网络以保证实验的全面性。由翼状胬肉病灶分割实验结果得出在5个对照模型中,Resnet50为主干特征提取网络的PSPNet效果最好,该模型既拥有深层卷积网络可以提取出足够的翼状胬肉病灶特征,同时加入金字塔池化模块通过不同尺寸的池化块保存不同层次的语义信息。Phase-fusion PSPNet在PSPNet的模型架构基础上,在金字塔池化模块上添加了阶段上采样模块,以此深度融合不同层次的语义特征图,保留更多目标区域信息。此外,本研究提出的Phase-fusion PSPNet与2020年提出的Dense DeepLab V2相比,MIOU提升了2.5%。Dense DeepLab V2中的前馈密集层虽然尽可能地保留了目标区域信息,但同时也掺入了一些噪声信息,影响了最终分割结果。Phase-fusion PSPNet中的阶段上采样模块添加在特征提取网络之后,通过深度卷积模块已经提取出主要特征信息并过滤大部分的噪声信息。
翼状胬肉的主要难点在于边缘难以准确分割,既需要深度卷积神经网络进行特征提取,同时也需要与浅层信息相结合。本研究的改进特点主要是将大尺度跨越的上采样分阶段进行并与浅层特征图信息进行融合,加强了翼状胬肉的边缘信息,提升了病灶分割的性能。该模型效果虽然是上述所有模型中最好的,但是观察分割结果后可以了解到翼状胬肉的边缘检测效果依然需要提高,将来可以考虑利用Vision Transformer[28-30]的独特结构加强图像内各部分的联系,从而提升分割效果。本研究也存在不足之处,Phase-fusion PSPNet虽然相较于其他模型有一定的提升,但该模型分割翼状胬肉时对其边缘的处理并没有达到十分精确,同时翼状胬肉单类IOU稍低,需要进一步深化研究并优化分割模型。后续研究拟做如下改进:(1)加大模型训练样本数量;(2)采集的眼前节图像也需要进一步规范并制定标准;(3)提升模型对于翼状胬肉边界的感知程度。
综上,本研究旨在通过深度学习方法实现对翼状胬肉的精准分割,为医生和患者提供病灶区域辅助定位。在该领域不断深入研究后,结合翼状胬肉分类和分割的方法有望为翼状胬肉提供一种新型诊断工具,同时提出手术与否的治疗建议,患者可根据治疗建议及时获得下一步处理建议,合理利用医疗资源。