任晓丽
(山西医科大学 汾阳学院,山西 汾阳 032200)
医学影像图像是医学概念的实体[1].近年来随着硬件技术的创新(如MR、CT 等)、深度学习算法的出现及随之而来的计算能力的指数级增长,医学图像处理取得了前所未有的进展.源于人工神经网络的深度学习,主要通过建构大量的抽象层,将一些输入的讯号映射到更高层,以模拟更高层次的抽象思维,其中较成熟的模型是卷积神经网络(CNN)[2].图像分割是医学图像定量分析及三维重构等处理中的关键步骤,是临床诊断、图像引导的外科手术和放射治疗等的重要技术前提[3-4].得益于人工智能在医学影像中的量化审查应用,目前医学图像的分割可大大减少传统分割中的医生繁重的工作量,同时也降低了基于传统临床医学指标(如肿瘤大小、边缘等)分割所产生的人为误差,提高了分割效果.笔者根据医学图像特征及其分割的特殊性,分析CNN 的结构及变体的应用.
当今医疗领域图像大幅增多(有辐射成像、基因序列、病理图像等),已形成了“大数据”体量.不同图像的优缺点各异:有侧重于机体形态结构展示的,有基于功能显像的,后者可体现生物有机代谢的情况以及反映功能性的疾病,但一般来讲功能性图像的空间解析度要差.就模态而言,常见医学图像有二维X 射线图像、X-CT、MR、PET、超声以及病理图像.基于功能性的临床PET 图像的信噪比低,空间分辨力不及其他结构性图像,其自动分割具有一定挑战性.
一个临床结果变量往往对应高维度的特征变量.基于机器学习的医学图像分割方法以特征提取和分类器训练为框架[5].图像特征有多种:有各种形态特征(如器官、病灶等);有很多个一阶灰度特征(如灰度直方图等);以及灰度共生矩阵等.在不同机型、不同参数条件下所生成的医学图像特征有很大的区别,故需要通过标准化以减少图像的维度上的差异.特征的提取反映了人们对图像的相关特征的期望,对分割精度有很大的影响[6].早期的算法主要针对低层特征的提取:形态、几何及形状等,而图像的中层特征能够表达其较为全局的信息.神经网络从原始图像中学习得到低层特征,再通过线性或者非线性的组合学习到中层特征[7].特征选取后,一般需要进行归一化处理,以均衡特征的权重,避免一些特征值很大的特征占据过大的权重,小值的特征占据过小的权重.
医学图像分割被看作是进行高通量图像特征提取、数据分析及临床决策的基础[8].分割即把图像分割成多个区域,每个区域内部有类似的性质(如灰度、颜色、纹理、亮度、对比度等).由于图像像素比较单一,病变的部位、界限、大小、形状等信息较模糊,医学图像分割是图像分割领域的难题.分割目标有用于感兴趣区域的提取,如研究解剖结构;用于人体器官、组织或病灶的尺寸、体积或容积的测量等.相对于自然图像,医学图像的语义相对简单、结构固定,如脑部CT、脑MRI 等都是一个固定的器官成像,分割中一般不涉及像素点的多分类信息,但是对器官或病变组织的特异和准确的分割精度却至关重要[8].如对心脏的内包膜和外包膜进行分割,不正确或是不稳定的分割将会直接影响心脏射血量的定量计算.另外医学图像缺少简单的线性特征、具有较高的复杂性;及不可避免地存在随机噪声、信噪比相对较低;像素灰度分类具有不确定性及灰度的非均衡性.图像中单一组织对应的图像区域包含有限的像素,且往往伴有部分容积效应等,这些都会影响分割的精度.
人工神经网络是生物神经网络的一种模拟、近似:是基于信息的角度对人脑中神经元网络进行抽象处理,构建不同的的网络模式:依据人的大脑可视皮层分级存在,模拟人的视觉系统进行反复抽象和迭代[9].人体组织、病灶的复杂性使其相关信息数据的表达、分析及决策等具有复杂的非线性特征[9].多隐层的人工神经网络对此具备强大的特征学习能力,当网络的隐藏层为多层时即为深度学习,是机器学习的一大类算法[1].深度学习与图像处理融合逐步形成了图像处理领域的代表性学习网络——卷积神经网络(CNN)模型.
相对于一些传统的医学图像分割方法,源于人工神经网络的CNN 表现出以下优势.(1)非线性:非线性是自然界事物的普遍特征. CNN 使用一系列多重非线性变换对数据进行多重抽象,学习输入和输出之间的非线性映射,以及学习输入数据向量的隐藏结构,以用来对新的样本进行智能识别或预测.(2)全局性:作为一种多阶段的、全局可训练的人工神经网络模型,CNN 网络中不同的神经元进行广泛链接、相互作用,而神经元的特征又影响整个系统的行为,利用不同单元间大量的链接可以模拟分析系统的整体性.(3)自学习能力:以层次化、级联化的方式,对输入的图像矩阵从最低级的像素信息开始,逐层提取出重要的特征信息,同时抑制无关背景信息,再以上一层的抽象结果作为下一层的直接输入,以获得更高层次、更为抽象的特征,通过如此迭代分析系统的非线性、多样性演化以及达到不同的稳定平衡状态,进而实现自组织、自适应学习.
CNN 基本组成:输入层、卷积层(包含特征图和卷积核)和池化层(或取样层)的组合、全连接层及输出层,即构成了“输入-隐藏处理-输出”.其首要任务是特征提取.通过局部连接、权值共享,大大减少了计算的参数[10].一般每个神经元只需对局部感知:基于图像的空间联系,局部感知的像素联系较为紧密,而距离较远的像素则相关性较弱.共享权值(卷积核)的依据,是在图像的一部分中学习到的特征可以与图像的其他部分共享,其好处是可以减少网络各层间的连接.卷积核可认为是局部视野,局部视野是CNN的最大优点. CNN 对输入数据进行前向传播预测,执行反向传播算法进行网络训练,训练过程中网络参数沿判定结果误差减小方向调整,卷积核权值调整过程就是图像特征提取过程.卷积核的使用使得CNN 能够提取较多维度和有代表性的特征.不同的卷积层提取输入的不同特征:第一、二层主要提取边缘、颜色等低层特征,之后每一层卷积将具体信息进行抽象,多个卷积层串联操作,依次将上一层的抽象结果做抽象处理,因此每一个中间层都是一个更高层次的抽象,不断提取高维度特征[10-11].
池化层在语义上把相似的特征予以合并,即通过聚合统计图像中不同位置的特征,逐渐缩减输入数据的空间维度,通过降低特征图的分辨率来获得空间不变性的特征,同时减少了卷积层间的连接数量,使神经元数量随之减少,降低了网络模型的计算量,使得对输入空间的平移不变性特征对噪声和变形具有鲁棒性.全连接层则把前面卷积后抽象出来的特征整合,将全部特征图组成特征向量,输出为一个值以进行归一,输出层依据全连接层输出的特征向量判定结果.
CNN 可从3 种维度进行分析:深度(网络层数)、宽度(卷积层的通道数)以及分辨率.其中各层从不同角度以增强的方式表现原始图像,层数愈多,表现形式愈抽象.一般来讲网络的深度所起的作用要大一些,网络层数越多,特征表达能力越强[12].具体网络要多深,这是个比较灵活的问题.并且网络深度、特征图数目、卷积核的大小需要选择合适,网络才易于训练,同时也可避免过拟合,增加网络的泛化能力.文献[13]借助复合缩放的方法,将网络深度、宽度和分辨率的关系量化平衡,提高了目标识别的准确性与效率.
CNN 的全连接层整合了前面卷积抽象出的诸特征,大大减少了特征位置对分类的影响,但同时也忽略了空间结构特性,由此Long 等提出了全卷积神经网络(FCN),将全连接层改为全卷积层,在卷积神经网络中保留了图像特征原始位置,即保存了分割的位置信息[14]. CNN 结构的可拓展性很强.为改善医学图像分割的效果,CNN 的多数变体及组合是基于“信息共享”,扩大参与计算的图像信息量,提高图像的分割精度.
用低层细节信息补充深层抽象信息,完善分割细节.Ronneberger 等提出了U 型语义分割网络(U-Net):呈U 型对称结构,思路与FCN 相似,使用编码和解码[15].同时U-Net 结构采用跳跃链接以共享底层与深层的信息.其流程简单而言,输入一幅图,经过编码(或下采样),将图像分解为不同层次的更小特征的组合,相应的操作类似于压缩,之后再经过解码(或上采样),还原各层的特征图,其中包含大量的通道特征,可向高分辨率层传递图像上下文信息,以尽量还原出原来的图像.
U-Net 拓扑结构一定程度上解决了医学图像数据量较少、边界不清晰、灰度范围大等问题,在医学图像分割中广受欢迎,其编码器模块可提取图像浅层的、低级的、细粒度等特征,以捕获图像上下文信息;而解码模块能表达图像深层的、语义的、粗粒度特征,可预测目标位置及区域概率图;通过跳跃连接将来自解码器的高级语义特征图和来自编码器的相应尺度的低级语义特征图结合,这样通过合并共享低层、深层信息使得分割图恢复边缘等细节尤为精细.
U-Net 擅于细胞图像和肝脏CT 图像的分割.鉴于低层进行像素定位,高层进行像素分类,深入探究底层与高层间的特征关联将大幅提升分割的精度.文献[16]进一步强化了空间关系,通过在卷积层前边添加双边滤波,有机结合空间域与像素值域的信息,精细地检测图像真实边缘及细节.
U-Net 中的跳跃连接直接将编码的高分辨率特征与解码的上采样特征融合在一起,这仅仅是浅层信息的简单整合,未充分利用更深层的信息,在高级与低级特征之间不可避免地产生了语义鸿沟.在保持U-Net 结构基础上,U-Net++改进编码器与解码器之间的连接方式,在跳跃链接上添加卷积层,将深层特征信息进行上采样引入浅层特征或者将浅层特征信息进行下采样引入深层特征,以填壑编码、解码间的语义鸿沟.跳跃连接有短连接和长连接,前者的作用是实现整个网络的反算,让训练得以进行,后者是基于U-Net 本身的长连接优势输入图像的至多信息,有助于弥补降采样所带来的信息损失.
U-Net++还将直接跳跃连接改进为嵌套的密集跳跃连接,以信息叠加的方式整合不同层次的特征,且最后一层特征图含有丰富的空间和语义信息,文献[17]以U-Net ++结构为基础,结合最后一层特征,提取超声胎儿头部图像特征,这一方法克服了之前的不足:利用卷积神经网络直接提取胎儿头部边界像素关键点,因声影等造成的头部边缘检测不完整.
在医学图像分割中,不同尺度的特征图显示不同的信息.多尺度特征的结合是影响精度的重要因素之一.传统的层叠式网络基于一个个卷积层的堆叠,基本上每层只用一个尺寸的卷积核.实际上同一层的特征图可以使用多个不同尺寸的卷积核以提取到不同尺度的特征,再进行融合,这样挖掘到的信息尤为全面.医学图像分割对精度的要求颇高,故需充分利用多尺度特征信息.在U-Net3+结构中,编码器和解码器通过全尺度的跳跃链接,同时每个解码层融合了来自编码器中的小尺度、同尺度的特征、以及来自解码器的大尺度的特征,可从全尺度范围将不同尺度特征图中的高级、低级语义相结合,即全尺度捕获细粒度和粗粒度的语义、全尺度挖掘足够的信息以进行更精确的分割[18].文献[19]为克服深度卷积网络分割对对抗性样本的脆弱性.通过全局空间依赖关系和全局上下文信息,在CNN 基础上,增加鲁棒模块,提高了肺和皮肤病变分割的稳健性.
深度学习模式下,医学图像领域中CNN 模块基于实验架构,从大数据中学习识别图像并预测结果的特定特征.一般是不同变体形式的CNN 可以很好地提取不同维度的特殊信息,进而在适宜的图像目标分割中表现优异,故现有的CNN 仅满足于一些特定的医学图像分割项目.未来应考虑:(1)基于模型的架构、拓扑的结构及特殊的加成层,如何将CNN 与不同类型的机器学习模型进行比较或结合,以便于将特定结论推广到各种成像模态和患者群体上[20];(2)以临床需求为导向,选择合适的临床特征变量、模型算法,优化参数以找出更好的有效特征,发挥医学影像深度学习的很大潜力,以取得更好的评估效果[21].