邱俊玮,孙频捷
(1.四川大学计算机学院,成都610065;2.上海政法学院,上海200000)
染色体核型分析是细胞遗传学中具有重要意义的研究方法之一,广泛应用于疾病诊断、肿瘤研究等方面。传统的核型分析方法主要依赖于人工分析,费力费时,且分析结果的准确度与专家的经验丰富度直接相关。近年来,随着深度学习在医学研究领域的广泛应用,使用深度学习的方法自动化的完成核型分析成为学者们广泛关注的方向之一。核型分析的任务目标是对染色体进行检测和分类。该任务的核心难点是,染色体表现出多种复杂的姿态,如边缘粘连、重叠、覆盖和扭曲等。这对正确检测和分类染色体造成了较大的干扰。Hu 等人[1]首次将分割网络用到了重叠染色体分割问题中。N.Xie 等人提出使用基于卷机神经网络Mask R-CNN[2]应用于核型分析任务,并构建了一套完整的自动化分析流(Statistical Karyotype Analysis Using CNN and Geometric Optimization)[3]。该方法提高了染色体粘连、重叠等复杂场景下染色体的检测准确度,此后,出现了更多使用卷积神经网络进行染色体核型分析的方法并取得了优秀的成果,这进一步说明了卷积神经网络在染色体核型分析任务中的有效性和探索价值。
如图1 所示,染色体核心分析的主要任务是,在中期染色体的图像中,依据染色体的尺度、着丝点位置、长短臂比例等特征,对染色体进行检测和分类。完整的核型分析通常可以包括两个子任务,即染色体检测任务和染色体分类任务。Sharma 等人最早将CNN 的方法应用到染色体检测和分类[4],常用的基于CNN 的染色体检测方法包括FCN[5]、U-Net[6]等。染色体分类是一个已经被广泛研究问题,早期的学者们主要依靠染色体的几何信息进行分类,如Ritter 等人[7]。Jindal 等人则在研究中将CNN 的方法用于染色体分类任务[8],并取得了优秀的成果。
图1 染色体核型分析任务目标
N.Xie 等人提出了一种使用卷积网络和几何优化进行核型分析的方法。该方法使用Mask R-CNN 网络进行染色体检测,并针对弯曲程度严重的染色体提出了一种优化方法,使用融合了全局信息的分类网络对染色体进行分类,流程如图2 所示。
图2 基于卷积神经网络和几何优化的核型分析流程
Mask R-CNN 网络通过RPN(Region Proposal Net⁃work)的方法提取可能存在染色体的候选区域。RPN是Ren 等人在Faster R-CNN 网络中提出的贡献[9]。这一网络通常与特征提取网络结合使用,以特征提取网路的特征图作为输入。在特征图(feature map)的每个像素点位,依据不同尺度或高宽比提出多个候选区域(anchor box),再将候选区域映射回原图,与原图中的物体边界框计算IOU,将重叠度较高的候选框计为正样本,重叠度较低的记为负样本,并训练一个Softmax 分类器,用于在预测时对将候选区域分类。然后对正样本边界框进行回归训练,用于计算正样本边界框微调偏移量。这样预测为正样本,且经过微调的候选区域被称为proposal,最后对proposal 进行Pooling 操作,获得对应的feature map,方便送入后续网络进行处理。这一方法的使用实现了从图像中检测和分离染色体。
由于染色体常在图像中呈现出高度扭曲的姿态,而染色体的扭曲姿态会增加分类难度,对后续提取染色体特征造成干扰。因此该方法设计了基于中线的几何优化方法,将扭曲的染色体“拉直”。首先通过提取的三角形找到染色体中轴线,距离中轴线垂直距离最远的点必然为染色体的扭曲点。接着依据扭曲点和中轴线端点将染色体切分出两个最小边界框,记为Bboxl和Bboxh。如下所示,其中I表示一张染色体图像,Pcut表示扭曲点,Plow和Phigh分别表示染色体的两个端点。在依据Bboxl和Bboxh中图像的斜率,将图像旋转,得到拉直的染色体。
染色体分类网络接收三个输入,分别是原始图片,提取的染色体局部图片和拉直后的染色体局部图片。提取原始图片中的全局特征和局部图片中的局部特征,取得了优秀的核型分析结果。
染色体计数是核型分析的子任务之一,Xiao 等人[10]提出了一种针染色体计数方法,流程如图3 所示。选取ResNet-101 作为骨干网络,并改进了区域提取(RPN)时候选区域的选取方式,从特征图抽取区域时选取了包含易错误染色体(如粘连染色体)的候选区域作为负样本参与训练,增强了RPN 网络的效果。在处理候选区域时,提出了用于区分粘连染色体和重叠染色体的embedding 分支,通过一个模版模块获取每一个候选区域的嵌入值,据此判断染色体更接近哪种类型。
图3 基于深度神经网络的染色体计数流程
RPN 网络在训练时,默认将IOU>0.7 的区域是做包含前景物体,作为正样本,IOU<0.3 的区域作为背景区域负样本,部分包含粘连和重叠染色体的候选区域IOU 在0.5-0.7 之间,容易被丢弃不做训练,这会导致RPN 网络的准确性降低。该方法将IOU 在0.5-0.7 之间的样本作为强负样本,IOU 在0-0.3 之间的样本作为弱负样本,增强了对粘连和重叠染色体的检测。
为了提高对重叠和粘连染色体的判别准确度,提出了使用模版模块。染色体通常可以被归纳于五种模式:对角线模式、反对角线模式、横向模式、纵向模式和环状模式。因此以这五种模式作为模版,当候选区域中染色体重叠或粘连时,可以通过模版模块来进行抽取。物种模版的定义如下所示。其中TD,TTD,TH,TV,TC分别代表对角线模式,反对角线模式,横向模式,纵向模式和环形模式。IDrow{0,1,2,3,4,5,6} 和IDcol{0,1,2,3,4,5,6} 代表模版对应的像素位置,xrow=IDrow-3,ycol=IDcol-3。
该部分损失函数定义如下所示,Lpull计算的是属于同一个Ground Truth 区域的候选区域的embedding 之间的损失。其中Ngt表示ground truth 区域的数量,表示属于某一个ground truth 的候选区域的数量,表示属于第j 个ground truth 的第i 个候选区域的嵌入值。
林成创等人针对染色体核型分析任务中染色体重叠的难点,提出了一种基于增强路径算法的模型[11],其流程如图4 所示。考虑到核型分析任务即需要高层特征中的语义信息,有需要底层特征中的位置信息,而在特征提取网络中,位置信息需要经过很多层卷积操作才能到达高层,对原始信息会存在缺失。因此在特征提取模块之后增加了路径增强模块,低层特征在路径增强模块中经过较少的卷积层到达高层,位置信息保存较为完整。FPN 网络(Feature Pyramid Network)接收从高到低的语义信息,路径增强模块则接受从低到高的位置信息。
图4 基于路径增强网络的核型分析流程
此外,采用了多任务训练的方式。由于染色体分类的准确度在一定程度上受到染色体分割准确度的影响,因此使用了类似于Mask R-CNN 中多个头部分枝的做法,将核型分析任务所需要的染色体分割,染色体分类,染色体计数,染色体检测任务以多任务的方式添加到了输出层,同时对多个任务进行训练。其中类别和边框预测分枝用来检测染色体,染色体条数分枝用来做染色体计数,实例掩码分枝用来做染色体分割。多任务之间互相监督,提升任务的准确度。
近年来,越来越多的学者开始关注基于深度卷机网络的核型分析方法。传统的基于几何方法和预处理的核型分析任务,在复杂图像族的分割以及扭曲染色体的分类方面表现较差,染色体图像中的重叠染色体、交叉染色体是核型分析任务重的关键难点。得益于卷积神经网络在检测领域和分类领域的发展,为解决上述难点提供了一种新的方法,采用卷积神经网络进行核型分析方法开始收到相关学者的关注。现有的基于卷积神经网络的核型分析方法可以分为三步,且通常采用two-stage 的网络使用基于区域提取的方式来进行的分析:先提取图像特征,再使用RPN 网络通过图像特征提出可能包含染色体实例的候选区域,最后在输出层完成分类或计数任务。而通过以上介绍可以发现,采用卷积神经网络进行核型分析的方法受到了广泛关注,且在现有的论文中表现良好,值得进一步的研究和探索。