于文帅
摘要:海量的生物医学数据为癌症的机制发现和治疗提供了机遇,越来越多的工作集中于癌症亚型的鉴定。基于深度学习的方法能够提取生物医学数据的深层特征,提高亚型鉴定的准确性。该文主要分析了多种基于深度学习的癌症亚型鉴定方法,对研究更加灵活地亚型分析方法具有借鉴意义。
关键词:深度学习;癌症亚型;CNN;DBN;DBM
中图分类号:TP301 文献标识码:A 文章编号:1009-3044(2018)06-0172-02
1引言
随着生物医学技术的快速发展,有超过100种癌症被发现,在世界范围内癌症被认为是发病和死亡的主要原因之一。据世界卫生组织统计,全世界在2012年有1400万新生癌症病例,在2015年有880万人死于癌症。准确的癌症预后和治疗变得特别重要,而亚型鉴定则是个性化预后治疗癌症的关键。癌症亚型是根据单种癌细胞的一些特征所得到的特定种类的癌症。癌细胞的特征既有细胞水平的形态特征,也有分子水平的表达特征。
现有的癌症亚型鉴定通过统计学方法对病理图像,基因表达和临床信息等数据进行分析,从而完成单种癌症亚型的鉴定任务。这些鉴定方法对单种数据或者多种类型数据进行建模。例如,基于基因表达特征的支持向量机方法,基于整合多种分子数据的矩阵分解方法,以及基于分子和临床数据的多元比例风险回归方法。但是这些方法已经不能解决大量积累的生物分子数据所带来的挑战。此外,积累的医学图像数据集对准确快速地处理大规模图像数据带来了新的问题。深度学习的出现能够解决上述问题。
深度学习现在已经广泛应用在计算机视觉、自然语言处理和生物信息学等领域。深度学习在癌症亚型鉴定方面根据数据特点选择合适的网络结构,还可以结合不同的预处理方法构造功能特异的架构。现在使用的网络主要有全连接深度神经网络,卷积神经网络,深度信念网络和深度波尔兹曼机。本文对基于以上四个深度学习网络的癌症亚型鉴定方法进行了分析。
2癌症亚型鉴定方法
2.1深度神经网络
深度神经网络(DNN)广义上是多种深度学习网络的统称,狭义上是指全连接的多层神经网络结构。与简单的人工神经网络相比,DNN的多个隐层用来提取深层抽象特征。DNN的输入层、中间隐层和输出层可以使用全连接方式构建网络。
Yuan等人使用基于全连接的DNN方法,对多种癌症进行分类。该方法主要有三个步骤:过滤集合基因,减少稀疏性和建立全连接DNN分类器。集合基因的过滤是基于突变频率来确定有判别性的基因子集。该步骤的特点是使用全部癌症数据来反映基因之间的关联性,以及不需要突变数据分布的先验条件。减少稀疏性作为一种和集合基因过滤并列的预处理方法,将基因数据转为非零的索引值来降低稀疏性。然后将过滤的基因和非零索引相级连作为DNN的输入,从而完成对DNN分类器的训练。这种基于全连接的DNN分类器有着比支持向量机、K-近邻和朴素贝叶斯更好地分类能力。
2.2卷积神经网络
卷积神经网络(CNN)是一种用于满足最小化数据预处理要求的多层感知器,常常作为图像分类器。CNN一般有输入层,转化层和输出层,但其中转化层常由卷积层,池化层,全连接层和归一化层组成。CNN还需要选择合适的超参数,一般包括滤波器个数,滤波器的滑动步长和滤波器的形状等参数。在训练模型时,卷积神经网络使用反向传播算法。
Hou等人提出基于图像块的CNN方法,对全切片组织图像进行细胞水平的癌症分类。这个分类方法由图像块水平的模型和决策融合模型组成。图像块水平的模型是一种基于期望最大(EM)的方法,并与CNN相结合来输出图像块的预测。该模型先假设有二值隐变量来表示图像块是否有判别性,并初始化所有图像块为有判别性,接着训练CNN用于输出每个图像块的类别概率,然后选择具有较高概率的块作为有判别性的块,使用得到的判别性块作为输入直到EM迭代收敛结束。在图像块选择完成后,判别性块的直方图作为决策融合模型的输入。决策融合模型可以作为一种基于计数的两级多实例学习方法,具有比标准多实例学习假设更一般的假设。该模型使用多类逻辑回归方法或者支持向量机来预测图像的癌症类别。在非癌症的小尺寸图集上,这个基于图像块的CNN方法比基于图像的CNN方法有更好的结果。
Ertosun等人使用两级CNN完成对两种癌症的分类和分级任务。两级CNN先完成对癌症的分类任务,再完成对癌症的分级任务。该CNN架构导致网络层数变多,从而难以选择最优的CNN架构。一般的解决方法是每个CNN独立地训练,并通过评估多种类型的CNN结构,进而选择合适的CNN架构。
2.3深度信念网络
深度信念网络(DBN)本质是堆叠的受限玻尔兹曼机(RBM),即每个RBM的隐层输出作为下一个RBM的可视输入。学习DBN的过程主要有以下两个阶段。在预训练阶段,DBN循环所有层的RBM,逐层学习RBM的权重变量。在微调阶段,DBN用预处理阶段的权重来初始化深度自动编码器,获取全局最优的权重。DBN模型可以分为单模DBN和多模DBN。
Young等人构造单模DBN,选取DBN的顶层特征对所有类型的癌症样本进行一致性聚类,进而得到组织特异的集合。该方法采用改进的8倍交叉验证方法选择模型。为了同时实现最小重建错误和防止过拟合,这种方法使用随机网格搜索方法来选择最优超参数。在模型选择后,开始训练模型并对顶层特征进行一致性聚类。和直接使用基因特征相比,DBN的顶层特征取得更好的聚类结果。更进一步,使用DBN的顶层特征对单一癌症进行亚型分析(聚类),DBN顶层特征能够反映通路水平上潜在的疾病机制。该单模DBN方法获取基因表达数据的隐层结构,进而建立癌症机制和病人生存之间的联系。
Liang等人提出用于整合多种平台数据的多模DBNtSl。该模型由多个单独的DBN和融合层组成,单独的DBN挖掘特异的模态特征,而融合层获取多个单独DBN的联合特征。该模型主要使用两个原则选择隐层变量个数,第一个原则是使用隐层变量个数的经验值,即隐层变量个数约为可视层变量的十分之一;第二个是根据最小重建错误选择隐层变量个数。该模型没有使用平均场推理和马尔可夫链蒙特卡尔等常用方法去学习RBM参数,而是使用对比散度方法来快速学习深度模型的参数。由于模型顶层隐变量的二值性,每种隐变量组合可以作为一个集合。例如,有3个顶层隐变量,就表示有至多8种癌症亚型。多模DBN的良好伸缩性可以方便处理具有大规模数据的生物问题。此外,与普通的K-means方法相比,这个多模DBN作为一个概率模型,在随机选择初始状态后仍能保持结果的稳定性。
2.4深度波尔兹曼机
深度波尔兹曼机(DBM)是全链接的多层玻尔兹曼机。DBM一般采用基于改進RBM的预训练算法。DBM和DBN的预训练算法不完全相同。在预训练过程里,DBM在底层上自底向上的权重是自顶向下的两倍,中间层RBM的权重在两个方向上均减半,而在顶层上自顶向下的权重是自底向上的两倍。直观上来看,两倍权重是为了补偿初始自顶向下或者自底向上的反馈。DBM多模构造的责任分散在整个网路里,而DBN的责任则全部在顶层完成。在数据重构时,多模DBM比多模DBN有更好的结果。
Syafiandini等人使用多模DBM整合基因表达数据和临床数据l圳,获取顶层特征作为RBM输入,最终得到癌症亚型。该模型同样使用对比散发方法学习参数。癌症亚型的鉴定仅使用只有一个隐层的受限波尔兹曼机,即多模DBM的顶层作为RBM的可视层,而隐层变量的数量则根据最小重建错误确定。
3结论
本文分析了对癌症亚型鉴定的多种深度学习方法,其优点是减少传统诊断的不确定性并能快速进行亚型分析,但其难点仍是模型结构的选择,训练速度的加快和准确性的提高。这些问题迫使研究更加实用有效的亚型分析方法,来促进精准医疗的发展。