张倩
(四川大学计算机学院,成都610065)
作为一种重要的生物实验技术手段,DNA 测序(DNA sequencing)在生物学研究中有着广泛的应用,伴随着第二代测序技术的日趋完善,许多物种已经完成了全基因组的从头测序。并且近年来,单分子测序(SMS)技术已经出现了各种重要的应用。这些技术也被称为第三代测序技术,产生的测序读数比Illumina的读数长2 到3 个数量级(10-100kbp 对100-250bp)。较长的读数长度使得包括Pacific Biosciences(PacBio)和Oxford Nanopore Technology(ONT)在内的新的SMS 技术在解决复杂的基因组组装问题和检测大型结构变异方面具有前所未有的强大功能。
常用的群体遗传变异鉴定工具有DNSTAR、GATK、samtools、freebayes、SOAPsnp、Varscan2、sambam⁃ba 等软件。其中最常用的为GATK、samtools、sambam⁃ba 和freebayes。这四个工具中,sambamba 软件在单样本数据以及多样本数据中,在速度方面均具备显著优势。而gatk 软件只在多样本数据分析上有一定的检测速度优势。而在变异鉴定结果准确性方面,samtools 和sambamba 软件倾向于寻找比较全面的变异,而gatk 和freebayes 软件则更倾向于寻找准确性较高的变异[1]。
现在在基因组数据中有两个比较具体的挑战:新型测序技术产生基因数据的高特异性和高灵敏度的SNPs 鉴定及indels 鉴定。这两项任务对研究罕见变异、等位基因特异性转录和翻译以及剪接位点突变至关重要。目前的方法对于Illumina 短read 数据中的SNPs 和indel 的精度均在99%以上,然而这些方法会留下大量潜在的假阳性和假阴性。这些方法都依靠专家建立可靠的将信号与噪声分开的概率模型,这个过程是很耗时的,从本质上讲是受限于我们对于导致噪声的因素的理解与建模能力。
所以在传统基因鉴定工具愈发成熟的加持下,研究人员将目光投向了近些年大展身手的深度学习之上,利用深度学习来构造由数据驱动的无偏噪声模型。
深度学习是一种机器学习技术,深度学习受到了越来越多研究者的关注,它在特征提取和建模上都有着相较于浅层模型显然的优势。深度学习善于从原始输入数据中挖掘越来越抽象的特征表示,而这些表示具有良好的泛化能力。它克服了过去人工智能中被认为难以解决的一些问题。且随着训练数据集数量的显著增长以及芯片处理能力的剧增[2]。它应用于多种领域,包括图像分类、翻译、游戏和生命科学。
深层神经网络是目前的主要形式,其神经元间的连接模式受启发于动物视觉皮层组织,而卷积神经网络则是其中一种经典而广泛应用的结构卷积神经网络的局部连接、权值共享及池化操作等特性使之可以有效地降低网络的复杂度,减少训练参数的数目,使模型对平移、扭曲、缩放具有一定程度的不变性,并具有强鲁棒性和容错能力,且也易于训练和优化。基于这些优越的特性,它在各种信号和信息处理任务中的性能优于标准的全连接神经网络。
采用深度学习的算法来处理基因数据并用于基因变异鉴定的核心思想是:基因变异鉴定问题也可以转换为分类问题,对于一个变异候选位点来说,其variant call 就是在对这个数据进行分类;因此从基因数据中训练出概率模型,再用概率模型去判断后续数据。
本文中介绍这一核心思想下的两种深度学习使用方法,第一种将格式为bam 的变异基因数据和格式为fa 文件的参考序列转换为堆积张量,将堆积张量用于神经网络的训练和测试。第二种采用工具寻找基因数据中的特征,并将这些特征矢量化为适合训练网络的特征,再用于概率模型的训练。
2016 年12 月Google 旗下的子公司Verily 发了一篇文章描述了一个针对全基因组测序变异位点(SNP和small indel)检测的新算法,这个算法不同于一般基于统计方法的软件,而是利用了卷积神经网络识别变异位点[3]。DeepVariant 利用谷歌大脑为图像分类而训练的神经网络架构Inception v2,将候选SNP 周围的reads 编码为221×100 位图图像,其中每列是一个核苷酸,每行是一个从样本库中读取的reads 序列。前五行代表参考序列,后95 行代表随机抽样覆盖了这个变异候选位点的reads 序列。每个RGBA 类型的图像像素将碱基A、C、G、T 编码为不同的红色值,质量分数编码为绿色值,正负链信息编码为蓝色值,与参考序列的变异编码为alpha 值。
堆积图选取的编码信息如下:
(1)base:序列碱基
(2)base quality:碱基质量分数
(3)mapping quality:序列比对质量
(4)strand 正反向链
(5)supports variant:是否支持alternative allele
(6)supports reference:是否支持reference allele
带有明确变异位点标签的编码堆积图放入13 层网络中进行训练,此网络采用Inception v2 网络架构。训练好网络之后,将没有标签的变异候选位点堆积图放入网络中,即可进行变异鉴定。
神经网络输出的结果为每个变异候选位点的基因型概率。
图1 DeepVariant整体过程
同样是使用深度学习来处理基因变异鉴定,Remi Torracinta[4]的方法与DeepVariant 却不一样。Remi Tor⁃racinta 设计的方法采用Goby 框架来找到reads 比对序列和参考序列的特征,并且将这些特征矢量化为适合训练前馈神经网络的特征和标签。
Matcha 的神经网络中最核心的是特征映射器,特征映射器将样本中的对齐序列转换为一组适合训练神经网络的固定特征集。不论在基因组上有多少对齐的reads 序列,映射器都会产生一个固定长度的输出,这些输出可以一致性的转换为一个固定长度的用于神经网络训练的输入向量。再每个基因组位点,映射器都会生成每种基因型的reads 序列的读数和reads 序列中支持这个基因型的不同位置的数量。每一个基因组位点会衍生出数百个特征。
对于标签映射器来说,有两种不同的方法,一种是单独调用等位基因,并对等位基因的数量进行编码,另一种类似于DeepVariant。这两种方法分别适用于任意倍体基因组和二倍体基因组。
模型采用DeepLearning4 框架,并于Goby 框架进行集成,网络结构为五层网络。将对齐后的基因文件输入特征和标签映射器,选择特征映射器,会在训练集上产生用映射器训练的模型,这个模型可以用于在测试集上的基因变异鉴定。
通过现在出现的两种不同的用深度学习方法来进行基因变异鉴定方法的介绍,笔者对他们在变异鉴定效果和范围上的优缺点做出如表1 对比分析。
表1 两种深度学习应用方法的比较
两种方式使用了不同的思路来使用深度学习对基因数据进行变异鉴定。两者既有相似之处也有不同之处。两个方法最核心的思想是一样的:从数据中训练概率模型,并用这个概率模型进行后续判断。不同之处在于:DeepVariant 是将基因数据经过编码转换为堆积图,再将堆积图用图像分类网络进行训练和鉴定;Matcha 是利用Goby 框架从数据中寻找特征,然后手动将特征放入网络。
DeepVariant 只适用于二倍体生物,而Matcha 可以用于任意倍体生物的基因变异鉴定;DeepVariant 能够寻找变异类型中的SNPs 和INDEL,而Matcha 专门用于寻找SNPs。
同时计算效率上两者也有较大差异。将数据转换为堆积图,DeepVariant 至少需要使用300 万像素,而Matcha 使用了642 个浮点表示特征与标签,所以Mat⁃cha 的数量级较小,对硬件的要求也比较低。
随着深度学习的火热,基因数据研究者也将自己的目光放在了深度学习之上。本文对两种不同类型的采用深度学习进行基因变异鉴定的方法进行了介绍与对比,深度学习算法有时是比GTAK 等工具性能更好的。结合发展趋势与需求,未来研究工作地重点可能主要包括:
(1)Matcha 类似的需要手动寻找特征的方法,虽然有着更广阔的应用范围,但由于这个特征集在开发期间至少要经过15 次的迭代微调,所以这个模型并不会泛化。是否有更好地寻找特征集的方法,能够减少微调过程及次数,使这个模型能够泛化。
(2)DeepVariant 对Illumina 数据的效果较好,但对于PacBio 等reads 序列较长的数据来说,DeepVariant不是最佳选择。下一步研究工作,可以着重考虑修改网络,使其能够对第三代基因数据和PacBio 等基因数据有较好的效果。
(3)DeepVariant 所使用网络较大,这导致计算效率较低,计算成本较大。今后的研究可以考虑使用不同大小的网络,使得计算效率能够得到较大的提升。
(4)DeepVariant 因为其编码信息较多,导致堆积图像素较大,DeepVariant 的堆积图是一个七通道图像。今后的研究可以考虑选择编码哪些关键信息来更改堆积图的大小,使得其计算效率提升的同时准确率不会大幅下降。
利用深度学习方法来进行基因变异鉴定仍处于发展阶段,其中还有很多问题等待研究者们解决。