孙千代 徐杰英
(北京市第九中学 100041)
随着基因组测序技术的不断发展以及测序成本的不断降低,越来越多的真核生物基因组被测序。然而,基因组序列本身只是一串串由A、T、C、G四个字母所组成的、枯燥难懂的字符,只有当这些字符串的生物学意义被解读了,即基因组序列被注释了,人们才能够有效地使用基因组序列。由此,在基因组测序完成之后,要做的第一件事就是进行基因组注释(genome annotation)。
由于基因组组装得好坏直接决定了基因组注释的质量,所以在进行基因组注释之前,先要评估一下基因组组装的质量。目前有许多评价指标可以用来描述基因组组装的完整性以及连续性,其中应用得最为广泛的就是N50数值(整个基因组序列长度的50%是由长度大于或者等于某个长度的序列所构成的,这个长度即为N50)。一般来说,N50越长,表示组装的结果越好。当一个基因组组装的N50长度大于或等于这一物种基因的平均长度,那么表示基因组组装的质量不错,可以进行后续的注释工作。此外,有一些软件(如BUSCO)采用与N50指标互补的方法来评价基因组组装的质量。它把基因组组装后的序列与谱系特异性的一套单拷贝基因进行对比,来确定这些单拷贝基因完整地出现在一条序列上的百分比,借此来评价基因组组装的完整性以及连续性。如果一个基因组组装得不太完整或者N50太短,则需要额外加测一些序列来提高基因组组装的结果,以便于对基因组进行注释[1]。
真核生物的基因组里面有着大量的重复序列。例如,人类的基因组里有大约47%甚至更多的重复序列。重复序列的存在使基因组注释复杂化,并且会使基因注释的精度大幅降低。因而,在注释基因组内的基因之前,需要对基因组内的重复序列进行注释。目前有两种主要的鉴定重复序列的方法,即依据序列相似性的重复序列鉴定以及重复序列的从头鉴定。在很多情况下,是把两种方法结合起来进行重复序列的鉴定。当把一个基因组内的重复序列鉴定出来之后,就可以借助软件RepeatMasker把该基因组内所有的重复序列都标记出来,以帮助下一步的基因注释软件跳过这些重复序列[1]。
基因组注释的主要内容是:鉴定出基因组内的基因,确定基因的结构(内含子-外显子的边界等),并推断出基因可能的功能(是否编码蛋白质等)。
目前主要有两类方法被用来鉴定基因组内的基因,并确定它们的结构:第一类方法是把来源于同一物种或者亲缘关系较近物种的蛋白质序列、表达序列标签(EST)或者转录组序列(RNA-seq)与新组装的基因组序列进行比对,根据序列比对结果进行基因鉴定和基因结构解析;第二类方法是基于数学模型的基因从头预测,它利用软件自带的参数文件(包括密码子使用频率、外显子-内含子的长度分布等特征),来区分基因区与基因间区,确定基因的外显子-内含子结构。基于数学模型的基因预测方法的好处是:当一个新测序的基因组没有足够的蛋白质序列、表达序列标签或转录组序列时仍然能够进行基因组注释。但由于软件所自带的参数文件具有物种特异性,而且它们都是来自于非常经典的模式生物的基因组。所以,如果所要进行基因组注释的生物与这些模式生物的亲缘关系很远时,那么使用基于数学模型的基因预测方法就会不太准确。因此,目前主流的做法是分别使用第一类和第二类方法进行基因注释,然后把两类方法的基因注释结果进行整合,并利用一些软件(如GLEAN)来挑选出针对于同一个基因的“最优”注释[2]。
当一个基因组的注释工作完成之后,首先要把尽可能全面的注释信息(如基因的外显子-内含子结构、基因的起始密码子、终止密码子、基因的选择性剪切等)以恰当的文件格式(如GFF3格式)存储起来;然后将基因组的注释信息提交给大型的生物信息学公共数据库(如GenBank 和 Ensembl),或者自己建立一个小型的数据库,以分享注释结果。这样,基因组注释的结果就可以让更多的人获得,以促进相关领域的研究工作[2]。
高质量的基因组注释在重要功能基因的挖掘、致病基因的鉴定以及农作物新品种的培育等方面发挥着巨大的作用。但是,真核生物基因组注释的工作并不是一劳永逸的,因为随着注释工具以及测序技术的不断发展,需要不断地对现有的基因组注释进行周期性的更新。因此,真核生物的基因组注释工作任重而道远。