张德楠 王亚东
摘 要:本文针对目前生物信息研究中常见的高通量测序技术Chip-seq数据的正规化问题进行了研究。分析了目前常用的TMR正规化方法和LOWESS正规化方法中没有考虑到基因组的结构对于生物数据分布的影响这一不足,提出了一种新的基于基因组功能注释的LOWESS正规化方法。该方法更符合基因组生物学特征,可以根据基因组本身不同的生物学功能的差异,分区域分类别进行数据正规化处理,更符合基因组的生物学特征,也具有更高的可靠性。同时可以针对不同研究目的,依据不同的功能区域注释信息有针对性的对该区域进行正规化,具有更高的特异性和灵活性以及更低的时间和空间复杂度。
关键字:高通量测序技术Chip-seq;数据的正规化;基因组功能注释;LOWESS正规化方法
中图分类号:TP391.2 文献标识码:A 文章编号:2095-2163(2014)05-
Abstract:This paper studies the normalization methods of high-throughput sequencing technology Chip-seq data in current bioinformatics research. Current normalization methods commonly based TMR or LOWESS did not take into account the impact of structural genomics for the distribution of biological data. Due to this analysis, the paper proposes a new LOWESS normalization method based on features of genome annotation. This approach considering the biological characteristics of the genome data can process sub-regional normalization according to the different biological functions of genome itself and has higher reliability. At the same time, the proposed new method could normalize corresponding regions according to the different functional annotation for different research purposes with higher specificity and flexibility, as well as lower time and space complexity.
Key words: High-throughput Sequencing Technology Chip-seq; Normalization of Data, LOWESS Normalization; Functional Annotation of Genomes
0引 言
充足准确的生物数据是进行生物信息研究的基础与关键。之前对于转录层面相关的研究所涉及到的数据如基因表达量、转录因子结合情况等都来自于低通量的生物学实验[1-2]。原有的产生高通量数据的实验方法均是基于Chip-chip芯片测试并展开的,除了信号噪声较大外,这种芯片数据最大的问题则在于数据本身无法覆盖全基因组[3-5]。随着新一代测序技术的发展普及,尤其是Chip-seq技术出现之后,即以其高精度、低噪声、全基因组覆盖等优势而迅速成为时新的标准实验手段[6-7]。但基于Chip-seq实验产生的高通量数据却有其自身特点,在使用上不仅区别于低通量数据,与较早的高通量测序技术Chip-chip也不尽相同。此外,在实际研究和仿真实验中又常常需要不同细胞条件下多组实验的相互对照,以便从中分析、且得到差异。因此,当今在进行生物信息学研究中,标准化的、使不同实验间数据可资比较的新一代高通量测序数据正规化方法研究即已显得尤为重要且必要。
对于Chip-seq实验产生的数据目前常用的正规化方式主要包括TMR(total number of mapping reads)正规化方法[8]和LOWESS正规化方法[9]。具体来说,TMR正规化方法是一种通过将各样本总体reads直接从数量上扩大或缩小的手段来对不同生物条件下样本进行正规化的方法,只是这种直接比例扩增的正规化方法根本没有考虑到样本内部reads的分布情况,为此常常造成较大的误差。而LOWESS正规化方法则是曾经广泛用于Chip-chip数据正规化的方法,后被引入到对Chip-seq数据进行正规化处理。其实现过程是,LOWESS正规化方法是通过将实验中对照组之间数据值的对数差异,以及对照组之间数据值的对数平均值进行局部加权平滑回归而对数据完成了正规化处理。
但无论是TMR正规化方法还是LOWESS正规化方法都存在着一个重大缺陷:这些正规化方法根本没有考虑到基因组的结构对于其生物功能的影响。通过研究知道不同的DNA序列从功能上可以划分成基因区、基因间区、启动子区、3'和5'非翻译区等区域,这些区域有着截然不同的生物学功能,而且在不同的细胞环境下其生物数据也分别有着不同的分布特征。上述正规化方式进行的笼统而机械的正规化处理无疑破坏了这种生物学特征,还可能人为引进不必要的误差。
为了克服现有新一代高通量测序技术正规化方法的这种不足,研究根据基因组序列的生物功能注释提出了一种新的、基于序列上下文环境的正规化方法,这一新的正规化方法不仅能够保留样本数据中隐含的基因组结构信息,还避免了粗暴划分正规化区间造成的人为干扰,为进一步数据分析提供分布良好、细节丰富的数据样本。
1基于基因组功能注释信息的LOWESS正规化方法
基于上述工程实践的研讨分析,本文根据基因组序列的生物功能提出了一种新的基于序列功能注释的正规化方法。该方法通过利用来自UCSC的基因组注释信息对基因组进行功能分组,再依次利用局部加权平滑LOWESS方法进行正规化。这种基于序列上下文环境的正规化方法具体过程可做如下展开:
首先,注意对照组之间总的reads数量上的相互差异,如果差异较大则需要进行一次总体上的数量调整,使其在总体上可以进行比较;
利用基因组注释信息,根据基因的功能区分将全基因组划割为一个个生物学功能相关的小区域bin,并分别得到每一个区域上reads数量的原始初值。特别需要指出的是,本文的方法还可以根据设定的不同研究目、针对不同区域进行正规化,同时不同区域分割的bin也可以采用不同的尺度,由此而达到精度和计算开销的平衡。
由图1可以看到,在未经处理的原始全基因组Chip-seq数据MA-plot图中,其数据的分布向下方倾斜(由灰色实线表示);而在经过TMR正规化处理之后Chip-seq数据在全基因组上的分布则向上方倾斜(由灰色实线表示)。这两种分布都与理想情况下的分布曲线(0点处灰色虚线)存在差异,由此说明无论是未经处理的原始全基因组Chip-seq数据还是经过TMR正规化之后的Chip-seq数据都仍然存在不同程度的偏差。
在图2中,继而又对全基因组分别采用LOWESS正规化方式和本文基于基因组功能注释LOWESS正规化方法的正规化结果进行了对比。由此可以发现,从整体上看,两种正规化方法在全基因组范围上的正规化效果都比较好,体现样本MA特征的灰色实线比较完美地契合灰色虚线表示的理想状态下的MA特征曲线。但若仔细比较图像上黑色圆点代表的数据分布即会发现本文提出的基于基因组功能注释LOWESS正规化方法的正规化结果中,其数据的对称性要好于普通LOWESS正规化方法的结果。这也形象展示了本文提出的新正规化方法的良好性能。
由于本文提出的基于基因组功能注释LOWESS的正规化方法具有非常高的灵活性,可以根据研究者所关注的不同问题,依照不同的基因组功能注释,对基因组的某些区域进行正规化处理而不必针对全基因组进行正规化。研究进一步根据UCSC提供的基因组注释信息简单地将基因组分成启动子调控区间(每个基因TSS附近-600bp~+400bp)、基因体区间(每个基因TSS下游400bp~基因结束)和背景区间(其他基因区间),在每一个染色体上根据这些不同的功能分区对对应区间上Chip-seq数据进行正规化处理。实验发现,本文提出的基于基因组功能注释的LOWESS正规化方法在三个功能区间上的正规化结果都很好,在图3中,即是以16号染色体为例,对本文提出的新正规化方法结果进行了真实呈现。
3结束语
本文针对目前生物信息研究中常见的高通量测序技术Chip-seq数据的正规化问题进行了研究。分析了目前常用的TMR正规化方法和LOWESS正规化方法中没有考虑到基因组的结构对于生物数据分布的影响这一不足,提出了一种新的基于基因组功能注释的LOWESS正规化方法。该方法可以根据基因组本身不同的生物学功能的差异,分区域分类别进行数据正规化处理,更符合基因组的生物学特征,也具有更高的可靠性。同时还可以针对不同研究目的,依据不同的功能区域注释信息有针对性地对该区域进行正规化,结果展示了更高的特异性、灵活性以及更低的时间和空间复杂度。经过与传统Chip-seq高通量数据正规化方法的比较,尤其是与传统LOWESS方法的比较,验证了本文提出的这种新的基于基因组功能注释的LOWESS正规化方法具有更为良好的正规化效果。
参考文献:
[1] BUSTIN S A. Why the need for qPCR publication guidelines?--The case for MIQE [J]. Methods, 2010, 50(4): 217-226.
[2] BUSTIN S A, BENES V, GARSON J A, et al. The MIQE guidelines: minimum information for publication of quantitative real-time PCR experiments [J]. Clinical chemistry, 2009, 55(4): 611-622.
[3] HO J W, BISHOP E, KARCHENKO P V, et al. ChIP-chip versus ChIP-seq: lessons for experimental design and data analysis [J]. BMC genomics, 2011, 12(134).
[4] KAUFMANN K, MUINO J M, OSTERAS M, et al. Chromatin immunoprecipitation (ChIP) of plant transcription factors followed by sequencing (ChIP-SEQ) or hybridization to whole genome arrays (ChIP-CHIP) [J]. Nature protocols, 2010, 5(3): 457-472.
[5] SCHULZ S, HAUSSLER S. Chromatin immunoprecipitation for ChIP-chip and ChIP-seq [J]. Methods in molecular biology, 2014, 1149:591-605.
[6] LANDT S G, MARINOV G K, KUNDAJE A, et al. ChIP-seq guidelines and practices of the ENCODE and modENCODE consortia [J]. Genome research, 2012, 22(9): 1813-1831.
[7] PARK P J. ChIP-seq: advantages and challenges of a maturing technology [J]. Nature reviews Genetics, 2009, 10(10): 669-680.
[8] ZHONG M, NIU W, LU Z J, et al. Genome-wide identification of binding sites defines distinct functions for Caenorhabditis elegans PHA-4/FOXA in development and environmental response [J]. PLoS genetics, 2010, 6(2): e1000848.
[9] CLEVELAND W S. LOWESS: A program for smoothing scatterplots by robust locally weighted regression [J]. American Statistician, 1981.