杨雪莲,贝学军,朱友娟
(1.贵州大学,贵州 贵阳 550025;2.西南大学,重庆 400716;3.阿克苏职业技术学院,新疆 阿克苏 843300)
基因芯片是近年来科学界和商界迅速发展起来的一门生物高新技术。它是以分子生物学、计算机科学、生物信息学、基因测序技术、微电子技术、高分子化学合成技术和激光技术发展及其有机结合的产物。
基因芯片技术在植物研究领域中发挥着越来越重要的作用。Affymetrix公司生产的Citrus Genome Array[1]芯片是第一个商品化的果树基因芯片。该公司的柑橘基因组芯片在柑橘研究领域中做出了重大贡献[2],如易去皮、无核、提高风味组成、去除有害物、疾病控制、提高营养特征和再生利用等方面都有所贡献[3]。
Fujii等运用22 K的柑橘寡聚核苷酸芯片研究发现乙烯受体蛋白Ⅱ(ETR2)在成熟果实中受外源乙烯的诱导,而其他乙烯受体不被诱导[4]。Agustí等人在含有7000个Unigene的cDNA芯片研究了外源乙烯对柑橘叶片离层与叶柄的基因表达谱差异,结果表明叶柄感受乙烯效果比叶片强烈[5]。Martinez-Godoy构建了20 K cDNA芯片,用于不同种的柑橘品种基因表达分析,同时构建了此芯片数据库供用户进行基因芯片数据分析[6]。Liu等制作了柑橘cDNA芯片研究优异芽变特性,结果显示13个与编码信号转导途径基因值得关注[7]。Cereos等构建与柑橘果实成熟相关的cDNA文库,发现在柑橘果实发育过程中,柠檬酸代谢途径为 γ 氨基丁酸(GABA)途径[8]。
表达谱芯片在实际应用中局限于其数据的分类或基因预测及芯片上相对基因功能分析。从生物芯片上凝聚的海量信息中找出重要信息需要将生物信息学知识和统计方法相结合。
基因芯片数据的预处理是十分关键的步骤,是判定数据可靠性的基础。基因芯片数据预处理和归一化直接影响后续分析的结果。寡核苷酸芯片采用高效多阵列分析法(RMA)、MAS、MBEI等软件进行数据预处理。
cDNA芯片的数据预处理主要包括通过数据过滤获取需要的数据、数据转换满足正态分布的要求、缺失值的估计弥补不完整的数据、数据归一化、纠正系统误差等内容[9]。
基因芯片制作、杂交、信号扫描、数据输出等过程所需成本较高,因此进行芯片实验时具有小样本和大变量的特性,需要对输出数据进行进一步验证。数据归一化起到调整由基因芯片技术引起的误差,从而准确发现芯片中信息变化。
根据样品分组进行方差分析(ANOVA),根据组间p≤0.05初选出组间表达差异(上调或下调)2倍的基因。由于基因芯片实验上的局限,即使数据处理方法非常巧妙也难免产生大量错误,Benjamini在1995年提出了一种方法,通过控制假阳性率(FDR)来决定p值的范围[10]。在一张cDNA芯片一般假设表达的比值满足正态分布,实际中常对比值取其Z值,则每条基因的Ζ值为Ζ=(Χ-μ)/σ,其中 Χ表示这表基因的表达比值,所有基因比值的平均值为μ,方差为σ。把±2作为Ζ值的判别标准时这种方法会选出5%的差异表达基因[11]。筛选差异表达可使用假设判定法,假设一个对数比值服从正态分布,给定一个界值和一个具体分布,可信水平或P值就是测量值由于随机因素落在图中的概率。若对数比值落在阴影中的基因原理对数比值的平均水平的位置,就被称为差异表达基因[12]。还有方差分析法和噪声抽样法,及以最大似然估计方法为基础的模型等均可用于差异基因筛选。
聚类分析(Clustering analysis)是基因表达数据分析最常用的多变量技术。聚类分析的对象可以是基因也可以是样本或序列。通过聚类分析可以了解某一生物学途径上催化一系列反应的酶的表达规律,有助于阐明一些特殊的代谢通路和基因调控的机理。当某些新基因与已知功能的基因归为一类时,就可以推测并描述新基因的潜在功能。聚类结果还可以进一步为难以进行遗传学处理和基因组序列不全的物种提供功能分析的切入点。基因芯片技术能监测成千上万的基因的表达情况,这就要求有全局的把握一些特别情况下和生物过程产生的基因转录水平分析,因此分析基因表达情况时要求把相近表达模式的基因进行聚类。在基因芯片表达数据分析中,可应用系统聚类分析、Bayesian聚类分析、K均值聚类分析、自组图分析、主成分分析、二向聚类分析、神经网络聚类分析等统计分析手段。
对基因芯片数据进行生物学解释是基因芯片后期数据挖掘的一个重要方向但也是生物学瓶颈部位。解决这个问题可借助于各种生物学信息数据库进行后续分析。Ensembl数据库、LocusLink数据库、RefSeq数据库、NAR数据库(核酸研究);关于疾病信息:孟德尔遗传信息数据库(OMIM);蛋白质家族信息:InterPro数据库;转录因子调节分析Transfac数据库;功能分类:Gene Ontology数据库、GOA数据库;生物学通路和生物学相互作用的分析:KEGG、BioCarta数据库、Transpath数据库、GenMAPP数据库等;生物学网络中的基因分析:CytoScape数据库等。植物基因组功能注释的基因家族数据库(GreenPhylDB),以NCBI为基因比对中心,结合其他数据库对数据进行特异性分析达到对研究对象的全面了解。
可用来分析柑橘基因芯片的数据库有Citrus Functional Genomics Project(CFGP)、慕尼黑蛋白序列信息中心(MIPS)、harvEST、David及 AFFY提供的数据库等。华中农大完成甜橙基因组测序,并建立相关网站供柑橘研究者使用(网址为://citrus.hzau.edu.cn/orange/tools/blast.php)。柑橘中有13266条基因与拟南芥Unigene同源性很高,占柑橘基因组芯片的63%[13],目前只能通过查看该探针在NCBI上的信息或者查找其与拟南芥或其他植物同源性很高的基因的GO信息来推断其功能信息,需要逐一检索,工作量很大。很多情况下,研究者根据自己感兴趣的基因定义为一定名称的基因集,当其想要在一个表达基因列表中检索这样的基因集时,可以应用统计检验方法精确检验同源性,之后利用其他数据库资源进行同源性分析即可。
基因芯片可用于发现新基因。Aharoni等从草莓中分离了1701个cDNA克隆片段,构建成微阵列芯片来研究草莓果的不同成熟时期果色与成熟度的关系,他们发现了草莓乙酰基转移酶基因成熟果实的风味合成中发挥了关键的作用的,而且发现红色果实比白色果实乙酰基转移酶基因的表达活性高[14]。
寡核苷酸芯片用于研究植物基因的结构。Winzeler使用高密度寡核苷酸微阵列研究14种不同的酵母菌株,发现两种酵母株基因组结构差异主要表现在端粒区域,通过非同源序列之间的重组对酵母株基因组结构加深了认识[15]。Batista指出人们一直对转基因作物对人体的潜在的危害存在很大争议,Batista使用寡核苷酸芯片检测水稻基因表达情况,发现诱变和转基因相比诱变更广泛程度上改变基因表达[16]。基因组芯片应用为改良品种的食品安全评估提供一定的参考价值。
基因组芯片用于植物及其病害的基因表达检测也有较大突破。Puthoff等使用Affymetrix的大豆基因组基因芯片,发现大豆胞囊线虫病诱导大豆的细胞壁结构蛋白相关基因丰量表达,参与乙烯代谢途径、病原相关蛋白和抗逆蛋白相关基因大量产生[16]。
基因芯片应用领域非常广阔,已经应用于药物筛选和新药开发、疾病诊断、环境保护、司法鉴定、现代农业、科学研究领域及生物传感器等诸多领域,并且取得较好的成果。
基因芯片技术可以用来筛选农作物的突变基因,并寻找高产、抗病虫、抗干旱、抗冷冻的相关基因,可以用于基因扫描及基因文库作图及商品检验检疫等领域。目前基因芯片对农作物基因组测序做出了重要的贡献。随着基因芯片技术的发展,可将其运用在新基因寻找、检测基因表达水平、进行后基因组学研究及转基因农产品检测和植物检疫等方面。根据市场实情,研究低成本、高效和快速检测芯片是今后研究的重点。
[1]杨雪莲.乙烯诱导伏令夏橙果实脱落过程中重要功能基因的克隆、表达与功能分析[D].重庆:西南大学,2010.
[2]Talon M,Gmitter F G .Citrus Genomics[J].Int J Plant Genomics,2008(1):32.
[3]Fujii H,Shimada T,Sugiyama A,et al.Profiling etylene -responsive genes in mature mandarin fruit using a citrus 22K oligoarray[J].Plant science,2007(173):340 ~ 348.
[4]张凌云.乙烯诱导柑橘果实脱落的转录基因组学研究及乙烯诱导基因的克隆和鉴定[D].重庆:西南大学,2010.
[5]Martinez Godoy M A,Mauri N,Juarez J,et al.A genome wide 20 K citrus microarray for gene expression analysis[J].BMC Genomics,2008(9):318~320.
[6]Liu Q,Zhu A,Chai L,et al.Transcriptome analysis of a spontaneous mutant in sweet orange[Citrus sinensis(L.)Osbeck]during fruit development[J],JEB,2009(2):1 ~3.
[7]Cereos M,Soler G,Domingo J,et al.Global analysis of gene expression during development and ripening of citrus fruit flesh.A proposed mechanism for citric acid utilization[J].Plant Mol Biol,2006,62(5):13 ~527.
[8]吴 斌,沈自尹.基因芯片表达谱数据的预处理分析[J].中国生物化学与分子生物学报,2006,22(4):272~277.
[9]Benjamini Y,Hochberg Y.Controlling the False Discovery Rate:A Practical and Powerful Approach to Multiple Testing[J].Journal of the Royal Statistical Society,1995,57(1):289 ~300.
[10]Salamon H ,Maeda M K,Small P M,et al.Detection of Deleted Genomic DNA Using a Semiautomated Computational Analysis of GeneChip Data[J].Genome Res,2000(10):2044 ~ 2054.
[11]Li Y.DNA microarray data analysis and processing[M].Beijing:Chemical Industry Press,2006:74 ~316.
[12]张凌云,阳佳位,王 淼,等.DNA微阵列技术在柑橘研究中的应用[J].果树学报,2010(1):110~114.
[13]Aharoni A ,Keizer L C P ,Bouwmeester H J,et al.Identification of the SAAT Gene Involved in Strawberry Flavor Biogenesis by Use of DNA Microarrays[J].Plant Cell,2008(12):647 ~ 661.
[14]Winzeler E A,Castillo - Davis C I,Oshiro G,et al.Genetic Diversity in Yeast Assessed With Whole-Genome Oligonucleotide Arrays[J].Genetics,2003(163):79 ~ 89.
[15]Batista R,Saibo N,Lourenc T,et al.Microarray analyses reveal that plantmutagenesis may induce more transcriptomic changes than transgene insertion[J].Proc Natl Acad Sci U S A,2000(9):3640~3645.
[16]Puthoff D P,Ehrenfried M L,Vinyard B T,et al.GeneChip profiling of transcriptional responses to soybean cyst nematode,Heterodera glycines,colonization of soybean roots[J].J Exp Bot,2007(12):3407~3418.