李 美,凌婉阳,邓丹丹,胡朝晖
(广东省生物工程研究所(广州甘蔗糖业研究所) 广东省甘蔗改良与生物炼制重点实验室,广东广州510316)
随着现代技术的发展,生物信息学逐渐走向成熟并且能够不断降低成本大量生成序列信息。目前,生物信息学在农业信息学中也发挥着越来越重要的作用。生物信息学由数据库、计算机网络和应用软件3大部分构成,以高通量大规模实验及统计和计算机分析为特征,涵盖了生物信息的获取、处理、存储、整理、归类、分析和解释等方面内容,包括建立国际基本生物信息数据库和生物信息传输的国际互联网系统,建立生物信息数据质量的评估和检验系统,生物信息可视化和专家系统等[1-2]。
甘蔗作为重要的糖料作物,是食糖最主要的来源之一,目前甘蔗亦可用作生物能源原料。然而,由于甘蔗品种单一化、甘蔗病虫草害发生严重等问题,导致我国甘蔗产量低、含糖量偏低,生产成本较高,致使我国甘蔗糖业产业整体发展受到严重制约。因此,将新兴的生物信息学技术运用到甘蔗糖业产业将成为改善目前甘蔗产业现状重要的举措之一。
目前生物信息学在甘蔗生产的研究见图1[3]。甘蔗生物信息的发展可以分为2个阶段:基因组时代和后基因组时代。在基因组时代,甘蔗生物信息学的主要研究内容包括序列拼接和对比、序列的分子进化分析、蛋白质空间结构的预测、基因的预测和非编码DNA功能研究等。在后基因组时代,表达谱分析、转录组分析、代谢网络分析以及药物靶点筛选等成为甘蔗生物信息学的重要研究方向。
图1 不同技术水平甘蔗生物信息学分析[3]
利用生物信息学技术可为序列分析提供有力的帮助,可以完成从测序、峰、图等文件向核酸序列的转化,去除载体污染和重复序列,序列聚类和拼接,分析可变剪切,数据库搜索进行相似性分析,基因功能注释和功能分类,蛋白质结构预测等分析。通过对生物信息学数据库的汇总,为今后的研究提供数据支撑。
生物信息数据库大体可分为4个大类,即基因组数据库、核酸和蛋白质一级结构序列数据库、生物大分子(主要是蛋白质)三维空间数据库以及上述3类数据库和文献资料为基础所构建的二级数据库。其中,核酸和蛋白质一级结构序列数据库是最基本的数据库,目前较为常见的核酸数据库有:美国NCBI,欧洲分子生物学实验室的 EMBL (European Molecular Biology Laboratory),日本国家数据库DDBJ (DNA Data Bank of Japan),见表1。二级数据库详见表2、表3、表4。
甘蔗品种改良在很大程度上依赖于传统的育种方法,但传统的育种方法受到种间多倍体杂种遗传的复杂性和筛选农艺性状耗时长等因素的限制。现代生物技术的发展与应用为甘蔗遗传改良提供了较大的帮助,目前已开展了包括分子生物学、生物信息学和遗传学等在内的多学科交叉甘蔗育种研究,生物信息学与传统的育种方法相结合来提高育种效率,是目前甘蔗育种的主要发展趋势[4]。生物信息学在甘蔗育种方面有2方面优势,其一是发现新基因,另一方面是转基因手段。
3.1.1 从基因组序列预测新基因
这种方法实质上是把基因组中编码蛋白质和非编码蛋白质的区域区分开来,将这些序列与已知基因数据库进行比较,就可以发现新的基因。
3.1.2 通过多序列比对从基因组DNA序列中预测新基因
这种方法是通过未知序列与已知基因组 DNA序列进行多序列对比,通过相似性分析,预测未知序列的结构和功能,并间接分析获取未知序列的有用的信息和知识。
表2 蛋白质数据库
表3 结构数据库
表4 其他数据库
3.1.3 电子克隆发现新基因
表达序列标签(Express Sequence Tags,EST)是对应于某一种 mRNA的一个 cDNA克隆的一段序列,主要用途是在数据库搜索中,用EST片段进行cDNA克隆以分离出感兴趣的基因,与已有数据库同源比对分析。在生物信息学研究中,比对是最常用和最经典的研究手段。利用EST序列开辟一种有别于传统的寻找新基因的方式,而各种工具,如BLAST、GCG等也为分析序列信息提供了有效的手段。EST序列针对这些数据库进行BLAST搜索,可以获得查询序列统计学意义上的一些功能注释,如:同源物的序列识别号、功能描述、序列对齐分值、E值、开放读码框位置等,它们是判定查询序列可能生物学功能的主要依据。所测ESTs序列同源性分析可通过NCBI GenBank中BLASTn进行,并进一步在EMBL中利用FASTA进行比较。根据比对结果来判断所获EST片段可能的生物学功能,或判断该EST是否为新基因片段。
3.1.4 发现植物新基因
抗性是影响甘蔗生长发育的重要因子,分子生物学与现代生物技术的发展,使人们对植物抗性的分子机理有了更深入的认识。根据这些已知抗性基因序列的特征和序列的相似性,从测序数据中可预测其中可能包含的抗性基因,指导人们对甘蔗抗性基因的鉴定和发现。
目前,甘蔗生物信息学主要集中在甘蔗相关的酶、蛋白、激素等相关基因的生物信息学分析,通过生物信息学分析(包括序列特征、结构功能及聚类分析等)对基因各性状进行评判,揭示相关基因作用机理,为后续进一步的深入研究做铺垫。例如:蔗糖合成的关键酶之一的蔗糖磷酸合成酶(SPS),揭示蔗糖在植物生长发育中发挥的作用[5];通过对蔗糖代谢相关的甘蔗蔗糖转化酶家族基因生物信息学的研究,在作物经济产量形成与果实品质改良中发挥重要作用[6];与甘蔗分蘖有关的甘蔗ScHTD2基因,以及植物分蘖的关键基因 TB1、KNOX基因对植物顶端分生组织的形成和维持甘蔗 ScF-box基因独脚金内酯(新型激素,能够有效抑制植物分蘖)[7-8];以家族形式存在于植物中并参与各种生物进程的糖结合蛋白是植物凝集素超家族中的一类新成员,其中木菠萝素类凝集素基因经由 SA信号通路正向调控参与了甘蔗应答氧化胁迫,在甘蔗应答抗氧化胁迫机制过程中扮演积极的角色[9];与此类参与甘蔗生长、产糖等调控机制相关的酶还有甘蔗抗坏血酸过氧化物酶甘蔗 S-APX2基因、甘蔗几丁质酶基因SCCHI1、花穗中表达的一个 SR基因成员和甘蔗过氧化氢酶基因等。另外,通过生物信息学分析甘蔗ScNRT2蛋白基因家族用于培育和发展氮素高效利用新品种,研究甘蔗ATP合酶甘蔗及ADP/ATP转运蛋白酶能量代谢系统能为选育高蓄能能源甘蔗新品种提供一定依据。
生物信息学在甘蔗育种方面的应用主要集中在基因操作技术的研究,如外源基因在转基因作物中的表达,“报告基因”用于植物的转化,分离优良性状基因的技术等一系列突破,与常规育种技术相结合,提高育种效率,创造遗传育种资源,加快育种进程,这已是育种界的发展趋势。与传统的甘蔗改良方法相比,利用生物技术和基因工程工具培育的甘蔗优良品种打破原有品种的生育力低、易感性和培育周期长等诸如此类的限制。在这方面,基因操作技术和相关技术已经开发为甘蔗改良的新策略。目前基因组学研究旨在阐明甘蔗基因的结构、功能和相互作用。基因改良甘蔗,对农艺的抗性增强等特征可以用于甘蔗选育优良品种。
生物信息学专家将甘蔗品种的参考基因组序列,通过同源性搜索可以预测某一蛋白的功能,确定其是否为原有靶标蛋白的类似物或受体亚型,进而推测它是否可以作为特定“报告基因”转移到甘蔗品系中来,以期改善甘蔗品种的农艺性状,提高甘蔗选育效率。目前应用于甘蔗中的转基因技术主要是基因枪介导法和农杆菌介导法。近年来甘蔗的转基因研究主要育种可按基因的功能大致分为 3类,新型抗病虫、抗寒、抗旱和高糖以及作为生物反应器生产高附加值产品为主,同时在转基因生物的检测研究中也取得了较大的进展[10]。
第1类甘蔗抗虫害、抗除草剂和抗病菌类。例如:转Bt基因甘蔗防治甘蔗螟虫。近来杨川毓等[11-12]对转SrMVP1基因甘蔗的抗病性、活性氧代谢、产量和糖分进行了分析,结果表明在较高的病毒剂量胁迫环境中,转基因无性系植株对病毒侵染起到应激作用,其活性氧代谢相关指标的变化,最终导致其对病毒的抵御能力上的不同。
第2类甘蔗抗逆性,如抗旱、抗寒等,通过转基因已实现甘蔗抗逆相关基因、甘蔗抗逆相关蛋白以及抗逆种质资源鉴定评价等方面的研究。有研究从甘蔗叶片克隆得到一个为了适应干旱胁迫而在维管束鞘中产生的干旱诱导表达的基因 SoDip22[13],张积森等[14]克隆到一种水分胁迫响应基因SSADH,其与Ca2+存在调控关系,可以作为甘蔗抗逆育种的候选基因。甘蔗 ScSAM基因在聚乙二醇(PEG)胁迫下被诱导表达,其可能在甘蔗抗盐胁迫、抗旱或者抗渗透胁迫中起到调节作用[15]。随着甘蔗干旱胁迫时间的延长,甘蔗NDPK1基因的表达量呈先升高后降低的趋势[16]。这些基因都对干旱胁迫产生了相应的应答,在参与甘蔗干旱胁迫过程中具有重要的防御功能。
第3类开发高附加值产品,如利用甘蔗作为生物反应器生产果聚糖、生物塑料等。
由于甘蔗连年大规模种植、品种单一、抗药性等问题,甘蔗病虫害对甘蔗造成的损失日趋严重。由于发生期长短不一,世代重叠,交替为害,隐蔽性强,危害严重,损失巨大,因此,建立甘蔗田间病虫害综合防控技术体系成为甘蔗病虫害综合防控的关键[17]。
甘蔗对外界生物环境的适应性主要表现在对病虫草害等的抵抗能力方面,目前化学防治仍是治理甘蔗病虫草害的主要措施,通过对甘蔗抗性机制的研究,可以利用生物信息学工具和方法在特定基因组中发现或追踪与农艺性状相关的特定基因并诠释其功能。生物信息学的另一个重要研究内容是进行蛋白质、DNA等结构模拟和分子设计以及随之而来的药物设计[18]。
甘蔗虫害是为害甘蔗产量和质量的重要因素之一,本文以生物信息学在甘蔗害虫中的应用为例进行阐述。
目前常用的发现昆虫新基因的方法主要有同源性搜索和表达差异分析。
同源性搜索:通过对EST数据库的表达差异分析可以发现不同组织或不同病理状态下细胞内基因表达的差异,根据这些差异可确定与疾病相关的候选靶标,并对其进行功能验证确定为靶标蛋白。
表达差异分析:通过培育筛选出不同品系的甘蔗害虫,利用分子生物学手段进行表达差异分析,鉴定出与表达差异相关的基因,对甘蔗害虫的机理进行深入的研究,同时可以利用基因沉默(RNAi)技术来实现差异基因的敲除,验证筛选基因的功能。
利用生物信息学分析工具可以帮助人们在药物开发过程中更快地寻找或发现潜在的药物作用靶标,减少研发时间。基于 4.1中同源性搜索和表达差异分析发现昆虫新基因,利用生物信息学的方法从数据库中获得该靶标蛋白的三维结构或利用同源建模的方法模建其三维结构,用于药物的计算机辅助设计[19]。因此,生物信息学在确定药物作用靶标的过程中起着非常重要的应用。
生物信息学是通过使用大量数据分析而揭示指导深层次研究的重要工具,目前其正在迅速扩展到不同的学科,可能在未来的研究中将发挥重要作用[20]。甘蔗是一种复杂的经济性很高的农业作物,因其具有多等位基因、高多倍性和非整倍性的生物学特征,所以生物信息学技术的使用在新品种的选育和防控体系的建立中显的尤其重要。本文相信利用生物信息学手段分析将开辟出新的研究领域,将进一步深层次剖析甘蔗的研究机理,最终实现指导生产的目的。