彭 歆,钱 乾,谭健韬,彭 波,甘玉立,王成睿,刘 琦,沈梦圆
(广东省农业科学院 水稻研究所/广东省水稻育种新技术重点实验室/广东省水稻工程实验室/农业农村部华南优质稻遗传育种实验室(部省共建),广东 广州 510640)
水稻、小麦和玉米是全球三大粮食作物,合计约占全球粮食总产量的87%。预计2010—2050年世界对主要粮食作物的需求将增加60%[1]。水稻是单子叶植物的模式植物,也是第1个完成全基因组测序的谷类作物。水稻研究的主要目标是确定每个基因的功能并改善作物的农艺性状[2]。以基因组重测序技术为代表的高通量组学技术在水稻中得到广泛应用,促进了水稻基因功能研究和重要性状遗传改良[3]。
生物信息学是生物科学的一个跨学科分支,可以用来开发用于收集、处理和分析不同生物数据以了解生物功能的方法和工具[4]。在水稻基因组研究中,生物信息学可用于基因序列比对、基因组组装、基因组元件预测和群体遗传学分析等[4-5]。随着越来越多的水稻基因功能得到解析,借鉴水稻生物信息学的研究方法将有助于改善其他作物的农艺性状。此外,生物信息学与前沿基因编辑和合成生物学技术相结合,有望实现对农艺学性状的精准调控和品种的定向改良[3,6]。生物数据正在爆炸性增长,为了有效管理这些大数据,研究者已开发了超过5 909个数据库,涉及1 525个物种[7]。鉴于水稻生物信息数据库和在线分析工具的激增,对其进行系统的归纳和总结,有利于科研工作者和育种家更好地利用这些资源。
在这篇综述中,笔者系统总结了已报道的水稻相关生物信息学数据库和基于网络服务器开发的在线分析工具,并进行了分类。根据是否只包括水稻一个物种,将数据库分为水稻专门数据库和综合数据库;根据数据集的主要类型和功能,将数据库分为基因组数据库、转录和转录后调控数据库、基因网络数据库和种质资源信息数据库。此外,笔者还总结了可用于基因编辑和智能育种的在线分析工具和数据库。最后,讨论了现有的水稻生物信息数据库和在线分析平台的问题与不足,并对它们在大数据和人工智能时代的发展方向进行了展望。
高质量的参考基因组信息和准确的基因功能注释,是水稻功能基因组学研究的基础。在21世纪初期,为了推动稻属基因组研究的发展,Wing等[8]提出了OMAP计划(Oryzamap alignment project)。在这个框架下,已完成的超过73个稻属种质资源的参考基因组,涉及17个物种,包括所有的二倍体物种和2个异源四倍体(CCDD和KKLL)。由于使用单一参考基因组会导致基因组分析出现严重的偏差,丢失大量群体尺度的遗传变异信息。泛基因组包括一个物种的核心基因和非必须基因,是解决上述问题的有效方法。Yao等[9]基于1 483个栽培水稻种质的低覆盖度重测序构建了第1个水稻泛基因组。3KRG (3 000 Rice genomes project)完成了3 010份国际水稻基因组测序,并获得了它们的线性泛基因组[10]。Zhao等[11]基于67份亚洲栽培稻和普通野生稻高深度二代测序数据,组装了亚洲栽培稻-普通野生稻的线性泛基因组。Qin等[12]构建了33个水稻品种的图形泛基因组。Shang等[13]构建了包括亚洲栽培稻、普通野生稻、非洲栽培稻和短舌野生稻的稻属超级泛基因组。RGI (Rice gene index) 基于同源基因簇构建了水稻泛基因组数据库,提供了丰富的模块和工具,支持对不同种质基因以及基因同源关系进行查询、分析和可视化[14]。Wang等[15]构建了413份国际籼稻的图形泛基因组。此外,已完成了超过6 000份水稻种质资源的基因组重测序,这些原始数据大部分储存在SRA(Sequence read archive)和GSA (Genome sequence archive)数据库。针对上述水稻参考基因组、泛基因组及海量的基因组重测序数据,已开发了多个数据库(表1)。根据是否只包含水稻的数据集,这些数据库可以分为综合数据库和水稻专门数据库。NCBI[16]、Ensembl[17]和Phytozome[18]是比较著名的综合数据库,它们提供了大部分已测序物种的参考基因组和比较详细的基因组注释信息;RAPDB[19]和MSU-RGAP[20]数据库是2个著名的水稻专门数据库,为第1个水稻参考基因组‘日本晴’提供基因组注释资源;基于籼稻参考基因组‘珍汕97’和‘明恢63’,Song等[21]开发了RIGW数据库,包括了基因组学、转录组学和蛋白质-蛋白质相互作用数据集;IC4R提供了一个专门用于整合水稻基因组序列、基因注释和表达水平信息的平台[22];RPAN[10]和Rice-PanGenome[11]是2个为水稻泛基因组分析提供资源和工具的数据库;Rice Genome Hub提供了稻属10个物种的参考基因组信息,并提供了基因组浏览、基因检索和共线性分析等在线工具[23];OryzaGenome[24]和RiceRelativesGD[25]包含了水稻近缘物种的基因和种质资源信息;funRiceGenes[26]是一个专门提供水稻中已克隆基因信息的数据库。综上所述,基因组数据库是水稻所有数据库的基础,也是资源最丰富和内容最完整的一类数据库。然而,由于数据可视化和信息检索方式的差异,容易给用户的使用造成困扰。因此,需要开发一个整合了所有的参考基因组和基因组重测序资源的水稻基因组综合数据库,从而更加规范管理和使用现有的数据资源。
表1 已发表的水稻基因组数据库Table 1 The published rice genomic databases
通过微阵列或转录组测序,获得不同组织或细胞在各个发育阶段和处理下的基因表达信息,加深了对基因时空表达模型的理解,有利于基因功能的研究[27]。研究者们利用统一的标准流程,将海量的基因表达数据整合在一起,构建了一系列水稻基因表达数据库,包括RiceXPro、CREP、RED、TENOR、eRice和RiceENCODE等(表2)。RiceXPro是基于微阵列表达数据开发的基因转录数据库,提供不同组织或细胞在各个生长发育阶段、逆境胁迫及植物激素处理条件下的基因表达信息[27];CREP包含了‘珍汕97’和‘明恢63’不同组织的微阵列数据集 (Microarray data),支持通过基因序列、基因名称或探针标识来检索基因表达信息[28];RED整合了水稻9个组织的mRNA-seq数据,提供了不同组织和胁迫条件下的基因表达谱[29];TENOR包含了‘日本晴’在不同环境胁迫和激素处理条件下的mRNA-seq数据集[30];PPRD收集了2021年之前发表的11 726个水稻mRNA-seq数据集,使用统一流程和最新的参考基因组进行分析和整合[31];eRice包含了‘日本晴’和‘9311’的mRNA-seq数据集,并整合了DNA甲基化和组蛋白修饰数据集[32];RiceENCODE整合了包括ChIAPET、Hi-C和mRNA-seq等在内的972个数据集,用于检索调控RNA转录的DNA修饰、组蛋白修饰和染色质构象等表观调控[33]。非编码RNA (ncRNA,包括miRNA、lncRNA、siRNA、circRNA等)参与对基因的转录后调控,从而影响植物的生长发育和对环境的响应过程。水稻专门非编码RNA数据库有RiceNCexp、ARMOUR、RiceLncPedia和RiceATM(表2)。RiceNCexp基于mRNA-seq和small RNA-seq (sRNA-seq),对基因和sRNA的转录水平和共表达网络进行了分析,并为用户提供了个性化分析工具[34];ARMOUR整合了7个水稻品种在不同发育时期、组织和胁迫下的miRNA和它们的靶标基因信息[35];RiceLncPedia基于2 312个共公数据库获取的RNA-seq数据集,提供了水稻lncRNAs的表达谱、变异位点、lncRNA之间和lncRNA与编码基因的共表达信息[36];RiceATM是用来挖掘miRNA与水稻农艺性状关系的数据库,包括187个水稻品种的8个产量相关性状数据集和193个miRNAs在这些品种中的表达水平和靶基因数据集[37]。一些植物综合ncRNA数据库,也包含比较丰富的水稻ncRNA信息。CSRDB是较早开发的sRNA数据库,整合了水稻和玉米的sRNA和它们的靶基因信息[38];miRbase是广泛使用的miRNA数据库,包括已知的水稻miRNA的成熟序列、前体序列和靶基因信息[39];PceRBase整合了包含水稻在内的26个植物物种的竞争性内源RNA(Competing endogenous RNA,ceRNA)数据集,为miRNA-靶基因调控网络的研究起到了补充作用[40]。此外,GreeNC[41]、PLncDB[42]、CANTATAdb[42-43]、PmiREN[44]和PlantcircBase[45]等多物种数据库中也包含水稻lncRNA、circRNA和miRNA信息。
表2 水稻转录和转录后调控相关数据库Table 2 The transcriptional and posttranscriptional regulation related databases in rice
选择性多聚腺苷酸化 (Alternative cleavage and polyadenylation,APA)是指具有多个多聚腺苷酸化信号位点(Polyadenylation signal,PAS) 的基因在mRNA 加工过程中,由于可变剪切(Alternative splicing,AS) 和APA调控过程,形成不同的mRNA异构体的现象[48]。PlaASDB综合分析了水稻和拟南芥在生物和非生物胁迫条件下的AS事件,并将AS与差异表达基因进行了关联[46]。PlantAPAdb基于3′-seq(3′ sequencing),在基因组范围内详细鉴定了水稻和拟南芥等6个物种的APA位点,并提供了多样化的注释信息,包括APA在基因组位置、异质性切割位点、表达水平和样本信息等[47]。综上所述,转录和转录后调控过程中涉及的数据库,主要集中在基因表达谱和ncRNA方面,有关AS、APA和RNA修饰等转录后调控的数据库资源仍然较少。因此,亟需构建水稻RNA修饰等转录后调控数据库,为挖掘水稻优异性状和转录后调控之间的潜在联系提供数据基础。
在植物中,生物网络广泛用于功能基因的挖掘、基因功能和重要农艺性状遗传机制解析的研究中[49]。生物网络是以生物分子作为节点,分子之间的相互作用作为连接边构成的系统,比较常见的有蛋白质互作网络、基因调控网络、共表达网络、代谢网络等[50]。在植物中,基因网络推断主要依赖于表达数据,使用相关性分析和互信息算法推断2个基因之间的潜在关系[51]。近年来,利用机器学习算法,如图卷积神经网络 (Graph convolutional network,GCN),能够有效降低网络的冗余,得到节点数尽可能少,并能最大化地表示原始图的子图,从而更真实地反映基因之间的互作网络[52]。目前已开发的水稻基因网络数据库主要是基于转录组和代谢组数据集构建的,涉及的网络推断方法主要有相关性分析、互信息算法、同源映射和机器学习(表3)。RiceFREND和OryzaExpresss是较早建立的基因网络数据库,二者均是基于微阵列数据集构建的基因共表达网络,并提供了比较友好的网络交互界面和灵活的数据检索和查询功能[53-54];RiceAntherNet提供了水稻花粉和花药发育过程的基因网络信息,包括57个水稻花药组织微阵列数据集,有助于挖掘花药和花粉调控网络中的关键基因[55];NetREx是基于已发表的mRNA-seq数据集构建的不同胁迫条件下水稻基因共表达网络数据库,可以实现胁迫或组织特异性共表达模型的查看,并关联了基因功能注释和基因通路等数据集[56]。此外,NetREx还提供了水稻、拟南芥、小麦、玉米、大麦和高粱的直系同源基因信息;PRIN是基于同源映射法,通过对果蝇、线虫和拟南芥等模式物种蛋白互作数据进行同源推断获得的第1个水稻蛋白质互作网络数据库[57];RiceNet和RicePPINet是利用机器学习构建的基因网络数据库[58-59]。其中,RiceNet基于多组学数据集,利用贝叶斯框架、网络直接邻域法和机器学习整合微阵列、转录组、蛋白互作和不同物种的同源映射等数据集,构建了一个由25 765个基因结点和1 775 000个连接边组成的基因网络[58]。RicePPINet包含了16 895个蛋白质的708 819个基于机器学习算法预测的蛋白质-蛋白质相互作用网络,并通过与已知蛋白互作信息和试验证明了预测结果的可靠性[59]。
表3 已发表的水稻基因网络数据库Table 3 The publised gene network databases in rice
在植物中,基因网络推断主要依赖于表达数据,使用相关性分析和互信息算法推断两个基因之间的潜在调控关系。严格来说,基于表达数据推断出的基因与基因之间的联系并不一定是客观存在的。机器学习算法可以用来整合不同类型的基因网络数据集,如基因共表达网络、蛋白互作网络和代谢网络,尽可能准确地推断基因之间的关系。此外,利用GCN算法可以降低网络的冗余,得到节点数尽可能少并能最大化表示原始图的子图。综上所述,基于多组学数据和机器学习算法构建的基因网络,将更加准确地反映基因之间的相互作用关系。
随着大规模种质资源测序项目的开展,积累了海量的数据集。研究者通过构建种质资源信息数据库整合和共享这些数据集,并为数据的进一步挖掘和利用提供了在线分析工具。在水稻中,已有多个种质资源信息数据库,如MBKBASE、RiceVarMap和SNP-Seek,它们为水稻分子育种提供了丰富的基因组变异、单倍型以及变异的遗传力等信息(表4)。MBKBASE收录了130 578份水稻种质资源信息,并以‘R498’和‘日本晴’为参考基因组,进行了单倍型鉴定,并提供了单倍型与性状和基因表达水平的关联信息[60];RiceVarMap收录了全球140个国家和地区的4 726份水稻种质资源及其遗传变异信息,包括14 541 446个SNP和2 855 580个InDel[61];SNP-Seek包含了来源于119个国家的4 036份水稻品种资源信息,包括种质资源群体结构、遗传变异和57个表型等数据集[62];SR4R提供了5 152份水稻资源的变异图谱,通过统一的流程整合遗传变异数据,有效地减少了SNP冗余[63];HapRice包括76份世界水稻品种的3 334个SNP和177份日本水稻品种的3 252个SNP,并构建了SNP单倍型图谱[64];RFGB基于3KRG数据集,整合了表型、单倍型、SNP和InDel等信息[65];中国水稻品种及其系谱数据库是国家水稻数据中心(http://www.ricedata.cn/) 的一个子平台,主要收录省级以上审定品种、大面积推广品种、外引品种以及地方性农家品种,具有品种检索和系谱追溯2个核心功能[66]。转座子是重复序列的一种,也是一种基因组变异,在真核生物中广泛存在。水稻种质资源转座子注释数据库有RiTE DB[67]和RTRIP[68]。RiTE DB是第1个水稻转座子数据库,包括从266份水稻品种中鉴定到的54 911个转座子信息[67];RTRIP包含基于3KRG的基因组重测序数据构建的转座子序列位点图谱[68]。
在作物驯化和遗传改良过程中,遗传多样性不断变窄。国家/国际基因库(种质库)提供了丰富来源的等位基因,这些等位基因可能对作物遗传改良至关重要。因此,在基因组和表型组水平上对尽可能多的种质资源进行鉴定,为确定等位基因与表型的联系提供了信息,从而有助于育种决策。综上所述,对基因库中存在的全部种质进行测序和表型鉴定,获得所有种质的遗传变异、等位基因以及它们与表型的关联信息,构建水稻种质资源综合数据库是未来育种计划的重要组成部分。
基因编辑能在不引入DNA双链断裂 (Doublestrand DNA breaks,DSBs)的情况下,对靶位点一定范围内的碱基进行编辑。CRISPR/Cas系统作为第3代基因组编辑技术,具有操作简单灵活、精准靶向和效率高等优点,在基础研究和生物育种中具有广泛的应用前景[69-70]。
如表5所示,主要的基因编辑系统包括胞嘧啶碱基编辑器(Cytosine base editor,CBE)、腺嘌呤碱基编辑器(Adenine base editor,ABE)、胞嘧啶-鸟嘌呤碱基编辑器 (Cytosine-to-guanine base editor,CGBE)、引导编辑器(Prime editor,PE)等,已广泛应用在人类、动植物和微生物的相关研究中[71]。近年来,研究者将Cas9蛋白和反转录酶蛋白 (MMLV)融合,以及将sgRNA改造成可提供修复模板的pegRNA,构建了PE系统,实现了A、T、C、G碱基的自由替换和小DNA片段的替换或插入,可编辑远离PAM(Protospacer adjacent motif)的序列,显著提高了基因编辑的精准度[72]。
表5 常用的基因编辑系统Table 5 Commonly used gene editing systems
基因编辑中目标基因靶位点的选择、sgRNA(Single guide RNA)表达盒的设计和组装、靶位点片段的扩增与测序、脱靶(Off-target)及自靶向(Selftarget)分析等过程仍会耗费大量的人力物力。近年来,利用生物信息工具辅助基因编辑的设计和分析流程,可在减少人为错误的同时也极大地节省时间和人力成本,使基因编辑高通量化[73-75]。
表6列出了已开发的水稻基因编辑数据库或在线工具。CRISPR-GE提供了“一站式”基因组编辑便捷工具包,包含了靶点筛选、引物设计、结果鉴定、脱靶分析等流程的在线分析软件[73];CRISPRGE持续更新,在后续的开发中添加了利用微同源末端连接介导基因组大片段删除的靶点设计工具MMEJ-KO、辅助碱基编辑靶点选择工具BEtarget、基于多个高质量水稻基因组整合的数据库GeneCat、以及基于二代测序方法高通量分析靶位点编辑情况的HiDecode[73-74,76-78];此外,CRISPR REGN提供基因编辑在线工具包,如sgRNA设计工具Cas-Designers[79]、脱靶预测工具Cas-Offinder[80]和预测MMEJ(Microhomology-mediated end joining)介导片段删除的效率分析工具Microhomology-Predictor等[75];CRISPR-P支持49个物种基因组的sgRNA设计,开发了靶向效率和脱靶概率评估系统,使预测结果更为准确,并支持多种CRISPR/Cas系统的设计[81-82];CRISPRbase收集了包括水稻在内的17个物种多达120万条碱基编辑信息,整理分析了多个编辑系统在不同物种中的编辑效率、靶点偏好性和精准度,并提供了在线分析工具[83];PGED收集了水稻等8个物种的CRISPR/Cas9编辑植株信息,包括sgRNA序列、序列变异和表型等信息,用户可以通过物种或基因名查找已有的CRISPR/Cas9突变体[84]。
表6 水稻基因编辑生物信息工具与数据库Table 6 The bioinformatics tools and databases for gene editing in rice
CAFRI-Rice基于系统发育分析和基因表达模式,建立了水稻冗余基因数据库,为基因编辑候选靶标的选择提供了参考[85]。uORF (Upstream open reading frame,uORF)定义为位于5′UTR上游的开放读码框,对主开放读码框(Primary ORF,pORF)的翻译具有抑制作用[86]。通过对uORF区域进行基因编辑,能够实现对目标蛋白表达量的精准调控[87]。Liu等[86]基于深度测序Ribo-seq(Ribosome profiling)和QTI-seq(Quantitative translation initiation sequencing),构建了Ribo-uORF数据平台,包含了6个物种的501 554条高可信度的uORF和107 914条翻译起始位点 (Translation initiation site,TIS)信息。Ribo-uORF提供了丰富的uORF信息,为通过基因编辑精准调控蛋白质的表达水平提供了候选靶标[86]。
综上所述,生物信息工具辅助基因编辑可以有效提高编辑精准度(降低潜在脱靶风险)、预测编辑效果和提供新型编辑靶点。然而,全基因组测序结果发现了编辑植株中存在许多与序列相似度无关的脱靶位点。开发生物信息工具,对与序列相似度无关的脱靶事件进行预测,有助于进一步提高编辑精准度。此外,结合uORF、dORF(Downstream ORF)和m6A修饰等数据库,将有助于指导新型编辑策略的开发与应用。
随着人类社会步入互联网、大数据和人工智能“三位一体”时代,对育种提出了革命性理念,即强调生命科学、信息科学与育种科学的深度融合[2-3,88]。在智能育种阶段,育种专家将综合多层面生物技术与信息技术推动育种向着智能化的方向快速发展:1)利用高通量低成本的基因组测序技术和表型鉴定技术,结合人工智能图像识别技术,通过基因型与表型数据的自动化获取与解析,实现组学大数据的快速积累;2)利用生物信息学与机器学习的方法和手段,整合遗传变异和各类组学数据、杂交育种数据,实现控制作物性状关键调控基因的快速挖掘与表型的精准预测;3)利用基因编辑与合成生物学技术,通过人工改造基因元器件与人工合成基因网络,实现作物具备新的抗逆、高效和优良生物学性状;4)利用作物组学大数据与人工智能技术,建立机器学习预测模型,在全基因组层面上建立智能组合优良等位基因的自然变异、人工变异、数量性状位点的育种设计方案,实现智能、高效、定向培育新品种。
由于海量的植物育种相关的大数据必须借助于人工智能进行数据分析、处理和预测,机器学习模型在智能育种中起重要作用。表7列出了基于机器学习进行组学数据处理和辅助育种决策的软件和算法,可分为线性和非线性的方法。线性模型以基于混合线性模型的方法为代表,如基因组最佳线性无偏预测(Genomic best linear unbiased prediction,GBLUP)、岭回归最佳线性无偏预测(Ridge regression best linear unbiased prediction,rrBLUP)、贝叶斯算法(BayesA/B)等;非线性模型主要以随机森林(Random forest,RF)、支持向量机(Support vector machine,SVM)和神经网络(Neural network)为主。目前存在3类基于不同的统计模型的智能育种工具:第1类是免费开源的包/库,如rrBLUP和sommer等R包,以及基于Python的机器学习模块,如sklearn模块中的RF和SVM算法;第2类是成熟的遗传评估软件,主要用于动物育种,但也有少量功能适用于植物育种,如JWAS;第3类是基于网页或图形界面工具,例如solGS和IPAT等[106]。在智能育种设计方案方面,Xu等[107]提出了一种名为iGEP的智能化育种方案,综合运用多组学信息、大数据技术和人工智能算法,通过利用从多个来源获取的数据(包括时空组学,基因组学、表型组学和环境组学),建立智能育种机器学习模型,并通过合成生物学的方法从头培育新品种,实现理想作物的智能化育种。
表7 可用于水稻智能育种的机器学习软件和算法Table 7 The machine learning software and algorithms for intelligent breeding in rice
智能育种技术具有广阔的应用前景,是未来水稻育种的发展方向之一。目前智能育种发展仍处于起步阶段,面临多组学大数据积累不足、基因分型成本较高、基因组预测育种模型原创性不足、种质资源较为分散等众多挑战[108]。因此,制定多维度数据采集、分析、存储与管理的标准与规范,协同建立通用的育种大数据平台,实现育种信息的充分共享与利用,是现阶段促进生物信息学在智能育种中应用的首要目标。
自从第1个水稻‘日本晴’参考基因组公布以来,生物信息学在组学数据分析与整合、基因挖掘、基因网络推断和重要性状遗传解析等方面起到了关键性作用。基于海量的数据集,研究者们开发了许多种类丰富的生物信息数据库和在线工具。由于数据来源、试验设计和分析方法的不同,不同数据库资源很难整合。因此,需要系统整合不同类型数据库,开发大型水稻综合数据库平台,以供不具有高级生物信息学技能的生物学家有效使用。此外,如何将多组学数据与表型数据进行整合,指导基因组选择和全基因组设计育种,提高水稻产量、品质和环境适应性,是从事相关科研工作的研究者需要考虑的问题之一。在数据库类型方面,涉及基因转录后调控、基因编辑和智能育种的资源仍然缺乏。此外,修饰组和翻译组,如RNA甲基化、蛋白质泛素化和uORF等可以实现基因表达水平的精准调控,开发相应的数据库和分析工具,将有利于分子设计育种和品种的定向改良。最后,鉴于大部分数据库更新周期较长或没有更新,应用机器学习的方法,如文本挖掘、随机森林和图卷积神经网络,对最新发布的数据集进行自动下载,并整合到后台数据库,将有望实现数据库的实时动态更新。