作物智能设计育种
——自然变异的智能组合和人工变异的智能创制

2022-11-18 20:50汪海赖锦盛王海洋李新海
中国农业科技导报 2022年6期
关键词:性状变异基因组

汪海,赖锦盛,王海洋,李新海

(1.中国农业大学农学院,国家玉米改良中心,北京 100193;2.华南农业大学生命科学学院,广州 510642;3.中国农业科学院生物技术研究所,北京 100081;4.中国农业科学院作物科学研究所,北京 100081)

《中国农村发展报告2020》指出,到“十四五”期末我国可能出现1.3亿t左右的粮食缺口,其中水稻、小麦、玉米三大主粮缺口约为2 500万t。种业作为农业生产的源头,是国家战略性、基础性的核心产业,必需走自主创新之路。种业竞争的核心是科技竞争,种业科技在现代农业产业升级中发挥着先导作用。在大数据、算法、生物技术的驱动下,育种技术正在从以“一把尺、一杆秤、用牙咬、用眼瞪”的传统经验育种转向智能设计育种。作物智能设计育种是基于作物重要农艺性状形成的遗传和分子基础,通过人工智能决策系统设计最佳育种方案,进而定向、高效改良和培育作物新品种的一门新兴前沿交叉学科。根据理论基础和技术手段的不同,未来智能设计育种可以分为两种范式:一是智能化的杂交育种,根据作物目标性状的遗传结构,采用分子标记辅助选择或全基因组选择策略,将优良等位基因聚合到优良遗传背景中,创造出集众多优良基因和调控模块于一身、目标性状得到明显改良的新种质或新品种;二是智能化的生物育种,其利用人工智能技术设计优异等位变异和基因组元件,利用转基因和基因编辑技术写入基因组,精准改良目标性状。未来智能生物育种的本质是大数据、机器学习等人工智能技术与基因编辑、合成生物学等生物技术的多元化融合,实现生物育种的智能化升级。本文探讨了上述两种智能设计育种范式的理论基础、技术手段和发展趋势,分析了我国作物智能设计育种在产业化过程中面临的市场和政策瓶颈,并提出相关对策,以期为我国智能设计育种发展战略的顶层设计提供参考,推动我国种业从经验育种时代跨入智能设计育种时代。

1 智能化的杂交育种:自然变异的智能组合

以自然变异为原料的杂交育种仍然是目前最主要的育种方式。作物自然群体的基因组中含有丰富的自然变异,如单核苷酸多态性(single nucleotide polymorphism,SNP)、插入缺失(insertion-deletion,InDel)、获得与缺失变异(presence/absence variation,PAV)、结 构 变 异(structural variation,SV)等。玉米HapMap3数据库包含了来自1 218个玉米种质的约8 300万个变异位点[1]。根据日本遗传学家Motoo Kimura[2]的中性进化理论,大部分变异是中性的,只有少数变异位点影响表型,这些变异被称为功能变异。根据功能变异对作物农艺性状的效应,可以将功能变异分为有利等位变异和有害等位变异。杂交育种的本质就是在田间环境条件下,通过育种材料的杂交和后代群体的人工选择,寻求有利等位变异的最优组合方式。

1.1 大效应自然变异和分子标记辅助选择

过去十几年,作物基因组学和群体遗传学得到了迅速发展。利用作物自然群体或人工群体,通过关联分析和连锁分析,已经克隆了大量控制重要农艺性状及在驯化和改良过程中发挥关键作用的数量性状位点(quantitative trait locus,QTL)。其中一些QTL已经精细定位到基因并进行了功能验证,少数QTL甚至已经定位到功能变异,并对功能变异发生作用的分子机制进行了详细的解析[3-6]。上述研究较为系统地阐明了作物在过去几千年中发生驯化和改良的分子机制,为未来作物的遗传改良提供了理论基础和目标位点。在水稻中,黄学辉团队系统总结了已报道的关键功能变异位点,构建了迄今为止最完善的水稻数量性状基因关键变异图谱,并开发了智能化的水稻育种导航程序,为水稻新品种的快速培育提供技术支持[7]。在玉米中,我国科学家在抗病[8]、纬度适应性[9]、叶夹角[10]、穗行数[11]等重要性状的遗传解析中取得了原创性进展。

QTL对未来育种的价值可能会逐渐降低。Wallace等[12]指出,能够用关联分析和连锁分析检测到的QTL都是效应较大的,这样的QTL往往被早期的育种家在骨干种质中优化并固定,后期的育种家只能耗费更多的资源去优化更加微效的QTL。QTL往往具有多效性,育种家需要在多个相互拮抗的育种目标(如生物量和抗倒伏性,产量和抗逆性,产量和品质)中寻求稳健的平衡;还需要根据特定的水、肥、光照条件选择最优的自然变异组合。因此,育种材料中一些看似尚未被优化的基因组位点,如果放在更广阔的环境因素中考虑,可能代表着全局最优解。在水稻、小麦、玉米等作物已经克隆到的海量QTL中,只有少数QTL能够在当代主栽品种的遗传背景下改良农艺性状。郑单958和先玉335是我国推广面积大、广适性强的玉米品种,分别审定于2000和2004年,至今仍在全国各省广泛使用,说明了在大效应位点固化之后聚合微效有利等位变异的艰难。但是,在育种水平较低或育种历史较短的作物中,仍然存在一些尚未优化的大效应位点,可以通过分子标记辅助选择技术加以精准改良。

1.2 微效自然变异和全基因组选择

有害变异的基本概念、研究方法和理论框架发端于人类基因组学[13-14],并逐渐渗透到作物基因组学中。群体中的大部分有害变异是隐性的,自交可以暴露隐性有害变异的表型效应,有助于通过自然选择和人工选择降低有害变异在群体中的频率[15-16]。营养繁殖的作物由于无需自交,因此有害变异十分严重。土豆和木薯基因组中的一些有害变异甚至是纯合致死的,严重阻碍了这类作物的杂交育种[17-18]。异交作物(如玉米)会比自交作物(如水稻)在基因组中保留更多的有害变异,且有害变异倾向于富集在重组频率较低的基因组区段(如着丝粒附近)[19]。尽管现代骨干玉米自交系受到育种家多年的强烈选择,其基因组中仍然存在大量微效有害等位变异。如何高效定位这些微效有害变异,用于指导杂交育种?单个微效有害变异对农艺性状的影响极其微弱,因此无法用普通的关联分析和连锁分析检测其效应。编码区的有害变异可以通过变异位点的保守性以及变异在群体中的频率来间接判断,常用工具有GERP、SIFT等;转录调控区的有害变异往往使基因的表达量偏离群体的平均水平,进而降低个体的适合度[20]。在生产上可以利用携带互补有害等位变异的2个自交系产生杂交种,让2套基因组互相掩盖对方的有害等位变异(即杂种优势)[21]。在玉米育种中,目前国际种业公司普遍采用全基因组选择技术,更加精准地聚合微效有利等位变异、清除微效有害等位变异。王向峰团队较全面地综述了全基因组选择的原理和流程[22]。全基因组选择在基础理论上已经不存在尚未解决的科学问题,将该技术用于育种的难点在于如何以工程化育种的思路,以合适的体制机制将人力、物力、财力资源有机整合,效仿日本丰田公司“拧干毛巾上最后一滴水”的精神,实现育种流水线的高效、低成本运转。

1.3 未来智能杂交育种的增长点和突破口

智能杂交育种的关键目标是如何根据气候条件和栽培耕作措施更加精准地设计自然变异的最优组合,并沿着最快的路径,通过现有育种材料的杂交选育实现上述最优组合。为了更好地实现这一目标,需要从数据、模型、育种辅助技术3个方向寻求新的增长点和突破口:①育种大数据的积累是智能杂交育种的关键,未来高通量基因型数据、环境数据、表型数据平台的发展将极大地提升数据的数量和质量,使智能杂交育种决策更加精准,与传统经验育种相比具有显著的优势;②在育种大数据的支撑下,如何建立统计模型,基于高维的基因型和环境数据预测表型是智能杂交育种的另一个关键点,但是,目前模型构建所需的数学和计算机理论基础已经非常成熟,单纯依靠算法优化提升育种决策精度的空间已经很小;③其他辅助育种技术也可能成为未来的突破口,如快速育种(speed breeding)技术[23]和单倍体育种技术[24-25]可以大幅缩短育种年限,染色体定点重组技术[26-27]可以使性状导入更加精准,无融合生殖技术[28]和智能不育技术[29]未来可能大幅降低育种和制种成本。上述不同领域和方向的交叉融合不仅为智能杂交育种设计更好的“施工图”,而且提升施工速度,降低施工成本。

2 智能化的生物育种:人工变异的智能创制

进化是不完美的,根据日本遗传学家提出的中性进化理论[2],自然界发生的大部分有利突变都会在遗传漂变的过程中丢失;英国生物化学家Kacser和Burns[30]的代谢控制论指出,由于自然选择作用于个体层次而不是分子和细胞层次,分子和细胞层次的表型存在巨大的优化空间。长远来看,自然界尚未被育种家发掘和利用的优异等位变异数量不断减少,日渐枯竭。近年来,一些作物中出现了可用优异等位变异不足、品种同质化严重的问题,制约了突破性新品种的培育。因此,亟需开展两方面工作以弥补进化的内在缺陷:一是融合群体遗传学和人工智能技术,从自然变异(尤其是关联分析无能为力的低频和稀有变异)中发掘与表型有因果关系的有利等位变异,用基因编辑技术写入作物基因组,防止它们湮灭在随机漂变之中;二是对控制作物重要农艺性状的关键基因,通过合成进化或人工智能技术探索自然变异尚未触及的变异空间,对其转录调控区DNA序列或蛋白质序列进行优化设计甚至从头设计,然后利用基因编辑和转基因技术改造作物基因组。上述技术将对杂交育种形成有益的补充。

2.1 发掘自然群体中的优异等位变异,指导基因编辑育种

基因编辑育种和杂交育种的不同之处在于:杂交育种可以利用与因果变异(causal variant)存在连锁不平衡的其他变异作为分子标记,而基因编辑育种依赖于对因果变异本身的发掘和利用。在过去几十年中,通过连锁分析和关联分析在动植物中解析了大量控制重要性状的QTL或基因,但是由于连锁不平衡的存在,大量位点中的因果变异并不清楚;此外,在关联分析中低频/稀有变异的统计学功效不足,使低频/稀有变异这一宝库长期无法得到有效的发掘和利用(这类变异在统计分析时往往被忽略不计)。为了克服上述问题,近年来,在人类和动物基因组学研究中,深度学习技术被广泛用于从自然变异中发掘功能变异。功能变异通过影响不同层次的分子表型(如基因表达量或蛋白质的生化活性),进而影响最终表型(如人类疾病、畜禽品质等)。因此,可以建立从基因组序列预测分子表型的深度学习模型,然后利用上述深度学习模型扫描自然变异,预测哪些自然变异可能造成分子表型的改变,这些变异可能是最终表型的功能变异。在人类基因组学研究中,这一方法已被用来发掘造成人类疾病(如自闭症)的功能变异[31-32]。在植物中,模拟分子生物学过程的深度学习技术也开始蓬勃发展[33-36]。利用上述深度学习模型扫描作物群体中的自然变异,有助于高通量发掘功能变异,可以指导基因编辑育种,对杂交育种形成重要的补充。对家畜全基因组选择育种的计算机模拟表明,如果在全基因组选择育种的同时,利用基因编辑技术向基因组中写入有利等位变异或清除有害等位变异,可以显著提升全基因组选择的遗传增益[37-38]。

2.2 设计自然界不存在的优异等位变异,指导基因编辑育种

如何在转录调控区设计自然界不存在的优异等位变异?过去几十年中,在作物中已鉴定到大量位于转录调控区的优异等位变异[4-6],表明转录调控区的优化在作物驯化和改良中占有重要地位。转录调控区的变异空间极其庞大,以长度为140 bp的DNA为例,其碱基组合数量可达到4140,超过可观测宇宙中所有原子的数量[6]。庞大的变异空间导致转录调控区DNA序列的解读十分困难,制约了转录调控区优异等位变异的设计。在作物中,基因编辑技术已经成功用于在转录调控区产生优异等位变异。例如,对重要农艺性状的负调控基因进行启动子饱和编辑,再从后代中筛选目标基因被“敲低”的新种质[39-41],但这一方法具有一定的随机性,且工作量较大。另一种策略是针对重要农艺性状的正调控基因,利用基因编辑技术在染色体上产生倒位,让该基因和附近另一个高表达基因交换启动子,实现基因的“敲高”[42],但这一策略难以保持基因原有的时空特异性,对其他基因的表达也可能造成影响。因此,亟需开发更加智能、定向、普适的转录调控区优异等位变异创制方法。以深度学习为核心的人工智能技术由于擅长捕捉DNA序列和分子功能之间的映射关系,非常适用于作物基因组DNA序列的优异等位变异设计[34]。因此,有必要利用人工智能技术精准设计自然界不存在的优异等位变异,并利用基因编辑技术将优异等位变异写入作物基因组,改良关键农艺性状,对传统杂交育种形成补充。

如何在蛋白质序列上设计自然界不存在的优异等位变异?对简单性状的设计,可以在理解蛋白质功能的基础上模仿自然变异,如通过基因编辑破坏wax y基因的编码区可以获得糯玉米[43]。但是,对蛋白质的精细改造需要从两方面开发更加复杂的工具:一是人工智能,在AlphaFold、RoseTTAFold等蛋白质结构预测模型的推动下,蛋白质的人工智能设计已经成为飞速发展的热门领域[44],未来可以对转基因或作物内源基因的蛋白质序列进行精准改造,定向改进作物关键农艺性状;二是合成进化(synthetic evolution),在微生物和动物中已经发展了多个合成进化系统,如细菌中的PACE系统[45]、酵母的OrthoRep系统[46]、哺乳动物的VEGAS系统[47]等。利用上述合成进化系统,已经进化出新的Bt抗虫蛋白[48]、人工转录因子蛋白[49-50]、碱基编辑器[51-52]、RNA聚合酶[45-53]、新型冠状病毒抗体[54]等重要蛋白质。虽然目前在植物中还缺少类似的系统使生物序列在持续的“饱和突变-筛选”循环过程中不断进化,但是在植物中可以利用高通量碱基编辑技术对目标基因的编码区进行饱和诱变,再从中筛选符合预期表型的突变,如具有除草剂抗性的突变蛋白[55-56]。未来,合成进化技术也会在作物中取得突破,且深度学习技术可能与合成进化技术形成“正反馈闭环”:合成进化技术为深度学习模型提供训练和测试所需的大量数据,让深度学习模型变得更“聪明”;而深度学习为合成进化设计起始序列和进化方向,让合成进化变得更“精准”。同时,基因编辑技术自身仍然处于迅速发展的过程中。低成本、高通量、能够任意增删改、无需转基因、不受作物基因型限制的基因编辑技术将超越杂交选育,成为育种的主流手段,不仅能广泛用于现有作物的改良,也可用于野生物种的从头驯化[57-58]。

2.3 利用深度学习技术从头设计自然界不存在的功能元件,指导合成生物学

合成生物学是改变育种方式的另一项革命性技术。随着生物元件(如DNA、蛋白质)的化学合成成本不断降低,如何从头设计具有优异功能的生物元件成为合成生物学的瓶颈问题。转基因技术,尤其是抗虫、抗除草剂基因的应用,已经在全球产生了年产值数百亿美元的庞大市场。但是现有的转基因技术一般只是利用了自然界已有的基因组元件或蛋白质,或是对自然界的基因组元件和蛋白质进行有限的优化,尚无从头设计的例子。近年来,深度学习领域出现了新的分支——生成模型(generative model)技术。该技术可以从大量已知的生物学序列中总结规律,进而从头设计具有优异生化特性的、全新的生物学序列。例如,通过学习自然界的启动子DNA序列,生成模型可以设计自然界不存在的启动子[59];通过学习自然界的蛋白质,生成模型可以设计自然界不存在的蛋白质[60-61]。预期基于深度学习的合成生物学将为作物育种带来颠覆性技术变革,对农业关键基因组元件和蛋白质(如抗虫蛋白、抗除草剂蛋白、基因编辑蛋白等)进行从头设计,实现快速育种应用。

3 我国智能设计育种产业化的瓶颈问题及其对策

3.1 加强应用技术研究和知识产权保护,培育创新型企业

过去的几十年中,我国作物学基础研究进展显著,尤其在作物基因组测序组装、关键农艺性状的遗传解析和功能基因组学领域,逐渐从“跟跑”转变为“领跑”,取得了一系列创新性成果。但是,全基因组选择算法开发、表型组算法构建、田间机器人等应用型领域,长期处于被忽视的状态。另外,我国种业企业在新技术领域的创新能力不足,难以支撑育种技术研发。为了提升企业的创新意愿和创新力,亟需完善种业法律法规保障体系,强化知识产权保护力度,增加市场集中度,停止企业在低水平的徘徊。智能设计育种涵盖农学、生物学、遗传学、统计学、计算机科学、信息学等学科,对于人才的交叉学科研究能力要求较高。只有通过市场集中度和创新意愿的提升,才能产生高薪研发岗位,吸引农学、计算机、微电子、自动化等领域的优秀人才,形成合力开发跨学科的智能设计育种体系。

3.2 加强原创型研究,破解智能设计育种的“卡点”

我国基础研究领域的成果正在经历从“量变”到“质变”的转变。但是,我国的科研仍然存在“从1到100”强、“从0到1”弱的问题。如群体遗传学和数量遗传学的基础理论,以及相关的关联分析、连锁分析、有害变异分析、基因组选择信号分析、全基因组选择技术、二代和三代测序技术、基因编辑技术、合成生物学技术、人工智能技术都发端于美国,我国尚未成为新思想、新技术的策源地。智能设计育种技术体系主要由基因组研究、表型组研究、分子设计等链条构成,我国在部分关键技术面临“卡脖子”问题:高通量测序技术主要依赖美国Illumina公司等大型企业;作物育种芯片核心技术基本被美国昂飞公司所垄断,基因型分析的高通量、自动化设备被拜尔公司专利独有;作物高通量表型组设备主要依赖进口。这些“卡点”的解决会是长期而艰巨的过程。

3.3 加强科研单位和企业能力建设,形成智能设计育种创新合力

一直以来,科研院所在我国种业当中扮演核心力量,但推动种业优质资源在市场中有效整合,离不开企业对种业创新的有效参与。事实上,反观近年来我国种业品种的“井喷”现象,育种企业贡献很大。有关数据显示,由企业选育品种的数量已超过科研单位,占整体品种选育量的60%。智能设计育种对资源挖掘-理论创新-技术集成-品种制造的全链条融合创新要求比较高,国际种业公司有足够的人才和资金优势形成从基础研究到应用研究的综合布局,且在相关领域已经形成技术和专利壁垒,占据先发优势。国际跨国公司(科迪华、拜耳等)整合了智能设计育种各环节上的资源,正在加快布局多技术融合型育种体系,形成全球领跑的态势,而我国的创新链环节存在断点,研究力量分散,产业主体实力不足,尚未形成完善的智能设计育种技术链和产业化链条。目前世界上只有国际一流的种业公司能够将基因组选择技术和生物技术成功运用于商业育种中,而国内育种企业在前沿技术创新和产业布局方面进展较小,育种水平还基本停留在经验育种阶段。因此在短期内,我国种业企业非常有必要与科研单位形成合力,在智能设计育种数据的积累和挖掘、算法开发方面完善创新和应用体系,形成“基础研究和应用基础研究在高校和研究所,应用研究在企业”的创新局面。

4 结语

未来的作物智能设计育种将进入“双轮驱动”时代:一方面,通过全基因组选择等技术,可以比仅仅依赖表型选择更加精准高效地聚合育种群体中的优异等位变异;另一方面,可以在人工智能模型的指导下设计自然界不存在的优异等位变异和基因组元件,然后利用基因编辑、转基因等技术精准改造基因组序列,从而改良作物田间农艺性状。国际种业公司已经在全基因组选择、转基因、基因编辑等领域形成全面的技术壁垒,并且有能力让前沿技术转化为企业利润,进而反哺前沿技术开发。我国亟需在国家战略层面对智能设计育种的发展提出前瞻性的顶层设计,同时尊重市场经济的客观规律,让科研机构和种业企业在智能设计育种的科学理论问题和工程技术问题中找准定位、优势互补,促使我国种业企业尽快从经验育种时代跨入智能设计育种时代,保障我国种业国际竞争力和粮食安全。

猜你喜欢
性状变异基因组
珠海长肋日月贝形态性状对体质量的影响
“植物界大熊猫”完整基因组图谱首次发布
我国小麦基因组编辑抗病育种取得突破
宏基因组测序辅助诊断原发性肺隐球菌
变异
甜玉米主要农艺性状的研究
变异的蚊子
病毒的变异
“常染色体遗传”等于“杂交后代性状分离比与性别无关”吗
你是如何说的?