万露露 范敦锦 王中煊 龚娜 丁祥青 陈世品 苏小青
摘要:为了确定杜鹃(Rhododendron simsii)叶绿体基因组密码子的使用模式,为杜鹃花科叶绿体基因组学研究提供参考依据,绘制了杜鹃叶绿体基因组图谱,对三大功能基因进行分类,统计各蛋白编码基因密码子的3位碱基的GC含量、有效密码子数、同义密码子相对使用度,开展中性绘图分析和PR2-plot等分析,并系统分析影响杜鹃密码子偏好性的各种因素,从而筛选出了最优密码子。结果显示,杜鹃叶绿体基因组全长206 912 bp,大单拷贝区为110 234 bp,小单拷贝区为 2 606 bp,反向重复区为47 036 bp。蛋白编码序列GC含量为36%,密码子第3位偏好使用A/U,ENC值范围为37.48~57.13,说明其密码子使用偏好性较弱;中性绘图分析显示GC12和GC3的相关系数为0.255,拟合的回归系数为0.345;PR2-plot分析显示G>C,T>A;有30个密码子的RSCU值大于1,以U或A结尾的有29个,影响其密码子使用偏好性的最主要为自然选择压力;最终鉴定出最优密码子8个,分别为GCA、GAU、UUG、CCA、CGU、UCA、GUA、UAU。可见,杜鹃叶绿体基因组具典型的双链环状构造,密码子偏好性较弱,主要受到自然和突变的共同影响。
关键词:杜鹃;叶绿体基因组;密码子偏好性;最优密码子
中图分类号:S685.210.32 文献标志码:A
文章编号:1002-1302(2023)13-0054-06
杜鹃(Rhododendron simsii),隶属杜鹃花科(EricaceaeJuss)杜鹃属(Rhododendron)映山红亚属(subg. Tsutsusi),其花冠为漏斗形,美艳异常,极具观赏价值,且花期较长,是重要的育种资源。对杜鹃的研究主要集中在组培快繁、杂交育种、重要基因家族分析等方面[1-3],尚未对其密码子的使用偏好性进行分析。叶绿体基因组具有结构稳定、进化保守的优点,特定物种更倾向于使用特定的密码子,对特定基因的功能和表达水平产生一定的影响[4-6]。本研究分析杜鹃密码子使用偏好的影响因素,鉴定其最优密码子,揭示杜鵑叶绿体密码子的使用模式,旨在为杜鹃叶绿体基因组在良种选育中的应用提供参考,为其后续的育种研究以及品种优化提供帮助。
1 材料与方法
1.1 叶绿体基因组密码子基因序列获取
从NCBI数据库中,下载杜鹃叶绿体基因组序列(登录号:MT239364.1),参照Wang等的研究[7],按照国际惯例对CDS进行筛选,以便用于后续叶绿体密码子使用偏好性的分析。
1.2 叶绿体基因组密码子的相关参数分析
计算密码子的各种相关参数。具体计算方法参照江淑珍等的研究[8]。
1.3 叶绿体基因组密码子绘图分析
以(GC3,GC12)坐标点绘制散点图以及添加趋势线。中性绘图与PR2-plot偏倚分析具体方法参照龙凌云等的研究[9]。
1.4 叶绿体基因组最优密码子分析
将44条基因的ENC值按由大至小降序排列,构建高、低表达库。采用两端筛选的各5条基因,并按照李江飞等的方法[10],定义最优密码子。
2 结果与分析
2.1 叶绿体基因组的基因组成
杜鹃叶绿体的基因组全长206 912 bp,具典型的双链环状构造,大单拷贝区为110 234 bp,小单拷贝区为 2 606 bp,反向重复区分别为47 036 bp(图 1)。相比于其他被子植物,杜鹃叶绿体基因组较大,IR区显著扩张而SSC区显著缩小,2个IR区相互对称,且被LSC区和SSC区隔开,IR区的扩张是导致其叶绿体基因组较大的主要因素。叶绿体的GC含量为36%,与其他绿色植物的叶绿体含量比较接近。一共预测注释到136个基因,包括90个蛋白编码基因、38个tRNA基因、8个rRNA基因。在大多数情况下,AUG被用作CDS的起始密码子,尽管在某些植物叶绿体基因组的某些CDS的起始密码子中有时会观察到RNA编辑。在本研究中,ndhD以GUG为起始密码子,atpB和atpE存在4 bp重叠,psbC和psbD存在53 bp重叠,rps3和rpl22存在16 bp重叠[11]。
将叶绿体基因的不同功能分为3个大类,依次为光合作用能力、自我复制能力、其他和功能未知。光合作用的相关基因分为6个小类(7个光系统Ⅰ的基因、15个光系统Ⅱ的基因、17个NADH-脱氢酶基因、7个细胞色素b/f复合物基因、6个ATP合酶基因、1个羧化酶基因);自我复制的相关基因分为5个小类(10个核糖体大亚基的基因、14个核糖体小亚基的基因、4个RNA聚合酶基因、38个tRNA基因、8个rRNA基因);其他基因分为5个小类(表 1)。叶绿体基因组中包含2个内含子(如rps12、ycf3),有些基因具有2个拷贝(如psaC、psaI等),均符合杜鹃属叶绿体基因组的规律。
2.2 密码子主要相关指数分析
密码子组成分析表明,杜鹃叶绿体基因组蛋白编码基因密码子GC1 (46.78%)>GC2 (39.58%)>GC3 (27.75%),说明GC在不同位置的分布是不均匀的,但多以碱基 A、T 结尾。各基因有效密码子数(ENC)介于37.48~57.13之间,平均值(46.63)远大于35,且有32条基因的有效密码子数值大于45,表明其使用偏性较弱(表2)。
对密码子各参数之间的相关性进行了研究,结果(表3)表明:ENC与密码子数目极显著相关,相关系数为1.000,说明基因序列大小显著影响密码子偏好性; GCall与GC1、 GC2、 GC3之间极显著相关 (P<0.01),这表明其叶绿体基因组密码子碱基组成的相似度较高;GC1与ENC极显著相关(P<0.01),说明GC1对密码子偏好性存在较强影响。
对各氨基酸同义密码子相对使用度进行数据分析(表4),得出:氨基酸RSCU>1的密码子一共有30个,其中29个密码子以碱基A、U结尾,所占比例较高(97%)。表明杜鹃叶绿体基因组偏好使用以A/U结尾的密码子;相反,RSCU<1的密码子,则偏好使用G/C结尾。
2.3 中性绘图分析
对密码子进行中性绘图分析,结果(图2)显示:纵坐标GC12介于0.34~0.54,横坐标GC3介于0.22~0.51。所有基因均处于坐标轴对角线上方,密码子GC12 与密码子GC3的相关性表现为不显著,相关系数为0.255,拟合的回归系数为0.345,说明密码子的3个碱基可能有着一定差异。由此可以推断,杜鹃叶绿体基因组的密码子偏好性受到自然选择的影响较大。
2.4 PR2-plot 分析
偏倚分析(图3)表明:杜鹃在4个区域叶绿体基因分布是不均衡的,且大多数基因散布在整个平面图的右下方,这表明4个碱基有不一样的使用频率,即G>C,T>A;因此,可以推断在杜鹃叶绿体基因组密码子使用模式上,其偏好性很可能会受到突变和自然选择的共同作用。
2.5 最优密码子分析
根据ΔRSCU>0.08为高表达密码子,已筛选出杜鹃叶绿体基因组有27个,其高表达密码子中有5个是以碱基A结尾,3个是以碱基U结尾,9个是以碱基G结尾,10个是以碱基C结尾(表 5)。综合考虑杜鹃叶绿体基因RSCU的分析结果(表4),最终得到最优密码子8个,分别为 GCA、GAU、UUG、CCA、CGU、UCA、GUA、UAU, 其中以碱基A结尾的有4个,U碱基结尾有3个,碱基G结尾仅有1个。
3 讨论与结论
在杜鹃叶绿体基因组中,密码子第3位的GC含量远远少于前2位碱基,说明其更偏好使用A/U,也表明了杜鹃叶绿体基因组密码子使用模式在进化上相对保守,遵循了双子叶植物叶绿体基因组密码子的第3位高A/U偏好性的规律。杜鹃叶绿体基因组中存在8个最优密码子,分别为 GCA、GAU、UUG、CCA、CGU、UCA、GUA、UAU,其中3个以U结尾,4个以A结尾,1个以G結尾。一般认为富含A/U碱基的序列中,最优密码子也同样富含A/U,而富含G/C碱基的序列中,最优密码子也同样富含G/C[12],本研究证实了这一结论。同时,如果密码子的偏好性与物种亲缘性高度相关,或者亲缘关系更接近,那么2种生物之间的密码子会有更相近的使用模式。贾守宁等研究表明,杜鹃属9个物种中密码子的偏好性均保持高度一致[13],也同样论证了这个观点。
在不同物种中密码子偏好性形成的主要影响因子有较大差异。倒提壶(Cynoglossum amabile)叶绿体基因组密码子的偏好性主要受自然选择压力的影响[14],这可能因为倒提壶是生长在陆地上的高等植物,在进化上比较保守。蒺藜苜蓿(Medicago truncatula)主要是受到突变压力的影响[15],这可能是因为其植株的再生时间比较短,具有大量的突变体,生物多样性较高。芒果(Mangifera indicate)同时受自然选择和突变压力的共同作用[16],这可能是由于芒果喜高温干燥的气候,但是不耐严寒低温。镰翅羊耳蒜(Liparis bootanensis)除了受自然选择、突变压力的作用,可能还受碱基组成等其他因素的影响[17],因为它是附生草本,生长环境变动较大,受到多种因素的影响。本研究中性绘图结果表明,杜鹃叶绿体基因组密码子的偏好性主要是受自然选择的作用。PR2-plot分析表明,叶绿体基因组的密码子偏好也可能受到突变压力和自然选择的共同作用;表明杜鹃叶绿体基因组密码子的偏好性不是单个因素作用的结果,可能受到突变压力、自然选择共同因子的作用。
因杜鹃属植物具有典型频繁的自然杂交现象,当2个遗传背景差异较大的个体产生可育杂交后代时,基因组发生了重组与整合,这可能会导致该属植物的叶绿体基因组结构发生变异。前人研究表明,杜鹃属植物大多地处严寒低氧的高原地带,受环境胁迫的影响,可能发生基因的部分缺失和复制[13]。杜鹃属的不同物种间基因缺失的情况差别很大,说明了杜鹃属植物叶绿体基因组具有较高的突变性。Shen等比较了8个不同杜鹃花科的叶绿体基因组,发现其基因组大小、结构和GC含量存在显著差异,这种差异被认为主要是由维持生活的营养方式不同导致的(自养和异养)[18]。这表明,由于存在自然杂交和不同生活方式的缘故,可能会导致杜鹃和其他杜鹃属植物的叶绿体基因组密码子的偏好性存在相对较大偏差。刘仁林的研究表明,映山红亚属很可能由耳叶杜鹃(R. auriculatum)亚组最近的祖先类群演化而来,这些祖先类群大多分布于中国广西壮族自治区、广东省和湖南省南部;但映山红亚属的分布区十分广阔,除了新疆、宁夏2地至今没有记载之外,全国其他各省、市均有分布[19]。杜鹃在演化过程中,要适应各种自然环境变化导致的自然选择的巨大压力,这可能是杜鹃叶绿体基因组密码子使用偏好性主要受自然选择影响的原因所在;具有广阔的分布范围,是叶绿体基因组密码子使用偏好性主要受自然选择影响的植物的一种共性。
探究密码子偏好性的使用模式,获得最优密码子,具有十分重要的意义。以最优密码子为依据,设计叶绿体基因的表达载体,能够更有效地提升基因在叶绿体基因组中的表达效率和水平[20-21]。另外,已知密码子的使用模式有助于推断和预测未知基因的表达和功能[22],从而对基因工程和育种提供参考。本研究揭示了杜鹃叶绿体基因组密码子的使用模式和最优密码子,旨在为杜鹃及其近缘物种的密码子优化提供理论依据,为后续的育种研究以及品种优化提供帮助。
参考文献:
[1]胡计红,陈桂信,杨惠婷,等. 屏南龙源四季杜鹃古树组培快繁技术研究[J]. 热带作物学报,2020,41(4):755-763.
[2]苏学鹏. 四季杜鹃红山茶与山茶种间杂交技术要点浅析[J]. 南方农业,2020,14(32):219-220.
[3]杨 丽,严露露,李慧娥,等. 映山红杜鹃MADS基因家族的鉴定与分析[J]. 分子植物育种,2021,19(19):6290-6301.
[4]罗 雪,严贤春,侯 哲,等. 珙桐叶绿体基因组密码子使用偏好性分析[J/OL]. 分子植物育种. [2022-09-06]. https://kns.cnki.net/kcms/detail/46.1068.S.20220830.1837.009.html.
[5]朱灵芝,朱沛煌,李 荣,等. 马尾松PmDXR基因密码子偏好性分析[J]. 林业科学研究,2021,34(2):102-113.
[6]陆奇丰,骆文华,黄至欢.两种梧桐叶绿体基因组密码子使用偏性分析[J]. 广西植物,2020,40(2):173-183.
[7]Wang Z J,Xu B B,Li B,et al. Comparative analysis of codon usage patterns in chloroplast genomes of six Euphorbiaceae species[J]. PeerJ,2020,8:e8251.
[8]江淑珍,连 辉,熊远芳,等. 米槠叶绿体基因组密码子偏好性分析[J/OL]. 分子植物育.[2022-06-30]. http://kns.cnki.net/kcms/detail/46.1068.S.20210722.1131.006.html.
[9]龙凌云,黄秋伟,李慧敏,等. 金柑叶绿体基因组密码子使用偏好性分析[J/OL]. 分子植物育种. (2022-05-20)[2022-07-01]. https://kns.cnki.net/kcms/detail/46.1068.S.20220520.1055.002.html.
[10]李江飞,王 瑜,颜廷雨,等. 云南油杉叶绿体基因组密码子偏好性分析[J]. 中南林业科技大学学报,2022,42(4):30-39.
[11]Li H E,Guo Q,Li Q,et al. Long-reads reveal that Rhododendron delavayi plastid genome contains extensive repeat sequences,and recombination exists among plastid genomes of photosynthetic Ericaceae[J]. PeerJ,2020,8:e9048.
[12]郝丙青,夏莹莹,叶 航,等. 香花油茶叶绿体基因组密码子偏好性分析[J]. 中南林业科技大学学报,2022,42(9):178-186.
[13]贾守宁,张颖敏,赵国福,等. 头花杜鹃、陇蜀杜鹃及杜鹃属植物叶绿体基因组比较分析[J/OL]. 广西植物. [2022-07-05]. https://kns.cnki.net/kcms/detail/45.1134.Q.20220629.1301.002.html
[14]赵振宁,余 潇,寸孟人,等. 倒提壶(Cynoglossum amabile Stapf et Drumm.)叶绿体基因组密码子偏好性分析[J/OL]. 分子植物育种. [2022-07-06]. https://kns.cnki.net/kcms/detail/46.1068.S.20220630.1511.008.html
[15]杨国锋,苏昆龙,赵怡然,等. 蒺藜苜蓿叶绿体密码子偏好性分析[J]. 草业学报,2015,24(12):171-179.
[16]唐玉娟,赵 英,黄国弟,等. 芒果叶绿体基因组密码子使用偏好性分析[J]. 热带作物学报,2021,42(8):2143-2150.
[17]刘江枫. 镰翅羊耳蒜葉绿体基因组密码子偏好性分析[J]. 福建农业学报,2021,36(6):629-635.
[18]Shen J S,Li X Q,Zhu X T,et al. The complete plastid genome of Rhododendron pulchrum and comparative genetic analysis of Ericaceae species[J]. Forests,2020,11(2):158.
[19]刘仁林.中国杜鹃属映山红亚属植物系统分类研究[D]. 南昌:江西农业大学:139-140.
[20]李显煌,杨生超,辛雅萱,等. 灯盏花叶绿体基因组密码子偏好性分析[J]. 云南农业大学学报(自然科学版),2021(3):384-392.
[21]张海霞,王玉道,许雪妮. 苜蓿质膜内在蛋白编码基因MsPIPs家族的密码子偏好性分析[J]. 江苏农业学报,2021,37(6):1393-1399.
[22]Tang D F,Wei F,Cai Z Q,et al. Analysis of codon usage bias and evolution in the chloroplast genome of Mesona chinensis Benth[J]. Development Genes and Evolution,2021,231(1):1-9.