杨秀瑶,张梦洁,尹 拓,韩沛辰,杜朝金,张汉尧
(1. 西南林业大学/西南地区生物多样性保育国家林业与草原局重点实验室,昆明 650224; 2. 西南林业大学/云南省高校林木遗传改良与繁育重点实验室,昆明 650224)
【研究意义】自然界中存在20种氨基酸,除甲硫氨酸和色氨酸外,其余的氨基酸均由2~6个密码子编码[1]。物种在长期进化和演变过程中,受突变、自然选择等因素的影响,物种编码同一氨基酸的多个同义密码子的使用频率不相等,即密码子偏好性。研究密码子使用模式及其影响因素,对于探究物种的进化压力,明确叶绿体基因组遗传变异和基因功能提供参考依据。【前人研究进展】叶绿体通过光合作用为植物细胞提供必要的能量,是植物所特有的细胞器。叶绿体基因组主要由四部分组成:两个反向重复区(Inverted repeat region, IR) 、大单拷贝区(Large single-copy region)和小单拷贝区(Small single-copy region)[2]。叶绿体具有完整的一套遗传基因,其大小在107~218 kb,基因表达的保守性非常高,基因碱基含量、排列顺序相对稳定,已经成为研究物种间遗传差异和进化关系的理想工具[3-5]。目前,叶绿体基因组重复序列特征和密码子偏好性,已经在肖蒲桃(Syzygiumacuminatissimum)、黄芩(Scutellariabaicalensis)等植物中均有报道。通过对叶绿体基因组特征、密码子偏好性及系统发育关系分析,可以为构建物种遗传进化关系和揭示密码子使用偏性提供参考依据。包金波等[6]对石栗叶绿体基因组特征及其密码子偏好性的研究表明,石栗叶绿体基因组密码子偏性与物种的亲缘关系相关,亲缘关系越近,密码子偏性越相似。【本研究切入点】桃金娘科(Myrtaceae)蒲桃属(Syzygium),主要产于亚热带和美洲的热带地区,全世界约有3000种以上,中国仅有126种,多见于广东、广西和云南[7-9]。属于灌木至小乔木;植株形态优美,嫩枝红色,干后褐色,椭圆形至狭椭圆形,适作于行道树及景观造园;研究表明,从蒲桃的茎中分离鉴定出以三萜酸类、邻苯二甲酸脂类和脂肪酸类为主的34种小分子化合物,这些成分为阐明蒲桃的药用价值提供了可靠的化学依据[10-11]。蒲桃属植物具有较高的药用价值和观赏性,开发前景良好,但其叶绿体基因组特征、密码子使用模式及系统发育关系尚不明确且鲜有报道,影响了其进一步开发利用。【拟解决的关键问题】蒲桃属植物叶绿体基因组特征及密码子偏好性尚不明确且鲜有报道, 影响其后续开发利用。本研究以蒲桃属的6个种为研究对象,分析蒲桃属叶绿体基因组特征、系统发育关系及密码子偏好性的影响因素,为该物种叶绿体基因组遗传变异和叶绿体基因工程提供参考依据。
供试品种:红枝蒲桃(Syzygiumrehderianum),于2021年采于福建省漳州市龙海百花村(117.82′ E,24.45′ N),选择健康的幼嫩叶片9 g,用锡箔纸包裹,液氮速冻,-80 ℃保存。
供试仪器:高通量二代测序NextSeq 550AR基因测序仪(Illumina,美国)。
采集红枝蒲桃(S.rehderianum)顶端嫩叶3~5 g放入离心管,并将其置于干冰盒中送至浙江安诺优达生物科技有限公司进行二代测序,用软件GetOrganelle[12]v1.7.5组装和在线程序CPGAVAS2 (http://47.96.249.172:16019/analyzer/annotate),将注释所得的完整叶绿体基因组数据上传至美国国立生物技术信息中心(National center for biotechnology information,NCBI)获取数据登录号,登录号为:2573450。
为提高密码子偏好性分析的准确性,对所得数据进行筛选,剔除长度小于300 bp的CDS及重复序列,对符合条件的53条序列进行后续分析。其余5个物种从NCBI获取,对应的登录号为洋蒲桃(Syzygiumsamarangense):NC_060657.1,马六甲蒲桃(S.malaccense):NC_052867.1,海南蒲桃(S.cumini):GQ870669.3,丁香蒲桃(S.aromaticum):NC_047249.1,肖蒲桃(S.acuminatissimum):NC_053640.1。
为分析红枝蒲桃叶绿体基因组与近缘物种之间的差异,通过mVISTA (http://genome.lbl.gov/vista/mvista/submit.shtml)Shuffle-LAGAN模型[14]比较红枝蒲桃与5个近缘物种(洋蒲桃、马六甲蒲桃、海南蒲桃、丁香蒲桃、肖蒲桃)的叶绿体基因组序列差异,使用JSHYCloud(http://cloud.genepioneer.com:9929)绘制边界比对图。
从GenBank下载已公布的30个桃金娘科代表属物种的完整叶绿体基因组序列,以十字花科拟南芥为外类群,使用MEGA 7.0基于最大似然法[15]构建系统发育树,bootstrap值设置为1000。
1.4.1 密码子碱基组成成分分析 利用软件Condon W和Excel 2017计算统计密码子第3位上A、T、C、G各个碱基含量,同义密码子相对使用度(Relative synonymous codon usage, RSCU)和有效密码子数(Effective number of codon, ENC)。将红枝蒲桃注释好叶绿体基因组序列,剔除长度小于300 bp的CDS和重复序列,使用在线分析软件EMBOSS:cusp (https://www.bioinformatics.nl/cgi-bin/emboss/cusp) 计算符合条件的蒲桃属6个物种各基因的GC含量和3个碱基位置的GC含量[16]。
1.4.2 RSCU分析 相对同义密码子使用度(RSCU),即编码氨基酸的某个特定密码子实际使用频率和该密码子在无外界压力时使用频率的比值,是用于检测同义密码子使用是否均匀的方法。利用软件RStudio,基于各密码子的RSCU值,作柱状图,对密码子的使用频率进行可视化分析。
1.4.3 PR2-plot分析 奇偶校验规则2(PR2-bias plot analysis)以G3/(G3+C3)为横坐标,以A3/(A3+T3)为纵坐标,绘图分析密码子第3位点上A、T、C、G组成情况,中心点(A=T,G=C)表示突变和选择中两个互补的DNA链之间没有偏差[17]。PR2分析揭示了物种进化过程中突变和选择压力的存在。
1.4.4 中性绘图分析 中性绘图分析是比较3个位点碱基组成,并根据其相关性判断导致密码子偏性的主要因素。以GC3为横坐标,以GC12(GC1和GC2均值)为纵坐标绘图,当回归系数接近1时,GC12和GC3表现相关,突变起主要作用[18];反之,则GC12和GC3表现不相关,自然选择起主要作用。
1.4.6 最优密码子分析 筛选出蒲桃属6个物种符合条件的叶绿体基因,按照ENC值由高到低将蒲桃属6个物种的各个基因进行排序,分别各取两端的5个基因,构建低表达基因库(ENC值大)和高表达基因库(ENC值小),并计算高、低表达基因库的RSCU差值[20-23],挑选出RSCU>1,且ΔRSCU≥0.8密码子作为最优密码子。
以红枝蒲桃叶绿体基因组信息为参照,比较蒲桃属中红枝蒲桃与洋蒲桃、马六甲蒲桃、海南蒲桃、丁香蒲桃和肖蒲桃5个近缘种的叶绿体基因组差异(图1)。6个物种叶绿体基因组序列高度保守。LSC区和SSC区中,编码区较为保守,而非编码区变异较大。此外,叶绿体基因组基因间区的变异较大,如基因trnH-GUG和psbA间,基因psbAZ和trnG-UUC间,基因ndhF和trnL-UUA间,均存在较大的基因变异度。值得注意的是,虽然叶绿体基因组编码区高度保守,但6个物种间的ycf1基因表现出明显的变异性。
通过比较蒲桃属6个物种的SC和IR边界基因位置差异,分析蒲桃属在进化过程中IR/SC边界是否存在扩张与收缩现象。从图2可见,6个物种的叶绿体基因组长度差异较小,序列整体高度保守,但由于扩张程度不同,边界基因的类型和位置有所差异。海南蒲桃的rps19基因全部位于LSC区,其余物种LSC/IRb区的边界基因均位于rps19上,扩张程度均为31 bp。IRb/SSC区边界扩张范围显示海南蒲桃和丁香蒲桃的IRb/SSC区边界分别位于ycf1和ndhF上,其扩张程度较小,分别为3和5 bp,其余物种ndhF基因全部位于SSC区内。SSC/IRa区仅红枝蒲桃的ycf1基因全部位于SSC区,其余物种SSC/IRa区边界均位于ycf1基因上,且扩张程度差异较小。IRa/LSC区仅海南蒲桃区域边界位于rpl2-psbA基因间区,其余物种IRa/LSC区边界均位于rpl2-trnH基因间区。
图2 蒲桃属叶绿体基因组边界比较Fig.2 Comparison of boundaries of chloroplast genomes of Syzygium
去除重复和长度小于300 bp的叶绿体基因组序列后,将符合条件的海南蒲桃54条、肖蒲桃52条和其余物种的53条蛋白编码基因进行成分分析。从表1可见,6种蒲桃在编码区的碱基组成十分相似,GC、GC1、GC2、GC3含量均稳定在一个值附近。比较同义密码子3个位置的碱基组成发现,GC含量分布不均,但都表现出较好的相似性,均为 GC1>GC2>GC3,且GC3仅28%左右,说明蒲桃属各物种基因组密码子的第3位碱基以A/U为主,即偏向于A和U结尾;蒲桃属各基因的ENC值在39~61,ENC>45的基因有37±1条,表示蒲桃属叶绿体基因组密码子的偏性较弱。
表1 蒲桃属叶绿体基因组组成成分
对6个物种的GC1、GC2、GC3分别进行相关性分析(表2),除洋蒲桃和肖蒲桃外,其余4个物种的GC与GC1、GC2之间的相关性均达到极显著水平,GC1与GC2之间相关性达到显著水平,两者与GC3均未达到显著水平。说明密码子第一位与第二位碱基组成较相似,但与第三位碱基组成不同,这可能与其位置进化方式不同有关。
表2 6个物种基因GC含量相关性分析
表3 蒲桃属叶绿体基因组最优密码子分析
对蒲桃属6个物种进行RSCU分析(图3),6个物种的64个密码子中RSCU=1的无偏密码子均为编码色氨酸(Trp)密码子UGG和编码甲硫氨酸(Met)密码子AUG;RSCU>1的高频密码子均有30个,其中有29个以A/U结尾,且编码亮氨酸(Leu)密码子的RSCU值最大,均为2;RSCU<1的低频密码子有均有32个,以G/C结尾的有29个。表明在蒲桃属叶绿体基因组密码子UGG和AUG无使用偏性,其他密码子使用模式更倾向于以A/U结尾。对蒲桃属密码子使用偏好性的直观展示,64个密码子中条形图最长的为粉色标记的密码子,均以A/U结尾,直观地表明蒲桃属叶绿体基因组密码子使用更偏好于A/U结尾。
图3 蒲桃属叶绿体基因组RSCU分析Fig.3 RSCU analysis of chloroplast genomes in the genus Syzygium
通过密码子组成成分分析,发现各物种GC含量分布不均,说明蒲桃属同义密码子使用模式存在一定的偏性。对各物种中编码氨基酸的密码子第三位上嘌呤(A和G)和嘧啶(T和G)进行PR2分析,若各基因集中分布在图中中心点附近,则表明突变对基因起主要作用,反之则自然选择起主要作用。由图4可知,rps14、rpl20、psbA、psbD这4个基因偏离中心最远;各基因明显不均匀分布在图中的4个区域,A3/(T3+A3)上主要分布在中心轴下方,G3/(G3+C3)上主要分布在中心轴右方,且蒲桃属的6个种均表现出较好的一致性。表明蒲桃属叶绿体基因组密码子第3位上碱基的使用频率T(U)>A,G>C。表明蒲桃属叶绿体基因组密码子偏好性主要受到选择因素影响的同时,还受到突变因素的共同作用。
图4 蒲桃属叶绿体基因组PR2-plot分析Fig.4 PR2-plot analysis of chloroplast genomes in the genus Syzygium
如图5所示,GC3的分布在0.21~0.37,GC12的分布在0.32~0.56。其中,6个物种的ycf2基因均分布于对角线上,其余所有基因分布于对角线上方。相关性研究表明,各物种GC3和GC12的相关系数分别为0.042、0.041、0.036、0.141、0.047、0.102;回归系数分别为0.0018、0.0017、0.0013、0.0002、0.002、0.0105。表明GC12和GC3相关性较弱,突变对密码子各个位置碱基组成的影响不同,即突变因素对密码子使用模式的影响较弱,自然选择是造成密码子使用偏性的主要因素。
图5 蒲桃属叶绿体基因组中性绘图分析Fig.5 Neutral mapping analysis of the chloroplast genome of Syzygium
对蒲桃属6个物种叶绿体基因组密码子进行ENC和GC3关联分析(图6)。大部分基因均分布于标准曲线的下方,即实际ENC值低于标准ENC值;仅ycf3和ycf152个基因的实际ENC达到61,表明这2个基因的密码子在使用上不存在偏性。从表4可见,蒲桃属6个物种ENC比值分布在-0.05~0.05的基因约占40%,这些基因离标准曲线较近,主要受到突变压力的影响;其余在该区域外的基因,离标准曲线较远,这些基因受到选择压力的影响较大。这表明蒲桃属叶绿体基因组密码子的使用模式在受到突变影响的同时,主要受到选择压力的影响。
表4 ENC比值频数分布
图6 蒲桃属叶绿体基因组ENC-plot分析Fig.6 ENC-plot analysis of the chloroplast genome of Syzygium
如表3所示,综合6个物种的最优密码子可确定AGU、CGU、AAA、GCU、GGU、GUA、GAA等7个共同最优密码子为蒲桃属叶绿体基因组的最优密码子,这7个密码子均以A/U结尾,其中含有4个U和3个A。
基于30个桃金娘科物种的叶绿体基因组,以拟南芥为外类群构建系统发育树(图7)。遗传变异度为0.01,bootstrap值都为100。共包含28个节点,其中有27个节点的bootstrap值大于90%。肖蒲桃(S.acuminatissimum)和香蒲桃聚在同一支,支持率为100%,说明二者亲缘关系较近;蒲桃属(Syzygium)的其他物种与桉属(Eucalyptus)物种节点支持率均大于90%,说明这蒲桃属和桉属的亲缘关系相对较近。
图7 基于30个桃金娘科叶绿体基因组全序列系统发育树Fig.7 Phylogenetic tree based on 30 whole sequence chloroplast genomes of Myrtaceae
叶绿体基因组序列包含蛋白编码区和非编码区,非编码区无法编码蛋白质,序列变异度高,进化快;编码区序列高度保守。通过对红枝蒲桃及其5个近缘种叶绿体基因组的比较分析可知,蒲桃属叶绿体基因组编码区序列高度保守,但位于编码区的ycf1基因表现出显著的变异性。钱方等[14]研究了海甘蓝叶绿体基因组特征及其系统发育,ycf1基因显著变异性的结果与本研究一致。武立伟等[12]研究细茎石斛叶绿体基因组特征发现,其ycf1基因的变异较弱,且位于编码区的ycf2基因也表现出明显变异,这与本研究结果存在一定差异,具体原因仍需要进一步探索。
碱基组成成分分析中,第3位密码子的改变通常不会导致所编码氨基酸的改变,因此GC3通常作为分析密码子使用模式的重要指标。通过PR2分析第3位密码子A和T、G和C之间的关系,表明密码子第3位碱基的使用频率T>A,G>C,即在编码氨基酸时嘧啶的使用频率高于嘌呤。丁淑金等[24]研究油麦吊云杉叶绿体基因组的碱基组成,第3位碱基的使用频率为T>A,G>C,与本研究结果基本一致。
不同基因的ENC值存在较大差异,用于反映密码子使用偏性的强弱。在本研究中,蒲桃属6个物种的叶绿体基因组虽然种内各基因ENC值不同,对应密码子的偏好不同,但种间相同基因的ENC值基本相同,对应密码子的偏好程度相似。这与晋宇轩等[25]对冬凤兰密码子的研究结果相一致,进一步说明植物叶绿体全基因组基因序列的高度保守性。RSCU分析表明,蒲桃属6个物种中各叶绿体基因组RSCU>1的密码子多以A、U结尾。Wang等[18]通过对龙船花叶绿体基因组RSCU值分析发现,在31个RSCU>1的密码子中,多是以A/U结尾的密码子。说明蒲桃属中6个物种与大多数植物相似,偏好使用以A和U碱基结尾的密码子,即密码子偏好于NNA和NNU型。
ENC-plot分析中标准曲线表示密码子不受自然选择的压力,仅受到基因突变作用时所对应的基因位置,周围散点表示实际环境中不同基因的位置。蒲桃属6个物种中,约60%的基因均落于标准曲线下方较远的位置,ENC理论和实际值差异较大,说明这些基因密码子使用模式主要受到自然选择的作用。Duan等[26]对Delphiniumgrandiflorum叶绿体基因密码子偏好性的研究表明自然选择对叶绿体基因组密码子使用模式起主要作用,但不同种群间其作用强弱不同。说明蒲桃属密码子使用模式的主要影响因素与其他植物相似,大多都是自然选择为主,植物自身基因突变为辅。此外,也有部分基因分布于标准曲线附近或标准曲线上,这部分基因ENC的理论值与实际值相近,尤其ycf3和ycf15的ENC值为61,与标准曲线重合,这2条基因密码子使用偏性受突变的影响最强。结合中性绘图分析,蒲桃属叶绿体基因组密码子使用偏性的影响因素较为复杂,在主要受到自然选择压力影响的同时还伴随着突变的共同作用。
蒲桃属叶绿体基因组序列尤其是编码区高度保守,编码区中仅ycf1基因呈现出显著的变异性。蒲桃属叶绿体基因组密码子偏好使用A和U结尾,该使用偏性的形成主要受自然选择的影响,同时也受突变等其他复杂因素的共同作用。该研究筛选出蒲桃属6个物种的共同最优密码子以及对蒲桃属系统发育关系分析,为蒲桃属药用价值的开发利用和叶绿体基因工程的研究提供参考价值。