李敏敏,赵 岑,赵翠敏,张兰迎
(聊城市农业科学院,山东 聊城 252000)
灵芝(Ganoderma spp.) 在中国不仅被寓为吉祥物,更极具药用价值,其中赤芝(Ganoderma lucidum) 和紫芝(Ganoderma sinense) 已经被纳入《中华人民共和国药典》[1]。灵芝基因组由13 条染色体组成,编码约一万多个与次生代谢产物合成、运输、调控等生物途径相关的基因[2]。与酵母等低等真菌相比,灵芝具有更复杂的有性生殖世代和更明显的形态建成与分化;与高等药用植物相比,其基因组更小、世代周期更短[3]。因此,灵芝是研究真菌次生代谢的理想模式物种[3]。
不同同义密码子的使用频率在蛋白质翻译过程中有所不同,这是因为真菌对密码子具有使用偏好性,导致在不同物种以及同一物种中通常倾向于使用一种或几种特定的同义密码子,而密码子的使用偏好往往在物种之间有所不同,甚至在同一物种的不同基因之间也有所不同[4]。通过分析寻找和发现不同物种的密码子使用偏好特征,对于研究物种分子进化规律和异源基因序列优化具有重要意义。密码子偏好性分析主要基于全基因组数据。随着高通量测序技术的不断进步[5-6],目前NCBI 等数据库中已积累了灵芝科(Ganodermataceae) 不同种的全基因组测序数据,这为基因组结构及密码子偏好性分析提供了极大的方便。
赤芝(GCA_019426095.1)、紫芝(GCA_002760 635.1)、松杉灵芝(Ganoderma tsugae GCA_003057 275.1)、重伞灵芝(Ganoderma multipileum GCA_000 338015.1)、狭长孢灵芝(Ganoderma boninense GCA_002900995.2)、Ganoderma sp. BRIUMSc(GCA_00869 4245.1)、白肉灵芝(Ganoderma leucocontextum GCA_020736865.1)、南方灵芝(Ganoderma australe GCA_003697905.1) 等8 个灵芝科真菌的全基因组数据来源于NCBI 数据库。
1.2.1 灵芝科真菌全基因组简单重复序列(Simple sequence repeat,SSR) 分析
采用MISA 软件分析8 个灵芝科真菌基因组中,二至六碱基核苷酸重复SSR 位点的分布频率和重复基元的基本类型。本试验分别将10 个单碱基重复、6 个二碱基重复、5 个三碱基重复、5 个四碱基重复、5 个五碱基重复、5 个六碱基重复定义为微卫星序列。用Primer 3.0 软件对筛选出的SSR 位点批量设计引物。引物设计时参数设置为:GC 含量40%~60%,且最后3 个碱基不是连续的G 或C;退火温度(55±5) ℃;目标片段长80~150 bp,引物长18~22 bp。随机选择不同真菌基因组中二碱基重复10次及以上,或三碱基重复6 次及以上的SSR motif,利用Primer-BLAST 比对检测引物特异性。
1.2.2 灵芝科真菌同义密码子使用偏好性分析
通过ORFs 脚本筛选密码子数大于等于100(即编码序列长度大于等于300 bp) 的蛋白质编码序列CDS(coding sequence,CDS)[7]。使用CodonW 1.4.2 软件对8 个灵芝科真菌全基因组序列中的CDS蛋白质编码基因序列进行分析。分析参数包括有效密码子数Nc(effective number of codons,Nc)、GC 含量(鸟嘌呤和胞嘧啶含量)、A3s(第3 位同义密码子上腺嘌呤的出现频率)、T3s(第3 位同义密码子上胸腺嘧啶的出现频率)、G3s(第3 位同义密码子上鸟嘌呤的出现频率)、C3s(第3 位同义密码子上胞嘧啶的出现频率)、GC3s(第3 位同义密码子上鸟嘌呤和胞嘧啶的出现频率) 和相对同义密码子使用性RSCU(relative synonymous codon usage,RSCU)。
使用CUSP 程序计算灵芝科真菌全基因组中密码子的使用频率,并从密码子使用数据库Codon Usage Database[8]下载酿酒酵母(Saccharomyces cerevisiae)、大肠杆菌(Escherichia coli) 和毕赤酵母(Pichia pastoris) 密码子的使用偏好性数据,用于选择8 个灵芝科真菌的最优异源表达载体。
2.1.1 灵芝科真菌全基因组SSR 的分布特点
SSR 简单重复序列是较常用的遗传标记之一,在基因功能和基因组组织中发挥重要作用,试验中8个灵芝科真菌全基因组SSR 的分布特点详见表1。
表1 灵芝科真菌全基因组SSR 的分布特点Tab.1 Distribution characteristics of genome-wide SSR in Ganodermataceae fungi
由表1 可知,在8 个灵芝科全基因组序列中搜索到的SSR 数量为1 459~4 629 个,即每隔15.3~31.9 kb 就存在1 个SSR。SSR motif 以单核苷酸(20.0%~45.1%)、二核苷酸(15.2%~24.2%)、三核苷酸(27.9%~47.8%) 重复为主,其次是四核苷酸、六核苷酸,数量最少的是五核苷酸SSR。8 个灵芝科真菌基因组的大小从松杉灵芝的45.6 Mb 到南方灵芝的83.4 Mb 不等,同时基因组中所含SSR 的总数从重伞灵芝的1 459 个到狭长孢灵芝的4 629 个,总体看来基因组中SSR 的数量与基因组大小无关。
8 个灵芝科真菌全基因组SSR motif 类型中,出现频率>5%的SSR 重复类型详见图1。
图1 灵芝科真菌基因组中高频率出现的SSR 重复类型Fig.1 The most frequent SSR types in fungi genome of Ganodermataceae
如图1 所示,出现频率较高的SSR 重复类型以单核苷酸为主,其中C/G 单核苷酸重复的比例最高,占单核苷酸重复总数的63.7%~87.3%,占全部SSR总数的17.5%~34.0%。在二核苷酸重复单元中以AG/CT 的数量最多,占总数的46.7%~62.6%。三核苷酸SSR 的类型在各灵芝科真菌基因组中的出现频率有一致性也有特殊性,其中在赤芝中出现频率最高的是ACG/CGT、CCG/CGG;在紫芝、松杉灵芝、重伞灵芝、狭长孢灵芝、白肉灵芝、南方灵芝中出现频率最高的是AGG/CCT、ACG/CGT;在Ganoderma sp. BRIUMSc 中出现频率最高的是ACG/CGT、AGG/CCT。
2.1.2 灵芝科真菌全基因组SSR 引物设计
利用软件进行全基因组SSR 引物设计,结果详见表2。
表2 灵芝科真菌全基因组SSR 引物Tab.2 SSR primers corresponding to fungi genome-wide of Ganodermataceae
多核苷酸重复单元SSR 多态性高,但同时突变率也较高[9-10]。因此,我们在8 个灵芝科真菌全基因组中,随机选择二碱基重复次数10 次以上,或三碱基重复次数6 次以上的SSR motif,通过Primer-BLAST 验证引物特异性,结果表明所有引物都可以成功扩增出片段,并具有较好的特异性。
从NCBI 数据库下载8 个灵芝科真菌全基因组数据,筛选以起始密码子ATG 开始,以终止密码子结束,且CDS 编码序列长度大于300 bp 的序列。8 个灵芝科真菌基因组CDS 编码序列的GC 含量为57%~59%,密码子第3 位碱基的GC 含量为55%~63%。
同义密码子相对使用度RSCU,是同义密码子的实际观测值与同义密码子平均使用期望值的比值,可以用于评估同义密码子的使用偏好性。如果RSCU值为1,表明无密码子使用偏好性;若RSCU 值大于1,表明该密码子使用更频繁,具有使用偏好性[11]。试验运用CodonW 软件分析了8 个灵芝科真菌CDS编码序列的RSCU 值,结果详见图2。
图2 灵芝科真菌相对密码子使用堆积图Fig.2 Stacked plot of RSCU in fungi of Ganodermataceae
如图2 所示,除了Ganoderma sp. BRIUMSc 中有偏好性(RSCU>1) 的密码子为27 个(无GGG),其他7 个灵芝科真菌有偏好性的密码子均为28 个(TTC、TCC、TCG、TAC、TGC、CTT、CTC、CTG、CCC、CCG、CAC、CAG、CGC、CGG、ATC、ACC、ACG、AAC、AAG、AGC、GTC、GTG、GCC、GCG、GAC、GAG、GGC、GGG)。在Ganoderma sp.BRIUMSc 有偏好性(RSCU>1) 的密码子中,以G/C 结尾的有26 个,以A/T 结尾的有1 个(CTT);在其余7 个灵芝科真菌有偏好性的密码子中,以G/C 结尾的有27 个,以A/T 结尾的有1 个(CTT)。由此表明,灵芝科真菌蛋白编码基因偏爱以G 或C 结尾的密码子。在Ganoderma sp. BRIUMSc 的64 个同义密码子(32 个GC3s 密码子和32 个UA3s 密码子) 中,有26 个GC3s 密码子的RSCU 值大于1,1 个UA3s 密码子的RSCU 值大于1;在其他7 个灵芝科真菌中,有27 个GC3s 密码子的RSCU 值大于1,1 个UA3s密码子的RSCU 值大于1。由此推断,核苷酸组成及其在第3 位同义密码子上的出现频率可能是影响密码子偏好程度的因素之一。
2 个物种的密码子使用频率比值如果为0.5~2.0,说明密码子的偏好性较类似,反之则说明密码子的偏好性相差较大[12]。通过计算8 个灵芝科真菌与酿酒酵母、大肠杆菌、毕赤酵母表达宿主的密码子使用频率比值,发现8 个灵芝科真菌中分别有41、41 和35 个密码子与3 个表达宿主的密码使用频率比值介于0.5~2.0,表明8 个灵芝科真菌基因密码子使用模式更接近于酿酒酵母和大肠杆菌。
SSR 分子标记可以解释基因组扩张现象,影响数量遗传性状的表达,在食用菌育种实践等领域具有重要的研究意义[13-16]。对于不同的真菌基因组,MURAT[17]和LI[18]等人在各自的研究中将SSR 定义为10 个重复的单核苷酸,6 个重复的二核苷酸和5 个重复的3~6 个核苷酸。因此,本试验也同样采用上述标准进行SSR 位点的搜索。结果显示,赤芝、紫芝、松杉灵芝、重伞灵芝、狭长孢灵芝、Ganoderma sp. BRIUMSc、白肉灵芝、南方灵芝基因组中,分别含有3 075、1 652、2 478、1 459、4 629、2 220、2 148、3 502 个SSR 位点,SSR 位点数量与基因组大小无线性关系,说明SSR 在不同灵芝真菌基因组中的进化存在差异。
从SSR 总数量和密度来看,灵芝科真菌基因组的SSR 位点具有数量不一、密度不同的特点。紫芝和重伞灵芝的SSR 位点密度分别为34 个/Mb、31个/Mb,与金针菇(Flammulina velutipes)(36 个/Mb)和裂褶菌(Schizophyllum commune)(31 个/Mb) 的SSR 位点密度相当;Ganoderma sp. BRIUMSc、白肉灵芝、南方灵芝的SSR 位点密度分别为42 个/Mb、44 个/Mb、42 个/Mb,与糙皮侧耳(Pleurotus ostreatus)(38 个/Mb) 密度相当;松杉灵芝和狭长孢灵芝的SSR 位点密度分别为54 个/Mb、59 个/Mb,与美味牛肝菌(Boletus edulis)(59 个/Mb) 和灰盖鬼伞(Coprinopsis cinerea)(56 个/Mb) 的SSR 位点密度相当;赤芝的SSR 位点密度在灵芝科中最高,为65个/Mb,但均低于双孢蘑菇(Agaricus bisporus)(104 个/Mb)[19-20]。
赤芝、紫芝、松杉灵芝、重伞灵芝、狭长孢灵芝、Ganoderma sp.BRIUMSc、白肉灵芝、南方灵芝等8 个灵芝科真菌全基因组的SSR motif 类型,以单碱基重复和二、三碱基重复为主,与美味牛肝菌类似[20]。短重复单元(单核苷酸至三核苷酸) 的数量多于长重复单元,支持了长重复单元的SSR 具有更高变异性的观点。
8 个灵芝科真菌全基因组中,C/G 单核苷酸重复的比例均最高,与黄孢原毛平革菌(Phanerochaete chrysosporium) 和裂褶菌(Schizophyllum commune)分布特性一致[21]。而灰盖鬼伞、双色蜡蘑(Laccaria bicolor)、草菇(Volvariella volvacea)[22]、美味牛肝菌[20]则以A/T 单核苷酸重复类型为主。8 个灵芝科真菌全基因组二碱基重复类型中AG/CT 重复所占比例较大,与美味牛肝菌结果一致[20],不同于草菇二碱基重复类型以AT/AT 为主[22]。各灵芝科真菌基因组中的三核苷酸SSR 类型具有一致性和特异性,丰度最高的重复基元为AGG/CCT、ACG/CGT、CCG/CGG 和AGG/CCT。在8 个灵芝科真菌全基因组中分布最少的SSR motif 类型是五核苷酸SSR,与美味牛肝菌全基因组SSR motif 分布特点类似[20]。
前人研究结果表明,长SSR 的多态性要好于短SSR,因此,试验从8 个灵芝科真菌全基因组的所有SSR 位点中随机选出二碱基重复次数10 次以上,或三碱基重复次数6 次以上的SSR 位点,设计了相应的引物,利用Primer-BLAST 进行了验证,表明其具有较好的特异性。PCR 产物设计为80~150 bp,即能保证扩增的丰度,保证扩增后有较强的信号,又能避免非特异扩增并节省跑胶时间。
密码子使用偏好性是物种在遗传信息传递过程中的一个重要特征。不同的生物为了适应不同的环境,不断完善自身的遗传编码特征,使密码子偏好性存在差异。8 个灵芝科真菌细胞核编码基因的平均GC 含量高于香菇(48.66%)、双孢蘑菇(49.08%)、羊肚菌(Morchella esculenta)(52.2%)、金针菇(52.34%) 等大型真菌,表明与其他食用菌相比灵芝科真菌倾向于使用GC 丰富的密码子[23-26]。当外源基因转移到受体生物体内时,由于转移基因的密码子和宿主基因组的密码子的使用偏好不同,容易发生甲基化,导致转基因沉默或转基因表达降低[27]。因此,在外源基因转移前应根据宿主的密码子偏好进行优化和修改。本试验中8 个灵芝科真菌蛋白编码基因均偏爱使用G/C 结尾的密码子,这种偏好可能是由于以G/C 结尾的密码子具有较高的结合能,能确保基因准确翻译[28]。其密码子使用模式与草菇[12]、蛹虫草(Cordyceps militaris)[29]、药用真菌猪苓(Polyporus umbellatus)[30]类似。研究表明,在排除自然选择压力的影响下,碱基突变压力主要影响同义密码子第3 位碱基的组成,当G/C 突变成A/T 的压力更高时,密码子第3 位碱基G/C含量会大于A/T,反之亦然[31]。由此推测8 个灵芝科真菌在受碱基突变压力的时候,可能G/C 突变为A/T 的压力更大,导致密码子以G/C 结尾的比例更高。
密码子频率分析对于研究基因组进化、大规模基因表达谱、提高外源基因在宿主中的表达、选择更合适的宿主系统具有重要意义。试验结果显示8个灵芝科真菌的密码子使用频率均与酿酒酵母、大肠杆菌差异较小,只需优化个别密码子就可以提高基因异源表达效率。这为灵芝科真菌同酿酒酵母、大肠杆菌真核表达系统互为受体,进一步开展重要基因异源表达,改良品种特性研究提供依据。与毕赤酵母的密码子使用频率差异相对较大,如果将毕赤酵母的基因在灵芝科真菌中表达,需要对密码子进行充分的优化。