韩 君
(北京康仁堂药业有限公司,北京 101301)
猬科在我国共有5 个属7 个种。刺猬一直被用作传统药物,具有较高的药用价值[1-3]。研究表明,刺猬皮肤的刺主要由角蛋白构成,而皮肤下层的真皮主要由弹性蛋白和脂肪等物质构成[4-5]。刺猬肉甘平无毒,具有降逆和胃、凉血止血的作用[6]。猬脂具有止血杀虫的功效,可用于治疗瘰疬、恶疮等[7]。猬胆则有清热解毒和明目的作用。除了传统功效之外,还有人将刺猬用于治疗前列腺肥大,且疗效显著[8]。其中,远东刺猬起源于朝鲜半岛,广泛分布在中国、俄罗斯和朝鲜半岛,是一种小型的夜间动物,生活在森林中。
最近研究表明,刺猬皮含有丰富的矿物质元素,其中钾、钠和钙的含量最高。刺猬皮药用价值与其矿物质元素含量密切相关[9]。不同种类和含量的矿物质元素,对于药效发挥具有重要意义,但目前仍然缺少分子层面上的研究与验证。因此,本研究拟以远东刺猬线粒体mtDNA 编码蛋白质基因序列为研究对象进行密码子偏好性分析,以期为预测远东刺猬未知蛋白的基因所在基因组位置、提高特定基因的表达效率打下理论基础,同时为促进其药用价值的分子机制探究提供基础材料。
本研究所用的远东刺猬线粒体基因组基因序列,均来源于美国国立生物技术信息中心GenBank数据库。登录NCBI 数据库,并下载完整远东刺猬线粒体基因组序列及其编码序列(CDS),序列总长16 941 bp。为了准确分析远东刺猬线粒体基因密码子偏好性,本研究选择远东刺猬线粒体mtDNA 编码蛋白质的基因序列中长度大于300 bp的非重复编码序列(CDS)12条进行研究。
使用CodonW1.4.2软件和在线程序CUSP(http://imed.Med.ucm.es/EMBOSS/)对所选择的CDS 进行密码子使用偏好参数分析[10],包括相对同义密码子使用度(RSCU)、有效密码子数目(ENC)、密码子适应指数(CAI)、最优密码子使用频率(Fop)、氨基酸数(L_aa)、同义氨基酸数(L_sym)、平均亲水性值(Gravy)、密码子偏爱指数(CBI)、GC、GC1、GC2、GC3和GC3s,其中GC、GC1、GC2和GC3的数字表示密码子的位数(第1、2、3位),GC3s为同义密码子第3位的GC含量。
通过中性分析,可以初步确定影响密码子偏好的因素。该分析是通过计算GC1和GC2的平均值(即GC12),将其作为纵坐标,并以GC3作为横坐标,绘制散点图。每个点代表1个不同的基因,通过结合中性绘图的结果来分析密码子在这3 个位点上的GC 含量之间的关系,从而推断影响密码子使用偏好的因素。若密码子这3 个位点上GC 含量存在内在关系,则表明相关基因在进化与遗传时受突变作用;若密码子这3 个位点上的GC 含量之间没有相关性,那么可以推断该基因受到选择的影响,从而判断导致密码子使用偏好的因素[11]。
表1 远东刺猬的线粒体基因组不同位置的GC含量
以GC3s为横坐标,ENC 为纵坐标,将各基因根据横纵坐标进行定位绘制散点图,并在图中构建ENC 的标准曲线。根据基因相对标准曲线的分布位置,从而判定密码子偏好性的影响因素。基因位于标准曲线附近或上方,表示突变是影响密码子偏好性的主要因素;而基因位于标准曲线下方,则表示自然选择是影响密码子偏好性的主要因素。
利用CodonW1.4.2 软件中的RSCU 对应分析功能,可以对远东刺猬线粒体基因组密码子进行分析,推测密码子偏好性规律。
通过按照ENC 参数从大到小对参与分析的基因进行排序,可以将这些基因分成高低偏性两个集合,分别取两端各10%的基因序列,然后筛选同义密码子相对使用度差值(△RSUA)大于0.08 且同义密码子相对使用度(RSUA)大于1 的密码子,将其确定为最优密码子[12]。
本研究共筛选出12 条以ATG 为起始密码子且长度大于300 bp 的序列,并利用CodonW1.4.2 软件与CUSP程序对筛选出的12条基因进行分析。结果见表1,显示远东刺猬的线粒体基因组密码子第1位GC(GC1)平均含量为41.4%、第2 位(GC2)为34.4%、第3 位(GC3)为24.3%。结果表明,远东刺猬线粒体基因密码子的前2位GC含量明显高于第3位,而第1 位的GC 含量最高,这表明其偏好于以A 和U 结尾的密码子。ENC 的范围为31.83~50.67,平均值为43.37。根据Jiang Y.等[13]的研究,当ENC值大于35 时说明密码子偏好性弱、小于35 时密码子偏好性强的标准,说明远东刺猬线粒体基因密码子偏好性较弱。
密码子相关性分析结果见表2,显示GC1、GC2、GC3与GC之间,均未呈显著相关,相关系数为分别为-0.018、0.029、0.039,表明对远东刺猬线粒体基因组而言,GC1、GC2、GC3不可以决定GC的含量。同时,GC1、GC2、GC3三者之间,均呈显著正相关,相关系数均大于0.98,说明三者含量具有正向的互相影响作用。此外,ENC 与GC1、GC2、GC3、GC 均呈非显著负相关,这表明GC 含量对密码子的使用偏好性具有一定的负面影响。
表2 各基因相关参数的相关性分析
RSCU 分析结果见表3,发现远东刺猬线粒体RSCU值大于1.00的密码子数目为32个。其中,密码子第3位碱基为A的有14个;第3位为U的有14个;第3 位为C 的有4 个。综上说明,远东刺猬线粒体基因组密码子偏好以A 或U(T)结尾,不偏好以C或G结尾。
表3 远东刺猬线粒体各氨基酸相对同义密码子使用度
远东刺猬线粒体基因中性绘图分析(见图1)显示,GC12的取值范围为0.336~0.440,GC3的取值范围为0.216~0.254,所有基因的分布均位于对角线上方,且没有沿对角线或在对角线附近的分布情况。利用SPSS 25.0 对GC12与GC3进行相关性分析,结果表明,两者相关系数为0.443,双尾检测未达到显著水平。
图1 中性绘图分析
ENC-plot绘图分析(见图2)显示,在远东刺猬线粒体基因组中,大部分基因的对应点与标准曲线存在不同程度的偏离,这表明这些基因在进化过程中受到了环境选择压力等其他因素的影响,从而导致其线粒体基因密码子的偏性发生了改变。为了更好地显示这种差异性,可以通过计算(ENCexp-ENCobs)/ENCexp的数值,并对结果进行频率分布统计。统计结果显示,所有基因的(ENCexp-ENCobs)/ENCexp 比值集中分布在-0.12~0.26,其中0.05~0.15 区间内所占例为66.67%,这说明虽然选择压力对大部分基因产生了作用,但并没有较大程度地改变这些基因的密码子偏好性。远东刺猬线粒体基因密码子偏好性主要受到突变的影响,而自然选择对其的影响相对较小。
图2 ENC-plot绘图分析
基于RSCU进行对应性分析,得到各基因在59维向量空间的分布情况。结果表明,第1、2、3、4轴向量所占比例分别为35.64%、16.22%、10.26%和9.13%,前4 轴向量累计占比71.24%,其中第1 向量轴(Axis1)为主要影响因素。进行了各基因的ENC、CAI 及GC3s等偏好性参数与Axis1 之间的相关性分析,结果显示GC3s(R=0.609)、ENC(R=0.743)与Axis1 呈显著正相关;CAI(R=-0.375)与Axis1 呈负相关。这说明GC1、GC3s及CAI 对远东刺猬线粒体基因密码子的使用偏好性起重要作用。为进一步观察密码子偏好性,以Axis1为横坐标,Axis2为纵坐标,将所有试验基因分布区于坐标系中。通过观察结果(见图3)可知,ND1、ND2、ND3、ND4和ND5等5个基因分布相对集中,说明其偏好性较为接近;其他7 个基因分布较为分散,偏好性也相差较大。
图3 基于RSCU的对应性分析
以ENC 参数为标准将所有基因的CDS(是指编码一段蛋白产物的序列,是与蛋白质密码子一一对应的序列)进行排序,而后在两端各取2 个基因序列分别建立高低偏性集合;计算两库中的RSCU值,并计算两库△RSUA。结果见表4,显示确定出了24 个远东刺猬线粒体基因组高表达优越密码子,其中7个以A结尾、5个以U结尾、2个以G结尾和10个以C结尾。
表4 远东刺猬线粒体基因组高/低表达样本组的密码子用法
通过将上述24 个高表达优越密码子与得出的高频密码子进行比较,最终得出了14 个远东刺猬线粒体基因组的最优密码子,分别为CUA、AUA、GUU、UCU、CCC、ACA、GCU、CAU、AAA、GAA、UGA、CGC、GGC 和GGA,其中有7 个以A 结尾、3个以C结尾、4个以U结尾。
密码子编码形成氨基酸,是生物体遗传信息传递过程中一个重要环节。同义密码子是指可以编码同一种氨基酸的密码子,由于密码子具有简并性,因此对于同一种氨基酸,会存在多个对应的密码子。通常密码子的简并性表现在第3位碱基上,本研究在远东刺猬线粒体基因组碱基组成中发现,GC1 平均含量为41.4%、GC2为34.4%、GC3为24.3%。RSCU分析结果显示,RSCU值大于1.00的远东刺猬线粒体密码子数目为32个。密码子第3位碱基为A的有14个,第3位为U的有14个,第3位为C的有4个。综上说明,远东刺猬线粒体基因组密码子偏爱以A 或U(T)结尾,不偏好以C 或G 结尾。这与多数动物的密码子偏好性特点相一致,如文蛤属贝类[14]、对虾[15]和菜蝽[16]等。
物种在长期进化过程中,其基因会随着进化程度而逐渐形成一种特定密码子用法,用以适应基因组[17]。密码子偏性是同义密码子在生物体中非均衡使用的现象,突变和自然选择是主要形成密码子偏好的原因。ENC-plot 分析可用于确定影响密码子偏好性的主要因素。本研究表明,远东刺猬线粒体基因组中大部分基因密码子偏离标准曲线,说明这些基因受环境选择压力等其他因素的影响而发生改变。中性绘图分析显示,远东刺猬线粒体基因组中的基因分布在对角线上方,没有呈现出沿对角线或接近对角线分布的趋势,这表明密码子的使用更多受到自然选择影响。综合中性绘图和SPSS结果发现,远东刺猬线粒体基因密码子第1、第2位和第3位的碱基组成存在较大差异,可能受到突变压力影响,从而导致密码子使用偏好性发生变化。对应性分析结果显示,第1、2、3和4轴向量所占比例分别为35.64%、16.22%、10.26%和9.13%,前4 轴向量累计占比71.24%,其中Axis1为主要影响因素。因此,远东刺猬线粒体基因密码子偏好性受到自然选择影响,但更多是受到了突变作用,这与真白鲑[18]、落叶松杨栅锈菌[19]、茄腐镰孢[20]等研究结果一致。
在本研究中,通过构建远东刺猬线粒体基因的高/低表达库,并利用△RSCU 和RSCU 的综合指标来筛选最优密码子,有效地避免了因单方面缺陷而导致结果出错的问题。最终确定了CUA、AUA、GUU、UCU、CCC、ACA、GCU、CAU、AAA、GAA、UGA、CGC、GGC 和GGA 等14 个密码子作为远东刺猬线粒体基因组最优密码子。在对远东刺猬线粒体基因密码子偏好性研究的基础上,可以通过优化目标基因的密码子,探究其皮等组织入药机制,同时也可为远东刺猬野生群体的保护策略及养殖群体育种等方面,提供理论依据和实践指导。