李可群
(同济大学 化学科学与工程学院,上海 200092)
地球上的一切生命形式都有一个共同的起源,无论动物、植物、真菌、原生生物还是原核生物,它们都籍由一部共同的进化历史而有着或近或远的关联。重建所有生物的进化历史并以树状结构即系统发育树的形式来表示生物类群的进化关系,一直是系统发育学研究的核心问题,也是进化生物学研究的重要内容[1]。不过,近年来快速发展的分子系统发育分析方法在计算物种分歧时间时,大多基于分子进化速率恒定的“分子钟”假说[2],不过大多数生物分子在长时间尺度和不同谱系的进化速率并不恒定,从而计算得到的结果与化石年龄往往存在较大偏差。如原口动物和后口动物分歧时间化石给出的年代大在5.55亿~5.60亿年前,而近年来快速发展的生物分子钟方法推算结果大多介于8.51亿~12亿年前,仅有极少数给出小于6亿年前的结果,即几乎所有分子钟研究结果显示两者分异早于寒武纪生物大爆发至少1亿年[3]。为此,本研究提出了不基于分子进化速率恒定假说的分子绝对进化速率计算公式[4]、多重突变的校正方法[5]和基于计算所得结果进行判断的物种选择规则[6]等,本研究提出使用序列分子比较得到的序列差异率来直接确定分子系统发育分析中物种组成的方法。
对于有m个物种的某物种类群A,若其各物种序列分子自它们共同祖先序列分子而来的遗传距离为xA(i)(i=1,2,…,m,系真实遗传距离[4,6],下同),则其平均未突变概率为[6]:
(1)
本研究以常见的三物种类群体系为例讨论使用序列差异率和参照类群来直接确定分子系统发育分析中物种组成的方法,四物种类群体系可做类似处理。图1中实线部分为文献[7]使用COX1蛋白质序列分子计算寒武纪物种分歧时间时的计算框图。为了表述方便,我们把图1中物种类群A、B和C权且称为计算物种类群,而虚线部分对应的物种类群S称为参照物种类群。由于分子进化研究中比较的是突变后的序列差异率,那么图1中先期分歧的参照物种类群S数学上也可视为一个像物种类群A、B和C一样的自时间t2分歧的物种类群。图1中物种类群的平均未突变概率的计算可分成两种情形。
图1 使用序列差异率和参照类群直接确定分子系统发育分析中物种组成的计算框图
(1)无共同遗传距离
当一个物种类群对,即其两个物种类群均没有与其他物种类群存在共同的遗传距离,如图1中物种类群对C和B,则有
(2)
e-(xC(k)+xB(j))=e-xC(k)e-xB(j)=1-pCB(kj)
(3)
将式(2)两边取自然对数有
(4)
(2)存在共同遗传距离
即一个物种类群对中的物种类群与其他物种类群存在共同的遗传距离,如图1中物种类群对S和B
(5)
(6)
由图1中不同物种类群对,再采用类似式(4)和式(6)的处理方法,可得
(7)
(8)
(9)
(10)
将式(4)、式(6)至式(10)进行下列数学处理可分别得到图1中各进化区段平均未突变概率对应的参数。
(1)d的计算
将式(6)+式(9)-式(4)-式(7),再等式两边除以2有
(11)
(2)xA的计算
由式(9)+式(10)-式(4),在等式两边除以2,有
(12)
将式(12)减去式(11),有
(13)
(3)xB的计算
由式(4)+式(10)-式(9),再等式两边除以2有
(14)
(4)xC的计算
由式(4)+式(8)-式(6),再等式两边除以2有
(15)
文献[6]指出,若三物种类群体系(参见图1)中计算物种类群A、B和C的序列分子均满足下式,即
(16)
式(16)中c的取值分别为1,2,3,4,这些关系式为式(17)和式(18)推导过程的条件;式(16)中其他物理量的定义请参照式(1)。则有三物种类群体系中的物种选择规则为
(17)
(18)
式(17)和式(18)中f=e-d,m、n和p分别为计算物种类群A、B和C的序列分子数。
由2.1部分可知,要使用判别式式(17)和式(18),需先通过物种选择来选择满足式(16)的计算物种类群A、B和C。如果一个物种类群对的两个物种类群序列分子分别两两比较得到的序列相同率的平均值,即平均序列相同率也能满足类似式(16)的数学关系式,即
(19)
式(19)中e-yij为第一个物种类群第i个物种序列分子与第二个物种类群第j个物种序列分子比较得到的序列相同率,m0和n0分别为两个物种类群的物种数,而e-y为它们的平均序列相同率。那么由遗传三角形定量关系式(3)有e-yij=e-yie-yj,并由式(19)可得
(20)
式(20)中,e-ya、e-yb分别为2个物种类群序列分子自共同祖先序列分子而来的平均未突变概率。由于物种类群对平均序列相同率满足式(19),那么无论其中一个物种类群为单一物种(其未突变概率为单一数值)还是平均未突变概率满足式(16)的一组物种,不难理解另一物种类群平均未突变概率也与满足式(16)。因此可以通过以下步骤来选择满足式(16)的计算物种类群。
(1) 先使用随意选择的一个非参照物种类群物种序列分子与待选择的参照物种类群序列分子分别进行比较,若得到的各序列相同率满足式(19),说明选择的参照物种类群满足式(16)要求。
(2) 由该参照物种类群序列分子与待选择的计算物种类群序列分子两两进行比较,若得到的各序列相同率满足式(19),说明选择出的计算物种类群也满足式(16)的要求,按此方法可分别选择图1中的计算物种类群A、B和C。
(3) 使用本文标题1下的相关方法计算出图1计算框图中计算物种类群进化路径上各区段的平均未突变概率,再代入式(17)和式(18),若满足判别式要求,说明选择的各计算物种类群符合物种选择规则对物种类群的要求。
由于文献[7]计算得到的寒武纪物种分歧时间与化石年龄很接近,笔者使用该体系来验证计算物种类群组成选择方法。文献[7]中计算物种类群A(鲨鱼)、B(环节动物)和不同物种类群C(腕足动物、轮虫动物、线虫动物、节肢动物和软体动物)COX1蛋白质序列分子的物种名和美国生物信息技术中心(NCBI)序列号参见该文献和文献[6]。另外,选用的为一组真菌的COX1蛋白质分子作为参照物种类群S,它们的物种名及序列号为:1.Saccharomyces cerevisiae(QHB12464.1);2.Fusarium asiaticum(QJT69681.1);3.Fusarium oxysporum(AAX21832.1);4.Agaricus bisporus(ABY85433.1);5.Yarrowia lipolytica(AGS44095.1);6.Candida orthopsilosis(AAX73017.1);7.Ceratocyotis fismbriata(QRB98357.1);8.Aspergillus tubingensis(AAF81762.1);9.Metschnikowia hibisci(YP_009935242.1);10.Ustilago maydis(AAZ67011.1);11.Rhizophagus irregularis(AML60582.1);随意选择的一个非参照物种类群的物种为环节动物,其COX1蛋白质序列分子的物种名及其序列号为:Urechis caupo(AAT12180.1)。这个环节动物与参照物种类群各COX1蛋白质序列分子比较时的平均序列相同率以及参照物种类群分别与计算物种类群A、B和C的COX1蛋白质序列分子比较时的平均序列相同率,见表1。
表1 一些物种类群与COX1蛋白质序列分子比较时的平均序列相同率
由表1可以看出,表中各物种类群对的r1、r2和r3均与2、3、4非常接近,说明它们的平均序列相同率均能与式(20)相符很好,表明参照物种类群并可由它推断文献[7]选用的计算类群A、B和C均能满足式(16),即物种选择规则对物种类群的要求。
根据上文1标题的相关公式计算得到的图1各进化区段的平均未突变概率, 以及代入物种选择规则判别式式(17)和式(18)后的计算结果(表2)。
表2 使用参照类群真菌选择不同计算类群时的计算结果①
由表2计算结果可以看出,由文献[7]中物种类群A和B以及不同物种类群C组成体系计算得到的R1和R2都很接近1.0,说明使用本文提出的方法来选择计算物种类群是可行的。
实际计算表明在满足上述条件外,同一计算物种类群选用自其共同祖先而来的进化速率(或遗传距离)存在一定差异的序列分子有利于得到满意的物种分歧时间等计算结果。
两个同源序列分子的回复突变和平行突变会导致比较得到的序列差异率数值减少和相关遗传距离被低估,故需校正。文献[5]给出了式(3)经多重突变校正后的遗传三角形定量关系式
0.9e-(xC(k)+xB(j))=0.9-pCB(kj)
(21)
式(21)各物理量含义同式(3)。将式(21)两边除以0.9,则其有
(22)
(23)
不难理解,式(6)至式(10)也可做类似处理,并可同样得到经多重突变校正后的图1中各进化区段平均未突变概率对应的参数,如参数d的计算式为
(24)
与式(21)类似,多重突变校正同样影响到式(19)中e-cyij的计算,即有
(25)
pyij为第一个物种类群第i个序列分子与第二个物种类群第j个序列分子比较得到的序列差异率。由式(20)推导过程可以看出,使用多重突变校正后式(25)得到的e-yij不影响其结论。同样根据文献[6]经多重突变校正的物种选择规则与式(16)至式(18)相同。
文献[8]基于同一种序列分子进化速率恒定的假设,使用不同的蛋白质和核苷酸序列分子计算了Kimura给出的鲨鱼、鲤鱼、蝾螈、鸡、针鼹鼠、袋鼠、狗和人体系中序列分子绝对进化速率,发现序列分子绝对进化速率k和其物种分歧时间t之间存在很好的线性关系,即
(26)
该文献依据化学动力学中的阿仑尼乌斯公式,给出了分子进化中的“活化能公式”
(27)
式(27)中Ea为序列分子位点突变的活化能,k0为极限进化速率,R为常数。如前文所述,笔者在文献[7]计算“寒武纪生物大爆发”时,得到的各物种类群分歧时间与化石年龄很接近,加上选用计算体系与物种选择规则等相符很好[6],因此,该文计算所得的物种序列分子绝对进化速率和物种类群分歧时间是准确的。
表3给出该文献给出的计算结果。表中除第1行为物种分歧时间外(单位为10亿年前),其余数据均为计算所得序列分子真实绝对进化速率[4](即已对原文计算出的分子绝对进化速率数值除以2),表3中物种序号、具体物种名及序列号同文献[6,7]。线虫动物取文献[7]中的前4种物种,鲨鱼绝对分子进化速率为随意选取的文献[7]中物种类群C为线虫动物时,第1、3、6、8个鲨鱼物种的计算数据。
表3 “寒武纪生物大爆发”时物种分歧时间计算结果①
将表3中各物种序列分子绝对进化速率的自然对数lnk对其分歧时间倒数1/t作图,如图2所示。
图2 分子绝对进化速率自然对数(lnk)与物种分歧时间倒数(1/t)之间的关系图
由上述5个线性关系式和图2,同样可以发现令人惊奇的线性关系,加上文献[7]分子绝对进化速率计算过程中没有使用文献[8]中同一序列分子进化速率恒定这一并不严格的假设,因此可以认为本文结果更严格可信;同时,笔者注意到上述5条直线存在一些交点,如图2中直线1和直线2相交于节肢动物3。因此,笔者认为“活化能公式”和“双重分子钟现象”均是真实存在的,两个概念的具体说明请参看文献[8]。