宋 南, 王淼淼, 刘小龙, 林兴雨, 席玉强, 尹新明
(河南农业大学植物保护学院, 河南省害虫绿色防控国际联合实验室, 河南省害虫生物防控工程实验室, 郑州 450002)
白蚁是地球上最重要的昆虫之一,这类昆虫中的某些种类因破坏人类建筑和家具而闻名。尽管已知的白蚁中只有少数种类会损坏木材,但这却使得人们对白蚁产生恐惧,因为没有其他昆虫会像白蚁那样直接攻击人类住所。目前,全世界已知的化石和现存的白蚁物种超过3 500种(Krishnaetal., 2013; Yadu and Ganguli, 2022)。尽管白蚁的种类多样性水平适中,但它们以其庞大的数量而闻名,是地球上最成功的陆地生物之一,对生态系统产生重大影响,尤其是在热带地区(Jouquetetal., 2016; Chouvencetal., 2021)。白蚁之所以繁盛主要是因为它们具备消化木质纤维素以及在土壤中分解有机分子的能力(Norkrans, 1963; Dixonetal., 1994)。白蚁是一类真社会性昆虫(eusocial insects),其种类丰富度仅次于膜翅目(Hymenoptera)社会性昆虫(蚂蚁、蜜蜂和胡蜂)。对白蚁和膜翅目社会性昆虫群居进化的比较研究极大地推动了人们对群居行为的认识(Fischmanetal., 2011)。然而,长期以来,昆虫系统学家一直对白蚁的系统发育关系存在诸多争议,这限制了对其取食、生态和群落体系等方面的进化研究。近期,人们对白蚁系统发育的研究兴趣有所提升(Lo and Eggleton, 2011)。然而,对于白蚁科级类群的数量和它们之间的系统发育关系以及亚科之间的系统发育关系,目前尚未达成一致意见。
目前,昆虫系统学家已经达成共识:蜚蠊、螳螂和白蚁在系统发育上是近缘的3个类群(Songetal., 2016; Evangelistaetal., 2019; Wipfleretal., 2019)。根据McKittrick和Mackerras(1965)的研究,白蚁与蜚蠊目(Blattodea)具有较为密切的亲缘关系。在现存的蜚蠊目中,隐尾蠊科(Cryptoceridae)中的食木蜚蠊Cryptocercuspunctutatus与澳白蚁科(Mastotermitidae)(仅包含1种:达尔文澳白蚁Mastotermesdarwiniensis)之间存在十分密切的关系。支持食木蜚蠊与达尔文澳白蚁具有较为密切亲缘关系的形态特征包括:两者具有相似的卵鞘状卵块、后翅臂域、前胃结构和生殖器结构等(黄复生等, 2000)。此外,目前的分子生物学研究表明,隐尾蠊属Cryptocercus与整个白蚁类构成姐妹群关系(Evangelistaetal., 2019)。这一研究在一定程度上支持了白蚁起源于蜚蠊的假说。Evangelista等(2019)建议设立Tutricablattae包括隐尾蠊属和所有白蚁类昆虫。由此,白蚁从一个目[即原先的等翅目(Isoptera)]变成了蜚蠊目中的一个类群。
目前,所有白蚁种类被归于白蚁领科(Termitoidae)。白蚁领科包括9个现存科,16个亚科(Engeletal., 2009),大约280个属。其中,现存的白蚁领科分别是澳白蚁科(Mastotermitidae)、草白蚁科(Hodotermitidae)、古白蚁科(Archotermopsidae)、胃白蚁科(Stolotermitidae)、木白蚁科(Kalotermitidae)、杆白蚁科(Stylotermitidae)、鼻白蚁科(Rhinotermitidae)、齿白蚁科(Serritermitidae)和白蚁科(Termitidae)(Engeletal., 2009)。澳白蚁科被一致认为是现存白蚁中最原始的一支。古白蚁科是(Engeletal., 2009)新建立的一个科。胃白蚁科包括两个属,即胃白蚁属Stolotermes和洞白蚁属Porotermes。木白蚁科是白蚁中较为原始的一支,主要为木栖性白蚁。在以前的研究中,形态特征与分子序列(线粒体基因cox2和l-rRNA、线粒体基因组、基因组和转录组数据以及核蛋白质编码单拷贝基因)证据均支持木白蚁科与新等翅类(Neoisoptera)构成姐妹群关系(Thompsonetal., 2000; Inwardetal., 2007; Cameronetal., 2012; Bourguignonetal., 2015; Buceketal., 2019; Evangelistaetal., 2019)。新等翅类是一个单系群,由杆白蚁科、鼻白蚁科、齿白蚁科和白蚁科组成(Engeletal., 2009)。形态或分子(基因组和转录组数据)研究一致支持杆白蚁科是鼻白蚁科、齿白蚁科和白蚁科的姐妹群(Buceketal., 2019)。但是,鼻白蚁科、齿白蚁科和白蚁科之间的关系是不明确的。Engel等(2009)将齿白蚁科置于鼻白蚁科与白蚁科之间。一些分析认为齿白蚁科是鼻白蚁科和白蚁科的姐妹群(Donovanetal., 2000; Kambhampati and Eggleton, 2000; Thompsonetal., 2000; Legendreetal., 2008)。Bourguignon等(2015)认为齿白蚁科与部分鼻白蚁科构成姐妹群关系。相似地,利用转录组数据的系统发育分析也支持齿白蚁科与部分鼻白蚁科具有较近的亲缘关系(Buceketal., 2019)。近期的研究一致认为鼻白蚁科是一个多系群,而白蚁科是一个单系群(Engeletal., 2009; Cameronetal., 2012; Bourguignonetal., 2015; Buceketal., 2019)。但是,对于鼻白蚁科被分为多少个独立的支系(Cameronetal., 2012),以及白蚁科内各个亚科之间的系统发育关系(Aanenetal., 2002; Inwardetal., 2007; Bourguignonetal., 2015, 2017; Buceketal., 2019)等问题,目前还无定论。
随着下一代测序技术的快速发展,基因组测序效率已经获得较大提高,同时测序成本不断降低,这为大规模获得昆虫的基因组数据提供了可能。截止2023年6月,在公共数据库NCBI中已经公布了69种白蚁类昆虫的基因组和转录组数据。本研究利用从NCBI下载的白蚁转录组和低覆盖度全基因组测序(low-coverage whole-genome sequencing)数据构建白蚁类昆虫的基因组规模的超级数据矩阵,通过最大似然法和基于溯祖理论(coalescence-based)的物种树(species tree)法重建系统发育树,为解决白蚁类昆虫科与亚科之间的系统发育关系提供依据。
下载61种白蚁的转录组测序数据和6种白蚁的低覆盖度全基因组测序数据。这67个转录组和低覆盖度测序基因组数据分别代表了8个现存的白蚁科级类群,即澳白蚁科(1种)、古白蚁科(1种)、胃白蚁科(1种)、木白蚁科(7种)、杆白蚁科(1种)、齿白蚁科(1种)、鼻白蚁科(20种)和白蚁科(35种)。此外,系统发育分析还包含了近缘蜚蠊目蜚蠊科(Blattidae) 6个、辉蠊科(Lamproblattidae) 1个和隐尾蠊科(Cryptoceridae) 1个的转录组数据作为外群。利用BUSCOv3.0.2(Waterhouseetal., 2018)对下载的转录组或低覆盖度全基因组测序数据进行评估,并提取单拷贝核基因。具体的生物信息学步骤参考Zhang等(2019)。对于转录组和低覆盖度全基因组测序数据,BUSCO评估均在基因组模式下使用昆虫v10数据集(Insecta_odb10)。
使用MAFFT v7.407(Katoh and Standley, 2013)对1.1节获得的单拷贝核基因核苷酸和氨基酸序列进行比对,比对策略均为L-INS-I。为了提高比对结果的质量,我们通过trimAlv1.4.1(Capella-Gutiérrezetal., 2009)对比对结果中的低质量同源区域进行修剪。最后,我们使用FASconCAT-G v1.04 (Kück and Longo, 2014)将所有比对好的矩阵进行串联。为了研究序列完整性(即缺失数据)对系统发育重建的影响,我们使用Phykit(Steenwyketal., 2021)生成不同完整性(分别包含50%和25%的缺失数据)的核苷酸和氨基酸序列数据超级矩阵。最终获得了6组串联超级数据集矩阵,核苷酸序列数据集:fna_all, fna_50和fna_75;氨基酸序列数据集:faa_all, faa_50和faa_75,分别用于系统发育关系重建。使用AMAS(Borowiec, 2016)对各个数据集进行统计分析。
使用IQ-TREEv2.2.15(Minhetal., 2020)构建白蚁的最大似然(maximum likelihood, ML)树。核苷酸序列数据采用GTR+I+G模型,而氨基酸序列数据采用LG模型。每个ML分析使用ultrafast bootstrapping策略(Minhetal., 2013),进行1 000次自举检验以获得每个节点的统计支持率。
使用ASTRAL v5.7.1 (Mirarabetal., 2014; Zhangetal., 2018)构建白蚁的物种树,对氨基酸数据集faa_all包含的1 316个单拷贝核基因序列分别构建ML树,具体参数同上。然后,将得到的单个单拷贝核基因序列的ML树合并到一个文件中。最后,利用ASTRAL v5.7.1 (Mirarabetal., 2014; Zhangetal., 2018)综合这些ML树,得到物种树。
使用IQ-TREEv2.2.15 (Minhetal., 2020)中的Four-cluster Likelihood Mapping(FcLM)(Strimmer and Von Haeseler, 1997; Misofetal., 2014)分析检测树的拓扑结构。同时,FcLM分析显示了不同数据集对可能的系统发育关系的支持度。
从55种白蚁的转录组、4种近缘蜚蠊目昆虫的转录组和3种白蚁的低覆盖度全基因组测序数据中筛选了1 012~1 325个单拷贝核基因,从5种白蚁和4种近缘蜚蠊目昆虫的转录组测序以及3种白蚁的低覆盖度全基因组测序数据中筛选了568~987个单拷贝核基因,只有北美散白蚁Reticulitermesflavipes转录组仅包含85个单拷贝核基因。基于这些单拷贝核基因构建了核苷酸和氨基酸序列数据基因组规模的超级矩阵,核苷酸序列数据集包含了144 294~1 839 525个位点,氨基酸序列数据集包含了48 098~613 175个位点。
核苷酸序列数据集fna_75分析均支持白蚁领科是一个单系的自然群,且所有数据均对白蚁有显著的支持[自举支持率[bootstrap support (BS)=100](图1)。对于核苷酸序列数据,白蚁各科之间的系统发育关系并没有受到缺失数据的显著影响,3个核苷酸序列数据集产生了基本相同的科间系统发育关系。对于氨基酸序列数据,3个串联基因数据集中的2个产生了与核苷酸序列数据集基本相同的科间系统发育关系。只有氨基酸序列数据集faa_50恢复的科间系统发育关系与其他数据集的差别较大(图2)。不同主要在于faa_50恢复古白蚁科与胃白蚁科构成的一支和新等翅类构成姐妹群关系,而其他数据集都支持木白蚁科和新等翅类的姐妹群关系。利用ASTRAL构建的物种树支持木白蚁科和新等翅类的姐妹群关系(图3)。
图2 最大似然法构建的基于核苷酸序列数据集fna_all和fna_50以及氨基酸序列数据集faa_all,faa_50和faa_75的白蚁领科系统发育树Fig. 2 Phylogenetic trees of Termitoidae constructed by maximum likelihood method based on the nucleotide sequencedatasets fna_all and fna_50 and the amino acid sequence datasets faa_all, faa_50 and faa_75A: 基于fna_all的系统发育树Phylogenetic tree based on fna_all ; B: 基于fna_50的系统发育树Phylogenetic tree based on fna_50 ; C: 基于faa_all的系统发育树Phylogenetic tree based on faa_all ; D: 基于faa_50的系统发育树Phylogenetic tree based on faa_50; E: 基于faa_75的系统发育树Phylogenetic tree based on faa_75. 为了清晰地显示白蚁领科内高阶元类群之间的关系,一些亚科或科的支系被合并。合并后支系的长度取决于其中最长的一支的长度。In order to clearly display the relationships among higher-level taxa within Termitoidae, the lineages corresponding to some subfamilies or families were collapsed. The length of the collapsed linegae is determined by the length of the longest branch within it.
图3 最大似然法构建的利用ASTRAL总结氨基酸数据集faa_all包含的每个标记的白蚁领科的物种树Fig. 3 Species tree of Termitoidae based on each marker of the amino acid dataset faa_all summarized by ASTRAL constructed using maximum likelihood method分支节点上的数值代表本地后验概率。Numbers at nodes show the local posterior probabilities.
在单系的白蚁领科中,澳白蚁科是所有其他白蚁领科的姐妹群。在本研究中,所有分析支持古白蚁科与胃白蚁科互为姐妹群关系,并且多数分析(除去基于faa_50构建的ML树之外的所有分析)都支持两者共同组成白蚁领科中的第2个分支。
木白蚁科也是白蚁中相对古老的一支,其系统发育位置在古白蚁科与胃白蚁科之后。木白蚁科的单系性得到了所有分析的支持。6个串联基因序列的超级矩阵对木白蚁科都产生了100的自举检验值。在木白蚁科中,本研究包含的7个种代表了6个亚科。其中,双裂白蚁亚科(Bifiditermitinae)包含两个种。只有fna_75和faa_75这2个数据集支持双裂白蚁亚科为单系群,在其他4个基于串联基因序列的超级矩阵的ML分析中,Epicalotermeskempae与楹白蚁亚科(Incisitermitinae)构成姐妹群关系,这使得双裂白蚁亚科成为一个并系群。在基于6个串联基因数据集的FcLM分析中,3个数据集(fna_all, fna_75和faa_50)支持双裂白蚁亚科为单系群;另外3个数据集(fna_50, faa_all和faa_75)既不支持双裂白蚁亚科的单系性,也不支持Epicalotermeskempae与楹白蚁亚科的姐妹群关系。
木白蚁科与新等翅类构成了姐妹群关系。所有分析都强烈支持新等翅类的单系性,BS=100。在本研究中,杆白蚁科、鼻白蚁科、齿白蚁科和白蚁科代表了新等翅类,其中,杆白蚁科被恢复为所有其他新等翅类的姐妹群,BS=100。齿白蚁科也是新等翅类中相对原始的一支。所有分析支持齿白蚁与具眼舌白蚁Glossotermesoculatus构成姐妹群关系(BS=100)。
鼻白蚁科是一个多系群。本研究包含了鼻白蚁科中的5个亚科。其中,由鼻白蚁属Rhinotermes和长鼻白蚁属Schedorhinotermes构成的一支占据了相对原始的位置。在faa_50, fna_all和fna_50的3个ML分析中,寡脉白蚁亚科(Termitogetoninae)和原鼻白蚁亚科(Prorhinoterminae)构成了另一支姐妹群。但是在其他3个ML分析(图1:fna_75; 图2:faa_all和faa_75)中寡脉白蚁亚科和原鼻白蚁亚科分别构成独立的分支。FcLM分析不支持寡脉白蚁亚科和原鼻白蚁亚科的姐妹群关系;相比较,基于数据集fna_75和faa_75的FcLM分析支持寡脉白蚁亚科和原鼻白蚁亚科分别构成独立的分支(图4)。此外,物种树分析也恢复寡脉白蚁亚科和原鼻白蚁亚科处于两个独立的分支(图3)。因此,寡脉白蚁亚科和原鼻白蚁亚科分别成为独立的支系可能是其进化关系的真实体现。异白蚁亚科(Heterotermitinae)和乳白蚁亚科(Coptotermitinae)始终聚在同一支上。但是,考虑到乳白蚁属Coptotermes与部分异白蚁属Heterotermes的姐妹群关系,异白蚁亚科是非单系的。
图4 对于寡脉白蚁亚科和原鼻白蚁亚科的系统发育位置基于不同数据集进行的FcLM分析Fig. 4 FcLM analyses for the phylogenetic placements of Termitogetoninae and Prorhinoterminae based on various datasetsA: 有关寡脉白蚁亚科和原鼻白蚁亚科的系统发育位置的假设Hypotheses on the phylogenetic placements of Termitogetoninae and Prorhinoterminae; B: 基于faa_all的FcLM分析结果Results of the FcLM analysis based on faa_all; C: 基于faa_50的FcLM分析结果Results of the FcLM analysis based on faa_50; D: 基于faa_75的FcLM分析结果Results of the FcLM analysis based on faa_75; E: 基于fna_all的FcLM分析结果Results of the FcLM analysis based on fna_all; F: 基于fna_50的FcLM分析结果Results of the FcLM analysis based on fna_50; G: 基于fna_75的FcLM分析结果Results of the FcLM analysis based on fna_75.
在白蚁科中, 4个数据集即fna_all, fna_50, fna_75和faa_all,支持大白蚁亚科(Macrotermitinae)是白蚁科内所有其他亚科的姐妹群,即它是白蚁科内最原始的一支,支持聚白蚁亚科(Syntermitinae)是白蚁科内相对进化的一支。本研究中代表尖白蚁亚科(Apicotermitinae)的6个种组成了白蚁科的第2分支,并且尖白蚁亚科被所有分析支持为单系群。聚白蚁亚科和象白蚁亚科(Nasutitermitinae)也是单系群,并且互为姐妹群。在所有基于串联基因数据矩阵的ML分析中,白蚁亚科(Termitinae)是非单系的。但是,物种树分析恢复白蚁亚科为单系群,尽管这个结论没有收到显著的统计支持(PP = 0.41)。
本研究对67种白蚁的转录组和低覆盖度全基因组测序数据进行系统基因组分析,构建的基因组数据矩阵主要包括核苷酸序列与氨基酸序列两类。此外,本研究分析了不同完整性数据矩阵(即缺失数据)对白蚁领科系统发育关系重建的影响。除了使用串联基因序列构建超级矩阵分析系统发育关系,本研究还采用基于溯祖理论的物种树法构建白蚁领科系统进化关系。结果表明,不同的数据集和不同的分析方法产生了基本相同的科级系统发育关系(图1-3);并且,基部主要类群间的关系均受到显著的统计支持(BS>95) (图1-3)。与之前关于白蚁系统发育的研究相比较,本研究重建的白蚁领科内8个科之间的系统发育关系与Bucek等(2019)的研究结果是一致的。这可能是因为本研究与Bucek等(2019)的取样数据有很大重叠。然而,本研究的分析方法与Bucek等(2019)的方法并不完全相同。Bucek等(2019)使用BUSCO对转录组和低覆盖度基因组的测序数据进行完整性评估,并选择了3种蜚蠊目昆虫的完全蛋白组作为参考。他们使用OMA(Altenhoffetal., 2015)和OrthoDB(Kriventsevaetal., 2015)两种推断方法预测参考的直系同源基因组,在OMA的推断中得到2 981个单拷贝直系同源基因,而在OrthoDB的推断中得到4 065个单拷贝直系同源基因。基于这些参考直系同源基因组,利用Orthograph (Petersenetal., 2017)中的最佳互补搜索策略预测每个转录组和低覆盖度基因组的直系同源基因。最后,Bucek等(2019)基于比对的核苷酸序列矩阵构建了系统发育树。本研究也使用BUSCO进行基因组规模数据的完整性评估,但是我们使用BLAST(Altschuletal., 1990)和HMMER(Finnetal., 2011; El-Gebalietal., 2019)进行单拷贝核基因的预测。其中,使用BLAST进行核苷酸序列比对,使用HMMER进行蛋白结构域的评估,并基于OrthoDB数据库中的Insecta_odb10提取每个物种的单拷贝直系同源基因。两个研究在单拷核基因的抽取时使用了不同的参考。尽管抽取步骤不同,但两个研究的数据来源都是核单拷贝直系同源基因。因此,两个数据的本质仍然是相同的,这也是两者分析结果基本一致的原因之一。另一个不同之处是:我们的分析不仅使用了核苷酸序列矩阵,还使用了氨基酸序列矩阵。在我们的分析中,两类数据所得到的结果大致一致,这也再次证实了基因组规模数据在重建白蚁的高级系统发育关系中的稳定性。
Eggleton(2001)在前人的研究基础上提出了一个关于白蚁科之间关系的合意树。该研究认为澳白蚁科是所有白蚁中最原始的一支,其次是古白蚁科的一部分;而古白蚁科的另一部分与草白蚁科构成姐妹群关系。因此,Eggleton(2001)认为古白蚁科是一个并系群。胃白蚁科与鼻白蚁科(包括齿白蚁科)和白蚁科是姐妹群关系,其中鼻白蚁科是一个多系群。本研究支持澳白蚁科在整个白蚁领科中的最基部的位置,并恢复古白蚁科是仅次于澳白蚁科的第二古老的白蚁类群。在我们的分析中,所有数据集和分析都支持古白蚁科中的动白蚁属Zootermopsis和胃白蚁科中的洞白蚁属Porotermes的代表种的聚类(图1-3)。然而,由于缺乏古白蚁科的其他两个属(即古白蚁属和原白蚁属)的数据,并且未包含草白蚁科的基因组规模数据,本研究无法确定古白蚁科的单系性和草白蚁科的系统发育地位。因此,在未来的研究中,作者将努力对古白蚁科和草白蚁科的物种进行采样、以及基因组测序和系统基因组分析,以填补当前研究的空白。
在本研究中,木白蚁科始终被支持为单系群(图1-3)。在木白蚁科中,除了楹白蚁亚科,其他5个木白蚁亚科的支序顺序与Bucek等(2019)的分析结果是相同的。Bucek等(2019)的分析没有包含楹白蚁亚科。在本研究中,基于4个数据组(fna_all, fna_50, faa_all和faa_50)构建的ML树恢复双裂白蚁亚科是一个并系。但是,基于fna_75(图1)和faa_75(图2)两个数据集构建的ML树、ASTRAL构建的物种树(图3)以及3个FcLM分析支持双裂白蚁亚科是一个单系群。我们的研究支持木白蚁科与新等翅类的姐妹群关系,这与之前的研究结果(Engeletal., 2009; Wareetal., 2010; Lo and Eggleton, 2011; Cameronetal., 2012; Buceketal., 2019)一致。
杆白蚁科始终被恢复为其他新等翅类白蚁的姐妹群,而齿白蚁科和鼻白蚁科中的具眼舌白蚁构成姐妹群关系(图1-3)。这些关系与Bucek等(2019)的研究结果一致。然而,鼻白蚁科被发现是一个多系群。过去的分析也支持鼻白蚁科为非单系群(Inwardetal., 2007; Engeletal., 2009; Wareetal., 2010; Lo and Eggleton, 2011; Cameronetal., 2012; Buceketal., 2019),因此我们的研究再次证实了鼻白蚁科不是一个自然群,需要进行分类调整。
通过分子鉴定,我们发现Coptotermessp. AD-2015(GDUG01)的转录组数据中存在鉴定错误,导致了错误的物种命名。我们利用近缘白蚁的线粒体cox1基因作为参考,通过对下载的乳白蚁属Coptotermessp. AD-2015(GDUG01)的转录组数据进行blast比对,发现GDUG01的线粒体cox1基因与大胸胸白蚁Thoracotermesmacrothorax(白蚁科, 白蚁亚科, 方白蚁Cubitermesgroup)的cox1具有97.54%的相似度。因此,我们将Coptotermessp. AD-2015更改为Thoracotermessp.。在这种情况下,白蚁科被支持为一个单系群。在以前的分析中,白蚁科一直被认为是一个自然群(Engeletal., 2009; Cameronetal., 2012; Buceketal., 2019)。在白蚁科内部,白蚁亚科被发现是非单系的(图1-2),这与以前的研究结果(Bourguignonetal., 2015; Buceketal., 2019)一致。然而,各个亚科之间的关系并不确定。因此,关于白蚁科内部各类群之间的系统发育关系还需要更多数据的进一步研究。