植物谱系地理数据分析方法

2016-02-05 00:18:31赵宁

山西青年 2016年20期

关键词：居群失配谱系

赵　宁

西藏大学理学院，西藏　拉萨　850012

植物谱系地理数据分析方法

赵宁

西藏大学理学院，西藏拉萨850012

谱系地理是以历史生物地理学为基础，通过分子手段将居群遗传变异宏观地理分布及孢粉遗传学和古生物学相结合，研究物种内居群形成现有格局的历史原因和进化过程的一门学科。本文主要论述其后期数据分析所用到的软件以及部分原理和使用方法。

谱系地理；植物；数据分析；方法

谱系地理学，是通过比较一个地区中多个共同分布的类群的谱系地理格局，来揭示这个地区生物区系在地质历史组合中模糊的隔离分化事件，进而分析评价这一地区的生物地理格局以及构成这一格局的地质历史过程。基因是遗传信息的载体，通过复制将遗传信息传给下一代，DAN序列本身具有相对稳定的进化演变过程和巨大的信息量等优势，而在复制过程中因为外界环境的改变或者随机的差异会导致基因序列发生变化。通过研究不同居群内和居群间的植物的DAN序列的差异度、突变率、遗传多样性等追踪基因流的变化方向来推断物种的进化方向，进而推断期间发生的历史事件是谱系地理学的主要研究方向。谱系地理学研究前期工作主要有：野外采样，DAN提取，PCR扩增获得目的片段，核基因的单克隆制备，测序等。后期主要是用相关统计分析软件对测序所获得数据进行分析，本文主要针对后期数据分析做简单介绍。

一、查看峰形图——chromas 1.62

测序回来拿到的序列一般先进行峰形图的查看，峰形图各峰单一明晰且没有重复序列视为良好。

二、序列拼接软件——contigExpress 6.0.620.0

一般为确保测序结果的准确性，做正反向引物的双向测序，通过双向的序列进行拼接，获得最终序列，序列拼接时遵循双空位切掉，根据好的改错的原则对序列进行适当的人工修改。

三、序列比对——Clustal

将contigExpress拼接好的序列以Fasta文件格式复制并粘贴到记事本中，对于有些方向倒置的序列，可用EditSeq进行调整，所有序列按照一定的顺序排列到TXT文档中，保存。将上述TXT文档输入ClustalX中进行比对，名称程序自动输出两个文件，aln格式和dnd格式，根据自己所需要的长度在另存为中设置所需要的碱基位点区间，并修改文件名称，以防与软件自动输出的aln文件混淆；dnd格式是ClustalX 自动建立的NJ树，可以忽略，aln文件可以用于后续MEGA4.0构建NJ树。ClustalX比对结果还可以保存另外几个格式，其中phy格式可以用于后续核苷酸多态性分析。

四、DnaSP分析

DNASP软件是一个分析DAN序列多态性和单倍型的实用软件，它可用于分析单倍型的种类和数量，计算单倍型多样性(Hd)与核苷酸多样性(π)和某一时间点的多态性的Tajima中性检验(Tajima 1989)及Fu & Li检验(Fu and Li，1993；FU，1997)。同时由于群体遗传结构上，群体大小的变化会通过DAN序列数据的检测得到变化的痕迹，序列失配分布(Roger and Harpending，1992)提供了可推测动态时间的方法。

失配分布(Mismatch Distribution)是用来检测居群是否发生扩张的一种方法，它是用来检测观察居群的失配分布曲线和理论居群的失配分布曲线的偏离度的，若居群处于扩张状态或者经历瓶颈效应的情况会导致失配分布呈单峰分布，则r值偏低，若居群处于动态平衡或者处于缓慢的衰退状态，则失配分布为双峰或者多峰，则r值偏高。

五、遗传多样性分析——Arlequin v3.0

Arlequin v3.0是一款集合了多种功能功能的遗传学分析软件，包括分子多态性、错配分布、遗传距离估计以及分子差异度分析(AMOVA)，同时，Arlequin v3.0也可以计算Tajima中性检验及及Fu & Li检验。

六、构建网络图——Nexwork

Nexwork4.600这种网络图可以包含所有最简约的树，而且可显示序列的信息(如同质性位点的位置、突变热点以及分辨单倍型类型等)在聚类节点之间的距离越近，它们的单倍型就越相近，因此，分析单倍型网络图可以更加直观地看出各个单倍型之间的亲缘关系远近。

七、系统发育树的构建

(一)NJ树的构建

相邻链接法(Neighbor Joining NJ)是Saitou和Nei 1987基于最小进化原理提出的，NJ法并不检验有可能的拓扑结构，但在每一个阶段都要应用最小进化原理，软件MEGA4.0可以构建NJ树。

(二)MP树的构建

最大简约法(Maximum parsimony，MP)，是一种常用于系统发生学计算的构树算法，利用简约信息位点(Parsimony Informative site)，对给定分类单元所有可能的树进行比较，选择其中长度最小、代价最小的树作为最终的系统发生树(杨子恒，2008)。

(三)ML树

最早利用最大似然法(Maximum likelihood，ML)来构建系统发育树的是Cavalli-sforza和Edwards(1967)。在ML法中，以一个特定的替代模型分析既定的一组数据，使获得的每一个拓扑结构的似然率均最大，再找出最大似然率最大的拓扑结构选为最终树(Nei and Kumar著，吕宝忠等译，2002)。相对于MP树，ML树建树速度最快。

[1]Avise J.C.The history and purview of phylogeography：a personal reflection[J].MEcology，1998，7：317-319.

[2]Avise J.C.Phylogeography：retrospect and prospect[J].Journal of Biogeography，2009，36：3-15.

Q948.2

1006-0049-(2016)20-0259-01