刘亚举,张俊涛
几款遗传学分析软件在法医生物统计中的应用
ApplicationofSeveralGeneticAnalysisSoftwarestoForensicBiologicalStatistics
刘亚举1,张俊涛2
目的探讨遗传学分析软件在STR基因座遗传多态性统计中的应用。方法借助STR分型软件,利用软件所介绍的统计计算功能,计算杂合度H、匹配概率Pm、个体识别力DP、多态性信息含量遗传多态性参数PIC和非父排除率PE等。结果PowerStats v12、PowerMarker v3.25、Cervus 3.0和Hema法医DNA等几款分析软件应用在STR基因座遗传多态性参数计算方面各有优缺点,Arlequin v3.11软件主要应用在X-STR基因座中Fisher,s精确检验和Hardy-Weinbergs平衡检验。结论联合使用文中介绍的几款软件,可以解决法医工作者繁琐的统计计算工作。
遗传学多态性;分析软件;生物统计;STR分型;个体识别
在法医DNA应用领域中,进行个人识别、亲权鉴定和DNA数据库建设时需要选择相应的基因座,那么就要分析统计所选择基因座在相应民族群体中的遗传多态性,即计算杂合度(H)、匹配概率(Pm)、个体识别力(DP)、多态性信息含量(PIC)和非父排除率(PE)。本文介绍几款界面简单和易操作的软件,也是作者的使用体会,以供大家参考。
生物检材经DNA提取、PCR扩增、STR电泳检测后,不管是测序仪3130电泳数据(.FSA)或是3500电泳数据(.HID),均用GeneMapperID-X软件(美国AB公司)进行等位基因分型,在分型之前需要对ID-X软件进行设定。
1.1 等位基因显示设定打开软件,Files列表中点击Project Options,选择Options窗口中Analysis界面,在最下方Duplicate homozygous alleles画钩,即完成设定。
1.2 结果Excel文档输出设定选择需要输出的样本,点击Tools中的Report Manager,在Report Manager窗口中点击File列表中的Export,即可完成输出。注意要将文件保存为.csv格式,即Excel格式,要选择每个基因座的等位基因分别于不同的单元格。得到的Excel基因型分型表,第1行是基因座名称,第2行以下是等位基因分型,每个基因座占两列(即每一个体基因型的两个等位基因),每个样本占1行,可以在表格最前端增加列,输入诸如群体特征等信息。如用ID-X软件对包含有D18S1364、D13S325、D2S1772基因座的某群体进行等位基因分型,经过上述过程,得到的Excel表格(保存格式为.csv和.xls),以供下述软件使用。
2.1 PowerStatsv12和Modified-powerstat软件这是一款被大多数作者所使用的软件,操作简单易于掌握,文献[1]进行了详细阐述,区别在于前者不能进行Hardy-Weinbergs平衡检验,且样本容量限制在600例之内,而后者弥补了这方面的不足,两者同时具有不同群体之间的数据比对功能,目前后者被广泛采用,本文不再列举。
2.2 PowerMarkerv3.25软件[2]安装该软件时,需要先安装有Microsoft.NET Framework(版本号v1.1)。
2.2.1 Excel表中的基因型数据导入 先选中Excel表输入有内容的单元格,按Ctrl+C键;然后打开PowerMarker软件,在File列表中点击Import,选择Dataset,在出现的对话框中,点击From clipboard,按下Next,出现对话框后;点击第1列中非基因座名的信息(如群体),点击下方的Categorical,在右侧的Level-2 column(e.g population)下选择相关信息(如群体),按Next,再按Next,最后按Finish即可。
2.2.2 基因型数据的统计分析 在已打开的PowerMarker软件中,在Analysis列表中点击Summary,选择Allele Frequency,在出现的对话框中,点击dataset,再按Submit,计算等位基因频率。同样方法可以计算Genotype Frequency(基因型频率)、Hardy-Weinberg Equilibrium(H-W平衡)等群体遗传学参数。计算后的数据,用鼠标指向数据任何位置,双击鼠标左键,就可以保存为.xls数据。该款软件也被大众采用,因为它的优点是能够附加计算χ2和P值,以及常染色体基因座是否存在连锁遗传关系,样本容量不受限制,唯一不足的是不能计算非父排除率PE。
2.3 Cervus3.0软件安装后先点击File中new,再点击Analysis中Allele Frequencies,出现Allele Frequency Analysis对话框。点击Select,导入基因型文件(必须为ID-X软件导出的Excel表,格式为.csv而非.xls),在Number of loci里选择总的基因座数,最后点击Save as,选择保存路径和命名。点击OK即可完成统计计算。该款软件操作简单,而且能够计算P值和进行Hardy-Weinbergs平衡检验,样本容量又不受限制,所以被大众接受,缺点是不能计算非父排除率PE。
2.4 Arlequinv3.11软件[3]由于该软件识别.arp的文件格式,即基因型数据以分开的两行输入,1个基因座上的2个等位基因分别各占1行,因此对Excel文档中基因座等位基因数据处理是主要的。
2.4.1 基因座等位基因由横向变为纵向排列 将图1Excel表中的A列内容清除,在A2、A3键入1、3,然后拖拉复制至最后一个样本;在最后一个样本下方键入2、4,拖拉复制至样本数的2倍。选中A列,在“排序”选项中点击“扩展选定区域”,然后删除A列;选中第1个样本的每个基因座第2个等位基因,点击右键,在“插入”选项中点击“活动单元格下移”;在整体数据后面新命名3列,分别键入基因座名(D18S1364、D13S325、D2S1772),在D18S1364下的第1行键入公式“=A2&B2”,拖拉复制至最后一个样本;依次类推,得到D13S325、D2S1772基因座排列形式。选中最后命名的3列,复制,打开一个新的Excel表,在CDE列点击右键,点击“选择性粘贴”选择“数值”;在A列第2.4行分别键入M1、M2,B列对应位置键入1、1;选中AB列的第2至第5行,拖拉复制至最后一个样本。完成后,即可得到基因座等位基因库。
2.4.2 Arp文件格式的编写 在软件包文件夹Arlequin ver3.11Example filesMicrosat中,选择记事本方式打开MicDipl.arp。首先修改[Profile]项中的NbSamples(群体数目);其次修改[Data][[Samples]] 项中的基因数目、名称和样本数量;最后复制上述2.4.1基因座等位基因库的内容,将SampleData={}中的内容替换,但要注意{}的位置保持不动,而且{}内没有基因座名称,只有数据。
2.4.3 Arlequin软件的使用 打开软件,在File列表中点击New project;然后在菜单栏点击“Arlequin Configuration”,在Append results前画勾,将Browse设置为C:Program FilesInternet Exploreriexplore.exe;点击“Project wizard”,Browse项中选择arp文件的保存路径,Data type项中选择MICROSAT及前两项前画勾,Controls项中修改样本数量,Optional sections项的前两项前画勾;点击“Import data”,Browse项中选择arp文件的保存路径,Target项中选择画勾,最后点击TRANSLATE,出现Arlequin calculation settings对话框。举例介绍Hardy-Weinberg平衡计算,点击“Setting”,选择Linkage disequilibrium,再选择Hardy-Weinberg Equilibrium test,选中Perform exact test of Hardy-Weinberg Equilibrium,最后点击“Start”。该款软件具有不同群体之间的数据比对功能,主要应用在X-STR基因座的P值计算和基因座之间是否存在连锁遗传关系方面,也是X-STR基因座统计计算不可缺少的软件之一。
2.5 Hema法医DNA分析软件由珠海黑马医学仪器有限公司开发,融合了实验室管理与统计计算和分析,本节主要介绍统计分析。登录软件,点击菜单栏“基因统计”,出现基因统计数据库对话框。点击“添加”,在出现的对话框中,输入“人种地区、基因座名称、抽样总人数”和“添加等位基因名称”后,按“下一步”,再输入“基因频率”,按“下一步、完成”即可。该款软件优点是能够分别计算三联体非父排除率和二联体非父排除率,但不能计算基因频率和基因型频率,由于是一款全中文软件,所以也有庞大的使用群体。
本文介绍的几款遗传学分析软件,程序开发编写者将固有的公式写入到软件中,均具有强大的功能,可以代替大量繁琐的人工计算,作为非专业者很难全面了解使用,作者抛砖引玉,系统地介绍了其在法医生物统计中的应用,希望能够为初学者带来帮助。另外尚未介绍的统计计算,如Y-STR中的GD值,可以利用Excel表的功能根据GD公式统计;X-STR的法医学参数值[4-5]登陆http://www.chrx-str.org网站[6]根据在线计算功能得到。同时,大部分软件属于免费软件,获取方便,应用用途广泛。总之,这几款软件也有相对的缺点,但联合使用,可以弥补之间的一些不足,使用者可根据自己工作需要慢慢掌握。
[1]赵方,伍新尧,蔡贵庆,等.Modified-Powerstates软件在法医生物统计中应用[J].中国法医学杂志,2003,18(5):297-298.
[2]Liu K,Muse SV.PowerMarker:an integrated analysis environment for genetic analysis[J].Bioinformatics,2005,21(9):2128-2129.
[3]Excoffier L,Lischer H E L.Arlequin suite ver 3.5:a new series of programs to perform population genetics analyses under linux and windows[J].Mol ecol Resour,2010,10(3):564-567.
[4]Botstein D,White RL,Skolnick M,et a1.Construction of a genetic linkage map in man using restriction fragment length polymorphisms[J].Am J Hum Genet,1980,32(3):314-331.
[5]Desmarais D,Zhong Y,Chakraborty R,et al.Development of a highly polymorphic STR marker for identity testing purposes at the human androgen receptor gene(HUMARA)[J].J Forensic Sci,1998,43(5):1046-1049.
[6]Szibor R,Hering S,Edelmann J.A new web site compiling forensic chromosome X research is now online[J].Int J Legal Med,2006,120(4):252-254.
2014-01-13
1.许昌市公安局刑事科学技术研究所,河南许昌 461000 2.襄城县公安局刑侦大队,河南襄城 461700
刘亚举(1978-),男,河南襄城人,副主任法医师,从事DNA检验及法医遗传学统计工作。
DF795.4
B
1672-688X(2014)01-0062-03