基于偏最小二乘法的近红外光谱STR基因分型

2011-08-06 12:18陈泽琴汪雪娇谢洪平
常熟理工学院学报 2011年8期
关键词:模式识别类别基因型

陈泽琴 ,汪雪娇 ,谢洪平

(1.苏州大学 医学部药学院,苏州 215123;2.西华师范大学 化学化工学院,四川 南充 637002)

0 引 言

短串联重复序列(STR)是一类广泛分布在人和动物基因组中的DNA重复序列片段,STR的核心序列为2~7bp,呈串联重复排列,重复次数10~60次左右,其总长度一般位于100-400 bp之间,多位于基因编码区附近、基因内含子和非翻译区,并按孟德尔规律呈显性遗传[1,2].人类基因组的STR位点有一半具有多态性,因此,STR作为一类丰富的遗传标记而受到广泛的重视,与过去常用遗传标记相比,具有种类多、分布广、多态信息量大,杂合度高,片段较短,易于聚合酶链反应(PCR)扩增等优点[3],因而成为现在遗传学研究和医学中最常用的遗传标记[4-9].对于STR基因座的检测,目前常用的有凝胶电泳法、毛细管电泳法、微芯片电泳法和基因测序等方法[10-13],这些方法可以较为准确地对STR基因型进行检测.但是这些方法通常需要较为复杂的样品前处理或PCR引物标记(如荧光标记、放射线标记).近红外光谱技术具有无损、简单、快速、低成本等优点,在基因型检测中仅需要一次PCR扩增,且无需分离纯化和荧光标记,可以简化操作过程.但是近红外光谱(NIRS)一般都具有共线性问题,需要利用化学模式识别技术建立化学模式识别模型.本文选择D5S818基因座中总串数差异较大的基因型(即光谱差异较大的基因型)10-10、11-11和13-13进行方法学研究,以NIRS为识别变量,通过判别偏最小二乘(DPLS)化学模式识别方法,建立不同STR基因型的判别模型,实现STR简单、快速、低成本和无需样本预处理的分型检测.

1 实 验

1.1 仪器与试剂

PTC-225型PCR扩增仪(BIO-RAD Inc,USA);POWER BC6003En型电泳仪(上海申能博彩生物科技有限公司);GeneGenius凝胶成像系统(SYNGENE Co Ltd,UK);NICOLET Nexus型傅立叶变换近红外光谱仪(Thermo Electron Co Ltd,USA);精密数显酸度计(PHS-3TC);微型混合器(上海沪西仪器厂);离心机(Tomy,日本);移液枪(Eppendorf,德国).

PCR引物(金思特科技(南京)有限公司合成,PAGE级)、Taq DNA 聚合酶(FERMENTAS INC,USA)、琼脂糖(LP0028A,Oxoid Ltd,UK)、溴化锭(Sangon生物公司)、人血液样本(苏州大学司法鉴定所)、其他所用试剂均为分析纯,所有溶液由灭菌去离子水配制.

1.2 基因组DNA的提取

基因组DNA的提取主要是按Chelex100法进行操作[14].取以EDTA抗凝的3名D5S818基因座已知基因型的受试者全血0.2ml至1.5ml的离心管中,加入红细胞裂解液1ml,在10000 rpm下离心5分钟,弃去上清液;加磷酸缓冲液(PBS)1ml,离心,弃去上清液,重复上述过程1次,然后加入0.2ml 5%(m/v)的Chelex100悬浮液悬浮细胞核,56℃保温30分钟;最后在沸水浴中保温8分钟,然后立即置于-20℃冰箱保存备用.

1.3 PCR扩增

实验样本是通过PCR扩增得到的,具体的PCR扩增条件为:95℃预变性3分钟;然后以95℃变性30秒,58℃退火30秒,72℃延伸30秒,扩增30个循环;最后在72℃下延伸7分钟使扩增完全.每一个25μL的PCR反应体系中含有D5S818的两条引物各0.25mmol/L(引物A:5’-GAA TGA TTT TCC TCT TTG GT-3’和引物B:5’-TGA TTC CAA TCA TAG CCA CA-3’),0.2mmol/L的 dNTP,1.5mmol/L的MgCl2,0.625U TaqDNA聚合酶和1×Taq缓冲液,1μL的DNA模板.

1.4 近红外光谱检测

取20μL PCR扩增产物,加水稀释至450μL,置于石英比色皿中;以空气为参比背景,测定PCR产物的近红外光谱.光谱测定的仪器参数为:波数范围9400-4000cm-1,扫描次数32次,分辨率8cm-1,光程10mm和光斑宽2mm.

2 DPLS模型的建立

传统的光谱多元定性方法大都基于主成分分析(PCA),即首先将光谱进行PCA降维并选取特征变量后,再进行聚类或判别分析.近年来,用于光谱多元定量校正的偏最小二乘法(PLS)也被越来越多地用于定性分析中.PLS方法本质上是一种基于特征变量的回归方法,但若将已知类别样本的浓度阵分别设为类指标(0,1)、(1,0)(对两类而言),或(0,0,1)、(0,1,0)、(1,0,0)(对三类而言),多类问题依此类推,则PLS方法可用于有监督的模式识别光谱定性分析,通常称为判别PLS回归(DPLS)[15].本文利用DPLS方法,以近红外光谱为识别变量建立D5S818基因座的10-10、11-11和13-13基因型的分类判别模型,拟实现STR三种基因型的简单、快速、低成本的分型检测. 对于10-10、11-11和13-13基因型的类别变量分别为(1,0,0)、(0,1,0)和(0,0,1).对于每个基因型的36个样本,随机选择24个为校正样本,其余12个为预测样本.对每个样本的量测光谱预处理,并以交互检验(逐一剔除)方法,得到主成分数10,应用自编Matlab程序建立了三种基因型的DPLS模型:Y=X×β,得回归系数矩阵β.

3 结果与讨论

3.1 光谱预处理

光谱的变化主要由基因型差异、被测样本组成和浓度而产生,为了使光谱的变化仅由基因型的差异所决定,需要消除同一基因型不同样本间的浓度差异.为了消除操作误差,每一基因型样本均使用同一模板进行两次平行的二次PCR扩增,每次扩增18个样本,3个基因型共计得到样本108个.从原始光谱(图1)可见,光谱存在明显的漂移.将原始光谱进行漂移校正,并进行浓度归一化,以消除浓度差异对基因型判别的影响,其结果见图2.同样,另外2个基因型的原始光谱也进行了相同的处理,将处理后的光谱作为建模光谱.

图1 108个样本量测的近红外光谱

图2 漂移校正和浓度归一化后的108个PCR样本的近红外光谱

3.2 基于交互检验的主因子数选择

运用PLS方法建立回归模型在化学测量和有关研究中得到广泛应用,具有稳健、预测精度较高等优点.在DPLS判别分析中,选择的主因子数将直接影响所建立的模型的预测能力,因此运用交互检验(逐一剔除)方法来选择最佳主因子数,保证具有较小的类内距和较大的类间距.由图3可知,当因子数为10时,预测残差平方和PRESS值最小(见图3内插图),即是该模型建立应选用的主因子数.

3.3 STR基因型判别的DPLS模型

图3 交互检验法选择DPLS模型主因子数

基于光谱的模式识别主要有两类方法,一是无监督的聚类分析,常用的方法是将一组待分析样本的光谱进行PCA降维;二是有监督的模式识别,即利用已知样本的类别建立有监督的模式识别模型,DPLS即为此类模式识别方法.与定量校正类似,由于PLS方法同时对光谱阵和类别阵进行分解,加强类别信息在光谱分解时的作用,以提取出与样本类别最相关的光谱信息,即最大化提取不同类别光谱之间的差异,因此PLS方法通常可以得到比PCA方法更优的分类和判别结果.

图4 10-10、11-11与13-13基因型的DPLS判别模型

图5 图4中的10-10基因型放大图

本文以NIRS作为识别变量,对10-10、11-11和13-13基因型分别赋予其类别变量为(1,0,0)、(0,1,0)和(0,0,1),以分类预测率和模型稳健性为基础,通过交互检验,选择最佳主因子数为10,建立STR基因型判别的DPLS模型,其结果参见图4.在图4中可以明显看出,三类基因型能够较好地彼此分离,不存在类间的重叠,且同一类的样本分布较为集中,表明模型能够准确判别基因型,其预测准确率达到100%.从每一类的放大图(参见图5、6和7)可见,每一类的预测集样本基本落于校正集的分布范围内,且不存在明显的过拟合现象,据此表明模型具有良好的稳健性,从而保证了该方法对未知样本基因型判别的重现性.

图6 图4中的11-11基因型放大图

图7 图4中13-13基因型放大图

4 结 论

基于近红外光谱-DPLS方法成功实现了对STR基因型中总串数差异较大的基因型判别,模型的分离性和稳定性均较好,且预测集样本的预测率达到100%.实现了对PCR扩增样本在不经分离提纯等预处理条件下的快速、简单和低成本的紫外光谱基因型判别.

[1]Edwards AL,Civitelo A.DNA typing and genetic mapping with trimeric and tetrameric tandem repeats[J].Am J Hum Genet,1991,49(4):746-752.

[2]Alford RL,Hammond HA,Coto I,et al.Rapid and efficient resolution of parentage by amplication of short tandem repeats[J].Am J Hum Genet,1994,55(1):190-195.

[3]Hao Fan,Jia-You Chu.A Brief Review of Short Tandem Repeat Mutation[J].Geno Prot Bioinfo,2007,5(1):7-14.

[4]Arbouw M E L,Movig K L L,Egberts T C G,et al.Clinical and pharmacogenetic determinants for the discontinuation of non-ergoline dopamine agonists in Parkinson’s disease[J].Eur J Clin Pharmacol,2009,65:1245-1251.

[5]Lea R A,Dohy A,Jordan K,et al.Evidence for allelic association of the dopamine β-hydroxylase gene with susceptibility to typical migraine[J].Neurogenetics,2000,3:35-40.

[6]Morgante M,Rafalski A,Biddle P,et al.Genetic mapping and variability of seven soybean simple sequence repeat loci[J].Genome,1994,37:763-769.

[7]Peppin L,McEwing R,Ogden R,et al.Molecular sexing of African rhinoceros[J].Conserv.Genet,2009,10:1-4.

[8]Roewer L.Y chromosome STR typing in crime casework[J].Forensic Sci Med Pathol,2009,5:77-84.

[9]Wiegand P,Kleiber M.DNA typing of mummified neonates to determine parentage[J].Z Rechtsmed,1997,7:95-97.

[10]Victoria Lareu,Carmela Pestoni,Christopher Phillips,et al.Normal and anomalous electrophoretic behavior of polymerase chain reaction-based DNA polymorphisms in polyacrylamide gels[J].Electrophoresis,1998,19:1566-1572.

[11]Stephanie H I,Yeung,Peng Liu,et al.Integrated Sample Cleanup-Capillary Electrophoresis Microchip for High-Performance Short Tandem Repeat Genetic Analysis[J].Anal Chem,2009,81:210–217.

[12]Yining Shi.DNA sequencing and multiplex STR analysis on plastic microfluidic devices[J].Electrophoresis,2006,27:3703-3711.

[13]Wei-Min Hu,Kwang-Jen Hsaio,Cheng-Yi Cheng,et al.Prenatal diagnosis of classical phenylketonuria with polymerase chainreaction,automatic sequencing and linkage analusis with short tandem repeats[J].Taiwanese J Obstet Gynecol,2005,44(1):52-56.

[14]Sweet D,Lorente M,Valenzuela A,et al.Increasing DNA extraction yield from saliva stains with a modified Chelex method[J].Forensic Sci Int,1996,83:167-177.

[15]倪永年.化学计量学在分析化学中的应用[M].北京:科学出版社,2004:174.

猜你喜欢
模式识别类别基因型
壮字喃字同形字的三种类别及简要分析
UPLC-MS/MS法结合模式识别同时测定芪参益气滴丸中11种成分
第四届亚洲模式识别会议
服务类别
可拓模式识别算法中经典域的确定方法
多类别复合资源的空间匹配
西安地区育龄妇女MTHFRC677T基因型分布研究
第3届亚洲模式识别会议
中医类别全科医师培养模式的探讨
作物遗传育种研究进展Ⅴ.表型选择与基因型选择