同胞对连锁分析的三种统计方法比较*

2011-02-03 03:49首都医科大学数学教研室100069郑卫英张金旺
中国卫生统计 2011年2期
关键词:同胞连锁性状

首都医科大学数学教研室(100069) 华 琳 郑卫英 张金旺 刘 红 闫 岩

同胞对连锁分析的三种统计方法比较*

首都医科大学数学教研室(100069) 华 琳 郑卫英 张金旺 刘 红△闫 岩

*:北京市教委科技发展计划面上项目(KM200910025006)

△通讯作者:刘红

在很多物种中,无论是低等的酵母,还是高等的人类,许多基因的表达水平都展示出丰富的自然变异。而目前,很多科研工作都集中于研究疾病发展不同阶段的基因表达水平,较少研究健康人群基因表达的自然变化。事实上,健康人群个体间的遗传变异常常和人类复杂疾病的易感性及复杂疾病性状有密切联系。而人类基因组中广泛存在并被广泛应用的第三代基因遗传标记,即SNP标记,是一种能够稳定遗传的早期突变,研究者可以通过对SNP的相关分析和高密度的SNP图谱来定位一系列复杂疾病的相关基因。

我们通过分析健康人群淋巴母细胞基因表达的自然变化,发现可能存在影响基因表达的标记位点,从而提示这些标记位点可能对遗传、进化及复杂疾病的易感性有重要的生物学意义。我们利用三种统计分析方法,逐步判别分析、逐步logistic回归和同胞对Haseman-Elston回归,将Centre d'Etude du Polymorphisme Humain(CEPH)家族淋巴母细胞的基因表达谱数据和SNP基因型数据结合在一起。我们将1号染色体上的HSPA6的基因表达水平作为数量性状,利用同胞对的H-E(Haseman-Elston)线性回归方法对50个SNP标记进行连锁定位,同时对基因表达水平进行重新设置,使之成为分类变量,分别采用逐步判别分析、逐步logistic回归分析方法作连锁分析,从而发现影响HSPA6表达水平的SNP遗传标记。我们采用matlab 6.5编写程序实现数据转换,采用著名数量遗传学家Dr.Robert C.Elston和他的研究小组开发的遗传流行病学的统计分析系统 SAGE 5.2的 SIBPAL〔1〕模块实现Haseman-Elston回归。采用SAS软件实现逐步判别分析、广义可加模型和逐步logistic回归。

方 法

1.Haseman-Elston线性回归〔2〕

同胞对的Haseman-Elston线性回归法是根据同胞对间的表型差异与同胞对共享来自同一祖先的标记等位基因IBD(identity-by-descent)个数平均值估计的关系模型进行连锁定位的。

设一个家系中s个同胞的第j对同胞的HSPA6表达值为x1j,x2j,同胞对的基因表达差异:

其中 β0为截距,βi和 di(i=1,2,…,m)分别为 m 个遗传标记中第i个标记的加性和显性遗传方差,(i=1,2,…,m)分别为第 i个标记位点上同胞对共享IBD个数平均值估计值和同胞对共享两个等位基因的概率估计值,ck是反应协变量yk的函数f(yk)对表达值的影响系数,e为随机误差。

当只考虑一个标记时,模型则退化为

我们采用单标记回归法(即模型2),分别对CEPH 家族的4 个家系(1333,1340,1341,1345)54 个个体1号染色体的50个SNP标记作连锁分析,估计回归参数并进行统计学检验。检验假设为:H0:θ=(无连锁);H1:θ<(存在连锁),若 P <0.05,则可判断这一SNP标记与HSPA6的基因表达水平存在连锁。

2.逐步判别分析

逐步判别分析是在每一步选一个判别能力最强的指标变量进入判别函数,直至判别函数中所有指标的判别能力都有意义,而判别函数外的所有指标都不能纳入。

设有m个指标变量,分别用x1,x2,…,xm来表示,有G个类别。具体步骤为:

(1)计算总离差阵 T,类内离差阵 W,T-1,W-1,行列式|T|,|W|及 Wilks统计量

其中U越小,判别能力越强。

(2)逐步剔除无统计学意义的指标变量

假设有p个指标变量已被选入判别函数。对于未入选的m-p个指标变量中的任何一个指标变量xr,我们将W和T矩阵分解为

若 F >Fα(G-1,N-p-G),则认为第 r个指标变量的判别能力有统计学意义。

我们将1号染色体上的HSPA6基因的表达水平计算均值。重新设置表达变量,如果个体的表达值大于均值,设为1,小于均值设为0。对98对同胞对作分析,如果同胞对的两个个体表达变量均为0,我们作为G1类;如果两个体表达变量一个为0,一个为1,我们作为G2类;如果两个个体表达变量均为1,则作为G3类。用每个SNP标记的IBD值作为指标变量。

3.逐步logistic回归

将98对同胞对中每个同胞对的HSPA6基因表达水平作差并取绝对值,即

将d'作为分类变量,将50个SNP标记的IBD作为协变量,作逐步logistic回归分析。

数据处理与数值分析

首先采用Matlab 6.5软件编写程序将表达谱数据和SNP基因型数据转化为SAGE5.2可识别的输入文件。由于SIBPAL模块需要有Geneibd文件,所以应先通过Geneibd模块产生Geneibd文件。产生Geneibd文件需要有四个输入文件,即家系资料文件、参数文件、等位基因位置文件和由Freq模块生成的等位基因频率文件。将生成的Geneibd数据文件通过我们编写的程序输入到SAS程序中,分别作逐步判别分析和逐步logistic回归分析。我们将四种统计分析方法的结果进行比较,结果见表1。

从表1中可以看出逐步判别分析识别出6个SNP标记,逐步logistic回归识别出3个SNP标记,Haseman-Elston线性回归识别出2个SNP标记。从连锁分析的统计结果来看,显然逐步判别分析要优于其他方法,逐步logistic回归和Haseman-Elston线性回归的效果相似。三种方法均发现SNP标记位点rs5556161和rs991191有意义,提示这两个标记位点附近可能存在影响HSPA6基因表达水平的性状位点。基因HSPA6位于1号染色体(chr1q23),将此基因映射到 GO(Gene Ontology)数据库,在生物学过程中分别为GO:6457((protein folding)和 GO:6986(response to unfolded protein),说明该基因与蛋白质的展开折叠相关。分子功能为 GO:166(nucleotide binding)和 GO:5524(ATP binding),说明该基因的分子功能是核酸结合与ATP结合。SNP rs5556161和SNP rs991191可能影响该基因的表达水平,从而影响基因功能。

表1 三种统计方法的连锁分析结果比较(98对同胞对)

另一方面,我们可以通过看逐步判别分析过程中F统计量的变化来分析基因间的交互作用〔4〕(表2)。

表2 逐步判别分析中6个SNP标记的F统计量变化

从表 2中,我们可以观察到,在第二步中,rs5556161的F值从6.10下降到0.50,而 rs1511687的F值从2.86上升到8.92,说明 rs991191可能与rs5556161和rs1511687存在交互作用。同样,在第三步中,rs5556161的 F值从 0.50上升到 7.40,rs1511687的F值从8.92下降到2.74,rs2209698的F值从0.02上升到3.68,说明这三个SNP位点均可能与rs1924761存在交互作用。

讨 论

本文采用了三种统计分析方法作同胞对的连锁分析。它们同时均发现了2个SNP位点rs5556161和rs991191有统计学意义,说明这两个标记位点附近可能存在影响HSPA6基因表达水平的性状位点。但比较而言,逐步判别分析要优于其他两种方法。本文采用的数据是健康人群淋巴母细胞的基因表达数据。而在实际应用中,这三种方法均可用于复杂疾病的连锁分析。由于同胞对Haseman-Elston回归要求性状为数量性状,而很多复杂疾病的数量性状常常很难表达,逐步判别分析和逐步logistic回归分析恰好可以将复杂性状用分类变量表示,进而再作连锁分析。因此,对于数量性状位点QTL或表达数量性状位点eQTL,适用于采用H-E回归进行连锁分析。而对于状态变量(疾病或正常),可选择采用逐步logistic回归和逐步判别分析方法。逐步判别分析和逐步logistic回归有很多类似的地方。但是,如果研究的位点较多(如全基因组的连锁分析),会使得logistic回归中变量大量增加,从而导致结果的不准确性,应进行多重校正。相比较而言,逐步判别分析在分析较多位点时,统计效能要高些。另一方面,如果我们想分析位点或基因的交互作用,通过逐步判别分析中SNP标记的F统计量变化,就可以初步发现这种交互作用,当然这种交互作用还需要大样本的数据加以验证。而且,逐步判别分析法还有一个优点,就是不需要预先了解基因表达值和各个SNP标记之间的关系,因此它不会象一般的线性回归那样对模型要求很高〔5〕。总之,SNP数据的统计挖掘技术作为一种新的连锁分析方法必将会在复杂疾病的连锁分析中起着重要作用。

1.SAGE Statistical Analysis for Genetic Epidemiology.Release 5.2.0

2.杨兴云,张瑞杰,宫滨生,等.心血管疾病遗传连锁分析及发病风险因子的研究.数理医药学杂志,2004,17:485-488.

3.Li X,Rao SQ,Katly LM,et al.Genetic mapping of complex discrete human diseases by discriminant analysis.Progress in Natural Science,2002,12:431-437.

4.Cuo Z,Li X,Rao SQ,et al.Multivariate sibpair linkage analysis of longitudinal phenotypes by three stepwise analysis approaches.BMC Genetics,2003,4:17.

5.Rao SQ,Li L,Li X,et al.Genetic linkage analysis of longitudinal hypertension phenotypes using three summarymeasures.BMC Genetics,2003,4:24-31.

猜你喜欢
同胞连锁性状
“7532B”母种不同系统性状比较
以中华文化促进两岸同胞心灵契合的路径思考
专注零售连锁空间打造
宝铎草的性状及显微鉴定研究
不同保育单位“781”“7532”母种性状比较分析
两岸同胞福建漳浦欢度“三月三”
厂窖惨案遇难同胞纪念馆
库里受伤的连锁效应
海外同胞与中国健儿心心相连
有壹手——重新定义快修连锁