SNPs在人preproEGF基因内的分布特征初探*

2012-12-03 07:30李方明刘祖明毛贵川陈海明王兴林刘金伟杨绍华
遵义医科大学学报 2012年2期
关键词:内含子外显子区段

王 敏,李方明,刘祖明,毛贵川,陈海明,王兴林,刘金伟,杨绍华

(1.黔西南州人民医院暨遵义医学院第七附属医院,贵州 兴义 562400;2.遵义医学院附属医院暨贵州省细胞工程实验室,贵州 遵义 563099;3.海口保税区远兮细胞分子技术应用研发有限公司,海南 海口 570000)

位于染色体4q25的人表皮生长因子前体蛋白(prepro-epidermal growth factor,preproEGF)基因由24个外显子和23个内含子组成,全长约110 kb,其外显子编码一条1207个氨基酸的蛋白多肽链,其间含有1段(53个氨基酸)表皮生长因子,9段重复的低密度脂蛋白受体多肽,9段类表皮生长因子结构域(其中3段结构域兼具潜在的Ca++结合位点),此外该蛋白还含有9个糖基化位点和12个位点的氨基酸变体。这表明preproEGF蛋白除了具有表皮生长因子的生物学功能之外,还应具有低密度脂蛋白受体,参与出凝血机制和组成细胞膜结构的功能,对细胞的生长分化和组织代谢起着多方面的重要作用[1,2]。已有研究揭示preproEGF基因的遗传变体或多态,特别是单核苷酸多态(Single nucleotide polymorphysims,SNPs)可能与冠心病、智力发育障碍和肿瘤发生等临床病具有相关性[3,4]。研究同时也表明分布在 preproEGF基因第61 bp位点的SNP(A/G)与欧美人某些肿瘤例如黑色素瘤等之发生具有相关性[5]。可见深入探索鉴定SNPs在preproEGF基因中的分布情况及其特点颇具医学遗传价值。理论上讲SNPs以平均千分之一个单核苷酸的机率发生和分布在整个基因组序列之中,但有研究显示在编码基因内只有少数(约1/3)的SNPs分布,而且有些SNPs是以稍微富集成串丛簇的方式散布于人基因组全序列之中[6,7]。然而,基因组 SNPs的这些分布特点对其在单个基因序列内的分布是否同样如此尚不清楚。我们报道了SNPs在preproEGF基因第20和21外显子及其内含子区段分布未见其富集成串丛簇的特点,但见其1~2个SNPs散布于约4.5kb 大片段内的稀疏分布现象[8];至于 preproEGF基因其余区段的SNPs分布状况,尚需进一步的探索研究。目前业已完成的人类基因组计划和第二代国际人类基因组单体型图谱为深入探寻SNPs在各基因序列内部的分布提供了充分有力的遗传信息支撑和资料数据保障[9,10]。本研究拟应用生物信息技术对preproEGF基因的DNA序列进行检索分析,为进一步的基因遗传学研究和医学应用提供一个基础。

1 材料与方法

1.1 研究对象 preproEGF基因DNA序列~110 kb。

1.2 主要仪器和材料资源 计算机(联想公司),电讯宽带网路(中国电讯),NCBI的生物信息技术程序和dbSNP。

1.3 方法 从电讯宽带登录网址www.nlm.nih.gov,打开NLM主页并经PubMed/MEDLINE转到SNP项,点击可进入 dbSNP Home Page,然后经Blast和Entrez SNP即可检索到preproEGF基因的dbSNP并对其进行分析。

2 结果

经Blast和Entrez SNP检索到在4号染色体及preproEGF基因的DNA序列中分布有93个参照SNPs(reference SNP,RefSNP)和 51个亚 SNPs(subset SNP);这些SNPs或以单一SNP(RefSNP)或以多个SNPs(RefSNP+亚SNP)分别分布于从6651bp到810bp大小不等的各基因片段中;同时本研究计算了各基因片段之间和之内的相邻SNPs间之平均距离(bp)。现将这些数据结果进行统计(见表1)。

表1 SNPs在染色体preproEGF基因中的分布情况

(续表)

(续表)

(续表)

由列表之数据可见SNPs在基因序列中的分布大致表现出如下特征:①平均1/1000的分布密度;②成串丛簇聚集分布;③不均等散布。

3 讨论

本研究利用生物信息学技术对存在于preproEGF基因DNA序列内的SNPs进行了检索分析。结果显示这些SNPs共计 144个,其中93个为RefSNPs(rs),51个为亚SNPs(侯选SNP或candidate SNP)。从列表之数据可见,绝大多数(约99%)的SNPs位于人的第4号染色体DNA序列中,仅第100号rs61691240和第133号rs11098054可能位于第7号染色体上。进一步分析揭示:首先,在93个RefSNPs中有占比约53﹪的49个分别分布在1200 bp~800 bp(平均1000 bp或1 kb)长的各DNA区段内,即分布密度约为千分之一(1/1000)。可见,仅约二分之一的RefSNPs在preproEGF基因的分布与其理论分布相吻合,这就意味着其余二分之一RefSNPs分布在preproEGF基因有另外的形式。其次,以至少3个以上的SNPs聚集,且相邻SNPs之间平均距离短于200 bp(<200 bp)作为其富集成串丛簇的指标,在列表中就可见到有相邻SNPs之间平均距离分别为155、154、102、62、55、43 和 41bp 的 7 段 RefSNP 富集区,其平均间距分别为15和9bp的两段亚SNP富集分布之基因片段;还可见各富集区段SNP数目彼此各不相等,其中154 bp或9 bp富集区段分别含有6或22个SNPs,各自为RefSNP类或亚SNP类富集区段中含SNPs最多的DNA区段或基因片段。很显然,这是SNPs在preproEGF基因中分布的另一种形式或特点,对于该基因及其相关疾病研究的课题设计具有重大的指导参考价值。第三,如果顺序观察编号SNPs,不难发现其中的第001~004、016 ~019、039 ~040、042 ~046、051 ~052、054、056 ~057、059 ~ 060、062、064 ~ 065、067~068、070~071、073~074和121~126号共37个SNPs虽已达一定总数占比(约26﹪),但其即不具备密度为1/1000的SNPs分布特征也不符合至少3个或以上的SNPs成串聚集和相邻SNPs之间的平均距离短于200 bp(<200 bp)的富集成簇指标,因而只能将其另类为不均等散布于preproEGF基因DNA序列中之SNPs(不均等散布的SNPs)。可见这是SNPs在preproEGF基因内分布的又一特别之处。总之,SNPs在preproEGF基因DNA序列中的分布明显表现出多数以平均1/1000的分布密度;部分RefSNPs和少数亚SNPs富集成串丛簇聚集;另有占总数约26﹪的SNPs呈不均等散布的特征。这些特征比其SNPs在人类基因组全序列中的分布明显有所不同[6],这对于指导进一步的研究设计颇具独特的参考价值和深远影响。另一方面,这些分布特征对于指导设计具体的探索性实验可增强其针对性,减少其盲目性,避免不必要的重复实验并提高工作效率,对于加速研究工作的顺利完成具有十分重要的意义。

基因组范围相关性研究中,已有报道至少有800个SNPs与疾病的发生相关,不过其中约占总数81%的650个SNPs并不分布在基因的编码序列,而是分布在基因的内含子和各基因之间的DNA 序列中[11,12]。与此情况相类似,preproEGF基因第20和21外显子及其内含子(第20内含子)区段的研究也证实该区段仅有的2个SNPs,且全都分布于内含子区段,这与其它基因组相关性研究的结果相似。

[1]Bell GI,Fong N M,Stempien M M,et al.Human epidermal growth factor precursor:cDNA sequence,expression in vitro and gene organization [J].Nucleic Acids Res,1986,14(21):8427 -8446.

[2]Mukai E,Kume N,Hayashida K,et al.Heparin-binding EGF-like growth factor induces expression of lectinlike oxidized LDL receptor-1 in vascular smooth muscle cells[J].Atherosclerosis,2004,176(2):289 -296.

[3]Pluskota E,Stenina OI,Krukovets I,et al.Mechanism and effect of thrombospondin-4polymorphisms on neutrophil function[J].Blood,2005,106(12):3970-3978.

[4]Tian W M,Zhang KR,Zhang J,et al.Association between the epidermal growth factor gene and intelligence in major depression patients[J].Chin Med Sci J,2010,25(2):105-108.

[5]Casula M,Alaibac M,Pizzichetta M A,et al.Role of the EGF+61A>G polymorphism in melanoma pathogenesis:an experience on a large series of Italian cases and controls[J].BMC Dermatol,2009,9:7.

[6]Koboldt D C,Miller R D,Kwok P Y.Distribution of human SNPs and its effect on high-throughput genotyping[J].Hum Mutat,2006,27(3):249 - 254.

[7]何云刚,金力,黄薇.单核苷酸多态性与连锁不平衡研究进展[J].基础医学与临床,2004,24(5):487-490.

[8]王兴林,毛贵川,陆兴忠,等.汉族和布依族个体 preproEGF基因DNA序列中3个新的单核苷酸多态性研究[J].四川大学学报(医学版),2011,42(6):771-774.

[9]Sherry S T,Ward M H,Kholodov M,et al.dbSNP:the NCBI database of genetic variation[J].Nucleic Acids Res,2001,29(1):308-311.

[10]The International HapMap Consortium.A second generation human haplotype map of over 3.1 million SNPs[J].Nature,2007,449(7164):851- 861.

[11]Wellcome Trust Case Control Consortium.Genome-wide association study of 14,000 cases of seven common diseases and 3,000 shared controls[J].Nature,2007,447(7145):661-678.

[12]Jonsson JJ,Foresman M D,Wilson N,et al.Intron requirement for expression of the human purine nucleoside phosphorylase gene[J].Nucleic Acids Res,1992,20(12):3191-3198.

猜你喜欢
内含子外显子区段
外显子跳跃模式中组蛋白修饰的组合模式分析
中老铁路双线区段送电成功
广州地铁CBTC系统特殊区段NCO延伸分析和验证
线粒体核糖体蛋白基因中内含子序列间匹配特性分析
外显子组测序助力产前诊断胎儿骨骼发育不良
基因内含子遗传变异与鸭蛋壳品质关联性分析
铀浓缩厂区段堵塞特征的试验研究
非自动闭塞区段ATP列车自动防护系统方案探讨
“垃圾DNA”不“垃圾”
外显子组测序助力产前诊断胎儿骨骼发育不良