陈海明 李方明 张 兵 刘祖明 毛贵川 王兴林 刘金伟 杨绍华
1.贵州省黔西南州人民医院遵义医学院第七附属医院,贵州兴义562400;2.遵义医学院附属医院贵州省细胞工程实验室,贵州遵义563000;3.海口市保税区远兮细胞分子技术应用研发有限公司,海南海口570000
人preproEGF的mRNA/cDNA序列中SNPs及生物信息学分布探究
陈海明1李方明1张 兵1刘祖明1毛贵川1王兴林1刘金伟2杨绍华3
1.贵州省黔西南州人民医院遵义医学院第七附属医院,贵州兴义562400;2.遵义医学院附属医院贵州省细胞工程实验室,贵州遵义563000;3.海口市保税区远兮细胞分子技术应用研发有限公司,海南海口570000
目的探明单核苷酸多态(SNPs)在人表皮生长因子前体蛋白(preproEGF)mRNA/cDNA序列中的分布状况。方法凭借美国生物信息中心(NCBI)平台和单核苷酸多态资料库(dbSNP)检索、分析、标注和图解相关SNPs在人preproEGF多肽mRNA/cDNA序列中的分布位点和生物信息学特征。结果分布在人肾源和其他组织源preproEGF多肽mRNA/cDNA序列中的SNPs总计有106个,其中84个同位SNPs大多数以外显子6~8、11~12、16~19和22~23为间隔并集中归位于第1~5、10、13~15、20~21、24外显子序列中,另外的22个非同位SNPs大多数以密集丛簇为特征而各自分布在两类序列3'端非编码序列中,但个别例外则单独归位于肾源类序列的第9外显子中。结论SNPs在人两类preproEGF多肽mRNA/cDNA序列中的生物信息学分布、特征和图示对于SNP与疾病或性状的相关性研究及课题设计颇具参考价值。
同位单核苷酸多态;人表皮生长因子前体蛋白;非同位单核苷酸多态;生物信息学
人表皮生长因子前体蛋白(prepro-epidermal growth factor,preproEGF)mRNA/cDNA序列由24个外显子组成,长约5 kb,编码一条1207个氨基酸的蛋白多肽链,该肽链在翻译生成后经蛋白酶剪切加工形成的成熟表皮生长因子(一段53个氨基酸多肽)对人体表皮细胞的生长、分化和代谢起着十分重要的作用[1]。也许由于mRNA序列转录的选择性剪接加工等生物学机制的缘故,基因在表达时常常会出现蛋白多肽变体,目前已知的preproEGF变体有肾源和其他组织源两类。另一方面,preproEGF基因序列的遗传多态,特别是单核苷酸多态(single nucleotide polymorphysims,SNPs)也可致其出现变体或功能改变,还可引起疾病的发生[2-3],例如,迄今的研究已表明,分布在preproEGF基因第61 bp位点的SNP(A/G)与欧美人某些肿瘤例如黑色素瘤等发生具有相关性[4]。可见深入探明SNPs及其在preproEGF基因或mRNA/cDNA中的分布情况对于探索疾病相关性的研究颇具指导价值和医学意义。至目前为止,SNPs在preproEGF基因组DNA序列内之生物信息学分布及其在第20、21外显子和其间内含子区段中呈现稀疏分布的特点于近期已见报道[5-6],但其在mRNA/cDNA序列中的情况如何则尚待探明。本研究拟借助NCBI的生物信息学平台对SNPs及其在preproEGF核酸或mRNA/cDNA序列中的分布进行分析定位和标注图解,为进一步的疾病相关性研究和医学应用提供基础。
1.1 研究对象
人preproEGF基因和蛋白多肽及其变体的mRNA/cDNA序列。
1.2 仪器和信息资源
计算机(联想公司)、电讯宽带网路(中国电讯)、NCBI的生物信息程序和dbSNP。
1.3 方法
从电讯宽带登录网址www.nlm.nih.gov,参照研究介绍的方法检索分析和定位注释存在于preproEGF多肽及其变体mRNA/cDNA序列中的SNPs[7-9]。
经Blast和Entrez SNP检索到在人4号染色体上分两类preproEGF多肽的mRNA/cDNA序列中存在有不同数目和种类的SNPs,可依其rs#从5'端到3'端行顺序编号并归位其在核酸序列中的位点,同时计算各相邻SNP位点之间的距离。见表1、2。
由表1、2可见,编号于人两类preproEGF多肽mRNA/cDNA序列中的SNPs在种类数目上有所不同,即肾源类SNPs为51个,而其他组织源类却为55个,总计106个SNPs。进一步观察对比这两类SNPs可见,其大多数(84个或42对)是位点及种类皆同一或同位的,主要分布在外显子序列中;而少数(肾源类9个,其他组织源类13个)却表现出非同位或各自不相同的,主要分布在3'端非编码序列中。合并表1和表2的资料信息,可绘制成SNPs及其在两类preproEGF多肽mRNA/cDNA序列中的分布图。见图1(封三)。
由图1(封三)可见,在第1~5、10、13~15、20~21和第24外显子中总计分布有30对同位点SNPs;在第9外显子中分布有1个肾源类非同位点SNP;在第6~8、11~12、16~19和22~23外显子中没有SNP分布;7个肾源类非同位点SNPs或12个其他组织源类非同位点SNPs分别分布在其3'端非编码序列中。
表1 除肾源类外人其他组织源类preproEGF多肽mRNA/cDNA序列中的SNPs分布
表2 人肾源类preproEGF多肽mRNA/cDNA序列中的SNPs分布
本研究应用生物信息学技术对存在于人preproEGF多肽mRNA/cDNA序列中的SNP及其分布情况进行了检索分析,结果得到共计106个位点及其SNPs分别分布于两类(肾源和其他组织源)mRNA/cDNA序列中。深入对比观察这些结果首先可见,分布于两类序列的42对共计84个SNPs因其相邻SNP间距相等而初步显示彼此的SNP位点及种类(RefSNP和亚SNP)皆具同一性;如果对比分析表1、2中的SNP位点也不难发现42对SNPs在两类mRNA/cDNA序列间之位点差距皆为16 bp,这说明分布于两类序列中的这些SNPs确实是位点及种类相同或同一的,本文将其简称为同位SNP。其次,观察分析结果也可见表1、2中有22个SNPs因其相邻SNP间距既不相等也不遵循两序列间相应位点之差距为16 bp的规律并且还数目不等地分别分布于各自归位的mRNA/cDNA序列中而表现出各自不同的位点差异性,对此本文称其为非同位SNP。
观察图1(封三)可见,分布在mRNA/cDNA序列编码区的SNPs绝大多数(97%)都是同位SNP对,这可能是为了维稳两类preproEGF多肽的遗传需要所决定的,因为依靠同位SNPs彼此间的高度同一性,方可确保由这些SNPs组成的密码子在分别编码两条蛋白多肽链时不会引起相应位点的氨基酸(AA)彼此出现差异从而改变蛋白多肽之结构和功能。然而,分布在序列编码区的个别SNP也有不是同位SNP的例外情况,例如,第9外显子内的015号SNP(R-1816)即不是同位SNP,而是一个属于肾源类的非同位SNP。由于这个非同位SNP是位于蛋白多肽编码区内,因而颇有可能令其编码的AA有别于其他组织源preproEGF多肽序列相应位点的AA。一方面造成肾源类preproEGF多肽在结构或生物学特性方面有别于其他组织源类preproEGF多肽;另一方面因为造成蛋白多肽的结构和功能改变而导致疾病发生。尽管有如此可能的风险,但由于这个非同位SNP所归位的第9外显子并不参与编码53个AA多肽的成熟EGF,因而不太可能对成熟EGF的结构和生物活性造成影响或带来改变。不过,由于第9外显子参与编码一段类似EGF的同源多肽和一段低密度脂蛋白(LDL)受体同源肽段,因而这个非同位SNP还是有可能影响到肾源类preproEGF多肽与其他组织源类preproEGF多肽出现结构和生物学特性差异的[1,10]。当然事实是否果真如此迄今仍缺乏直接的证据,不过已有相似的例子见于研究报道,研究发现,位于肾源类preproEGF多肽mRNA/cDNA序列第22外显子中的一个单核苷酸由C变成了T,也即C3209T,因而使得preproEGF多肽链第1070位AA也相应地从脯氨酸变成了亮AA,即P1070L;同时,该研究还发现由于这个AA的改变导致了肾源preproEGF多肽维持体内Mg2+平衡之生物学功能随之改变进而引发了低Mg2+血症[11]。此外,也有报道观察到:肾源preproEGF多肽加工生成成熟EGF的场所是位于细胞之外,而其他组织源(例如下颌下腺、胰腺、前列腺等组织)的preproEGF加工生成成熟EGF则是在细胞内完成的;反之,在颌下腺、胰腺和乳腺等组织,preproEGF可被剪切加工生成成熟的EGF,但是在肾脏,preproEGF则不被剪切加工生成EGF[1]。据此推测,两类preproEGF多肽之间所展示的这些生物学特性差异也许会有一些SNP的影响因素在里面。其次,观察图1(封三)也可见分布在mRNA/cDNA序列非编码区的SNPs大多不是同位而是非同位SNPs。然而,一个有趣的现象是这些非同位SNPs极少分布在序列5'端非编码区,而是大多集中分布在了3'端非编码区,具体的分布情况是:在两类mRNA/cDNA序列之5'端非编码区可见肾源类或其他组织源类SNPs各自仅分布了1个非同位SNP;而在序列之3'端非编码区肾源类SNPs却集中分布有7个非同位SNPs,其他组织源类更是集中分布了12个非同位SNPs。至于这些非同位SNPs的集中分布对preproEGF多肽有何生物学意义目前还不十分清楚,不过如果依据DNA元素百科全书研究项目对非编码核酸序列之生物学功能的发现和理解并且结合这些非同位SNPs集中分布于3'端非编码区的具体情况考虑,推测这些非同位SNPs集中分布于3'端非编码区可能有利于调节preproEGF的组织特异性表达,也即可能与preproEGF的表达调控有关[12]。
与在基因组序列的分布相比较,SNPs在preproEGF多肽mRNA/cDNA序列中之分布显示出较为明确的差异和不甚清晰的相似之处。首先,差异表现在SNPs的种类和数量方面。具体地说,也即分布于preproEGF基因组序列的SNPs包含有近35%的亚SNPs和65%的RefSNPs;而在两类mRNA/cDNA序列内,其所包含的亚SNPs却很少(仅占比SNPs约8%),绝大多数为RefSNPs(占比SNPs约92%)。其次,粗看表1、2结果感觉SNPs在mRNA/cDNA序列中的分布杂乱无章而与其在基因组序列中的分布规律毫无共通之处,然而细致观察却可见到SNPs在这两种序列中的分布仍有些许相似之处,具体表现在:①如果以200 bp相邻SNP间距划线为界即可见有少数SNPs(相邻间距>200 bp)是呈不均等散布于mRNA/ cDNA序列中的;②SNPs在1~24外显子区段呈现出以外显子6~8、11~12、16~19和22~23为间隔而集合分布在第1~5、10、13~15、20~21和第24外显子中的特征也与其在基因组序列中呈富集丛簇分布的特征颇为相似[5]。此外,总观图1(封三)的SNPs分布还可见其在mRNA/cDNA序列中有一个从5'端往3'端逐渐密集分布以至紧密排列的特征,不过其生物学意义尚待研究。
合并表1、2所列资信绘制而成的SNPs分布图令其在两类preproEGF多肽mRNA/cDNA序列中之分布情形显得较为直观简明,易于理解,可为SNP与疾病的相关性研究提供便捷之信息支撑,对其他医学应用和实验研究也具有参考价值。
[1]Bell GI,Fong NM,Stempien MM,et al.Human epidermal growth factor precursor:cDNA sequence,expression in vitro and gene organization[J].Nucleic Acids Res,1986,14(21):8427-8446
[2]Sherry ST,Ward MH,Kholodov M,et al.dbSNP:the NCBI database of genetic variation[J].Nucleic Acids Res,2001,29(1):308-311..
[3]Tian WM,Zhang KR,Zhang J,et al.Association between the epidermal growth factor gene and intelligence in major depression patients[J].Chin Med Sci J,2010,25(2):105-108.
[4]Casula M,Alaibac M,Pizzichetta MA,et al.Italian Melanoma Intergroup(IMI),Palmieri G.Role of the EGF+61A>G polymorphism in melanoma pathogenesis:an experience on a large series of Italian cases and controls[J].BMC Dermatol,2009,9:7.
[5]王敏,李方明,刘祖明,等.SNPs在人preproEGF基因内的分布特征初探[J].遵义医学院学报,2012,35(2):104-110.
[6]王兴林,毛贵川,陆兴忠,等.汉族和布依族个体preproEGF基因DNA序列中3个新的单核苷酸多态性研究[J].四川大学学报:医学版,2011,42(6):771-774.
[7]Altschul SF,Gish W,Miller W,et al.Basic local alignment search tool[J].J Mol Biol,1990,215(3):403-410.
[8]Worley KC,Wiese BA,Smith RF.BEAUTY:an enhanced BLAST-based search tool that integrates multiple biological information resources into sequence similarity search results[J].Genome Res,1995,5(2):173-84.
[9]Marth GT,Korf I,Yandell MD,et al.A general approach to single-nucleotide polymorphism discovery[J].Nature Genetics,1999,23(4):452-456.
[10]Mukai E,Kume N,Hayashida K,et al.Heparin-binding EGF-likegrowthfactorinducesexpressionoflectin-likeoxidized LDL receptor-1 in vascular smooth muscle cells[J]. Atherosclerosis,2004,176(2):289-296.
[11]GroenestegeWM,ThebaultS,vanderWijstJ,etal.Impaired basolateral sorting of pro-EGF causes isolated recessive renal hypomagnesemia[J].J Clin Invest,2007,117(8):2260-2267.
[12]Maher B.ENCODE:The human encyclopaedia[J].Nature,2012,489(7414):46-48.
Bioinformatics distribution of single nucleotide polymorphisms in mRNA/ cDNA of human epidermal growth factor precursor
CHEN Haiming1LI Fangming1ZHANG Bing1LIU Zuming1MAO Guichuan1WANG Xinglin1LIU Jinwei2YANG Shaohua3
1.Qianxi'nanzhou People's Hospital The 7th Affiliated Hospital of Zunyi Medical College,Guizhou Province,Xingyi 562400,China;2.The Key Laboratory of Cell Engineering of Guizhou Province,the Affiliated Hospital of Zunyi Medical College,Guizhou Province,Zunyi563000,China;3.HKBSQ Yuanxi Cell-molecular Technology Co.,Ltd.,Hainan Province,Haikou570000,China
Objective To ascertain the distribution of single nucleotide polymorphisms(SNPs)in the mRNA/cDNA of human epidermal growth factor precursor(preproEGF).Methods By the web-based bioinformatics platform for NCBI tools,the dbSNP was searched and analyzed for SNPs relative to human preproEGF mRNA/cDNA.These SNPs were then made the annotation and the diagram for their position and distribution in mRNA/cDNA sequence.Results A total of 106 SNPs,of which 84 were considered the locus-same and 22 were considered the locus-different,were distributed in two mRNA/cDNA sequences with coding regions for preproEGFs from human kidney and other organic tissues.The majority of locus-same SNPs were clustered and assigned to exon 1-5,10,13-15,20-21,24 individually,which were spaced by exon 6-8,11-12,16-19,22-23 apart in preproEGF-coding regions of two mRNA/cDNA sequences.Most of locus-different SNPs were clustered and distributed in three prime non-coding regions of two mRNA/cDNA sequences respectively.However,a rather unique locus-different SNP was located in exon 9 of preproEGF mRNA/cDNA from human kidney.Conclusion The bioinformatics distribution and characterization that the illustration exhibits of SNPs in human preproEGF mRNA/cDNA sequences are useful to help the research design and the study in human disease associated with preproEGF.
Locus-same SNP;PreproEGF;Locus-different;Bioinformatics
R786
A
1673-7210(2014)01(a)-0014-05
2013-10-29本文编辑:程铭)
遵义医学院第七附属医院(贵州省黔西南州人民医院)科研基金[编号(2009)84]。
陈海明(1961.9-),男,感染性疾病科副主任医师。
李方明(1959.8-),男,主任医师,硕士研究生导师。