徐敏杰,窦同海,徐佳熹,江建平,,刘 匆,付茂宾,高 原,陈诚文,张 亮,周 雁,
(1. 复旦大学 生命科学学院 遗传工程国家重点实验室,上海 200438;2. 国家人类基因组南方研究中心,上海市疾病与健康基因组学重点实验室,上海 201203 )
癌症相关基因选择性剪接进化数据库的构建
徐敏杰1,2,*,窦同海1,*,徐佳熹1,江建平1,2,刘 匆1,付茂宾1,高 原1,陈诚文2,张 亮2,周 雁1,2
(1. 复旦大学 生命科学学院 遗传工程国家重点实验室,上海 200438;2. 国家人类基因组南方研究中心,上海市疾病与健康基因组学重点实验室,上海 201203 )
选择性剪接是真核生物基因调控的基本调节机制之一,与各种类型的生理和病理活动相关.癌症相关基因的不正常剪接可能与多种癌症的发生发展有关.作为选择性剪接进化的主体,选择性剪接外显子展示了其在不同物种中多样的进化功能.本文系统整理了2989个癌症相关基因的各项功能,通过比较基因组学的分析方法总结了癌症相关基因的选择性剪接外显子的功能和进化关系,建立了癌症相关基因选择性剪接进化数据库(ASeeDB数据库).ASeeDB包含癌症相关基因外显子区域的进化保守性、结构域预测、Ka/Ks值、以及基因、转录本、外显子区域3个层次的表达量统计等信息,结合这些信息用户可以方便的检索有研究意义的基因或者外显子.外显子区域蛋白质结构域的预测可以帮助了解其可能的功能,而外显子是否存在选择性剪接又可以推及包含该外显子的转录本是否具有相似的功能以及推测剪接是否会对蛋白质功能发生影响.数据库提供的物种间的序列比对可以帮助用户发现没有注释的外显子区域或者是保留的失去功能的外显子.相比于基因层面的Ka/Ks,数据库提供的外显子层面的Ka/Ks对于发现适应性进化事件具有更高的敏感性,可以更加方便地预示基因中未知功能的区域.
癌症; 选择性剪接; 数据库; 外显子
选择性剪接(alternative splicing),又称可变剪接,是一种存在于真核生物细胞内的重要的基因表达调控机制.选择性剪接是指同一个mRNA前体通过不同的剪接方式选择不同的剪接位点进而产生不同的成熟的mRNA(转录本isoform)的过程.选择性剪接最初在腺病毒(adenovirus)研究中发现,之后在1981年,真核生物的降钙素(calcitonin)基因中也观察到了该现象[1-2].大量的研究表明,选择性剪接与细胞内的多种生理以及病理活动相关[3].选择性剪接外显子,即在转录过程中同一个基因由于选择性剪接出现在不同转录本中的外显子.通过选择性剪接机制,外显子的不同组合方式在蛋白质多样性和功能分化中发挥重要的作用.以外显子作为进化分析的主要对象,可以明显地提高进化选择压力的计算敏感度,对于缩小研究范围具有重要意义.
长期以来的研究已经表明,可变剪接对于信号转导、细胞凋亡、免疫应答等有着广泛的影响[4-7],其紊乱会导致多种疾病产生,如中枢神经系统病变、脂代谢紊乱、阿尔茨海默氏症、多种类型的肿瘤等一系列的疾病[8].在肿瘤中可变剪接对其发生发展的影响是多方面的.参与可变剪接的调控因子(如hnRNP,SR蛋白)时空表达的改变会造成肿瘤相关基因(如CD44、Ron、S6K1等)的不同剪接体异常表达,从而诱发肺癌、直肠癌、卵巢癌.另一方面,肿瘤基因本身突变(如APC、BRCA1的突变),以及含有外显子剪接增强子(ESE)的侧翼序列突变(如NF1、NF2)也会影响其正常剪接位点的选择,从而引发肿瘤.目前,研究人员已经明确剪接突变体Survivin 2B具有促凋亡作用,其表达的下调会导致乳腺癌或转移性胃癌的发生[8].这些例子说明在研究探寻肿瘤相关基因的功能时,有必要考虑不同转录本的功能差异,否则将会产生难以解释或相互矛盾的结果.
近年来真核生物基因组与基因表达数据不断增多,目前仅Ensembl数据库(www.ensembl.org)中可供横向比较的脊椎动物就超过43种,主流的可变剪接专业数据库数据量也在呈几何级数增长,例如ASTD(http:∥www.ebi.ac.uk/astd/relnotes.html)拥有人类、大鼠和小鼠的超过4万条基因的可变剪接数据,这都为大规模从可变剪接角度分析基因功能提供了有用的素材.与此同时,系统性地对肿瘤相关基因进行分析的想法也日益成熟,并已经从Ras,Wnt等经典基因家族扩展到多条肿瘤基因通路(如KEGG肿瘤基因及242个通路)、基于文献检索的整合数据库(如Cancer Gene数据库,http:∥cbio.mskcc.org/Cancer Gene)和特定肿瘤相关基因数据库(如http:∥www.megabionet.org/bio/hlung).2005年12月美国国立卫生研究院(NIH)开始启动肿瘤基因组计划(The Cancer Genome Atlas),相信随着类似研究计划的不断推出和基因组信息的不断完善,肿瘤相关基因的信息也将更加丰富.
选择性剪接数据如ASTD由于主要基于一代测序的EST数据,并且已停止更新,现已难以满足研究需求.最新的基于RNA-seq选择性剪接的数据库DBATE(http:∥bioinformatica.uniroma2.it/DBATE/)[9]充分利用了高通量测序的数据分析并展示了基因和转录本的表达量,但并未细化到外显子的表达水平,且涵盖的物种较少,并存在不能稳定访问的情况.由于很多癌症相关基因的不正确地剪接已经被证实与癌症的发生和发展相关,而目前还未有专门针对癌症相关基因的选择性剪接数据库,因此建立一个专门研究癌症相关基因的选择性剪接数据库对于癌症基因的研究具有重要作用.
本文试图从选择性剪接的角度研究癌症相关基因,从基因、转录本以及外显子3个表达水平结合物种间的进化关系,通过数据整理和整合,建立友好的访问形式,为癌症相关基因的研究提供一个良好的平台和新的研究思路.
1.1 数据来源
当前发布的数据库(Alternative Splicing Exon Evolution Database of cancer relation genes, ASeeDB)主要数据来源基于Ensembl 68版本[10],并辅以NCBI数据库中的数据作为补充.现数据库覆盖了人类、黑猩猩、小鼠、大鼠、鸭嘴兽和斑马鱼6个物种,并提供了这6个物种相关基因基本信息,包括染色体位置,核酸序列,蛋白质序列和转录本信息等.数据库主要由7个模块组成,分别为As classifier、PAML、Exon profiler、ESE Finder、Repeatmasker、InterproScan和 exon expression(图1).通过这7个模块的分析与统计,数据库共覆盖了来自Memorial Sloan-Kettering Cancer Center 癌症相关基因数据库中2989个癌症相关基因,提供了这些癌症相关基因的进化关系以及表达量等信息.
1.2 方法
1.2.1 数据收集
通过癌症相关数据库的信息共获取到2989个癌症相关基因作为研究对象.以欧洲生物信息学中心数据库Ensembl 68版本作为数据库的主要基础数据来源,下载2989个癌症相关基因的染色体位置,核酸序列,氨基酸序列以及人类、黑猩猩、小鼠、大鼠、鸭嘴兽和斑马鱼的直系同源关系.NMD(Nonsense-mediated mRNA Decay)和不能翻译成蛋白质的转录本从数据中过滤去除.通过整理统计将这些信息储存于一个临时数据库待后续分析.由于Ensembl 数据库中只包含位于primary assembly基因组上的基因,所以NCBI上的数据同时用来补充到数据库中以保证ASeeDB数据库数据的完整性.
1.2.2 外显子区域分析和注释
由于同一个基因中的外显子可能会因为选择性剪接而导致其在不同的转录本中具有不同的长度,这给建立一一对应的直系同源关系带来了巨大的难度.为了解决这个问题,我们定义了“外显子区域”,通过将在不同转录本中有相互重叠的外显子合并成一个理论上的“外显子区域”(图2,见第652页).每个外显子区域在染色体上的起始和终止位置被记录下来,同时记录每个外显子区域包含的真实外显子.通过这种方式就可以大大降低各个物种建立直系同源外显子的复杂性并为之后的进化选择压分析(Ka/Ks)提供良好的基础.
在建立外显子区域之后,通过AS classifier、ESEfinder[11]、RepeatMasker[12]和InterProScan[13]4个模块对外显子区域进行注释.AS classifier的功能是将外显子分类.虽然Ensembl也提供了外显子分类信息,但是由于存在许多实验证据不充分或可靠度较低的不能翻译成蛋白质的转录本,因此会对选择性剪接外显子产生过高预估.因此我们利用AS classifier 对外显子进行重新分类.我们将外显子分成5种类型:Constitutive Exon、Cassette Exon、3′ Splicing Usage、5′ Splicing Usage and Intron Retention[14].ESE Finder 模块利用ESEfinder 3.0对外显子区域进行选择性剪接元件的扫描,参数使用默认值,模块通过抓取和整理网页结果将其存入数据库中.外显子区域中的重复序列对于建立直系同源外显子也有较大影响,因此我们利用RepeatMasker工具对外显子区域的序列进行了重复序列的扫描.为了更好理解选择性剪接外显子的存在对于其翻译的蛋白质功能的影响,利用InterproScan模块通过InterproScan工具对外显子区域的序列进行了蛋白质结构域的预测,同时对预测结果进行整理并整合到数据库中.
1.2.3 基因导向的直系同源外显子区域的建立
为了建立直系同源外显子区域,我们利用Ensembl 直系同源数据库获取2989个癌症相关基因在人、黑猩猩、小鼠、大鼠、鸭嘴兽和斑马鱼中的直系同源基因关系.考虑到直系同源外显子的复杂性,只有在Ensembl 数据库中标注为one-to-one 类型的直系同源基因才被用于下一步的分析.对于来自于NCBI数据库的基因序列,其直系同源关系通过NCBI的homolog数据库进行建立.在获取了一个相对完整的癌症相关基因的直系同源基因列表后,通过在直系同源基因间的外显子区域进行双向blastn[15]来建立直系同源外显子区域.直系同源外显子区域之间首先必须满足互为其比对结果的最佳匹配,其次比对的E-value值必须小于1×10-5[16].对于没有比对上的外显子区域,我们通过blastn对其在直系同源基因的内含子区域进行搜索.通过这种方式有可能找到一些之前未被注释的外显子以及一些失去功能的外显子.同样,E-value值小于1×10-5作为有意义的结果的阈值.
1.2.4 进化选择压
直系同源外显子区域的构建为外显子水平的进化选择压的计算建立了基础.为了保证外显子区域具有正确的开放阅读框,我们通过选择该外显子区域中的最长的真实外显子序列做为该区域的代表.根据建立好的直系同源外显子区域的对应关系,将这些真实的外显子翻译成的氨基酸序列先通过Muscle[17]进行对位排列(alignment),再通过EMBOSS transalign[18]利用排列好的氨基酸序列指导外显子核酸序列进行对位排列,这样有效避免了读码框的偏移.然后我们利用PAML中的yn00 算法对排列好的外显子核酸序列进行Ka/Ks计算[19].Ka/Ks值是进化选择压的一个特征值,在多数情况下较低的Ka/Ks值(例如<1)代表该区域处于一个纯化选择的状态,而较高的Ka/Ks值(例如>1)则表示该区域的外显子序列处于一个较高的进化选择压力中[20].PAML的yn00共有5种模型来计算Ka/Ks值,根据算法时间与名称分别称之为NG86、LWL85、LWL85m、LPB93和yn00.5种模型计算的值通过整理存入数据库中,提供网页展示.
1.2.5 表达量水平
为了研究每个癌症相关基因在不同物种不同组织间的表达模式,RNA-Seq高通量数据被用于进行表达量的分析.NCBI的SRA数据库中丰富的高通量数据资源为表达量计算提供了基础,但SRA中大量的RNA-Seq序列也为筛选数据带来一定困难.为了避免参差不齐的数据对数据分析的影响,我们设定了筛选标准:1) 读长大于50bp;2) pair-end数据作为首选;3) 必须是组织样本.我们从NCBI的SRA数据库中下载了人、黑猩猩、小鼠、大鼠、鸭嘴兽和斑马鱼6个物种的多种正常组织(平均每个物种8个正常组织)的RNA-seq数据.
同一物种的不同组织的RNA-Seq的原始数据选自于SRA数据库中的同一个研究项目,即为分析提供了较为一致的实验条件,同时也为不同组织之间的表达水平比较提供了基础.使用TopHat[21]软件将RNA-Seq的读长定位到各个物种的基因组上,参数采用默认设置,软件使用到的各个物种的基因组数据和基因注释文件来则自于Enseml 68版本.由于RNA-Seq实验中的PCR扩增会对后续基因表达量的计算带来偏差,因此在计算表达量之前首先进行PCR扩增数据的清除步骤.通过Samtools rmdup[22]功能去除pair-end RNA-Seq数据的PCR扩增产生的读长,其原理是将定位于基因组上的相同位置的多对读长只保留其中一对从而达到去除PCR扩增影响的效果.基因和转录本的表达量通过Cufflinks[23]软件进行计算,参数使用默认设置,Cufflinks通过基因组注释分别统计出基因和转录本的表达量.由于本次研究更多的关注外显子水平,所以我们同时进行了外显子区域的表达量计算.基于Tophat分析结果中的读长定位信息以及外显子区域的坐标,利用Perl自编脚本对外显子区域的表达量进行分析.对于定位到多处的读长,根据Cufflinks软件的处理方式将这些读长平均分配到定位到的所有位置,根据以上规则计算出外显子区域的表达量.最终我们从基因、转录本、外显子区域3个水平统计了癌症相关基因的表达量.
由于RNA-Seq进行的是cDNA的测序,在cDNA片段定位到基因组的过程中,如果该片段处于跨越两个外显子的位置,那么就需要将该片段断开以保证其能跨越内含子后定位到基因组上.TopHat在进行读长定位时会同时尝试去发现这样断开的读长并确定其剪接位点.剪接位点的信息对于我们了解癌症相关基因的基因表达模式具有重要的意义.通过TopHat获得的剪接位点结合Ensembl的基因注释信息,我们将剪接位点分为已知的“known”和未被注释过的新的“novel”剪接位点.跨域剪接位点的读长作为该位点的支持证据用于评价该位点的可信度.这里值得注意的是,由于基因组上存在重复序列等的影响,可能存在可以定位到多处的读长,因此对于位于这些位置的新的剪接位点需要更加注意其可靠性,建议新的剪接位点需要10个读长以上的支持方可用于实验验证.
SRA数据库中使用Illumina平台进行RNA-Seq测序的人类癌症组织数据用于本研究的癌症转录组的分析.目前ASeeDB覆盖了肺癌和前列腺癌的相关数据(表1).
表1 癌症样本信息
我们从SRA数据库中挑选了来自“Lung Cancer Sequencing Project”的高质量的肺癌转录组数据(ERP001058),前列腺癌数据来自SRA中“Complete transcriptomic landscape of prostate cancer in Chinese population using RNA-seq”(ERP000550).和计算正常组织表达量类似,TopHat软件用于读长在基因组上的定位,参数默认.实验中的PCR 扩增影响通过Samtools的rmdup 功能进行去除.Cuffdif 用于计算不同基因和转录的表达量,参数默认;而外显子的表达量通过自编Perl脚本根据TopHat的读长定位信息和基因注释文件进行计算.对于定位到多处的读长,我们将其平均分配到可能定位的位置.使用Fisher精确检验进行癌症样本与正常对照样本间表达量差异的统计检验,Benjamini-Hochberg修正用于表达量差异计算的假阳性控制.
2.1 数据库搜索界面
数据库提供了简单方便的搜索功能(图3),用户可以选择基因名字,例如“ABTB1”,Ensembl ID 或者NCBI Unigene ID作为搜索的关键词,并且数据库支持模糊查询.同时用户也可以限制所要检索的特定物种以获得更为简洁的结果.
2.2 数据库搜索结果页面
ASeeDB为用户提供了详尽简洁直观的搜寻结果页面.图4和图5展示了一个ASeeDB数据库“ZFYVE9”基因的搜索结果的页面.图4(a)显示的是搜索基因的基本信息,包括基因的基因名、基因ID、在基因组上的位置和转录本信息,通过点击其他物种的名字可以方便的获得该基因的直系同源基因情况,该基因的转录本ID和蛋白质ID指向相应的核酸和蛋白质序列;图4(b)展示的是该基因的外显子区域的信息,包括外显子区域的对位排列和外显子注释信息,其中绿色的方块代表每个物种直系同源基因的外显子区域,灰色的方块表示该基因的内含子与其直系同源基因的外显子区域比对有高度相似(E<1×10-3)的序列.外显子区域的对位排列使得用户可以直观地观察到外显子的保守情况,比如图上列出的人ZFYVE9基因的3~19外显子区域在进化过程中相对保守,通常情况下相对保守的外显子更可能具有重要的功能.点击外显子区域的数字可以展示该基因的转录本信息以及外显子区域的构建信息等.如果对该基因的某个外显子区域的对位排列的结果感兴趣可以使用该区域的blast功能进行进一步证实,选择好感兴趣的外显子区域号和物种,点击check就可以自动把序列递交到NCBI进行检索.图4(c)展示了外显子区域的注释信息,包括外显子分类、ESE、重复序列、外显子区域的结构域预测和外显子区域的Ka/Ks情况,通过这一部分可以直观地了解检索基因中比较重要的外显子,特别在癌症研究中,如果这些外显子发生突变更可能导致蛋白功能的严重缺失.图4(c)右侧的柱状图是对外显子区域的可视化展示,横坐标为外显子区域的标号,纵坐标为每100bp ESE预测的个数.红色柱子表示该区域的外显子为选择性剪接外显子,而绿色的柱子则代表组成型外显子,同样地,柱状图的高低可以直观地展示哪些外显子区域更可能会被剪接.Ka/Ks部分则提供了Ka/Ks>1 的外显子区域信息,可以帮助用户快速地定位到相应的外显子区域,这部分外显子区域可能处于一个比较强的进化选择压下,通过点击该表下方链接可以得到由5种模型计算所得到的全部外显子区域的Ka/Ks结果.
图5(见第656页)展示的是检索到的癌症相关基因的正常组织和癌症组织的表达信息.表达量信息的第一部分给出了EBI芯片数据链接,剪接位点的情况,癌症表达量数据链接和表达量数据来源.通过点击EBI芯片数据链接可以方便地链接到该基因在EBI Atlas中的芯片表达信息,以与下面的高通量数据做比较.剪接位点的链接连接到详细的剪接位点信息页面,而癌症链接提供了癌症和对照组的详细表达量信息.数据来源表格提供了该物种每个组织的RNA-Seq的数据,通过SRA accession可以进入SRA数据库查看原始RNA-Seq数据情况.基因在各个组织中的表达量通过柱状图表示,横坐标为各个组织,纵坐标为基因的表达量,通过FPKM来代表.用户可以根据检索基因在不同组织的中表达情况,在癌症研究中选择合适的组织样本,并可以通过相应的直系同源基因的表达情况选择合适的动物模型等.基因转录本的表达量通过折线图来展示;同样地,横坐标为组织,纵坐标为FPKM.由于有些基因的转录本较多,在图上很难清楚地观察某个转录本在各个组织中的变化趋势,这时可以通过点击折线图的图例来增减图中所展示的转录本的数据.这部分信息可以帮助用户在研究基因表达量的时候选择合适的转录本,比如进行qPCR实验时选择高表达量的转录本作为设计引物的标准.不同组织的外显子区域的表达量同样采用折线图进行展示,横坐标为外显子区域的标号,纵坐标为FPKM,不同组织通过不同线段的颜色来代表,点击折线图图例可以对展示的组织数据进行删减.
癌症组织表达数据页面提供了配对的对照和患病3组数据,分别对对照和患病组表达量进行了基因、转录本、外显子区域的计算,通过柱状图进行展示可以方便地观察对照和患病在这三个层次上的差异,且提供了详细的统计检验值,方便用户筛选到显著差异的基因.
2.3 数据库总结
通过ASeeDB数据库,我们利用比较基因组学的分析方法结合高通量RNA-seq测序数据,系统地总结了癌症相关基因的选择性剪接外显子的功能和进化关系.数据库基本数据见表2.
表2 数据库基本信息统计
ASeeDB包含癌症相关基因外显子区域的进化保守性、Ka/Ks值以及基因、转录本、外显子区域的表达量统计等信息,结合这些信息用户可以方便地找到一些有研究价值的基因或者外显子.外显子区域蛋白质结构域预测可以指出其可能的功能,而外显子是否存在选择性剪接的信息又可以用来推断包含它的转录本是否具有相似的功能,以及剪接是否会对蛋白质功能产生影响.数据库提供的物种间的序列比对可以帮助用户发现没有注释的外显子区域或者是保留的失去功能的外显子.相比于基因层面的Ka/Ks,数据库提供的外显子层面的Ka/Ks,对于发现适应性进化事件具有更高的敏感性,可以更方便地来探索基因中未知功能的区域[24].
ASeeDB 是一个基于选择性剪接分析工具通过比较基因组学方法对癌症相关基因研究的数据库.传统的选择性剪接数据库通常包含各个物种所有基因的选择性剪接数据.但是在癌症研究中,很多正常基因的不正常的剪接形式或者剪接调控通常是由于肿瘤发生过程中的结果而不是原因,这会对不同癌症的研究带来更大的复杂性.而很多癌症相关基因的不正确的剪接已经被证实与癌症的发生和发展相关,因此ASeeDB主要关注癌症相关基因的选择性剪接事件.
Ensembl和NCBI作为主要的生物学数据库具有多样的基因数据资源,但也有各自的不足.例如,Ensembl只包含有位于primary assembly参考基因组上的基因,而NCBI的homology 数据库没有Ensembl的直系同源数据库清楚明了.因此Ensembl和NCBI通过整合来保证ASeeDB数据的准确和完整.NCBI的SRA数据库提供了丰富的二代测序数据.但是由于二代测序数据的多样性,包括读段长度、平台以及测序深度的不同会对后续的生物信息分析带来各种各样的偏向性.为了尽量避免这种情况的发生,我们制定了同一的筛选标准:必须是Illumina平台且读长必须超过50bp.通过筛选,6个物种共49个正常组织的RNA-seq数据(平均每个物种8个组织),以及2种癌症(6个SRA RNA-Seq数据)被用于ASeeDB数据库表达量部分的分析.ASeeDB可以方便地查询癌症相关基因的进化保守性,进化选择压和表达量等信息,除了一些基本的统计信息,数据库其他方面也可以应用于特定基因的分析.通过对数据库中的信息进行数据挖掘,我们成功地发现了一些基因的外显子发生了具有一定生物学意义的选择性剪接,例如PPAR-gamma的4个选择性剪接外显子承受着不同的进化选择压力,其中Ka/Ks>1的一个外显子可能与啮齿类的脂肪储存相关.表3列出了我们通过数据挖掘发现的Ka/Ks>1的一些外显子信息.
表3 ASeeDB 数据库中提示的可能带有特殊功能的选择性剪接基因/外显子
[1] CHOW L T, GELINAS R E, BROKER T R,etal. An amazing sequence arrangement at the 5′ ends of adenovirus 2 messenger RNA [J].Cell,1977,12(1):1-8.
[2] BERGET S M, MOORE C, SHARP P A. Spliced segments at the 5′ terminus of adenovirus 2 late mrna [J].ProcNatlAcadSciUSA,1977,74(8):3171-3175.
[3] CARSTENS R P, WAGNER E J, GARCIA-BLANCO M A. An intronic splicing silencer causes skipping of the iiib exon of fibroblast growth factor receptor 2 through involvement of polypyrimidine tract binding protein [J].MolecularandCellularBiology,2000,20(19):7388-7400.
[4] POZZOLI U, SIRONI M. Silencers regulate both constitutive and alternative splicing events in mammals [J].CellularandMolecularLifeSciences,2005,62(14):1579-1604.
[5] WOOLARD J, WANG W Y, BEVAN H S,etal. VEGF165b, an inhibitory vascular endothelial growth factor splice variant:mechanism of action,invivoeffect on angiogenesis and endogenous protein expression [J].CancerResearch,2004,64(21):7822-7835.
[6] SCHAAL T D, MANIATIS T. Multiple distinct splicing enhancers in the protein-coding sequences of a constitutively spliced pre-mrna [J].MolecularandCellularBiology,1999,19(1):261-273.
[7] LANGE T, GUTTMANN-RAVIV N, BARUCH L,etal. VEGF162, a new heparin-binding vascular endothelial growth factor splice form that is expressed in transformed human cells [J].TheJournalofBiologicalChemistry,2003,278(19):17164-17169.
[8] TAZI J, BAKKOUR N, STAMM S. Alternative splicing and disease [J].BiochimicaetBiophysicaActa,2009,1792(1):14-26.
[9] BIANCHI V, COLANTONI A, CALDERONE A,etal. DBATE:Database of alternative transcripts expression [J].Database:theJournalofBiologicalDatabasesandCuration,2013(6):1843-1852.
[10] FLICEK P, AMODE M R, BARRELL D,etal. Ensembl 2012 [J].NucleicAcidsResearch,2012,40(Database issue):84-90.
[11] CARTEGNI L, WANG J, ZHU Z,etal. ESEfinder:A web resource to identify exonic splicing enhancers [J].NucleicAcidsResearch,2003,31(13):3568-3571.
[12] TARAILO-GRAOVAC M, CHEN N S. Using repeatmasker to identify repetitive elements in genomic sequences [D/OL]. Curr Protoc Bioinformatics,2009.doi:10.1002/0471250953.bi0410s25.
[13] ZDOBNOV E M, APWEILER R. Interproscan—an integration platform for the signature-recognition methods in interpro [J].Bioinformatics,2001,17(9):847-848.
[14] MCMANUS C J, GRAVELEY B R. RNA structure and the mechanisms of alternative splicing [J].CurrentOpinioninGenetics&Development,2011,21(4):373-379.
[15] ALTSCHUL S F, MADDEN T L, SCHAFFER A A,etal. Gapped BLAST and PSI-BLAST:a new generation of protein database search programs [J].NucleicAcidsResearch,1997,25(17):3389-3402.
[16] FU C L, LIN W C. Identification of gene-oriented exon orthology between human and mouse [J].BMCGenomics,2012,13(1):1-10.
[17] EDGAR R C. MUSCLE:Multiple sequence alignment with high accuracy and high throughput [J].NucleicAcidsResearch,2004,32(5):1792-1797.
[18] RICE P, LONGDEN I, BLEASBY A. EMBOSS:the European Molecular Biology Open Software Suite [J].TrendsinGenetics,2000,16(6):276-277.
[19] YANG Z. PAML:A program package for phylogenetic analysis by maximum likelihood [J].ComputerApplicationsintheBiosciences,1997,13(5):555-556.
[20] YANG Z, BIELAWSKI J P. Statistical methods for detecting molecular adaptation [J].TrendsinEcology&Evolution,2000,15(12):496-503.
[21] TRAPNELL C, PACHTER L, SALZBERG S L. Tophat:Discovering splice junctions with RNA-Seq [J].Bioinformatics,2009,25(9):1105-1111.
[22] LI H, HANDSAKER B, WYSOKER A,etal. The Sequence Alignment/Map format and samtools [J].Bioinformatics,2009,25(16):2078-2079.
[23] TRAPNELL C, ROBERTS A, GOFF L,etal. Differential gene and transcript expression analysis of RNA-seq experiments with tophat and Cufflinks [J].NatureProtocols,2012,7(3):562-578.
[24] CLARK A G, GLANOWSKI S, NIELSEN R,etal. Inferring nonneutral evolution from human-chimp-mouse orthologous gene trios [J].Science,2003,302(5652):1960-1963.
[25] CHAO C C, CHANG P Y, LU H H. Human Gas7 isoforms homologous to mouse transcripts differentially induce neurite outgrowth [J].JournalofNeuroscienceResearch,2005,81(2):153-162.
[26] ARLT A, SCHAFER H. Role of the immediate early response 3 (IER3) gene in cellular stress response, inflammation and tumorigenesis [J].EuropeanJournalofCellBiology,2011,90(6/7):545-552.
[27] ALBERTI L, BACHELOT T, DUC A,etal. A spliced isoform of interleukin 6 mrna produced by renal cell carcinoma encodes for an interleukin 6 inhibitor [J].CancerResearch,2005,65(1):2-5.
[28] MICHELS J, JOHNSON P W, PACKHAM G. Mcl-1 [J].TheInternationalJournalofBiochemistry&CellBiology,2005,37(2):267-271.
ASeeDB:A Comparative Genomic Database for Alternative Splicing Exon Evolution
XU Minjie1,2,*, DOU Tonghai1,*, XU Jiaxi1, JIANG Jianping1,2, LIU Cong1, FU Maobin1,GAO Yuan1, CHEN Chengwen2, ZHANG Liang2, ZHOU Yan1,2
(1. State Key Laboratory of Genetic Engineering, Department of Microbiology and Microbial Engineering,SchoolofLifeSciences,FudanUniversity,Shanghai200438,China; 2.Shanghai-MOSTKeyLaboratoryofHealthandDiseaseGenomics,ChineseNationalHumanGenomeCenteratShanghai,Shanghai201203,China)
Alternative splicing(AS) is an essential eukaryotic gene regulatory mechanism associated with various types of physiological and pathological activities. The incorrect or mis-regulated alternative splicing of cancer genes has been associated with the development of multiple sorts of cancers. Moreover, as the basic element of AS evolution, AS exons show various evolutionary features across species and multiple studies have been made to elucidate these characteristics. In this research, we combine Illumina RNA sequencing data with comparative genomic tools to establish a cancer gene database called Alternative Splicing Exon Evolution Database of Cancer Genes(ASeeDB). We have systematically summarized the common features for 2 989 cancer genes AS exon evolution by combining comparative genomic analysis. General features including evolutionary conservation, domain prediction,Ka/Ksvalue and expression level have been outlined, together with some promising genes/exons for future research. Domain prediction of exons can point out putative function and critical region of cancer genes; Cross species sequence alignments are able to find unannotated exons and dysfunctional remains of exons. In addition, Protein domain predictions point out known putative functional regions in genes. Comparing to averaged gene-levelKa/Ksvalues, Exon-levelKa/Ksvalues are more informative in terms of finding adaptive evolution events, which suggest unknown functional regions in genes.
alternative splicing; evolution; database; exon
0427-7104(2016)05-0649-11
2015-12-22
国家科技基础专项课题(2009FY120100),国家高技术研究发展计划(2012AA020409);国家自然科学基金(31071158)
徐敏杰(1987—),男,硕士研究生;*并列第一作者;周 雁,男,副教授,通讯联系人,E-mail: zhouy@fudan.edu.cn.
TP 311.135.1
A