刘 旭,常 德*,王俊锋
(1.中国人民解放军总医院 第三医学中心,北京 100069; 2.中国人民解放军总医院 第二医学中心,北京 100853)
为揭示各种生命活动和遗传现象,人类在上世纪90年代启动了人类基因组计划。随着人类基因组测序计划的顺利完成,生命科学研究重心转向了研究基因功能,以及解析基因在不同表型中的作用机制。基因组测序只是人类基因组计划中的第一个步骤,更艰巨的任务是明确基因的功能和破译非编码区的意义,也就是DNA序列如何决定和影响生物学性状。在结构基因组学的研究成就和高通量的分析技术得到发展的背景下,功能基因组学作为一门新学科应运而生[1-2]。其研究目的是分析全部基因的功能,包括结构编码基因、小分子RNA、非编码RNA和代谢产物等, 解释它们是如何相互调控和影响生物学表型,从而控制生命现象。功能基因的筛选和鉴定是研究基因如何调控生物过程发生和变化的基础,这项工作的顺利完成很大程度上依赖新技术、新方法的发展和应用。为分离出某种表型或生命过程的功能基因,一方面可以从性状入手研究基因,即基于正向遗传学的筛选方法[3];也可从基因入手反向研究相关性状,即基于反向遗传学的筛选方法[4],本文将对功能基因筛选策略及其优缺点进行综述(表1)。
基于正向遗传学的筛选策略是指以个体或细胞的特定表型为切入点,寻找表型相对应的基因,并揭示基因的功能[3]。该策略的完成需要具备特异性的生物学表型,然后通过分子生物学或遗传学方法获得候选基因,最后对候选基因进行评价和功能验证。具体包括传统的遗传学分析、基于DNA测序的基因突变分析、基因表达谱分析和全基因组关联研究、高通量基因测序、表达谱分析(基因表达谱、蛋白表达谱、microRNA表达谱和代谢组等)和生物信息学技术等。
功能基因在基因组上的基因座一般都相对较稳定,通过构建精细遗传图谱和分子连锁图,先将突变基因首先确定在某条染色体的某个区段,然后利用各种分子标记来把定位区间逐渐缩小一个范围。下一步采用计算机和分子遗传学方法, 分离定位区内可能相关的基因,并逐个检测和对比家系中患者与正常者的这些基因,确定相应生物学性状的候选基因[4]。利用该方法中国科学家收集短指家系中短指患者及健康人标本,用连锁分析方法进行全基因组扫描,首次定位并克隆了家族性A-1型短指(趾)症基因IHH[5];然而该方法对研究对象要求较高、工作繁重,耗费大量人力、物力和财力。
全基因组关联研究(genome-wide association studies,GWAS)是筛选大规模群体样本基因组中的序列变异,包括单核苷酸变异(单核苷酸多态性single-nucleotide polymorphisms, SNPs)和 拷 贝 数 变 异 (copy number variation, CNV)等,寻找与某种表型具有相关性的基因,是筛选复杂疾病易感基因的方法之一[6]。利用该技术发现了冠心病易感基因ADTRP和MIA3/TANGO1[7]、肥胖症相关的基因FTO[8]以及2型糖尿病[9]的相关易感基因PTPN22、CTLA-4、IL2-RA和INS[9]。GWAS为复杂性状研究提供了线索,找到了很多未曾发现的基因和染色体区域,并且不需预先假设相关基因。但是,GWAS研究中的样本混杂,易出现假阴性和假阳性结果。尽管非编码区基因可以调控编码基因,从而影响表型,但是GWAS发现的关联SNPs常在基因间区或内含子上, 很少位于外显子区或者UTR区。大量研究结果提示稀有变异导致了许多复杂表型,而芯片检测位点大多是发现常见变异,较少检测到稀有变异。同时数据共享、数据解读和后续基因功能验证都是需要克服的问题。
表1 常用的基因筛选方法特点Table 1 Features of commonly used genetic screening strategies
表达谱包括基因表达谱、蛋白表达谱、microRNA表达谱和代谢产物谱等。通过比较具有不同生物学表型样本间的基因、蛋白质或者microRNA的差异,筛选出表型相关分子是目前用于鉴定功能基因较多的一种方法[10-11]。DNA微阵列是较早运用于筛选功能基因的一种技术,随后出现了转录组测序技术[10],该技术不需提前设计芯片,就可对样本的转录组进行检测。同理,蛋白组表达谱和microRNA表达谱可对比样本间蛋白质和microRNA的表达差异,筛选出某种生物学表型相关的蛋白质或者microRNA分子[10-11]。然而,差异表达谱技术最大的缺陷在于基因、蛋白、microRNA分子和代谢产物的时空表达差异性。生命活动是一种动态过程,若仅比较两种或几种静止的状态,无法再现生物学过程,筛选到的性状相关分子同表型之间无因果关系,后续需要大量的验证工作。另外,这些技术产生的数据量巨大,如何从中挖掘出有意义的信息也是后续分析中的核心问题。
利用高通量基因组测序方法,分析野生型和突变型之间基因组的差异,可找到控制表型的DNA序列。目前应用较多的是基因组外显子测序,该技术捕捉外显子DNA区域,富集后进行高通量测序,从而获得表型相关基因,已有一大批功能基因被鉴定出。然而该技术主要针对结构变异区,忽略了非编码区变异,并且在捕捉外显子DNA时存在捕获不均和偏差等问题。全基因组测序技术可以对全基因组范围内的插入缺失(insertion-deletion, Indel)、拷贝数变异(copy number variation, CNV)、结构变异(structure variations, SV)和单碱基变异(single nucleotide variants, SNV)进行检测,分析较为全面,但是该技术主要问题是成本较昂贵以及如何从海量数据中发掘有意义的信息。
随着计算机和网络技术的发展,以及基因组、转录组、蛋白质组和代谢组等不同大规模组学的数据的整合,生物信息学在综合现有资料、预测和选择基因序列、克隆并获得候选功能基因、开展基因功能筛选研究中扮演着重要角色。该研究策略不限定某种技术或信息,将不同的数据整合到一个大的体系中,从整体角度进行候选功能基因的选择,筛选的范围广,常用于新基因的功能探索研究。不过该领域依赖于网络和计算机科学技术的发展,受限于生物大数据的共享程度,更重要的是如何去伪存真,从海量医学文献和数据中挖掘重要的候选基因[12]。
基于反向遗传学的筛选策略是在基因组全部DNA序列信息的基础上,对基因进行加工和修饰,包括点突变、基因插入、基因剔除或基因置换等,人工使得被修饰的生物体具备某些生物学特性,从中挑选该兴趣的表型并鉴定相关基因,研究功能基因的结构与功能[4]。目前,利用该技术筛选功能基因的方法众多,主要包括cDNA文库技术、RNAi文库技术、反义RNA技术、CRISPR/Cas9筛选技术和插入突变技术等。
cDNA文库是指机体编码成蛋白质的基因的集合,通过mRNA的反转录产生的,利用PCR、酶切、连接、转化等DNA克隆技术生成cDNA文库。将构建cDNA表达文库导入特定的细胞,人工诱导突变细胞库,通过特定表型筛选技术获得感兴趣的表型[13],并反向定位所导入的cDNA克隆,从而鉴定出表型相关基因,同时可直接研究目的基因;但是cDNA文库筛选功能基因时,需要提前知道基因序列,且只能过表达突变细胞文库中的目的基因。
RNAi是生物界广泛存在的一种现象,在双链RNA激活下,高效特异性降解同源mRNA。该技术可特异性抑制或关闭特定基因表达,在功能基因组学、基因治疗和基因转录调控研究等领域应用广泛[14]。RNAi筛选策略的早期应用开始于线虫和果蝇等生物,筛选细胞凋亡、细胞形态和代谢相关的功能基因,随后逐渐应用至筛选哺乳动物生命过程相关功能基因,包括生长发育、感染发生、肿瘤耐药和转移基因。然而,筛选效果同RNA文库的质量、形式以及RNAi抑制效率等相关[15]。存在的主要问题包括:第一,基因覆盖面窄,因为现有大部分RNAi文库必须提前知道靶基因的序列,需要构建RNAi随机文库来弥补;第二,为保证较好的干扰效果,每个基因需合成多条寡核苷酸或构建多个载体,导致大大增加了工作量和成本;第三,只能抑制或关闭基因的表达,不能过表达基因,而某些突变表型是通过基因过表达获得,因此,需要配合cDNA文库技术使用[20]。
CRISPR-Cas9技术可进行基因编辑,主要是通过一段与目标DNA相同的向导RNA序列来定位靶向基因,指导Cas9酶进行基因的修饰,从而突变基因。CRISPR/Cas9技术能高效、准确、简便的修饰基因,已广泛应用于生物医学领域,逐渐取代RNAi和cDNA文库技术用于筛选和鉴定功能基因,是一种较为理想的功能筛序方法[16]。然而,由于CRISPR-Cas9系统通过20个碱基的向导RNA定位靶标,有可能错配导致脱靶,是目前限制其应用的一个重要缺陷[17]。
模式生物是指在科学试验中广泛应用的、具有标准属性的试验生物。这些生物的结构简单、细胞数量少,分布简单,表型容易观察[18]。目前常用的模式生物有果蝇、线虫、拟南芥和酵母等[19],该类生物的基因组小,编码基因的比例高,主要是管家基因,很少有基因组中的重复序列和非编码序列,是压缩了的基因组,适合编码区基因的研究。
插入突变是利用已知的外源DNA插入序列破坏基因的结构而导致突变,可以直接验证个别基因与所筛选性状之间的关系,该方法不需提前知道基因表达和基因产物,可对未知基因进行研究,是一种理想的功能基因组学研究方法[20]。目前,利用插入突变进行功能基因组学研究应用较多的工具是转座子,包括DNA-DNA方式转座的转座子和反转录转座子。前者可通过DNA复制或直接切除两种方式获得移动片段,并将移动片段插入基因组;后者在结构和复制上类似反转录病毒,先通过转录合成mRNA,再经过反转录合成新DNA序列整合到基因组中。由于转座子可在基因组中跳跃,利用转座子作为工具,对基因组中的基因进行插入突变,并根据转座子位置可锁定插入位点,得到功能获得性或丢失性突变,选择合适的表型筛选方法分离突变克隆,最后克隆功能基因[21]。
本团队整合了转座子插入突变技术、反义RNA技术和真核基因表达调控技术的功能基因组学技术,建立了随机基因突变调控技术。该技术基于能在真核细胞中高效整合的piggyBac转座子而构建的基因搜寻载体随机插入基因组,通过插入的基因搜寻载体上的四环素反应元件(TRE)受到转录激活因子的激活,产生反义RNA可以下调基因表达,而且该种基因表达的调控受强力霉素调控。因此,该技术产生全基因组纯合基因突变;提供全基因组基因筛选和基因功能分析;同时发现并证实其基因突变和功能表达的关系;系统性基因功能定位和分析其在遗传和生化通路中的功能特点;快速分离与疾病有关基因和变阻器式基因表达调控。
此外,在插入突变中应用较多的转座子包括反转录病毒、Sleeping Beauty、PiggyBac、Tol1/2、Hsmar1和Mions等。1993年以线虫为研究对象,证明可利用转座子在基因组中获得插入突变[22];随后采用反转录病毒作为基因搜寻载体并结合相应的表型可筛选出新的肿瘤抑制基因tsg101;1997年首次在哺乳动物细胞中使用外源性SB转座子突变基因[22];2004年报道了一种能在全基因组范围内整合的转座子PiggyBac[23]。PiggyBac是一种从昆虫中分离出来的可移动的DNA元件,通过“剪切和粘贴”机制在载体和染色体之间进行有效的转位,整合位置多见于内含子区域,插入效率高,在原核和真核生物中均可进行有效转座。2005年证明在哺乳动物细胞中PiggyBac转座子系统能高效且稳定的整合;很多实验已证实PiggyBac转座系统携带的外源基因片段的能力强,最高可携带14.3 kb片段且不会影响转座效率;近70%插入位点位于转录单位附近;插入效率高;能在人体细胞的23条染色体上转座,插入位点可覆盖整个基因组[22-25]。因此,插入突变筛选功能基因的策略依赖于所使用的插入突变工具,一方面要有较高的整合效率,另一方面要在基因组上覆盖范围广[26-27]。
综上所述,功能基因(既包括编码基因,又包括非编码基因)的筛选研究对于揭示生物的生长、发育、代谢等生命活动规律,以及人类重大疾病的发生机制、预防、诊断、治疗和药物研发等方面具有重要意义。人类全基因组核苷酸测序的完成只是解密人类遗传密码的基础,如果不能赋予一个基因功能,徒有核苷酸的排列序列是毫无价值和意义的,更重要的是认识这些DNA是如何实现其功能的。虽然可以凭借核苷酸序列推测基因的功能,但是后期需要大量的实验验证。因此,通过特定的方法进行功能筛选,获得同表型具有因果关系的基因,在后基因组时代解析基因功能以及开展相关应用中意义重大。本文中基于传统遗传学、全基因组关联分析、表达谱差异、基因组测序、生物信息学、cDNA文库、RNA干扰、CRISPR/Cas9技术、插入突变、模式生物等技术的筛选策略,根据是从表型到基因的筛选,还是从基因到表型的筛选,大致分为基于正向遗传学和基于反向遗传学的筛选技术并进行了综述;然而,这些技术并不是孤立的,常可以联合应用,优势互补,最终的目的是快速、系统地评价基因功能,发现功能基因的潜在价值,服务于人类健康。