赵若含 赵净颖 柏毅承 张瑞芳 贾俊静 豆腾飞
(云南农业大学动物科学技术学院,昆明 650201)
真核生物的核DNA 并不是裸露的,而是与组蛋白结合形成核小体,核小体再经逐步的压缩折叠最终形成染色体高级结构[1]。DNA 的复制转录需要将DNA 紧密结构打开,再与转录因子或调控因子结合,打开的染色质就叫开放染色质。开放染色质允许其他调控因子结合的特性称为染色质的可及性[2-3]。2013 年,Buenrostro 等[4]提出一种用于研究染色质可及性的方法,该方法利用高度活跃的Tn5 转座酶与开放染色质结合,对目标DNA 进行片段化处理和末端修复,并添加测序接头。随后对DNA 进行测序,这种方法被称为染色质转座酶可及性测序(assay for transposase‑accessible chromatin with high‑throughput sequencing, ATAC‑seq)[5]。但是,ATAC‑seq 无法区分样品中亚群的染色质可及性或亚群之间染色质可及性的差异。在此基础上,2015 年Cusanovich 等[6]发表了关于单细胞的染色质转座酶可及性的高通量测序(scATAC‑seq),该技术使用Tn5 转座酶检测单个细胞中的全部开放区域,将开放的DNA 序列切割下来,再捕获DNA 序列进行测序,在单细胞层面提供全面的染色质调控图谱。
scATAC‑seq 能在基因组水平上协助了解细胞的转录调控过程,揭示不同基因组调控元件和转录因子结合位点,从表观遗传学的角度来解析基因信息[7]。其中包括开放染色质基因附近的启动子、增强子以及离启动子较远的调控元件如沉默子和绝缘子相关的开放区域。这些开放的染色质元件在基因转录调控中扮演着至关重要的角色[8]。尤其真核生物中的细胞类型特异性基因表达受数百万个顺式作用元件和数千个反式作用因子(如转录因子)的调节[9]。scATAC‑seq 技术可以解释顺式作用元件和反式作用因子之间的网络,同时还可了解到基因活性和对遗传变异的可及性。因此,通过研究单细胞染色质可及性信息的技术,了解其原理和应用,明确这些技术在识别转录因子结合位点、鉴定基因组调控元件以及研究转录调控机制等方面的重要意义。本文综述了scATAC‑seq 技术的发展历程、7 种技术的优缺点、数据分析和应用,以期为表观遗传学研究提供参考。
scATAC‑seq 技术是基于单细胞和ATAC‑seq 技术发展起来的,可在单细胞水平上高通量、高分辨率地检测异质性细胞群的染色质可及性。该技术通过在Tn5 转座酶结合的接头序列中添加可区分细胞来源的细胞身份标记序列,实现对捕获DNA 片段的细胞来源的标记,从而实现高通量的单细胞染色质可及性测序。scATAC‑seq 技术为研究单个细胞内的基因表达调控机制提供了新的见解[10]。其中包括多种技术,如组合细胞索引(sci‑ATAC)、微流控技术(Fluidigm C1)、超敏位点测序(scTHS)、物理方法(uATAC)、平板技术(Plate)、液滴-微流控技术(dsci‑ATAC)和10X 技术[11]。7 种技术的具体信息见表1。10X Genomics 技术与其他技术相比表现出更为简便和高效的优势,迅速被广泛采用并成为scATAC‑seq 领域的前沿技术。以下将对scATAC‑seq技术的发展历程、作用机理以及研究进展进行描述。
表1 七种scATAC-seq 技术介绍Table 1 Introduction to seven scATAC-seq technologies
2015 年,Cusanovich 等[6]提出了单细胞组合索引分析染色质可及性(single cell combinatorial indexing assay for transposase accessible chromatin, sci‑ATAC‑seq)方法,该方法利用组合索引将细胞核进行分子条形码标记,无需特殊处理。该技术的流程包括裂解细胞并将细胞核分配到96 孔板中,添加经过定制的、唯一索引的Tn5 转座酶进行标记,将细胞核稀释并重新分配到第二个96 孔板中,引入第二个条形码,最后进行聚合酶链反应(polymerase chain reaction, PCR)和测序(图1‑A)。该方法简单易行,适用于大多数实验室,但测序覆盖范围相对较低,数据质量有待提高。
2018 年,Cusanovich 等[12]在前期方法的基础上进行了改进,大幅增加了每个细胞获得的数据量。他们利用这一方法绘制了果蝇胚胎发育过程中染色质调控状态的动态变化,并鉴定了超过3 万个具有组织特异性的远端调控元件。此外,他们使用相同的方法从13 只成年小鼠的17 个样本中收集了10 万个细胞进行scATAC‑seq,获得了40 万个染色质可及性元件的信息,并成功区分了85 个细胞亚群,准确识别了多种组织的大部分细胞类型。这项研究为相关组织的研究提供了重要的参考和借鉴[18]。
2015 年,Buenrostro 等[13]提出了一种利用物理方法进行细胞分离和scATAC‑seq 的技术。该技术基于纳米级反应槽,在可编程微流体系统(C1 single‑cell auto prep system, Fluidigm C1)中捕获和评估单个细胞的活力,然后在集成的微流控芯片(integrated fluidics circuit, IFC)上进行细胞裂解和转座,进而获得细胞核中的DNA 片段。接下来,通过PCR 扩增、文库收集和细胞识别条形码引物的PCR 扩增,将单个细胞文库汇集,并在高通量测序仪器上进行测序[19](图1‑B)。尽管该方法依赖仪器,但其数据质量相对于sci‑ATAC 而言更好。然而,操作复杂,需要显微镜核实每个反应槽的细胞数,且整体获得的细胞数量相对较少。
2017 年,Lake 等[14]开发了一种名为单细胞转座子超敏感位点测序(single‑cell transposome hyper‑sensitive‑site sequencing, scTHS‑seq)的方法。该方法结合了转座子超敏位点测序(ransposome hypersensi‑tive sites sequencing, THS‑seq)[20]的分析技术和使用定制条形码转座体的组合细胞索引。scTHS‑seq 利用改进后的超级突变型Tn5 转座酶(Tn5059),具有体外转录扩增的线性优势,并比ATAC‑seq 具有更高的灵敏度和细胞特异性的远端增强子覆盖度。该方法的步骤包括获取细胞核并进行计数,在384 孔板上合成带有独特条形码的转座体复合物,与细胞样本反应并进行收集,将反应产物转移到96 孔板上进行反转录和扩增,最后进行测序(图1‑C)。scTHS‑seq 的优势在于克服了样本限制,可处理新鲜或冻存的组织样本,实现大规模单细胞检测,并且不受组织细胞解离的影响。
2018 年,Mezger 等[15]开发了一种名为μATAC‑seq 的技术,通过纳米级液体沉积系统(ICELL8 单细胞系统)对整个细胞中的染色质可及性进行测序。该技术利用物理方法在小体积下实现了scATAC‑seq。该方法通过对细胞进行染色并将其加入具有可控温度和湿度的5 184 个纳米孔中,平均每个孔中包含一个细胞。随后,利用荧光显微镜成像识别含有活细胞的孔。然后,在孔中加入带有条形码的转座试剂,并与EDTA 一起进行转座反应,随后加入MgCl2,为后续的PCR 扩增做准备。最后进行PCR扩增和构建文库并进行测序(图1‑D)。该技术将荧光成像和定向试剂沉积应用于大规模平行纳米孔阵列中。与Fluidigm C1 技术相比,μATAC‑seq 技术的测序量提高了近20 倍,并且降低了每个细胞分析的成本[13]。
2018 年,Chen 等[16]开发了一种基于96 孔或384 孔板的scATAC‑seq 方法,通过在整个细胞群中预先进行Tn5 标记,提供了一种简单快速的实验流程。该方法的步骤包括制备5 000-50 000 个细胞的单细胞悬液,对细胞进行Tn5 标记反应。接着将单个细胞核分选到含有裂解缓冲液(十二烷基硫酸钠和蛋白酶K)的板中,等待Tn5 片段释放。随后添加吐温20 以灭活裂解缓冲液中的十二烷基硫酸钠,然后使用PCR 进行文库构建和扩增。最后进行汇集、纯化和测序(图1‑E)。该方法无需纯化和板转移,具有快速和经济的优势。相较于Fluidigm C1和μATAC‑seq,无需昂贵的设备。与sci‑ATAC 和scTHS‑seq 方法相比,该方法不需要定制修改的Tn5转座酶,进一步简化了实验过程。
2019 年,Lareau 等[17]提出了一种名为基于液滴-微流控技术为基础的单细胞染色质可及性分析(droplet‑based combinatorial indexing for massive‑scale single‑cell chromatin accessibility, dsci‑ATAC)的方法,结合了液滴-微流控技术和ATAC‑seq 来进行单细胞染色质开放性分析。该方法利用Tn5 转座酶对细胞核进行转座,并将测序接头整合到开放染色质区域中。通过微流体转置处理,将转座的染色质、PCR 试剂和条形码封装成单个液滴。细胞识别的DNA 条形码添加到转座的染色质中进行扩增,最后进行测序(图1‑F)。该技术成功解决了快速分离细胞的难题,显著提高了单细胞分析的速度。通过创新的实验和算法,dsci‑ATAC 能够获得高达95%的细胞数据。
2018 年,10X Genomics 推出了scATAC‑seq 技术方法,成为目前最常用的单细胞染色质可及性测序技术[9]。类似于10X Genomics 的scRNA‑seq 技术。该实验流程包括以下步骤:首先制备目标组织样本的细胞核悬液,然后使用带有标签的Tn5 转座酶切割开放染色质。接下来,利用10X Genomics 的仪器将带有10X 条形码的凝胶微珠用于捕获和标记每个细胞核。在每个液滴中,转座后的DNA 片段带有10X 条形码的标记,而每个条形码序列代表一个独特的细胞。最后,完成文库构建,并使用Illumina高通量测序仪进行测序,以获取测序数据(图2)。该方法能够在短时间内利用微量样本获得大量有效信息,具有高灵敏度和较好的试验重复性。
图2 scATAC-seq 的技术流程Fig. 2 Technical flow of scATAC-seq(10X)
scATAC‑seq 数据分析通常包括以下步骤:首先进行数据预处理,包括数据质量控制、去除低质量读长(reads)和PCR 扩增偏差等。常用的软件工具包括Trimmomatic 和FastQC[21]。接下来,使用比对软件如Bowtie2 和BWA 将scATAC‑seq 的reads 比对到参考基因组上[22]。比对完成后,根据reads 的位置和大小信息生成信号矩阵(count matrix),用于后续的分析。常用的工具包括MACS2 和SAMtools[23]。然后,利用聚类和降维方法,如PCA、t‑SNE 和UMAP,对单个细胞进行聚类和降维,以识别不同类型的细胞和细胞状态[24]。接着,通过计算每个细胞簇中某一基因区域的信号值(如peaks)出现的频率,进行基因共现分析,以确定不同细胞类型的共同表达基因。常用的软件包括Cicero[25]和ChromVAR[26]。此外,还可以进行基于已知基因集(如Gene Ontology、KEGG 和Reactome)的基因功能富集分析,以了解不同细胞类型和状态的基因可能涉及的功能和通路。最后,使用Seurat、Loupe Cell Browser 和scater 等不同的软件包对分析结果进行可视化。每个实验的具体分析方法和工具可能因研究目的和数据特点而有所不同,因此在实际应用中可以根据需求进行相应的调整和扩展[18]。
细胞的异质性是广泛存在的生物学现象,不同类型的细胞有序地组合在一起形成特定功能的组织和器官[13]。scATAC‑seq 技术通过比较不同细胞类型和细胞亚型在染色体可及性上的差异,从细胞层面揭示更多的表观遗传调控信息[27]。在人类基因组染色质可及性图谱中的绘制,对成人的30 个不同解剖部位鉴定出了30 个细胞大簇和111 个细胞亚簇,并表现出高度组织特异性,并与scRNA‑seq 鉴定的细胞类型高度一致[7]。对于大脑研究而言,scATAC‑seq 的优势在于其能够在高度异质的组织中揭示细胞的染色体可及性,帮助研究不同细胞类型和状态下的基因调控[28]。在对人类前额叶皮层进行的研究中,使用两种单细胞测序方法,即单细胞核ATAC‑seq(snATAC‑seq)和单细胞核转录组测序(snRNA‑seq),都成功鉴定出了6 种细胞类型,并在整合的UMAP 图谱中发现细胞类型完全重叠,而且snATAC‑seq 测序的细胞核数量约是snRNA‑seq 的2倍[29]。这说明scATAC‑seq 在细胞核类型鉴定上拥有更高的灵敏性和分辨率。另外,对妊娠中期人类前脑的研究也证实了scATAC‑seq 数据具有足够的灵敏性,可以在高分辨率下区分细胞亚型[30]。而在成年小鼠垂体细胞核的研究中,通过分析染色质开放区域,成功鉴定出11 个细胞簇,包括垂体细胞、催乳素细胞、生长激素细胞等,并发现了染色质可及性的增殖细胞标记物[31]。对于胰腺研究,scATAC‑seq 技术针对细胞核进行研究,有望促进整个组织的深入研究,包括胰腺的内分泌腺和外分泌腺细胞类型[32]。总的来说,scATAC‑seq 技术在绘制染色体开放性图谱方面具有单细胞分辨率、全基因组覆盖、多维数据集成和发现新调控元件等优势。它为我们深入了解细胞的基因调控和组织的功能提供了有力的工具,尤其在复杂组织如大脑和胰腺中的应用有望取得重要突破。
染色质可及性在基因调控和基因组稳定性中具有重要作用。改变染色质可及性模式可能会影响基因组调控区域对关键蛋白的可接近性,因此染色质可及性模式已成为人类疾病的重要组成部分[33]。scATAC‑seq 可以清晰地发现细胞标志物,并有潜力预测疾病分子标记物。全基因组分析(GWAS)能够在全基因组水平上检测遗传变异并研究基因型与表型的关联,从而帮助识别与性状相关的变异[34]。scATAC‑seq 可以结合GWAS 的结果,并鉴定与多种复杂性状和疾病相关的细胞类型特异性富集。例如,自身免疫性疾病在白细胞相对应的细胞簇中显示出显著富集,神经学特征如双相情感障碍、受教育程度和精神分裂症的富集发生在神经元细胞类型中,而阿尔茨海默病在小胶质细胞中强烈富集[18,30]。此外,通过与基因精细定位、全基因组测序和细胞类型特异性数据的结合,scATAC‑seq 具有预测调控功能的变异位点,并检测目标基因可及性的调控区域。这种方法已在2 型糖尿病、强直性脊柱炎和系统性红斑狼疮等疾病研究中得到应用,发现了与疾病相关的转录因子、调控元件和靶基因[32,35-36]。此外,snATAC‑seq 在晚期阿尔茨海默病的研究中识别了候选的顺式调节元件与候选靶基因的联系,并揭示了固醇调节元件结合转录因子1(SREBF1)在疾病中的调控异常[29]。综上所述,单细胞表观基因组学在解释复杂疾病遗传学方面具有重要意义,能够识别细胞类型特异性的疾病生物学,并发现易受遗传风险因子影响的细胞类型,为疾病的理解和治疗提供基础。
癌症的发生受到基因和环境之间相互作用的推动。早期组织损伤可能促进癌症的发展,因此在肿瘤发展到难以控制的阶段之前,制定合理的策略来预防、检测和拦截肿瘤是可能的[37]。癌细胞通过重新调整人类基因组中的调控元件来激活基因,加速肿瘤生长,并产生对治疗的耐受性[38]。比如在基底细胞癌中,通过肿瘤微环境的scATAC‑seq 有助于表征免疫和基质中的调节网络以及恶性细胞,并帮助识别与肿瘤浸润淋巴细胞中T 细胞耗竭相关的调节机制[9]。此外,在结直肠癌中,scATAC‑seq 研究发现癌前腺瘤性息肉发展为结直肠癌时,其表观遗传和转录轨迹非常一致。谷胱甘肽过氧化物酶2(GP‑X2)的表达被发现可作为判断息肉恶性程度的标志,有助于对息肉进行分期和评估风险[39]。此外,对胰腺癌小鼠模型的scATAC‑seq 研究表明,在鼠类肉瘤病毒癌(KRAS)基因突变的胰腺上皮细胞中,在组织损伤后48 h 内出现了腺泡到肿瘤的染色质开关。研究发现,这一过程的关键靶标是白介素33(IL‑33),其细胞因子活性可以替代组织损伤,加速早期肿瘤病变的形成[40]。这些发现为合理设计早期检测和治疗策略提供了新机会,以在早期阶段拦截炎症和关键细胞因子驱动的恶性肿瘤。而在肺腺癌中,具有更高侵袭性的肿瘤细胞中发现了与人类晚期肺癌相关的关键转录因子RUNX 家族转录因子2(RUN‑X2)。这一发现表明RUNX2 可能作为一个潜在的生物标志物,用于预测患者的预后情况[41]。总体而言,scATAC‑seq 技术在癌症研究中展现出巨大的潜力,通过揭示调控元件、转录因子和染色质状态的变化,有助于深入了解癌症的发生、发展和治疗反应。这为未来开发更有效的预防、检测和治疗策略提供了新的机会。
染色质可及性的改变在细胞分化和发育中扮演着关键的驱动角色。scATAC‑seq 技术为我们提供了可视化细胞状态的转录程序准备过程的能力,帮助我们深入了解细胞状态的转变以及在不同分化状态下转录因子和增强子的变化和可能的决定因素[42]。以视网膜发育为例,研究发现转录因子视觉系统同源盒2(Vsx2)对视网膜祖细胞和双极细胞的发育起着至关重要的作用,其突变会导致小眼症[43]。同时,在骨骼肌中,通过scATAC‑seq 分析发现癌症中的高甲基化1(Hic1)在骨骼肌间充质祖细胞中充当标志物,其缺失会导致细胞增生[44]。此外,在真皮成纤维细胞中,研究显示其稳态和损伤时的反应具有显著的异质性。研究发现,在伤口愈合过程中,维甲酸和RUNX 家族转录因子1(RUNX1)是活跃于再生大创面中心细胞上层真皮细胞中的重要转录因子[45]。在乳腺上皮细胞的研究中,腔祖细胞可以逐渐转化为泌乳型祖细胞。在这个分化过程中,转录因子的活性会随着时间的推移而增强或减弱,其中包括SMAD 家族成员2(SMAD2)和GATA 结合蛋白1(GATA1)[46]。Smad 家族蛋白主要参与调控转化生长因子信号,而GATA 则在成熟腔细胞分化过程中发挥重要的调节作用。这些发现表明不同的转录因子在细胞分化过程的不同阶段具有关键的功能。在免疫反应研究方面,通过对LPS 刺激奶牛全血前后进行scATAC‑seq 分析,研究人员除了确认已知的多效性转录因子核因子κB(NF-κB)外,还发现了关键转录因子NFKB1、NFKBIZ、IRF5、IRF7、IRF9 和STAT1 等,它们参与调控免疫反应和促炎反应的过程[47]。此外,鸡胚胎体轴发育的时空序列研究表明,内源性顺式调控元件的表观基因组沉默会破坏转录因子15(TCF15)和间充质同源框1(MEOX1)的表达,导致体轴伸展异常的出现[48]。最后,在牛和猪的骨骼肌研究中,scATAC‑seq 技术鉴定了E2F7、JUND、ZBTB18、HLF、BACH2、FOSL2 和MAFA 等转录因子在肌肉发生过程中的潜在功能[49]。猪骨骼肌的研究强调了早期生长反应因子1(EGR1)和ras 同系物家族成员B(RHOB)转录因子在胚胎骨骼肌发育中的关键性作用[50]。综上所述,scATAC‑seq 技术在不同类型细胞分化和发育研究中提供了宝贵的信息,帮助我们深入了解细胞状态转变的调控机制以及关键转录因子和增强子的变化,为癌症、发育生物学和免疫学等领域的研究提供了新的视角和有益线索。
scATAC‑seq 是一种重要的单细胞测序技术,可揭示不同类型细胞之间的异质性问题,并对开放染色质的可及性进行表征,从而深入研究染色质、转录因子和调控元件之间的动态变化和相互作用关系。该技术在细胞生物学和基因组学研究中应用广泛。它能够鉴定不同细胞类型、分析转录因子功能、识别和注释增强子区域,并揭示细胞发育和分化过程中的动态变化。此外,scATAC‑seq 还可应用于疾病研究,发现疾病相关的染色质特征和转录因子变化,从而深入了解疾病的发生机制。该技术还有助于药物筛选和治疗优化,通过评估药物对细胞的影响,帮助优化药物治疗策略。尽管scATAC‑seq 是一项强大的技术,但仍存在改进的空间。需要解决的问题包括提高数据质量和降低噪音水平,改善细胞捕获效率以提高数据可靠性和广泛适用性。此外,开发更准确、高效的数据分析方法是必要的,以解析复杂的染色质可及性数据并实现准确的细胞类型鉴定、转录因子分析和增强子注释。另外,整合和比较多个数据集的工具和方法需要进一步改进,以提供更全面的认识细胞类型和转录调控的多样性。最后,降低成本和提高效率也是需要关注的方面,以促进scATAC‑seq 在大规模研究中的广泛应用。综上所述,随着技术的不断成熟,scATAC‑seq 正成为生物医学领域中不可或缺的重要工具。