熊和丽 沙茜 刘韶娜 相德才 张斌 赵智勇
(云南省畜牧兽医科学院,昆明 650024)
细胞是机体最基本功能单位,细胞类型和功能由其表达的RNA决定,同一个体细胞的基因组基本相同,但每种细胞类型甚至每个细胞表达的RNA具有唯一性[1]。普通以同质组织或是同类细胞为整体进行的转录组测序,其基因表达是整个组织所有细胞的平均水平,掩盖了细胞的独特性及异质性,并且在研究复杂生物学机制过程中,目标细胞的表达特征可能被组织其他大量细胞所掩盖。传统细胞的分类往往基于细胞结构、功能、位置或是有限的细胞标记,而不是系统性和综合性的指标,并且由于细胞处于不断变化过程中,导致难以区分细胞类型和细胞状态,稀有细胞更无从鉴定[2],而单细胞转录组测序通过对单个细胞的所有转录本进行测序,可以依据单个细胞的表达谱特征以高精度分辨率鉴定细胞类型和细胞状态,并且可以鉴定稀有细胞,锁定目标细胞以进行深入分析,是解析目标表型背后复杂分子细胞机制的有力工具。单细胞转录组测序不仅在方法上是对传统细胞鉴定与分类技术的突破,在功能上也将大力促进细胞生物学的发展。
单细胞转录组测序技术是对单细胞的mRNA进行测序的技术。单细胞转录组测序得益于高通量测序技术的发展,2009年,Tang等[3]通过对单个细胞mRNA测序方法的改进,检测到小鼠囊胚单细胞中的5 270个基因,其基因数量远高于利用微阵列对数百个囊胚细胞的测序数据,首次实现了单个细胞的mRNA高通量检测,从此开启了单细胞转录组测序时代。随着单细胞转录组测序技术的不断发展,单细胞转录组测序技术也从细胞类样本延展到组织样本,测序通量由单个细胞增加到上万个细胞。至今,单细胞转录组测序技术已有十余种,但其操作步骤基本都包括单细胞的分离,单细胞转录组文库构建及测序。
从细胞或组织样本中分离单个细胞是单细胞转录组测序的第一步,单细胞的分离应快速、准确以获得高质量的单细胞[4]。单细胞的分离首先需要制备单细胞悬液,制备细胞悬液的样本主要是培养的细胞或各种组织。培养细胞通过机械吹打或酶解的方法制成细胞悬液,组织样品经过剪碎为小块再利用酶进行消化制备细胞悬液。由于不同细胞、组织特性的差异,酶的选择及消化时间有所不同,需要摸索出最佳消化条件以获得高活性及完整性的细胞。
制备的单细胞悬液根据样品特点可以采用以下几种方法分离为单个细胞进行后续的操作,分别是荧光激活流式分选(fluorescent activated cell sorting,FACS)、微流控装置(microfluidic devices)、微量移液(micro-pipetting)以及激光捕获显微切割(laser capture microdissection,LCM)[5]。FACS 具有高通量、低成本、自动化以及高效率的特点,还可根据细胞标记筛选目标细胞,但其要求至少上万的细胞起始量,不适合用于细胞数量少及珍贵的细胞样品,并且分选压力可能造成细胞破坏;微流控装置利用微流控孔道将细胞分离到微滴或微孔中,可对微量样品进行处理,通量高,操作可标准化自动化,并且分选成本低,分选过程对细胞造成的破坏小,但微流控孔道对细胞体积大小有一定限制,可能会造成体积大的细胞被丢失,商业化的平台10×Genomics是利用微滴,而BD Rhapsody是利用微孔的细胞捕获方法[5-7];微量移液利用毛细玻璃管在显微镜下从单细胞悬液或组织中分离单个细胞,操作耗时,通量低,但在显微镜下操作可以保证单个细胞的分离及选择高质量的细胞,适用于细胞数量少或是脆弱的细胞,如早期胚胎细胞,骨髓微环境细胞[5-6];LCM利用激光从组织切片上分离单个目的细胞,其优点是保留了细胞原有的空间位置信息,组织无需酶解,但组织切片的制作可能造成直径大于切片厚度的细胞丢失或破坏,并且通量低,耗时耗力,对设备要求高[5,8]。
目前的高通量测序平台只能对DNA分子进行测序,因此单细胞转录组测序中mRNA需要先反转录为cDNA后再进行扩增测序。由于单个细胞总RNA含量为皮克级,其中mRNA约仅占总RNA的2%-5%,而高通量测序建库要求纳克级DNA,因此需要将起始的cDNA扩增数十万倍才能构建文库[9]。分离的单细胞经过细胞裂解后利用oligo(dT)引物对带有poly(A)尾的mRNA进行反转录后扩增,以此避免rRNA和tRNA的干扰,但同时也无法检测不带poly(A)尾的各种RNA。目前常用的单细胞转录组扩增方法有PCR法和体外转录线性扩增[9]。利用PCR法的单细胞转录组测序技术如Smart-Seq/Smart-Seq2,10× Chromium,Drop-seq,SCRB-seq,Seq-Well以及sci-RNA-seq,利用体外转录线性扩增的技术如CEL-seq2/C1,inDrops,MARS-seq[10-11]。cDNA扩增过程中PCR偏好是单细胞转录组测序中基因表达定量的重要影响因素,通过对每条转录本添加一段6-10 bp的随机序列(unique molecular identifiers,UMI)来为每条转录本引入特定标记,一段UMI对应一条转录本,无论PCR循环多少次,UMI数量不变,以此进行基因表达定量,解决了cDNA的扩增偏好,如CEL-seq,Drop-seq,MARS-seq等方法[10]。但由于引入标记在3′端或5′端,不能测序全长mRNA,因此适用于对基因表达进行定量,不适用于可变剪切的分析。而扩增全长mRNA的方法如Smart-seq/Smart-seq2,通过双端引物扩增,避免了3′或5′偏好,但仍存在PCR偏好,然而全长mRNA可用于转录本注释、等位基因表达及可变剪切分析[6,10]。扩增的cDNA随后被片段化并加上接头序列进行测序。另外,文库构建过程中通过对每个细胞引入barcode,可以将多个细胞乃至多个样本混合测序,从而实现单细胞转录组测序的高通量,如 10× Chromium,Drop-seq,SCRB-seq,Seq-Well等方法,而不采用细胞barcode的单细胞转录组测序技术如 Smart-Seq/Smart-seq2,一次只能测序一个细胞,适合细胞稀少的样本如干细胞、胚胎细胞或目标细胞的单细胞转录组测序。
至今,已有超过10种单细胞转录组测序技术被研究报道[11],各种技术的文库构建方法不同,其测序表现也存在一定差异,Ziegenhain等通过从灵敏度、准确性、测序细胞数及测序成本等几个方面系统比较 6种 方 法(CEL-seq2/C1、Drop-seq、MARS-seq、SCRB-seq、Smart-seq/C1、Smart-seq2)的测序表现,研究发现Smart-seq2检测到单个细胞和总细胞的基因数最多,具有最佳的灵敏性,其次是SCRB-seq、Smart-seq/C1、CEL-seq2/C1, 而 Drop-seq和 MARS-seq单个细胞的基因数减少了近50%;CEL-seq2/C1、Drop-seq、MARS-seq、SCRB-seq由于引入 UMIs具有较低的扩增噪音;当细胞数量较大时,Drop-seq具有最好的测序成本优势,而MARS-seq、SCRB-seq和Smart-seq2在测序少量细胞时具有成本优势[10]。Ding等对两种低通量(Smart-seq2和 CEL-seq)和5种高通量(10× Chromium,Drop-seq,Seq-Well,inDrops以及sci-RNA-seq)方法的系统比较,发现Smart-seq2和CEL-seq具有最佳灵敏度,而5种高通量方法中的10× Chromium检测到的单个细胞的基因数最多;Drop-seq,Seq-Well,inDrops测序成本最低,Smart-seq2测序成本最高[11]。综合来看,当样品细胞数量大,研究以鉴定细胞类型和稀有细胞为目的,Drop-seq是较适合的单细胞转录组测序方法,若样品细胞数量少,研究目的是转录组注释,检测遗传变异及发现新的转录本亚型,Smart-seq2是比较好的选择[10-11]。
另外,测序细胞数和测序深度是单细胞转录组测序实验设计需要考虑的重要参数。由于单细胞转录组测序细胞数受到细胞亚群多样性,稀有细胞的比率及测序方法的影响,因此很难估计准确的测序细胞数,目前对肿瘤细胞的测序数估计方法是利用公式P(d)= 1-(1-s)n,其中P(d)表示检测力,s代表亚克隆频率,n代表测序细胞数量。依据公式,当目的细胞的比率为1%时,测序250个细胞能达到0.9的检测力,而测序500个细胞达到1.0的检测力[12]。Ziegenhain 等[10]通过对 CEL-seq2/C1、Dropseq、MARS-seq、SCRB-seq、Smart-seq/C1、Smartseq2六种方法的测序深度与敏感性关系进行研究,发现单个样本测序reads达1 million reads时,测序灵敏性逐渐稳定,当测序reads从1 million增加到4.5 million时,测序灵敏性没有明显改变。Pollen等研究发现若以细胞分类和稀有细胞的鉴定为研究目的,建议单个细胞测序50 000到100 000 reads[13],而Smart-seq2单细胞测序达到约1 million reads 时利于后续等位基因表达及可变剪切分析[14]。
单细胞转录组测序通过单个细胞高精度的转录表达谱对细胞类型及细胞状态进行鉴定,发现细胞间差异及变化,分析细胞动态变化过程以及细胞间互作关系,鉴别正常细胞与异常细胞等。
细胞类型的鉴定是深入认识细胞功能的先决条件,而单细胞转录组测序最基础和最重要的应用就是细胞类型的鉴定。17世纪罗伯特·胡克在显微镜下首次发现细胞以来,人们对细胞的表征描述及分类的准确度已经大大提高,但人们对细胞的分类多基于细胞形态、功能、位置及有限的分子标记,而非基于系统性或综合性的指标,因此,到目前人们对细胞类型、状态的描述及数量的认识仍非常有限[2,15]。细胞类型决定于细胞的转录表达谱[1,16],单细胞转录组测序通过获得单个细胞基因表达谱,为细胞类型的鉴定提供了高精度系统性的方法。2020年,浙江大学郭国骥教授团队发表了利用微孔板单细胞转录组测序技术对人体60种组织样品和7种细胞培养物进行单细胞转录组测序研究结果,研究鉴定了人体100余种细胞大类和800余种细胞亚类,远远多于传统认为人体细胞约有300种细胞类型的数量[2,17-18]。哺乳动物神经系统由数以万计到数十亿计的神经元组成,并且具有多种功能,通过单细胞转录组测序发现,即使微升级的大脑组织拥有成千上万种不同类型细胞,甚至传统认为同质的细胞,其细胞也表现出很大的异质性,单细胞转录组测序为复杂神经系统神经元分类提供了强大工具[12,16]。
2016年10月人类细胞图谱计划启动,其基本目标是采用特定的分子表达谱来确定人体的所有细胞类型,并与经典的细胞空间位置和形态的描述连接起来,最终建立综合性的人类细胞参考图谱,以促进生命科学、疾病诊断、监测以及疾病精准治疗的研究。细胞图谱构建的关键环节是细胞类型的鉴定,因此单细胞转录组测序在人类细胞图谱计划中发挥着巨大的驱动作用。2020年,Han等[17]绘制了首个人类全细胞图谱,图谱涵盖胚胎和成年期八大系统的细胞,包括100余种细胞大类和800余种细胞亚类。随着科研人员的大量投入及单细胞转录组测序技术不断发展,目前与人和模式动物相关的多个细胞图谱构建出来。研究发育相关的细胞图谱,如人青春期睾丸发育的动态转录组细胞图谱[19]、小鼠小脑胚胎8个发育阶段及出生后4个时期绘制小鼠小脑发育细胞图谱[20];研究免疫器官的细胞图谱,如人胸腺发育细胞图谱[21]、斑马鱼淋巴细胞在组织稳态期和免疫攻击后淋巴细胞的综合图谱[22]、乳腺癌微环境中免疫细胞图谱[23]。2018年,Han等[24]利用微孔板单细胞转录组测序技术对小鼠近50种器官组织的40余万个细胞进行系统性的单细胞转录组测序,构建了首个哺乳动物的全细胞图谱,研究涵盖了哺乳动物体内的各种主要细胞类型,并对每一种器官内的组织细胞亚型、基质细胞亚型、血管内皮细胞亚群和免疫细胞亚型的基因表达谱进行详细描述。细胞图谱的构建提供了大量的细胞类型、标记基因参考,对促进细胞功能及精准医疗研究具有重要意义。
研究发现在同一时期捕获的同一组细胞中往往同时含有处于不同分化阶段的同类细胞,其主要表现为细胞转录组的变化[25],因此根据单个细胞转录表达谱的相近程度对单细胞变化轨迹进行排序,以此模拟细胞动态变化过程,推导细胞可能存在的分化/演化轨迹,即拟时序分析(pseudotime analysis)[25-26],通过分化轨迹中的基因表达模式的分析可以研究细胞命运决定的调控因子及细胞变化的驱动基因。机体发育的各个时期均存在细胞分化事件,胚胎期单个受精卵发育形成一个完整的生命体,细胞也由全能细胞逐渐分化为具有各种功能的终末细胞;机体出生后以及成年个体也存在祖细胞或干细胞分化的过程,因此单细胞转录组测序广泛应用于发育生物学以研究多能细胞分化过程中其细胞动态变化及细胞命运决定及分化机制。
小鼠胚胎 E6.5-E8.5是原肠胚形成及早期器官形成的关键时期,Pijuan等[27]采集E6.5-E8.5 d的9个连续时间点的小鼠胚胎进行单细胞转录组测序,构建了从多能细胞到所有主要细胞谱系的细胞分化图,解析了多能细胞分化为各细胞谱系的发育轨迹和涉及的分子过程;小鼠胚胎E9.5- E13.5时期,胚胎从数十万个细胞增殖到超过一千万个细胞,并同时发育形成几乎所有主要器官系统,Cao等[28]通过对61只小鼠E9.5- E13.5时期5个时间点~200万胚胎细胞进行单细胞转录组测序,研究发现此时期的胚胎主要有38种细胞类型,包括10种主要的胚胎细胞发育分化轨迹和56种涵盖所有主要器官系统的亚分化轨迹,研究还发现不同发育轨迹趋向形成相同的细胞类型,如肌细胞由两条发育轨迹会聚形成,兴奋性神经元以及抑制性神经元由几条发育轨迹会聚形成。胰岛形成机制研究对治疗糖尿病具有重要意义,对小鼠胚胎期胰腺细胞进行单细胞转录组测序,通过对内分泌祖细胞分化轨迹分析,发现α细胞首先分化并形成胰岛外层,其次β细胞分化以形成胰岛内层;通过分化过程中基因表达特征变化分析发现,α细胞的形成与基因Gcg、Gast、Etv1和Pou3f4有关,β细胞的形成与Lns1、Lns2、Lapp和 Pdx1 有关[26]。
机体的正常运转依赖于细胞间的有序协作[29],传统研究细胞互作的方法大都需要已知细胞类型,无法研究未知细胞类型间的互作,并且传统的研究技术诸如同位素标记、免疫荧光等存在检测通量低,时间人力成本高等缺点,因此细胞间互作是生物学的研究难题。而单细胞转录组测序由于单次实现对成千上万个细胞转录组测序,在单个细胞分辨率的基础上,基于单个细胞的基因表达谱,为细胞间互作研究开启了新篇章。细胞间互作关系利用单细胞的转录组表达谱,计算基因表达量矩阵,基于已有的配体-受体信息数据库,量化配体-受体的互作强度来进行统计预测[29]。胚胎发育过程中,滋养层与蜕膜的相互作用发生异常会导致妊娠相关疾病的发生,Vento等[30]对妊娠前3个月胎盘以及和其相连的母体血液和蜕膜约70 000个细胞进行单细胞转录组测序,同时开发了配体-受体复合物数据库和统计工具来预测不同细胞类型之间的细胞互作关系,研究通过确定细胞间的互作关系,可以防止有害的先天或适应性的免疫反应,这对胎盘形成及胎盘的正常发育至关重要。为促进肿瘤细胞的生长,肿瘤组织会形成一个包括正常组织的肿瘤微环境,这个微环境包括大量免疫细胞和非免疫细胞如成纤维细胞、血细胞、淋巴内皮细胞,为研究肿瘤微环境中各种细胞间的相互作用,Davidson等[31]通过对肿瘤微环境中细胞进行单细胞转录组测序,基于CellPhoneDB数据库系统统计肿瘤微环境细胞间互作关系网络,研究发现肿瘤微环境中细胞间存在复杂的相互作用,如表达C3/CXCL12/CSF1的基质细胞与C3AR1、CXCR4和CSFR1阳性的巨噬细胞之间存在基质与免疫细胞的互作,瘤内髓样细胞群具有通过特定细胞因子受体信号如CXCL10、CCL22、CCL5吸引T细胞的能力,通过PDL1-PD1轴抑制T细胞的功能,并且还存在其他多种免疫抑制机制。
目前,利用单细胞转录组测序已有多个模式动物细胞图谱构建出来,如小鼠全细胞图谱[24]、小鼠胚胎发育细胞图谱[27-28]、小鼠内皮细胞单细胞转录组图谱[32],细胞图谱的构建一方面为细胞类型及分子标记的鉴定提供参考数据库以促进细胞功能研究,另一方面也为与特定目标细胞群或相关性状形成的机制研究奠定了基础。至今,利用单细胞转录组测序解析性状形成机制的研究主要应用于疾病相关的模型动物,如通过果蝇大脑[33]、大鼠限制热量摄入[34]、灵长类动物心肺[35]、灵长类动物卵巢[36]、小鼠[37]研究衰老机制,利用鸡研究褪黑素的减肥机制[38],通过斑马鱼端脑研究阿尔兹海默症形成机制[39],利用新生仔猪研究囊性纤维化肝胆疾病机制[40],而利用该技术解析各物种性状相关形成机制的研究相对较少,以下将主要介绍近年来利用该技术解析动物复杂性状形成机制的相关研究,为单细胞转录组技术在该领域的应用提供参考。
Estermann等[41]利用单细胞转录组测序对鸡胚性腺性别分化过程的研究揭示鸡和小鼠之间性腺性别分化的细胞生物学机制存在根本差异,研究刷新了对性腺细胞谱系复杂性的认识,鉴定到转录组不同的两个支持细胞亚群,并从分化出的支持细胞前体衍生了类固醇生成谱系;与其他脊椎动物不同的是,鸡胚支持细胞不是源自鸡的腔上皮,而是源自间充质来源的PAX2+ / OSR1+ /WNT4 + / DMRT1 +细胞群体;更为重要的是发现PAX2 +细胞从中肾迁移到性腺中。
鸡的四肢发育一直是研究脊椎动物肢体发育的遗传及分子机制的模式动物,为在细胞尺度上阐明鸡四肢发育的细胞及分子机制,通过对鸡四肢发育的3个关键时期的鸡胚四肢进行单细胞转录组测序,获得其全基因组水平的转录谱的动态变化及相应细胞的动态变化,鉴定到一系列不同细胞类型形成相关的标记基因,从细胞维度解析了鸡四肢发育的细胞及分子机制,也为后续研究提供了大量的研究鸡四肢形成及多样性的候选基因[42]。
由于与人具有相似的解剖、生理和基因组特征,猪是人类生物医学研究非常好的模型[43],早期胚胎发育机制的研究有助于推动猪作为生物医学模式动物的探索工作。通过对猪早期胚胎各个时期的单卵裂球共106个样本进行转录组测序,揭示了猪早期胚胎发育的转录谱随着胚胎发育而发生的动态变化,确定合子基因组的激活发生在四时期到八时期;鉴定到73个桑椹胚中参与调控卵裂球异质性的关键候选基因;最后通过与人、小鼠和牛基因表达调控网络进行比较,发现猪早期胚胎发育调控网络可能与小型动物存在巨大差别[44]。
骨骼肌是复杂的异质组织,约占体重的40%,其机械功能和代谢作用对机体健康至关重要[45]。Qiu等[43]通过对瘦肉型和脂肪型猪的肌肉进行单细胞转录组测序发现,瘦肉型猪显著的骨骼肌特征主要表现为对肌细胞生成的促进及对脂肪细胞形成的抑制作用;细胞轨迹分析表明,肌祖细胞分化为卫星干细胞,随后分化为卫星细胞和成肌细胞,成肌细胞进一步分化为肌细胞;与肥胖型猪相比,瘦肉型猪的肌系细胞更接近于肌源祖细胞的原始阶段。
精子形成过程中雄性生殖细胞与体细胞之间的相互作用对于雄性生殖活动是必需的。由于细胞异质性使得很难在不同发育阶段描述不同的细胞类型,Yang等[46]通过对成年绵羊睾丸的11 722个细胞进行单细胞转录组测序,鉴定到了所有已知的生殖细胞(包括早期精子细胞、晚期精子细胞、圆形精子、细长精子和精子)和体细胞,以及不常见的具有白细胞特征的体细胞。通过不同类型细胞转录表达谱分析鉴定到几个不同阶段生殖细胞特异的分子标记,如 EZH2、SOX18、SCP2、PCNA和 PRKCD。 研 究首次全面的研究了精子发生过程中不同阶段细胞的转录表达谱,促进了对绵羊精子发生及精子发育的全面理解。
陕北白绒山羊是优秀的绒山羊品种,其毛囊发育过程中分子调控机制的研究对毛绒性状的选育具有重要的指导意义。葛伟通过对单细胞转录组测序构建了陕北白绒山羊毛囊发育主要转录图谱;成功鉴定了绒山羊毛囊发育过程中的真皮细胞谱系、表皮细胞谱系、毛乳头细胞等细胞类型;基于不同细胞类型之间的差异分析,发现了一系列细胞标记基因,如真皮细胞的Lum、Col1a1和Postn,表皮细胞的Sox9、Krt14和Klf5l,毛乳头细胞的Rspo2、Apod和Sox18等;根据细胞分化轨迹分析,对真皮细胞谱系的真皮聚集、毛乳头细胞和表皮细胞谱系表皮细胞、毛干细胞和角化细胞的特化过程及细胞特化过程中基因表达特征进行了动态分析。研究结果促进了对绒山羊早期毛囊形态发生过程的认识,为其育种研究提供了重要的理论参考[47]。
细胞是生命体的最基本功能单位,基因功能的实现需要依赖于细胞这一载体,普通转录组反映的是所有细胞基因表达的均值水平,不能确定基因与细胞的关系,也忽略了细胞的动态变化及相应的转录组变化,因此在解析复杂生物学机制的过程中研究仅从基因及表型两个维度开展,而单细胞转录组测序为生物学机制的解析增加了细胞这一维度,由此对目标性状的研究可以定位到目标细胞及其相关细胞,分析目标细胞的动态变化及细胞间的相互关系,解析性状形成的细胞分子机制,可以预见其在动物复杂性状遗传机制的解析及疫病防治研究方面将具有广阔的应用前景,如肌内脂肪细胞、皮下脂肪细胞的发育机制解析将极大促进优质畜禽肉产品的生产;重要畜禽传染病对宿主细胞的侵袭及损伤机制研究是疫苗及药物开发的重要理论依据;不同品种免疫细胞类型分析将是抗病育种的一个方向;毛囊及其微环境细胞的发育机制研究将促进毛色育种。另外,单细胞转录组测序实质同普通转录组测序一样,都是反映转录组的变化,若同其他组学联合分析将更全面解析生物学机制,如同基因组整合分析可以揭示基因变异对转录水平的影响,进而解析性状的遗传机制[48],同单细胞染色质可及性(ATAC-seq)联合分析可以构建DNA到RNA再到表型的调控网络,鉴定与表型相关性强的核心调控因子[49-50]。