随着单细胞测序技术的不断开发,目前可实现在单细胞中研究基因转录和表观遗传调控等相关生物学过程,单细胞基因组可以用于分类样本中细胞类型,检测样本之间细胞类型组成和基因表达的变化,并跟踪细胞谱系以及在发育和衰老阶段状态的变化等。最近利用微流控液滴或微孔来分离单个细胞的实验方法使得单细胞基因组学的通量有了数量级提升。其基本原理为用单个液滴包裹单个细胞,在对每个细胞的mRNA测序前做逆转录时,为其加上独一无二的标签(barcode)序列。但其中会存在多个细胞被单个barcode标注的情况(称之为doublets或multiplets)。虽然包含两个具有相似转录状态的细胞在许多分析中是可以接受的,但是结合具有不同转录状态的细胞则会描绘出不存在的转录图谱,这些图谱会误导下游的降维、聚类和差异表达等相关分析。这违背了单细胞技术的基本前提,可能导致错误的推断。
近日,Cell Systems杂志在线发表了美国加州旧金山Calico生命科学公司David R.Kelley团队题为“Solo:Doublet Identification in Single-Cell RNA-Seq via Semi-Supervised Deep Learning”的研究论文。提出了一种基于半监督的深度学习方法Solo(https://github.com/calico/solo),运用神经网络框架来分类单细胞测序样品中的doublets或multiplets结果,其相较于现有的方法表现出更加准确的特征。
Solo使用一个变化的自动编码器在无监督的情况下聚类细胞,然后在编码器上附加一个前馈神经网络层,形成一个有监督的分类器。之后训练这个分类器在观测数据中区分模拟的doublets的细胞。Solo算法使用半监督的深神经网络模型來表示和分类细胞,可与通过实验来检测doublets细胞的方法相结合,进一步纯化scRNA序列数据,使之成为真正的单细胞。将Solo算法用于含有doublets细胞的多种细胞系和组织数据集上进行计算,结果表明其实际计算效果释优于现有的计算方法。通过Solo算法能够有效分类和移除doublets细胞,使得在单细胞实验中可以增加上机单细胞数量而大幅度降低成本,且不会对下游分析造成影响,从而能够在单细胞转录组数据分析中发挥重要作用。