单细胞RNA测序(scRNA-seq)已成为测量单个细胞基因表达模式的标准工具。scRNA-seq方案中的初始分子捕获和逆转录步骤导致cDNA数量少,因此需要大量的PCR循环才能产生足够的测量材料。然后对所得的文库进行测序后,从原始细胞中提取的每个单mRNA分子会包含了许多的重复片段。
近日,Genome Biology在线发表了美国新泽西州普林斯顿普林斯顿大学计算机科学系题为“Quantile normalization of single-cell RNA-seq read counts without unique molecular identifiers”的论文。对于那些缺少UMI的scRNA-seq数据,作者提出了quasi-UMI:基于UMI数据集的经验计算对read counts进行归一化处理得出复合Poisson分布。
ScRNA-seq中独特的分子识别符(UMI)是消除由聚合酶链反应(一种主要的噪声源)引起read counts重复计数的标识符。quasi-UMI应用于具有读取和UMI的真实数据集时,quasi-UMI归一化方法比竞争方法具有更高的准确性。这种专门设计的quasi-UMI方法可有效地应用于non-UMI scRNA-seq数据集。
使用具有来自相同cells的读取计数和UMI计数的测试数据集,作者证实了quasi-UMI计数比普查计数和非标准化读取计数更接近于UMI计数。除此之外,quasi-UMI还具有减少读取计数维度、提高读取计数生物学分辨率的优点。
虽然可以將quasi-UMI算法框架扩展到批量RNA序列数据,但还需要确定适当的靶点分布。因为与scRNA-seq不同的是,大批量RNA-seq样本通常是比例未知的细胞类型的混合体,这增加了工作的挑战性。
最后,作者提醒quasi-UMI不能完全替代UMI。因为后者在实验中使用时,消除PCR失真方面的能力比quasi-UMI更为有效。另外,虽然quasi-UMI归一化依赖于某些数据集中可能无法满足的假设,例如固定形状参数等,但是根据研究中的灵敏度测试分析,quasi-UMI计数的准确性对于形状参数的错误说明很可靠的。