长链非编码RNA(Long non-coding RNAs,lncRNAs)是一大类不编码蛋白质的转录本,虽然已知一些lncRNAs在哺乳动物细胞中具有重要功能,但大部分lncRNAs的功能仍有待深入研究。因此,大规模、无偏差地筛选功能性lncRNA基因座对该领域的发展至关重要。此外,由于任何一种方法都可能同时受到假阳性和假阴性的影响,因此使用多种正交策略来探索lncRNA功能显然是有价值的。
近日,加利福尼亚大学Jonathan S. Weissman团队在知名期刊Nature Biotechnology在线发表了一篇题为“Fitness effects of CRISPR/Cas9-targeting of long noncoding RNA genes”的文章,作者对2018年11月5日北京大学生物医学前沿创新中心、北京未来基因诊断高精尖创新中心魏文胜课题组在Nature Biotechnology杂志在线发表了题为“Genome-wide screening for functional long noncoding RNAs in human cells by Cas9 targeting of splice sites”的研究论文进行了深入的讨论。
魏文胜研究团队构建了特异性靶向基因剪接位点的新型CRISPR文库,以高通量的方式产生基因外显子缺失或者内含子滞留,运用这一策略,首次实现了全基因组水平上对于LncRNA功能的高效筛选。Weissman团队认为尽管该方法是对用于描述lncRNA功能的策略的重要补充,但也有一些重要的事项值得注意。Weissman团队发现一些证据表明,由于拷贝数扩增区域中的核酸酶活性或蛋白质编码基因的重叠,这些筛选中的大部分hits(每个细胞系中至少30-39%)很可能是假阳性。此外,Weissman团队认为魏文胜团队选择的验证方法不够正交,无法识别这种假阳性。
Weissman团队分析了魏文胜团队文章中对慢性髓性白血病细胞K562中筛选结果,他们观察到,通过靶向剪接位点确定的许多top hits集中在基因组的特定区域,其中22个位于22号染色体的一个区域。这些发现包括BMS1P20,一种在魏文胜团队的研究中特别强调的lncRNA编码基因。该区域位于着丝粒和断点簇区基因位点之间,是一个经过拷贝数扩增的基因组区域。由于这种作用是由于Cas9核酸酶活性产生许多双链断裂而触发的DNA损伤反应所致,因此Weissman团队在使用CRISPRi方法检测时发现无论是蛋白质编码还是靶向筛选lncRNA基因座中均未观察到该区域的hits富集。
Weissman团队又检查位于非扩增区筛选出的hits时,他们发现这些hits富含重叠蛋白质编码基因的lncRNA基因座。尽管此类lncRNA可能独立于蛋白质编码基因活性,但仍需要进一步的实验来确定其的功能。
Weissman团队观察到在HeLa细胞筛选中排名靠前的两个hits基因,CASC19和CCAT1(一种lncRNA),先前已被证明可调节直肠癌MYC基因座上的染色质环癌细胞,与HeLa细胞中第8号染色体上的人乳头瘤病毒18(HPV18)整合位点相邻.尽管更高分辨率的分析发现该基因座内的区域最多包含34个重复序列,但ENCODE拷贝数数据(log2R<0.3)不能明显扩增该区域。在Jia团队的siRNA和互补DNA过表达实验以及作者的CRISPRi筛选实验发现,CCAT1还调节了HeLa细胞的生长,表明表型不是由于拷贝数效应。最终作者认为仍然需要进一步的正交方法来建立CCAT1/CASC19 lncRNA基因座在HeLa细胞中的独特功能。
最后Weissman團队总结每种干扰lncRNA功能的方法都会产生假象,需要仔细过滤以最小化这些影响,然后才能得出关于该方法的结论。其他团队也记录了由于拷贝数增加而导致假阳性的可能性。即使在整倍体区域,CRISPR介导的双链DNA断裂也可引起可测量的生长缺陷,尤其是在p53野生型细胞中。更广泛地说,这些结果强调了使用全正交方法验证敲除结果的重要性。Weissman团队认为使用配对的sgRNA缺失外显子以靶向剪接供体/受体位点的sgRNA进行初步筛选不够正交。如果通过不同类型的干扰获得的结果存在真正的差异,则进一步的分析加上对方法本身的理解,实际上可以揭示出新的重要的机理见解。