基于DAE的单细胞RNA测序数据聚类研究

2020-12-28 11:49何慧茹李晓峰张鑫柳楠

现代电子技术 2020年24期

何慧茹　李晓峰　张鑫　柳楠

摘要：传统数据降维方法处理单细胞RNA测序数据存在特征提取能力较差、聚类精度较低等问题，有必要引入深度学习方法以提高对复杂数据特征的提取能力。在对数据不进行任何人工筛选的条件下，利用DAE提取表达能力更强的数据特征，分别以K?means和DBSCAN聚类作为DAE的顶层设置形成DAE+K?means和DAE+DBSCAN组合模型，将这两种深度学习组合模型在Deng数据集上与传统聚类模型SC3进行对比。与SC3的0.73聚类精度相比，DAE+K?means和DAE+DBSCAN的聚类精度分别达到0.93和0.97，分别提高了0.2和0.24。实验结果表明，DAE在单细胞聚类领域具有广阔的应用前景。

关键词：单细胞聚类; 深度自动编码器; 深度学习; K?means聚类; DBSCAN聚类; 结果分析

中图分类号： TN919?34; TP391 文献标识码： A 文章编号： 1004?373X（2020）24?0144?05

Research on single?cell RNA sequencing data clustering based on DAE

HE Huiru， LI Xiaofeng， ZHANG Xin， LIU Nan

（School of Computer Science and Technology， Shandong Jianzhu University， Jinan 250101， China）

Abstract： As the traditional data dimension reduction method in processing single?cell RNA?sequencing data has some problems， such as poor feature extraction ability and low clustering accuracy， it is necessary to introduce the deep learning method to improve the extraction ability of complex data feature. Without any manual screening of data， the deep auto?encoder （DAE） is used to extract data feature with stronger expression ability. The K?Means and DBSCAN clustering is taken as the top?layer setting of DAE respectively to form DAE+K?Means or DAE+DBSCAN combined model， and the two deep learning combined models are compared with the traditional clustering model SC3 on Deng dataset. In comparison with the 0.73 clustering accuracy of SC3， the clustering accuracy of DAE+K?Means and DAE+DBSCAN reaches 0.93 and 0.97， respectively， which is improved by 0.2 and 0.24， respectively. The experimental results show that the DAE has a broad application prospect in the field of single?cell clustering.

Keywords： single cell clustering; DAE; deep learning; K?Means clustering; DBSCAN clustering; results analysis

0 引言

基因表达是生物体生命活动的基础和关键步骤，有效测定基因表达水平是研究生物体生长发育、发现新细胞亚群、探究肿瘤成因等生物学、医学问题的基础。近年来发展的基于高通量测序的单细胞RNA测序（single?cell RNA?sequencing， scRNA?seq）技术能够在单个细胞粒度上进行基因表达测序[1]，为辨别生物组织中不同类型细胞的基因表达特征和全面揭示细胞之间的异质性提供了强有力的技术支撑。

由于测序手段的限制以及基因表达高度复杂等原因，scRNA?seq数据普遍存在噪声较大、维度较高、稀疏性较强等特点，仅靠人工难以挖掘出有价值的生物细胞信息。如何有效地处理数据、区分不同细胞亚群成为目前研究的熱点。

近年来国内外学者利用降维和聚类等方法对scRNA?seq数据进行了相关研究。常用的scRNA?seq数据降维方法主要有主成分分析[2?4]、零膨胀因子分析[5]、t?随机邻域嵌入[6]等;聚类方法主要有K?means[2，7]、层次聚类[3]等。

针对传统scRNA?seq数据处理方法存在特征提取能力差、聚类精度低等问题，提出将深度自动编码器（Deep Auto?Encoder，DAE）引入到scRNA?seq数据处理中。DAE作为数据特征提取常用的深度学习方法之一，在图像分类[8?9]、短文本特征提取[10]、医学诊断[11]等方面取得了良好效果。通过DAE对数据进行特征提取，利用得到的低维特征进行细胞聚类，提出DAE+K?means和DAE+DBSCAN两种组合模型，提高了对scRNA?seq数据的聚类精度。

利用K?means对数据聚类时，首先需要确定聚类数量。本文利用组内平方误差和（Sum of Squared Error， SSE）来确定最佳聚类数目。对于SSE和聚类数量[k]的二维图像，图像中的拐点所对应的聚类数量即为最佳聚类数量。SSE的计算公式为：

[SSE=i=1kx∈Eidist（ei，x）2] （4）

式中：[k]为聚类的数量;[Ei]为第[i]个簇;[ei]为簇[Ei]的聚类中心;[x]为样本对象。通过计算SSE来确定聚类数量，可以进一步提高K?means的聚类精度。

2.4 DBSCAN聚类

DBSCAN（Density?Based Spatial Clustering of Application with Noise）是一种经典的基于密度的聚类算法，该算法可以发现任意形状的簇，能够有效识别噪声点和离群点[13]。该算法需要确定Eps和MinPts两个参数，其中，Eps是聚类簇的半径，MinPts 是聚类簇内最少点数。与K?means聚类相比，DBSCAN聚类无需事先确定聚类数目，但是Eps和MinPts两个参数对DBSCAN聚类的效果影响较大。

2.5 模型评估

本文所用数据集带有实际类别标签，为了便于与其他研究对比，使用调整兰德系数（Adjusted Rand Index， ARI）作为聚类结果评价指标。ARI是一个通用的聚类评价指标，可以用来评估不同模型的聚类精度。ARI的取值范围为[-1，1]，值越大代表聚类效果越好。ARI的计算公式如下：

[ARI=RI-E（RI）max（RI）-E（RI）] （5）

式中：RI表示兰德系数（Rand Index，RI）;[E（RI）]表示RI的期望。RI的计算公式如下：

[RI=R+WR+M+D+W] （6）

式中：[R]为被聚在一类的2个对象被正确分类的样本点对数;[W]为不应该聚在一类的2个对象被正确分开的样本点对数;[M]为不应该聚在一类的样本被放在一类的样本点对数;[D]为应该聚在一类的样本被错误分开的样本点对数。

3 算例分析

3.1 数据集介绍

本文采用2014年Deng等人一组实验数据[14]。该数据包含268个细胞，每个细胞在22 431个基因上的测序结果，具有维度高、稀疏性大，并且同一基因在不同细胞上的表达值差异较大等特点。

3.2 DAE模型搭建

本文DAE模型基于TensorFlow的Keras库实现。通过大量的实验，最终构建的DAE网络结构为22 431?100?6?100?22 431。其中，网络输入层和输出层的神经元个数均为22 431，3个隐含层的神经元个数分别为100，6和100。本文在实验阶段分别尝试了隐含层数目分别为1，3，5，7，9的情况，不同隐含层数目的损失和运行时间，如图4所示。实线代表训练损失，虚线代表网络训练需要的时间，以s为单位。当隐含层数目低于3个时，训练速度较快但训练损失相对较高，训练效果不理想;当隐含层数目大于3个时，训练损失相对较低但训练时间相对较长;当隐含层数目为3，5时，两者的训练损失相差不大，但隐含层数目为5时的训练速度明显变慢。因此选择隐含层数目为3的DAE进行对比实验。

3.3 实验结果分析

实验数据样本总数为268个，每个样本的属性个数为22 431维。对原始的scRNA?seq数据正则化处理之后，按照7∶3的比例隨机分成训练集和测试集，利用训练数据进行模型训练，基于训练好的DAE模型对测试数据进行降维。然后分别使用K?means和DBSCAN两种聚类函数对DAE降维之后的测试数据进行聚类，与使用传统降维方法SC3的聚类结果进行对比。

1） K?means聚类结果分析

利用SSE确定聚类簇数，测试集聚类簇数的确定过程如图5所示。随着簇数的增大，每一个类别中样本数量越来越少，簇内距离越来越小，SSE值越来越小。但并不是簇数越多聚类效果越好，当SSE减小幅度缓慢时，即使进一步增大聚类簇数量也不能增强聚类效果。

由图5可知，拐点为[k]=4，可以确定K?means的最佳聚类簇数为4。

为了进一步验证SSE的结果，设计了4组对比实验，分别计算簇数为3，4，5和6时的聚类精度，如表1所示。由于K?means的聚类中心是随机产生的，为了排除一次性极端情况，本文在固定了1组网络参数及聚类簇数的情况下进行了40次实验，并取40次实验输出的平均值作为最终结果。

由表1可知，簇数的选择对聚类性能有很大的影响。当簇数为4时，聚类性能最好，ARI为0.93，进一步证明了SSE确定数据聚类簇数目的有效性。

2） DBSCAN聚类结果分析

首先通过固定MinPts=3、改变Eps，进行了5组实验，确定Eps的取值，实验结果分析如表2所示。

由表2可知，当固定MinPts=3，Eps取值为0.33时，聚类性能最好，ARI为0.97。

最后在Eps=0.33的条件下进行了5组实验来确定最优MinPts值。实验结果分析如表3所示。

由表3可知，当固定Eps=0.33时，MinPts≤4时，聚类性能均为0.97，但当MinPts>4时，聚类性能变坏。

通过上述实验可知，当Eps=0.33，MinPts=4时聚类性能最好，ARI为0.97。

3.4 聚类精度对比

3种模型的聚类精度如表4所示。

由表4可知，针对当前测试集，DAE+DBSCAN组合模型聚类性能相对较好，ARI为0.97;DAE+K?means组合模型的聚类性能略有下降，ARI为0.93。两者差距为0.04，差距相对较小，进一步说明了2种模型在处理scRNA?seq数据中具有较高的可用性。但是随着数据量的增加，K?means在聚类过程中会消耗更多的时间，而DBSCAN在对大数据聚类时效率更高。因此，针对不同的训练集选择合适的训练模型还需根据任务的时间敏感度来决定。另一方面，DAE降维之后的数据聚类精度明显优于直接利用SC3进行聚类的精度，这表明，在对scRNA?seq数据不进行筛选的情况下，利用深度学习的DAE模型提取基因表达信息更利于后续的单细胞聚类。2种组合模型的聚类精度较SC3都有所提升，最高提升0.24，进一步证明了深度学习在scRNA?seq数据处理方面的优越性。

4 结论

特征的有效提取是影响聚类效果的主要因素，而深度学习强大的特征提取能力可以获得后续细胞聚类所需的有效基因表达信息。目前，将深度学习技术应用于单细胞RNA测序数据聚类的研究相对较少，本文引入深度学习方法以提高对复杂数据特征的提取能力。实验结果表明，DAE+DBASCN的聚类精度更高。得到这一结果的主要原因是原有方法并未对噪声数据以及异常数据进行数据预处理，而DBSCAN算法能剔除噪声、对噪声数据不敏感，K?means算法对噪声以及异常数据较敏感，因此K?means聚类精度略低于DBSCAN聚类精度。并且DBSCAN在对大数据进行聚类时效率更高，因而在数据规模较大且含有噪声的聚类任务中，DAE+DBSCAN组合模型的效率相对较高。通过实验对比进一步验证了深度学习的DAE算法在单细胞聚类领域具有较好的应用前景。

参考文献

[1] BUETTNER F， PRATANWANICH N， MCCARTHY D J， et al. F?scLVM： scalable and versatile factor analysis for single?cell RNA?seq [J]. Genome biology， 2017， 18（1）： 212?224.

[2] KISELEV V Y， KIRSCHNER K， SCHAUB M T， et al. SC3： consensus clustering of single?cell RNA?seq data [J]. Nature methods， 2017， 9（3）： 384?395.

[3] ZURAUSKIENE， JUSTINA， YAU C. PcaReduce： hierarchical clustering of single cell transcriptional profiles [J]. BMC bioinformatics， 2016， 17（1）： 140?150.

[4] SHIN J， BERG D， ZHU Y， et al. Single?cell RNA?seq with waterfall reveals molecular cascades underlying adult neurogenesis [J]. Cell stem cell， 2015， 17（3）： 360?372.

[5] PIERSON E， YAU C. ZIFA： dimensionality reduction for zero?inflated single?cell gene expression analysis [J]. Genome biology， 2015， 16（1）： 241?250.

[6] ZEISEL A， SIMONE C， PETER L， et al. Cell types in the mouse cortex and hippocampus revealed by single?cell RNA?seq [J]. Science， 2015， 347（6226）： 1138?1142.

[7] GRUN D， LYUBIMOVA A， KESTER L， et al. Single?cell messenger RNA sequencing reveals rare intestinal cell types [J]. Nature， 2015， 56： 251?255.

[8] SU Y C， LI J， PLAZA A， et al. Deep auto?encoder network for hyperspectral image unmixing [C]// 2018 IEEE International Geoscience and Remote Sensing Symposium. Valencia： IEEE， 2019： 4309?4321.

[9] 宫浩，张秀再，胡敬锋.一种基于深度学习的遥感图像分类及农田识别方法[J].现代电子技术，2019，42（8）：179?182.

[10] 谭梦婕，吕鑫，陶飞飞.基于多特征融合的财经新闻话题检测研究[J].计算机工程，2019，45（3）：293?299.

[11] RONG W G， NIE Y F， OUYANG Y X， et al. Auto?encoder based bagging architecture for sentiment analysis [J]. Journal of visual languages & computing， 2014， 25（6）： 840?849.

[12] 谢娟英，王艳娥.最小方差优化初始聚类中心的K?means算法[J].计算机工程，2014，40（8）：205?211.

[13] 胡健，朱海湾，毛伊敏.基于自适应蜂群优化的DBSCAN聚类算法[J].计算机工程与应用，2019，55（14）：105?114.

[14] DENG Q， RAMSKOLD D， REINIUS B， et al. Single?cell RNA?seq reveals dynamic， random monoallelic gene expression in mammalian cells [J]. Science， 2014， 343： 193?196.

作者简介：何慧茹（1995—），女，山东济宁人，硕士研究生，研究方向为计算生物、深度学习。

李晓峰（1971—），男，山东临沂人，博士，教授，硕士生导师，研究方向为计算生物、数据挖掘、深度学习。