基于NMF-OMP的基因表达数据分类

2019-12-13 07:18梁雅丽
无线互联科技 2019年19期
关键词:分类

梁雅丽

摘   要:文章提出一种基于非负矩阵分解和正交匹配追踪的癌症基因表达数据分类方法。首先,采用主成分分析与奇异值分解相结合的方法对数据进行降维;其次,通过非负矩阵分解训练传感矩阵、正交匹配追踪取得测试样本的稀疏表达;最后,根据稀疏表达和样本特征矩阵进行分类。与经典的分类方法相比,该算法提高了分类准确率,对多类别、不均衡的样本分类效果更明显。

关键词:非负矩阵分解;正交匹配追踪;分类

基因表达数据主要是通过DNA微阵列技术得到的癌症检查数据,存在基因多、噪声强、样本少、分布不均衡等特点。如何有效进行分类是一项重要的医学研究课题,对预防、诊断癌症,减少误诊率有极大意义。经典的分类方法有支持向量机(Support Vector Machine,SVM)、决策树(Dtree)、最近邻分类(K-Nearest Neighbor,KNN)等[1-2]。压缩感知理论[3-4]的出现,为基因表达数据分类研究开辟了新的方向。近年来,Xu[5]提出了双向压缩感知模型,同时考虑了两种相关性—不同样本之间的关系和不同基因之间的关系,为生物信息的研究提供新的知识。Xu[6]和He[7]提出了新的基因表达数据分类稀疏学习模型(K-SVD和Group K-SVD),在简化字典的基础上,应用稀疏特征进行分类,具有较好的分类性能。

非负矩阵分解(Nonnegative Matrix Factor,NMF)常用来进行特征提取和聚类,李小永[8]提出了基于NMF的基因表达数据特征提取和分类方法,表明NMF具有良好的应用性能。本文将NMF应用于压缩感知模型中,对传感矩阵进行学习,并将其映射到NMF基因隐藏特征空间中,然后通过正交匹配追踪(Orthogonal Matching Pursuit,OMP)取得测试样本的稀疏表达,提出了NMF-OMP分类方法。通过在4个基因表达数据集上的对比实验证明,本文算法比经典分类算法的分类准确率高。

1    相关知识简介

1.1  压缩感知

对于DLBCL,4种算法在各维度上的最高分类准确率依次为0.987,0.974,0.896,0.805;对于Leukemia,4种算法在各维度上的最高分类准确率依次为0.986,0.972,0.903,0.653;对于SRBCT,4种算法在各维度上的最高分类准确率依次为1,0.976,0.819,0.867;对于Brain Tumor,4种算法在各维度上的最高分类准确率依次为0.878,0.811,0.733,0.767。总体来说,本文提出的NMF-OMP算法相较于其他3种算法而言,分类准确率得到了提高,但在低维度上的分类准确率较低。

4    结语

癌症基因表达数据的有效分类对病人预防和医生诊断病症均有重大意义,如何更高效、准确地分类是重要的研究课题。本文结合压缩感知理论和非负矩阵分解的特性,提出一种基于NMF-OMP的压缩感知分类模型,适用于多类别基因表达数据的分类,在4个数据集上进行对比实验,取得了较高的分类准确率,且运行时间较短。之后将进一步改进非负矩阵分解算法和样本类别判断方法,提高分类准确率和稳定性。

[参考文献]

[1]STATNIKOV A,ALIFERIS C F,TSAMARDINOS I,et al.A comprehensive evaluation of multicategory classification methods for microarray gene expression cancer diagnosis[J].Booinformatics,2004(21):631-643.

[2]叶明全,高凌云,万春圆.基于人工蜂群和SVM的基因表达数据分类[J].山东大学学报(工学版),2018(3):14-20.

[3]DONOHO D.Compressed sensing[J].IEEE Transactions on Information Theory,2006(4):1289-1306.

[4]BARANIUK R G,CAND?S,E,NOWAK R,et al.Compressive sampling[J].IEEE Signal Processing Magazine,2008(2)1433-1452.

[5]XU X H,FAN B,HE P,et al.Bidirectional compressive sensing for classification of gene expression data[J].Concurrency and Computation:Practice and Experience,2018(10):1002.

[6]XU X H,HE P.Compressive sensing classifier based on K-SVD[D].Yangzhou:Yangzhou University,2019.

[7]HE P,FAN B C,XU X H,et al.Group K-SVD for the classification of gene expression data[J].Computers and Electrical Engineering,2019(3):143-153.

[8]李小永.基于非負矩阵分解和稀疏表示对基因表达数据的研究[D].西安:西安电子科技大学,2017.

Abstract:A classification method for cancer gene expression data based on nonnegative matrix decomposition and orthogonal matching pursuit was proposed. Firstly, principal component analysis and singular value decomposition were used to reduce the dimension of data. Secondly, non-negative matrix decomposition was used to train the sensor matrix and orthogonal matching tracing to obtain sparse expression of test samples. Finally, the sparse expression and sample feature matrix were used for classification. Compared with the classical classification methods, this algorithm improves the classification accuracy and has a more obvious effect on the multi-category and unbalanced sample classification. 

Key words:non-negative matrix factorization; orthogonal matching pursuit; classification

猜你喜欢
分类
2021年本刊分类总目录
分类算一算
垃圾分类的困惑你有吗
星星的分类
我给资源分分类
垃圾分类不能有“中梗阻”
分类讨论求坐标
数据分析中的分类讨论
说说分类那些事