甘井中 黄恒杰
摘要:文章在阐述非负矩阵分解内涵和原理的基础上,将其应用到生物信息学领域能够帮助学者更好的解释和研究隐藏的生物资源,旨在进一步揭示隐藏在大量数据背后的生物奥秘,促进生物学领域发展。
关键词:非负矩阵分解在;数据优化;研究应用
中图分类号:TP311 文献标识码:A
文章编号:1009-3044(2019)17-0012-02
开放科学(资源服务)标识码(OSID):
在现代科技和信息网络的快速发展下,矩阵作为一种高维数据信息处理分析形式,在大数据应用领域得到了广泛应用,具体表现在文档管理、诊断数据优化、多媒体数据集成等方面。但是在大量、众多数据信息面前,数据信息处理任务庞大,且对各类数据信息的综合处理效率较低,最终导致高纬度数据信息的缺失。为了解决这个问题,矩阵分解被人们提出,在矩阵分解的不断优化下出现了非负矩阵分解。将非负矩阵分解能够实现对各类复杂数据信息的高效化处理,并最终对处理之后的数据做出有效的解释,充分发挥出数据信息在社会生产领域的作用。
1 非负矩阵分解概述
非负矩阵分解是由两位学者在《Nature》杂志上提出的一种新的矩阵分析方法,该方法的使用最早可以追溯到前人的研究工作。大数据信息时代下,传统的矩阵分解工具,比如PCA和SVD等分解效果不理想,且负元素在实际问题的应用中缺乏科学的解释。
NEF可以被应用在多变量数据的统计分析中,给定一组多元n维数据向量,将向量放置在nm矩阵V列中,其中,m是数据集中的示例数,之后将矩阵近似分解为nr矩阵W和em矩阵H。在r 从实际操作情况来看,对于庞大规模的数据分析都需要采取矩阵分析的形式来处理,在这个过程中容易出现数据信息处理偏差,为了能够解决这个问题,在科学技术的发展下提出了一种新的数据信息处理分析方式,即NMF分解算法。NMF分解算法相较于传统的一些算法而言,具有实现上的简便性、分解形式和分解结果解释性强、占用存储空间少等诸多优点。 2 非负矩阵分解在基因表达数据聚类分析中的应用 2.1 基因表达数据聚类分析 在DNA芯片的快速发展下,芯片处理分析领域对数据信息处理提出了更高的要求,在这样的发展要求下DNA技术在识别癌症类和子类基因等方面起着十分重要的作用。从实践操作情况来看,基因分析方法的应用反向和基本形式是聚类,通过使用这种方式能够实现对各类事物存在有效信息的有效处理。 基因芯片所产生的基因表达数据矩阵具有规模大、复杂程度高的特点,在使用的过程中队数据处理和信息的获取提出了更高的要求。在信息科技的快速发展下,基因芯片在数据处理方面得到了广泛的应用,其中,经典统计分析是一种常用的统计分析方法。微列阵的聚类算法是生物信息学中的一个活跃领域,它的应用基于这样的假设:具有类似表达模式的基因具有类似的生物学行为。通过对基因或者样本的聚类能够发现在一个生物过程中共表达的基因组群以及与之对应的样本,仅仅对基因或者样本进行聚类的被称作是单向聚类,同时对二者进行聚类的被称作是双向聚类。 在进行单向聚类分析的时候如果对行向量聚类,那么每一类的相关性将不会受到列的影响,特别是在不相干列数比较多的情况下,对列向量进行聚类操作的方法类似。双向聚类操作目的是寻找数据矩阵子矩阵集,使得每个子矩阵的行列都体现出相关性的特点,每一个样本会同时进行多个生物过程。双向聚类允许类和类之间出现重叠,由此对基因芯片数据分析来讲具有十分重要的意义。 2.2 非负矩阵分解算法的聚类分析 在NMF模型中,任意给定一个 非负基因表达数据矩阵A=【aij】=【a1,a2,....,an】,能够分解为两个非负矩阵F=【fik】=【f1,....,fk】和P=【pkn】=【p1,P2,....,Pn】,使得A≈FP,其中,A是一个非负矩阵,横向m代表基因在n个样本中的应用水平,纵向代表样本基因的总体表达水平。F是一个mk的非负矩阵,包含m个基因k个样本,P是一个kxn的非负矩阵或者向量,被称作是基矩阵。 2.3 实验结果分析 在对数据分类和选择适合的分析方法之后,为了能够更好地评估出数据信息的聚类分析结果,对所选择的癌症数据信息进行聚类处理,两类癌症数据信息其中一类包含人体中枢神经系统的肿瘤数据,另外一类则是包含个体白血病的数据。聚类精准度的测量采用以下公式,如(1)所示。 (n代表样本的数目;I(ji)代表样本的聚类正确度;如果样本聚类分配是正确的,那么I(ji)=1,否则I(ji)=0)在以往的文献中有学者证明了NMF聚类稳定度和精准度要优于HC和SOM的方法,针对稀疏性的NMF聚类分析不断提升。应用GNMF分析中枢神经系统肿瘤数据集和白血病数据。 2.3.1 中枢神经系统肿瘤数据集 这类数据信息由42个样本和m=5579个基因组成,包含五种类型的中枢神经系统肿瘤,代表了五个不同的类别形态。中枢神经系统肿瘤的五种形态和样本髓母细胞瘤、恶性神经胶质瘤、横纹肌样瘤、正常的小脑、原始神经外胚层肿瘤分别对应的数字为10、10、10、4、8。k取2-5对应GNMF一致性矩阵D的样本重构图如图一所示。图一利用GNMF聚类的k值从2到5变化时,一致性剧本D的样本重构图,样本聚在同一类的可能性为0,深蓝色代表数值0的色彩,深红色代表数值1的色彩,图1中的色彩变化对应一致性矩阵元素从0到1的变化。在k取2/3/4/5和6的时候,GNMF能够很好地将细胞样本和肿瘤样本区分。 2.3.2 白血病数据集 白血病数据集m=5000和38个样本组成,这38个样本大体上分为两类,分别是AML和ALL,其中,ALL代表的是急性淋巴细胞白血病,AML是急性骨髓性白血病,数据集对应的样本数目如下所示:B型急性淋巴细胞白血病数字为19、T型急性淋巴细胞白血病数字为8、急性骨髓性白血病对应的数字为11。结合临床和组织病理学证明这个数据集的38个样本分配到三种类型的亚型中,具有很高的可信度,数据集应用具有很强的可行性。k取2-5对应GNMF一致性矩阵D的样本重构图如图2所示。在k取2或者3的时候,GNMF聚类效果最为稳定。 3 结束语 综上所述,非负矩阵分解是一种用来处理大变量数据的方法,文章以医学领域的癌症病变为基本研究对象,在NMF算法的支持下对基因表达数据进行了研究,特别是对癌症基因数据进行了聚类分析,同时对NMF進行改进,获取优良基因,取得了良好的成效。可见,非负矩阵分解算法和其他特征提图像处理方法相比具有算法效率高的特点,在未来需要相关学者对其进行做出更深入的思考。 参考文献: [1] 李孟杰,谢强,丁秋林.基于正交非负矩阵分解的K-means聚类算法研究[J].计算机科学,2016,43(5):204-208. [2] 路成.稀疏约束非负矩阵分解方法及其应用研究[D].安徽大学,2017. [3] 栗茂林,梁霖,陈元明,等.基于聚类优化的非负矩阵分解方法及其应用[J].中国机械工程,2018(4). [4] 张凤斌,葛海洋,杨泽.非负矩阵分解在免疫入侵检测中的优化和应用[J].计算机工程,2016, 42(5):173-178. [5] 赵艳萍,徐胜超.基于云计算与非负矩阵分解的数据分级聚类[J].现代电子技术,2018(8). 【通联编辑:唐一东】