田梓君,崔新于
(河南师范大学 计算机与信息工程学院,河南 新乡 453007)
基于数据处理的肿瘤基因选择系统
田梓君,崔新于
(河南师范大学 计算机与信息工程学院,河南 新乡 453007)
近年来,随着肿瘤医院就诊人数的不断增多,特征基因提取已成为中内外学者研究的热门,研究成果也为临床癌症的分析诊断及预测提供了极大的便利。然而,由于基因表达谱数据具有维度高、样本少、复杂多样的特点,准确地挖掘基因数据中所蕴含的肿瘤信息基因成为当前的首要挑战。文章阐述了在Matlab2010b编程环境下开发的肿瘤基因数据选择系统,介绍了改进后信噪比与支持向量机回归特征消去(SVM-RFE)的基因选择方法相结合对于基因选择的优异性,对于筛选出对分类有益的特征基因具有良好的效果。
特征基因;系统开发;改进的信噪比
肿瘤是目前威胁人类生命健康最主要的元凶之一,因而通过基因表达谱的信息基因进行肿瘤的早期诊断已然成为当今国内和国际上研究热点。基因表达谱具有样本少、维数高、噪声高、数据冗余的特点[1],处理数据时“过拟合”现象和“维数灾难”都给基因数据选择方法提出了不小的挑战。在肿瘤基因表达谱中,每个样本都会记录组织细胞中所有可测基因的表达水平,但实际上只有少部分基因才真正和样本类别相关。因而基因选择的目的就是要尽可能选择那些与肿瘤基因密切相关,并且包含样本分类信息的基因,也称肿瘤信息基因。
本软件系统主要包括:数据标准化、改进的信噪比进行基因初选、SVM-RFE进行基因精选,最终以图形的形式得以体现。
本系统使用M atlab2010b或以上版本作为运行环境,它具有非常低的硬件要求和平台支持,可以保证该肿瘤基因选择系统在各预定功能上实现。可运行于W indow s2000,W indows XP,W indows 7等操作系统。
2.1 功能需求分析
根据肿瘤基因选择的具体情况,系统软件需要具备以下功能:
数据标准化。数据集中基因原始数据大小不一,范围相差较大,导致数据处理过程中运算复杂,所以在处理数据前,为消除量纲差异带来指标不可公度性问题,需要先运用向量归一法对数据进行标准化,将原始数据转换在[0,1]区间内,便于数据的处理。
特征基因初选降噪。在肿瘤基因数据表达谱中大部分基因与样本类别并不相关,只有少数基因包含了该样本具体的类别信息,初选主要针对数据冗余现象,起到降噪作用。
特征基因精选降维。在进行初步去噪选择后,已经基本减少了很多高噪声的基因,但仍需解决肿瘤基因具有高维度这一特点。
图像属性分析。图像属性分析指的是运用图像将分类信息指数分布、各基因信噪比分布表达出来,可以更加直观且有利于观察。
2.2 基于改进的信噪比和SVM-RFE算法基因选择系统构架
从大量肿瘤特征数据中选出对研究有用的信息基因,过滤掉不相关基因,剔除维数大的冗余基因,文章提出基于改进后信噪比的SVM-RFE算法的基因选择系统构架。基本的算法思想具体可分为3部分:第一部分针对原始数据基因相差较大的特点,对数据进行标准化处理;第二部分采用改进后的信噪比公式过滤掉无关基因;第三部分选用支持向量机的回归特征消去算法(SVM-RFE),按优先级大小得到所有特征属性的递减顺序。
假设数据(X,Y)包含m个特征基因,具体步骤如下[2]:
Step 1 数据标准化,在数据标准化过程中,特征基因数量m不变,只改变数据的区间范围。
Step 2 改进后信噪比方法过滤掉肿瘤基因数据集中大量无关基因,从新样本m中选择分类信息指数较高的的m'基因。
Step 3 选用SVM-RFE算法进行特征排序,m'基因不断循环迭代,依次去掉得分最小的特征属性,最终得到特征排序表m''。
Step 4 实验论证并总结。
以上步骤均侧重于算法本身,没有可视化的界面,若普通用户想要操作规模较为庞大的基因数据不仅需要掌握很多专业知识,还存在操作性繁琐、可视化差的情况。本系统将软件工程思想融入基因选择中,有着简洁的操作流程,提供良好的用户界面,能够方便快捷地为生物基因工作者提供肿瘤特征基因选择,从而达到提高和改善工作效率的作用。系统现有的工作流程,如图1所示。
3.1 数据预处理阶段
为了确保基因表达水平具有可比性,基因表达值应尽量处于同一数量级上,这就需要在进行基因选择之前对样本数据进行归一化的预处理操作,基因数据标准化可按如下公式进行:
其中,Xij是第i个样本的第j个基因的数据表达值。
图1 系统分析设计流程
3.2 改进的信噪比初选阶段
信噪比指标可成为评价基因类别的基础,为有效避免传统指标“过拟合”现象,同时考虑到了方差不同所带来的对样本分类的贡献,软件选用改进的信噪比公式,从而达到对无关基因进行初步过滤的目的。Golub等人提出了“信噪比”指标[2],采用特征记分准则(FSC)为每一个基因计算其分值,而按基因分值降序排列的基因称为基因排序。但为了更加全面地评价基因含有的分类信息量,考虑到方差不同所带来的对样本分类的贡献,本系统利用改进后的信噪比公式,即李颖新等[3]修正后的信噪比指标(如公式3)处理肿瘤基因数据集,对无关基因进行过滤。
3.3 支持向量机回归特征消去法进行基因精选
SVM-RFE在本质上是一种启发式搜索策略的封装模式选择方法,在特征选择中将支持向量机用于高维数据,使用SVM算法中的权重对所有波段进行排序,并评估每一波段对分类的影响,按照排序准则移除对分类器作用最小的波段[4],从而可以确定特征基因排序表。
基于数据处理的肿瘤基因选择系统通过导入肿瘤基因集,可选择出一些包含样本分类信息且同肿瘤致病基因密切相关的基因,从而达到信息筛选的目的。系统可直接导入肿瘤原始基因数据集,避免了手动输入操作的复杂繁琐,在筛选过程中可根据基因分值大小进行排序且更为直观地看到分布比例。系统不仅提供了传统菜单栏的新建、打开、另存、打印等功能,还添加了定点插入、数据对比等操作。柱形图、散点图的表现形式为用户的直观体验提供了便利。
针对基因表达数据维数高、样本少、复杂多样的特点,系统结合改进的信噪比和SVM-RFE算法对肿瘤基因数据集进行降噪降维,达到特征基因筛选的目的。融入软件工程思想,利用Matlab软件的数据处理和图像生成功能,将基因选择的数据形象直观地表达出来,系统操作中简单便捷、结果直观有效,达到了最初预期的结果,未来将根据用户体验继续完善系统,创造更大的价值。
[1]BROCK G N, SHAFFER J R, BLAKESLEY R E,et al. W hich m issing value imputation method to use in expression profiles: a comparative study and two selection schemes[J]. BMC Bioinformatics,2008(9):12.
[2]孙刚,张靖.面向高维微阵列数据的混合特征选择算法[J].小型微型计算机系统,2015(6):1209-1213.
[3]李颖新,阮晓钢.基于支持向量机的肿瘤分类特征基因选取[J].计算机研究与发展,2005(10):153-158.
[4]张睿,马建文.一种SVM-RFE高光谱数据特征选择算法[J].武汉大学学报(信息科学版),2009(7):834-837.
Research on tumor gene selection system based on data processing
Tian Zijun, Cui Xinyu
(Computer and Ιnformation Engineering School of Henan Normal University, Xinxiang 453007, China)
Ιn recent years, w ith the increasing number of people who go to tumor hospitals, the extraction of characteristic genes has become a hot topic in domestic and foreign scholars. The research results have also provided great convenience for the diagnosis and prediction of clinical cancers. However, the gene expression data has the characteristics of high dimension, less sample, complex and diverse, it is the most important challenge to accurately dig the tumor information gene contained in gene data. Ιn this paper, the selection of tumor gene data selection system was developed in Matlab2010b programm ing environment, and the advantages of improved signal-tonoise ratio and support vector machine regression feature elim ination (SVM-RFE) gene selection method are also introduced. This system has a good effect on screening out the characteristic genes that are beneficial to the classification.
characteristic gene; system development; improved signal to noise ratio
河南师范大学大学生创新创业训练计划校级立项项目;项目编号:20150016。
田梓君(1995— ),女,黑龙江哈尔滨,本科。