张 玲,伍亚舟,陈 军,易 东
(第三军医大学:1.卫生统计学教研室;2.健康教育与医学人文教研室,重庆400038)
基因表达芯片具备大规模、高通量的特点,可以获得样品中大量基因序列和表达信息(数据),根据基因表达数据进行肿瘤诊断是当今生物信息学领域中的一个重要研究方向。利用这些基因表达数据(如癌症数据),可以建立有效的分类模型,实现对肿瘤样本与正常组织的正确分类;也可以找出决定样本类别的一组特征信息,加快疾病的诊断和对应药物研究。
目前主要采用聚类分析[1-2]和遗传算法[3]等方法对基因表达数据进行分类。但是,在基因表达谱数据分析过程中,由于微阵列表达数据具有样本少、维数高(基因数量巨大)、非线性等特点,使得有意义的基因表达信息被大量的噪声所淹没,且基因表达信号具有非常复杂的特性,利用各种统计方法对差异基因进行识别会产生大量的假阳性结果,建立分类模型则由于其中含有大量对分类不起作用的基因使其效能降低,其主要瓶颈集中在有效特征的选取以及对属于不同种类的样本进行正确诊断方面,而特征提取的质量和分类方法的优劣将会直接影响分类的效果。本文从信号处理的角度出发,利用多尺度理论[4-5]对白血病实验样本的基因表达数据进行处理和分析,具体采用小波多分辨率分析(multi-resolution analysis,M RA)方法[6]进行不同层次的特征提取,随后利用前馈式神经网络(Back-propagation neural network,BP神经网络)方法进行识别分类,以正确区分不同的样本。
本研究的数据集来自于Golub等[7]人进行的白血病实验样本,总共 72个样本,其中 47个为急性淋巴细胞白血病(ALL)样本,25个为急性髓性白血病(AML)样本,每个样本包含有7 129个基因。该实验结果表明,对于属于不同种类的样本中的基因表达数据,其表达强度不一致(即存在差异),通过数据处理方法提取对分类有影响的特征,以达到区分这两类样本疾病的目的。
基于DNA微阵列的芯片可以在同一时间点上或同一样本下提供大规模的基因表达数据,从信号的角度来看,基因表达数据也可以被视为一个信号集[8]。利用多尺度理论中的MRA方法进行去噪和提取特征,随后利用BP神经网络方法来识别这些特征,以便正确区分ALL和AM L样本。
2.1 小波多分辨率提取基因表达特征 小波分析是近年来发展起来的一种新的时频分析方法,它能以不同的时间和频率分辨率分析信号,使得它具有多分辨率分析的特点,即在低频部分具有较高的频率分辨率和较低的时间分辨率,在高频部分具有较高的时间分辨率和较低的频率分辨率。正是这种特性,使得小波变换具有对信号的自适应性,而且小波分析并非是对单个点或单个频率进行处理的过程,因而具有很强的抑制噪声的能力。小波多尺度理论可以参考文献资料[4-6]。
小波变换系数(或部分系数)能反映信号在时域及频域的局部信息,各个小波系数实际上是信号时间-尺度(时频)特征的一种表现;且它们比较完备地描述了信号的主要特征,是特征表示的基础,这些系数可以重构出信号(表达),因此可以考虑将小波系数作为表达(信号)的特征。
本研究利用小波变换和多分辨率分析方法,分别选择3种小波函数bio3.3、db5和 sym4,并且在分解层数为 6、7、8和9情况下进行对基因表达数据处理和提取表达的特征,提取特征记为:FALL={F1,F2,……F47},FAML{F1,F2,……F225},从上述提取的特征中,采用随机抽取的方法分别构建训练集和测试集的特征向量:F训练={FALL,FAML},F测试={FALL,FAML}。由于白血病数据集的原始基因表达数据大小不一,范围相差大,导致运算复杂,训练时间长,处理结果不佳,所以在训练分类前,对提取的特征首先进行标准化,将所有的数据转换到一个范围内,便于数据的处理。标准化函数采用M ATLAB7.0软件自带的内部函数premnmx()完成。
2.2 BP神经网络方法分类特征 对于提取后的特征分类,目前有很多种方法,而神经网络以其强大的非线性映射能力,在模式识别领域得到了广泛的应用;本研究属于典型的二分类问题,这里采取BP神经网络进行识别分类。具体识别分类时,采用newff()函数创建一个前向BP网络,输入层神经元个数随着分解层数的改变而变化,隐含层传递函数为tansig,输出层传递函数采用logsig,训练函数为traingscg,学习函数为learngdm,输出值范围为(0,1);以 0.5为临界值,小于 0.5判别为ALL样本,大于或等于0.5判别为AM L样本;当平均误差率小于0.0001,训练停止。上述提取特征和识别分类的具体算法程序均采用Matlab7.0软件编写、调试和运行处理。
小波函数选择sym4时的M RA的图示结果,见图1(其他小波函数的结果略)。每幅图片的上面部分是原始基因的表达分布,中间部分是经过去噪后的表达,下面部分是提取的特征系数。从图上发现,随着分解层数的增加,提取的特征系数逐渐减少,每种情况下的特征数目相对于原始的表达数目减少了很多,而且这些表达特征系数主要反映了原始基因的表达变化情况,因此可以被用来进行特征的有效分类。
图1 基因表达数据的多分辨率分析结果(小波函数sym4)
采用BP神经网络对提取的特征进行分类,样本划分法将白血病数据集随机化平均分为两大类,其中一半为训练集样本36个(ALL25个、AML11个),剩余的另一半为测试集样本 36个(ALL22个、AML14个),使用样本错判的个数作为判别效果的评价标准。为了检验分类效果的稳定性,每种情况均进行10次训练和测试,分类结果见表 1。
由表1结果发现,3种小波函数分别在4种分解层数情况下,分类效果均比较理想,平均都达到84%以上。从它们相互比较的结果分析发现,当选择不同的小波函数时,得到的结果有所不同,小波函数 sym4的分类效果最好,平均达到91.18%,小波函数bio3.3的分类效果次之,平均达到89.79%,而小波函数db5的分类结果稍差;另一方面,从提取特征数目的多少来看,在分解层数为8(特征数目为229,小波函数sym4)时得到的结果最好,平均达到94.72%。
表1 不同小波函数和分解层数下ALL和AML样本的BP分类结果(%)
目前,针对基因表达数据研究的方法虽然很多,但能够对样本完全分类正确的并不太理想,其中一个重要的原因就是被识别分类的特征不是很明显。本研究针对ALL和AM L样本数据集,采用多尺度特征提取研究方法,不仅能很好地起到降低维数作用,而且还能有效地提取表达的特征,在多次训练和测试运行的基础上,BP神经网络方法的分类效果比较理想,说明该特征提取和分类算法效率高、运算速度快、耗时短。但小波函数的选择,对于分类的效果也有一定的影响。当分解层数越小时,即提取的特征越多时,包含对分类有促进作用的信息的机会也越多,但同时在该特征信息中也增加了那些影响分类的无效信息,因此选择合适的特征数,对于样本识别分类效果的准确性、稳定性、收效性都有着较大的影响。从上述结果的比较发现,当提取的特征包含了充分有效基因信息的同时,也避免分类无效基因信息的干扰,从而达到最优的分类效果;并且还保证了算法运输的耗时最短,即训练和测试时很快达到收效效果。
另外,识别分类方法对分类正确率也会有较大的影响。BP神经网络方法克服了传统分类方法(如主成分分析等)的一些不足,解决了基因芯片存在样本少、维数高、非线性等问题,使得分类效果更加理想,最大的平均分类率达到94.72%。同时,网络参数的选择和设计优化效果对于分类正确率也有着较大的影响,比如各层神经元个数的确定(特别是隐含层神经元个数的确定),传递函数的选择,训练函数的选择和学习函数的选择等;而且从实际数据的处理分析中发现,该方法在分类效果的收敛性方面还需要改善。因此,在下一步的研究中将进一步探讨基因表达特征的分类方法。
总之,本研究将小波分析融入基因表达数据处理是一种重要的思想,其本质是通过对基因表达数据功能的重排列,利用多尺度或多分辨率算法对数据作适当的变换和分解,去除对分类造成干扰的噪声,降低数据的不确定性和复杂性,提取基因或样本在不同尺度上或不同层次方面的分类特征,改善特征识别的正确分类率,提高应用数值分类技术寻找复杂致病基因的效果,以便建立相应的数据分析技术平台,从而为生物信息学实验提供重要的信息,进一步丰富生物信息学的内容。本文所提供的方法能够把属于不同种类的疾病进行正确区分,对于疾病的诊断以及确定正确的治疗方案具有重大意义,更为重要的是本研究中利用小波多尺度技术研究基因表达数据也是生物信息学方法研究上一次有益的尝试,值得进一步探索研究。
[1]Eisen MB,Spellman PT,Brown PO,et al.Cluster analysis and display of genome-wide expression patterns[J].Proc Natl Acad Sci USA,1998,95(25):14863.
[2]Seal S,Komarina S,Aluru S.An optimal hierarchical clustering algorithm for gene expression data[J].Inform Proc lett,2005,93(3):143.
[3]孟范静,刘毅慧,王洪国,等.遗传优化算法在基因数据分类中的应用[J].生物信息学,2008,6(20):119.
[4]Chen XF,He ZJ,Xiang JW,et al.A dynamic multi-scale lifting computation method using Daubechies wavelet[J].J Comput Appl Math,2006,188(2):228.
[5]罗万春,陈军,伍亚舟,等.基于小波多尺度的人类胚胎期大脑皮层基因表达分析[J].重庆医学,2009,38(12):1462.
[6]胡昌华,张军波,夏军,等.基于M ATLAB的系统分析与设计——小波分析[M].西安电子科技大学出版社,1999.
[7]Golub T R,Slonim DK,Tamayo P,et al.M olecular classification of cancer class discovery and class prediction by gene expression monitoring[J].Science,1999,286:531.
[8]闫晓光,游顶云,李康.基因表达数据与小波变换分析的思想与方法[C]//2007年中国卫生统计学大会.2007年中国卫生统计学术大会论文集,西安,2007.