结肠癌基因表达谱降噪算法研究

2015-02-26 06:54卢海红卢小杰
医学理论与实践 2015年14期
关键词:余弦小波结肠癌

卢海红 卢小杰

1 安徽省芜湖市鸠江区疾病预防控制中心 241000; 2 皖南医学院



结肠癌基因表达谱降噪算法研究

卢海红1卢小杰2

1安徽省芜湖市鸠江区疾病预防控制中心241000;2皖南医学院

癌症是威胁人类健康的几大元凶之一,利用传统的诊断方法诊断出癌症以后,常常癌症已经发展到中期甚至到晚期,对于治疗效果严重不理想[1]。随着基因表达谱技术的发展,癌症的诊断方法也逐步应用到基因表达谱,对癌症的诊断治疗也力争做到早发现、早治疗、能治愈。肿瘤基因表达谱成为临床医学上一种快捷有效的诊断技术[1]。

去除肿瘤基因表达谱中的噪声是非常重要的工作,对肿瘤基因表达谱的分析处理上往往不可避免的受到基因表达谱噪声的干扰,对含有噪声的基因表达谱提取信息时会造成结果出现偏差,影响诊断结果。本文针对目前已经公布的结肠癌基因表达谱进行降噪处理,可以看出能得到较好的结果,为基因表达谱的分类、提取、处理做了很好的前序工作[2]。本文介绍以下两种降噪方法:离散余弦算法和小波变换算法,这两种算法是针对基因表达谱中常用的降噪方法。

1离散余弦变换降噪法

离散余弦变换(DCT)是离散傅里叶变换(DFT)的另外一种方式,它是对实信号进行变换,频域中的信号也是实信号。DCT具有能量集中的特性,DCT也应用在声音和图像的压缩算法中。

一维DCT变换的数学表达式可用如下式子表示:

逆DCT变换如下:

经过离散余弦变换DCT之后主成分量的表达水平有了一定的提高,这说明经过离散余弦变换DCT之后,噪声的干扰减少。

DCT是把基因表达谱的样本数据分解成一系列的不同频率的余弦波叠加的过程,通过其系数达到降噪的目的,但是也丢掉了局部信息。对于时间序列信号,丢掉了局部的时间信息,也就是部分基因表达谱的数据信息,在尖锐点上的逼近效果较差,难以描述信号细节上的变换,在实际应用中造成一定的误差性,本文又进一步讨论了小波变换算法。

2小波阈值降噪法

小波阈值降噪法是在信号处理中常用的一种降噪方法,也可用在肿瘤基因表达谱的降噪处理上[3],它是基于小波变换的。

小波去噪的过程是通过把数据信息进行小波变换,把基因表达谱的信号分为低频和高频,低频部分显示了基因表达谱的信号特征,高频部分则表达了噪声和其他的干扰信息,从而可以滤掉高频部分来保留低频部分是基因表达谱的信息特征。

小波变换(Wavelet transformation)也是空间域到时间域上的变换,但是相对于以上的离散余弦变换有诸多优点,如:低熵性、去相关性、选基的灵活性和多分辨率性。因此,小波阈值降噪算法被广泛的应用于肿瘤基因表达谱的数据噪声处理中。

小波变换来源于信号的伸缩和平移,经过一系列的发展小波变换被广泛的应用在数据压缩、图像处理、油气预测等中,在数据降噪方面也普遍被很多学者青睐。

为了能够直观的说明小波降噪,以下给出对肿瘤基因表达谱进行小波降噪的结构图。见图1。小波变换的重要两点是选择小波基函数和阈值估计的方法。

图1 小波降噪结构图

2.1小波基函数的选择小波基函数是小波降噪首先要考虑的问题,其直接影响到降噪效果。小波基包含以下标准:正交性、对称性、紧支撑性、消失矩阵、正则性。这些标准对降噪效果产生不同的影响,但是不是所有的特性都可以达到最佳值,针对不同的基因表达谱选择不同的小波基,使之达到相对好的降噪效果[4]。

2.2阈值估计[5]在肿瘤基因表达谱上确定合适的阈值直接影响到降噪的最终结果,于是对阈值的估计也是非常重要的。阈值一般包括如下形式:软阈值、硬阈值、启发式阈值、极值阈值。软硬阈值的选择是在小波阈值降噪中常需要考虑的问题,本文在对matlab中的Heavisine 信号分别用软硬阈值函数进行去噪对比实验。见图2。

由上述结果可以看出对于Heavisine信号来说去噪效果并不明显,在对于结肠癌基因的阈值选取上也需要对软硬阈值进行优化,结合两者的特点对结肠癌基因对比,最终选择两者折中的去噪方法[6]。

a含噪的原始信号b软阈值小波去噪后的信号c硬阈值小波去噪后的信号

图2Heavisine 信号软硬阈值去噪对比

图3 小波降噪的步骤

3基因主成分

结肠癌基因主成分也是需要考虑的问题,本文中不做详细说明。由基因表达谱数据可以看出对于多维数据的处理常常使用降维运算。在降维过程中以及在进行基因图谱去噪以前需要进行主成分的提取。

信息数据的主分量分析[8](PCA)是在信号处理领域中一种重要特征统计方法。为此在对基因表达谱的数据挖掘中,常用支持向量机(SVM)分类器、K-近邻(KNN)分类器、径向基神经网络(RBFNN)分类器等分类方法对基因表达谱进行处理。本文只研究去噪算法,对此不做过多说明。

4实验验证

本文的实验平台是matlab7[9],使用生物信息工程中的函数库进行分析,MATLAB 7生物信息工具箱为基因表达谱数据的分析和处理提供了一个综合环境,通过众多统计函数和绘图函数的结合使用,过滤不合格的基因数据和噪声数据,从而对基因表达数据进行聚类分析和主成分分析,绘制相关的基因表达谱,完成基因芯片数据表达谱的分析,分析结果可视化程度高,图表清晰、直观[10]。

图4 降噪前基因表达水平

图5 降噪后基因表达水平

实验数据是用Affymetrix公司的结肠癌基因表达谱数据,原实验为点有65 000个寡聚核苷酸探针组成的基因芯片,其中包括40例结肠腺癌组织和22例正常结肠组织构成的样本集。本文选取的肿瘤基因表达谱数据Alon等筛选出来的2 000个基因表达谱数据进行分析,本文的数据是在http://microarray.princefon.edu/oncology/affydata/index.html 下载的结肠癌基因谱数据,并对数据进行分析处理。对结肠癌基因进行验证,选取结肠癌基因表达谱Has.2166和Has.318两种基因表达谱进行小波变换,经过小波变换后的降噪处理基因表达水平前、后对比如图4和图5所示。

5结论

对肿瘤基因表达谱存在的噪声问题是造成对基因表达谱数据分析结果误差的主要因素之一。本文研究的两种算法能够有效的解决这一问题,但是经过对比发现,小波降噪能更好的解决问题,这种降噪方式也常常被用在其他基因表达谱数据的预处理上面。通过实验验证发现,经过降噪处理后的基因表达谱能够取得很好的结果,去除了无效数据。

参考文献

[1]李颖新,李建更,阮晓刚.肿瘤基因表达谱分类特征基因选取问题及分析方法研究〔J〕.计算机学报,2006,29(2):324-330.

[2]李颖新,刘全金,阮晓钢.急性白血病的基因表达谱分析与亚型分类特征的鉴别〔J〕.中国生物医学工程学报,2005,24(2):240-244.

[3]何风华.小波分析在信号消噪中的应用〔J〕.兵工自动化,2002,21(6):22-24.

[4]刘淑霞,陈荣川,刘艳丽,等.卵巢肿块性质的超声指标 Fisher 判别分析〔J〕.中国医学影像技术,2010,26(4):737-740.

[5]Michael T Johnson,Xiaolong Yuan,Yao Ren.Speech Signal Enhancement Through Adaptive Wavelet Thresholding〔J〕.Speech Communication,2007,49(2):123-133.

[6]Donoho DL.De-noising by Soft-thresholding〔J〕.IEEE Trans Inform Theory,1995,41(3):613-627.

[7]张莲,秦华峰,余成波.基于小波阈值降噪算法的研究〔J〕.计算机工程与应用,2008,44(9):172-199.

[8]边肇祺,张学工.模式识别〔M〕.第2 版.北京:清华大学出版社,1999.

[9]飞思科技产品研发中心.小波分析理论与MATLAB R2007实现〔M〕.北京:电子工业出版社,2007:354-358.

[10]周伟.MATLAB小波分析高级技术〔M〕.西安:西安电子科技大学出版社,2006.

(编辑落落)

摘要目的:对肿瘤基因表达谱的分类和提取过程中大量的数据噪声进行研究。方法:在总结前人研究的基础上,本文研究了离散余弦变换和小波变换两种变换算法,且着重介绍了小波变换。结果:对结肠癌基因表达谱进行实验验证,实验结果表明降噪效果良好,并且有效的保留了主要分量。结论:生物医学信息方法结合数学算法能够很好的对肿瘤基因表达谱进行分析和处理。

关键词基因表达数据噪声DCT小波变换

Noise Reduction Algorithm of Gene Expression Profiles in Colon Cancer

LU Haihong*,LU Xiaojie.*JiujiangCenterforDiseaseControlandPrevention,WuhuCity,AnhuiProvince241000

ABSTRACTObjective:For cancer gene expression profile of the process of classification and extract data often have a lot of noise.Methods:On the basis of summarizing the predecessors’research, this paper studies the discrete cosine transform and wavelet transform algorithm.Results:Choosing experimental verification was carried out on the colon cancer gene expression profile, the experimental results show that the effect of de-noising is good, and keeping the main component.Conclusion:Biomedical Informatics method combines mathematical algorithm can analyze the gene expression profiles of tumors and treatment.

KEY WORDSGene expression data,Noise,DCT,Wavelet transformation

收稿日期2015-02-09

中图分类号:R735.3+5

文献标识码:A

文章编号:1001-7585(2015)14-1832-03

猜你喜欢
余弦小波结肠癌
基于多小波变换和奇异值分解的声发射信号降噪方法
构造Daubechies小波的一些注记
基于MATLAB的小波降噪研究
ESE-3在溃疡性结肠炎相关结肠癌中的意义
基于改进的G-SVS LMS 与冗余提升小波的滚动轴承故障诊断
两个含余弦函数的三角母不等式及其推论
实施正、余弦函数代换破解一类代数问题
腹腔镜下横结肠癌全结肠系膜切除术的临床应用
分数阶余弦变换的卷积定理
结肠癌切除术术后护理