一种基于改进通用梳状滤波器的基因预测算法

2014-12-02 19:24贾艳玲马玉韬刘思远唐晓芬
湖北农业科学 2014年19期

贾艳玲+马玉韬+刘思远+唐晓芬

摘要:针对IIR滤波器在设计和使用中存在系统稳定性和群延迟造成输出滞后的问题,以通用梳状滤波器为例提出了适用于IIR NPBF的改进预测算法。在HMR195序列集上的预测结果表明,所提算法能有效提高编码区预测准确率。

关键词:窄通带滤波器;蛋白质编码区预测;无限脉冲响应滤波器;群延迟

中图分类号:Q751;TN713 文献标识码:A 文章编号:0439-8114(2014)19-4712-04

DOI:10.14088/j.cnki.issn0439-8114.2014.19.054

A Gene Prediction Algorithm Based on Improving General Comb Filter

JIA Yan-Linga, MA Yu-Taoa, LIU Si-Yuanb, TANG Xiao-Fenc

(a. School of Physics & Electrical Information Engineering /Ningxia Key Laboratory of Information Sensing &Intelligent Desert;

b. Department of Development Planning and Discipline Construction;

c. School of Mathematics and Computer Science, Ningxia University, Yinchuan 750021,China)

Abstract: Pinpointing the problemd of the system stability and group delay resulting output lagging of the design and use of the IIR filter and using eneral comb filter as an example, an improved algorithm suitable for IIR NPBF was constructed. The prediction results of the data set HMR195 showed that the algorithm proposed could improve the prediction accuracy of measuring AC (approximate correlation).

Key words: narrow pass-band filter; protein coding regions prediction; infinite impulse response filter; group delay

对刚完成测序的DNA序列进行蛋白质编码区预测是基因组序列注释的重要阶段,预测准确性越高,注释工作越容易。由于算法简单且运算量相对较少,近年来多种方法设计的数字滤波器广泛用于蛋白质编码区(简称编码区或外显子)预测研究中。这些设计的数字滤波器能保留具有三碱基周期性(Triplet Bases Periodicity,TBP)的蛋白质编码信号,同时滤除或抑制各种噪声,因而以不同的数字滤波器为核心分别形成了与之对应的基因预测算法[1-6]。由于DNA序列的编码区具有TBP,而内含子(简称非编码区)和基因间隔区一般不具有此特性,采用可使具有TBP信号通过而滤除其他信号的IIR或FIR滤波器,就可保留编码区信号而滤除非编码区信号[1,6-9]。Vaidyanathan等[1,2]提出采用IIR(Infinite Impulse Response)ANF(anti-notch filter),以及采用 IIR MSF(multi-stage filter)用于基因预测,Meher等[4]提出GCF(general comb filter)和CDCF(cascaded differentiator comb filter)的设计。马玉韬等[5,6]分别给出了FIR(Finite Impulse Response)FSNPBF(frequency sampling narrow pass-band filter)、WNPBF (windowed narrow pass-band filter)和APNPBF(all-phase NPBF)的设计方法,并将其用于基因预测。Mena-Chalco等[7]采用MGWT(modified Gabor wave

let transform)算法提供了HMR185、BG570和Asp67序列集上的碱基层的预测结果。

尽管预测算法性能越来越高效,准确率也越来越高,但仍存在改进的空间。此文提出的MGCF (modified GCF)算法对基于GCF的基因预测算法做了如下改进:一方面,研究了系统极点参数对预测结果的影响;另一方面采用FIR NPBF算法的思想,先以序列边界为对称中心,对称地延拓滤波器的输入序列,然后舍弃滤波器输出序列的起始部分。这样做既可以保证系统的稳定性,又改善了由于滤波器群延迟带来的滤波器输出与输入序列相比存在的滞后效应。在标准序列F56F11.4和HMR195序列集上获得的预测结果表明, MGCF算法预测结果优于GCF算法。

1 GCF算法的改进

1.1 GCF极点参数的改进

根据Meher等[4]的研究,用于编码区预测的GCF的系统函数为:

H(z)=■=■ (1)

本研究提出的MGCF的系统函数为:

H(z)=(■)3 (2)

式(1)中,常数C=3用于滤除其他信号同时使蛋白质编码信号能够通过;常数R是惟一可调参数,其值大小与系统零极点的位置相关联。试验结果表明, 用于编码区预测时,MGCF算法中R=0.980性能优于GCF算法中R=0.992(Vaidyanathan和Meher采用的参数)时性能。图1给出了GCF和MGCF的频率响应曲线。由图1可以看出,GCF的选频特性要好于MGCF,但由于系统极点过于靠近单位圆,造成系统的稳定性不够好。

1.2 GCF群延迟和DNA序列延拓处理

在FIR NPBF预测算法中,脉冲响应长度为L=N的线性相位FIR滤波器的群延迟为[10]:

τ=(N-1)/2 (3)

输入滤波器的序列(信号)可按长度(N-1)/2在信号的首尾两端做对称延拓处理,经延拓处理的序列通过滤波器后,舍弃序列最初的N-1个输出样本,剩下的序列则与输入序列在时域对齐,这样可以减小甚至去除滤波器群延迟影响。

类似于FIR滤波器,将IIR GCF和MGCF应用于基因预测中时,也需要考虑群延迟带来的问题。一般来说,IIR滤波器的相位函数是非线性的,即IIR GCF和MGCF的频率响应为:

H(ejw)=H(z)|■=|H(ejw)|·ej?渍(w) (4)

从式(4)可以看出,IIR GCF和MGCF的相位函数是群延迟的非线性函数,即滤波器的输出和输入之间的延时不是一个固定的常数,而是伴随信号频率发生变化。由于用于基因预测的IIR滤波器通带相对较窄,理想情况只有周期为3的信号能通过,所以取通带中心处的群延迟作为延拓处理的长度参数,对GCF和MGCF的输入输出序列做类似FIR NPBF算法中的延拓截取处理,能够改善群延迟对预测结果的影响[5]。

2 基因预测试验材料和MGCF算法

2.1 试验材料

采用基因序列F56F11.4, DNA序列集HMR195[11]和ALLSEQ[12]来验证提出的MGCF算法。基因序列F56F11.4是各种算法进行比较时普遍采用的标准序列(在染色体中排列的碱基号从7 021~15 080,编号AF099922)[1-9]。表1给出了HMR195和ALLSEQ这两个DNA测试序列集的详细信息。

2.2 MGCF算法

MGCF算法主要包括以下步骤:①先将DNA序列以τ长度在首尾两端对称扩展,然后采用Voss法将扩展的序列映射成数值序列(信号);②使用GCF或MGCF对前一步得到的数值信号进行滤波,滤除非周期3信号;③舍弃最先输出的长度为2τ的输出序列,计算滤波器的四路输出序列(信号)的功率谱密度PSD(power spectral density)并按式(5)累加[1];④对PSD曲线按式(6)进行滑动平均滤波;⑤用非编码率作为阈值对DNA序列进行分类,确定DNA序列中的编码区和非编码区[7];⑥评估算法性能。

PSD[n]=■■|yt[n]|2,l=A,T,C,G;n=1,…,L(5)

PSDma[n]=■■PSD(n-i) (6)

根据已有的研究,在较大的DNA序列集上,映射方法采用Voss法比PN(Paired Numeric)法获得的预测准确率更高,因此本文采用Voss映射方法。采用预测非编码率作为阈值来确定具体序列的功率谱密度值(例如,阈值选为84,意味着DNA序列的16%被预测为编码区),用以区分预测的编码区和非编码区[7],预测编码区的功率谱密度值应高于其它区域的值。参数Nma为滑动平均滤波器的长度。

2.3 性能评价

为了分析和对比GCF算法和MGCF算法的预测准确率,用由式(7)至式(11)分别定义的近似相关系数AC(Approximate Correlation)、相关系数CC(Correlation Coefficient)、敏感度Sn(Sensitivity)和特异度Sp(Specificity)等来评估算法对编码区的识别性能[11]。其中AC、CC的值是包含在数据集中的所有序列的均值,Sn表示某个序列或数据集的平均敏感度;ACH是敏感度和特异度之和的一半;FPR是FPR(False Positive Rate)的均值。同时也采用ROC(Receiver Operation Characteristic) 曲线和ROC曲线的AUC(Area Under the ROC Curve)来评估算法性能[7]。

Sn=■,Sp=■, (7)

ACP=■■+■+■+■,(8)

AC=(ACP-0.5)×2,(9)

CC=■,(10)

FPR=1-Sp=■ (11)

(7)式至(11)式中TP、TN、FP和FN分别代表正确预测编码碱基数目、正确预测非编码碱基数目、错误预测编码碱基数目和错误预测非编码碱基数目。

3 结果与分析

3.1 序列F56F11.4试验

在序列F56F11.4上的试验首先比较研究了GCF和MGCF两种滤波器参数R的取值与预测准确率AC之间的关系,然后比较研究了它们的ROC曲线特点。图2a和图2b分别给出了GCF和MGCF对F56F11.4的预测结果。

由图2a和2b可以看出,MGCF预测算法明显改善了滤波器群延迟造成的预测编码区和真实编码区之间的时域延迟影响,而且预测结果中没有伪外显子;图2c给出的是滤波器设计参数R和预测准确率AC之间的关系曲线,该曲线说明,GCF在与MGCF分别在R值为0.976和0.980附近获得最高的预测准确率,这两个R值都小于Vaidyanathan 和Meher使用的0.992;图2d给出的是GCF和MGCF两种滤波器预测结果的ROC曲线,从曲线可以看出MGCF算法的性能明显高于GCF算法。

表2分别列出了MGCF算法和GCF算法性能评价指标。由表2可以看出,MGCF算法的FPR小于GCF算法的FPR;MGCF算法的Sn大于GCF算法的Sn;MGCF算法在最好预测准确率处对应的PNCB值与真实的84更接近。这些都表明在序列F56F11.4上,相比GCF算法,MGCF算法以较低的代价获得了较高的预测准确性。

3.2 序列集试验

为了充分验证MGCF算法的性能,对序列集HMR195的编码区进行了预测,预测结果见表3。从表3可以看出,除了FPR值,MGCF算法的AC、CC、ACH和Sn 4个参数的值均大于GCF算法相应参数值。同序列F56F11.4上试验结果类似,FPR值越小,算法预测性能越好;AC、CC、ACH和Sn的值越大,算法预测结果准确率越高。

4 小结

提出了一种基于改进通用梳状滤波器的基因预测算法。从系统稳定性方面研究改进了系统的极点参数选择;采用线性相位FIR NPBF算法,将IIR滤波器的非线性相位做了线性近似,使得NPBF编码区预测算法可以不受滤波器相位函数的约束,扩大了应用范围;所提新算法对编码区预测的准确率大幅提高。该算法可作为改善IIR滤波器性能的一种有效参考。

参考文献:

[1] VAIDYANATHAN P P,YOON B J. Digital filters for gene prediction applications[C]. IEEE Asilomar Conference on Signals, Systems and Computers. Monterey, CA: IEEE Processing Society, 2002. 306-310.

[2] VAIDYANATHAN P P,YOON B J. Gene and exon prediction using allpass-based filters[C]. IEEE Workshop Genomic Signal Processing and Statistics. Raleigh, NC, 2002.

[3] 马宝山,朱义胜.一种用于基因预测的FIR数字滤波器[J].电子学报,2007,35(9):1710-1713.

[4] MEHER J, MEHER P K, Dash G. Improved comb filter based approach for effective prediction of protein coding regions in DNA sequences[J]. Journal of Signal and Information Processing, 2011,2: 88-99.

[5] 马玉韬,车 进,关 欣,等.加窗窄通带滤波器蛋白质编码区预测算法[J].数据采集与处理,2013,28(2):129-135.

[6] 马玉韬,轩秀巍,车 进,等.基于全相位滤波理论的基因预测研究[J].上海交通大学学报,2013,47(7):1149-1154.

[7] Mena-Chalco J P,CARRER H, ZANA Y,et al. Identification of protein coding regions using the modified Gabor-wavelet transform[J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2008,5: 198-206.

[8] AKHTAR M. Comparison of gene and exon prediction techniques for detection of short coding regions[J]. International Journal of Information Technology, 2005,11(8):26-35.

[9] AKHTAR M, EPPS J, Ambikairajah E. Signal processing in sequence analysis: advances in Eukaryotic gene prediction[J]. IEEE Journal of Selected Topics in Singal Processing, 2008,2(3):310-321.

[10] MITRA S K. Digital signal processing: A computer-based approach[M]. 2 edition. New York: McGraw-Hill, 2001.

[11] BURSET M, GUIGO R. Evaluation of gene structure prediction programs[J]. Genomics, 1996,34:353-367.

[12] ROGIC S, MACKWORTH A K, OUELLETTE B F. Evaluation of Gene-Finding Programs on Mammalian Sequences[J]. Genome Research, 2001,11:817-832.

为了充分验证MGCF算法的性能,对序列集HMR195的编码区进行了预测,预测结果见表3。从表3可以看出,除了FPR值,MGCF算法的AC、CC、ACH和Sn 4个参数的值均大于GCF算法相应参数值。同序列F56F11.4上试验结果类似,FPR值越小,算法预测性能越好;AC、CC、ACH和Sn的值越大,算法预测结果准确率越高。

4 小结

提出了一种基于改进通用梳状滤波器的基因预测算法。从系统稳定性方面研究改进了系统的极点参数选择;采用线性相位FIR NPBF算法,将IIR滤波器的非线性相位做了线性近似,使得NPBF编码区预测算法可以不受滤波器相位函数的约束,扩大了应用范围;所提新算法对编码区预测的准确率大幅提高。该算法可作为改善IIR滤波器性能的一种有效参考。

参考文献:

[1] VAIDYANATHAN P P,YOON B J. Digital filters for gene prediction applications[C]. IEEE Asilomar Conference on Signals, Systems and Computers. Monterey, CA: IEEE Processing Society, 2002. 306-310.

[2] VAIDYANATHAN P P,YOON B J. Gene and exon prediction using allpass-based filters[C]. IEEE Workshop Genomic Signal Processing and Statistics. Raleigh, NC, 2002.

[3] 马宝山,朱义胜.一种用于基因预测的FIR数字滤波器[J].电子学报,2007,35(9):1710-1713.

[4] MEHER J, MEHER P K, Dash G. Improved comb filter based approach for effective prediction of protein coding regions in DNA sequences[J]. Journal of Signal and Information Processing, 2011,2: 88-99.

[5] 马玉韬,车 进,关 欣,等.加窗窄通带滤波器蛋白质编码区预测算法[J].数据采集与处理,2013,28(2):129-135.

[6] 马玉韬,轩秀巍,车 进,等.基于全相位滤波理论的基因预测研究[J].上海交通大学学报,2013,47(7):1149-1154.

[7] Mena-Chalco J P,CARRER H, ZANA Y,et al. Identification of protein coding regions using the modified Gabor-wavelet transform[J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2008,5: 198-206.

[8] AKHTAR M. Comparison of gene and exon prediction techniques for detection of short coding regions[J]. International Journal of Information Technology, 2005,11(8):26-35.

[9] AKHTAR M, EPPS J, Ambikairajah E. Signal processing in sequence analysis: advances in Eukaryotic gene prediction[J]. IEEE Journal of Selected Topics in Singal Processing, 2008,2(3):310-321.

[10] MITRA S K. Digital signal processing: A computer-based approach[M]. 2 edition. New York: McGraw-Hill, 2001.

[11] BURSET M, GUIGO R. Evaluation of gene structure prediction programs[J]. Genomics, 1996,34:353-367.

[12] ROGIC S, MACKWORTH A K, OUELLETTE B F. Evaluation of Gene-Finding Programs on Mammalian Sequences[J]. Genome Research, 2001,11:817-832.

为了充分验证MGCF算法的性能,对序列集HMR195的编码区进行了预测,预测结果见表3。从表3可以看出,除了FPR值,MGCF算法的AC、CC、ACH和Sn 4个参数的值均大于GCF算法相应参数值。同序列F56F11.4上试验结果类似,FPR值越小,算法预测性能越好;AC、CC、ACH和Sn的值越大,算法预测结果准确率越高。

4 小结

提出了一种基于改进通用梳状滤波器的基因预测算法。从系统稳定性方面研究改进了系统的极点参数选择;采用线性相位FIR NPBF算法,将IIR滤波器的非线性相位做了线性近似,使得NPBF编码区预测算法可以不受滤波器相位函数的约束,扩大了应用范围;所提新算法对编码区预测的准确率大幅提高。该算法可作为改善IIR滤波器性能的一种有效参考。

参考文献:

[1] VAIDYANATHAN P P,YOON B J. Digital filters for gene prediction applications[C]. IEEE Asilomar Conference on Signals, Systems and Computers. Monterey, CA: IEEE Processing Society, 2002. 306-310.

[2] VAIDYANATHAN P P,YOON B J. Gene and exon prediction using allpass-based filters[C]. IEEE Workshop Genomic Signal Processing and Statistics. Raleigh, NC, 2002.

[3] 马宝山,朱义胜.一种用于基因预测的FIR数字滤波器[J].电子学报,2007,35(9):1710-1713.

[4] MEHER J, MEHER P K, Dash G. Improved comb filter based approach for effective prediction of protein coding regions in DNA sequences[J]. Journal of Signal and Information Processing, 2011,2: 88-99.

[5] 马玉韬,车 进,关 欣,等.加窗窄通带滤波器蛋白质编码区预测算法[J].数据采集与处理,2013,28(2):129-135.

[6] 马玉韬,轩秀巍,车 进,等.基于全相位滤波理论的基因预测研究[J].上海交通大学学报,2013,47(7):1149-1154.

[7] Mena-Chalco J P,CARRER H, ZANA Y,et al. Identification of protein coding regions using the modified Gabor-wavelet transform[J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2008,5: 198-206.

[8] AKHTAR M. Comparison of gene and exon prediction techniques for detection of short coding regions[J]. International Journal of Information Technology, 2005,11(8):26-35.

[9] AKHTAR M, EPPS J, Ambikairajah E. Signal processing in sequence analysis: advances in Eukaryotic gene prediction[J]. IEEE Journal of Selected Topics in Singal Processing, 2008,2(3):310-321.

[10] MITRA S K. Digital signal processing: A computer-based approach[M]. 2 edition. New York: McGraw-Hill, 2001.

[11] BURSET M, GUIGO R. Evaluation of gene structure prediction programs[J]. Genomics, 1996,34:353-367.

[12] ROGIC S, MACKWORTH A K, OUELLETTE B F. Evaluation of Gene-Finding Programs on Mammalian Sequences[J]. Genome Research, 2001,11:817-832.