基于信息论的优化降噪方法研究

2015-05-04 09:16刘飞宝鸡文理学院物理与信息技术系陕西宝鸡721016
电气自动化 2015年5期
关键词:信息论互信息变量

刘飞(宝鸡文理学院 物理与信息技术系,陕西 宝鸡 721016)

基于信息论的优化降噪方法研究

刘飞
(宝鸡文理学院 物理与信息技术系,陕西 宝鸡 721016)

复杂网络的重构可以挖掘出网络节点之间潜在的调控关系,帮助我们更深刻地理解网络节点间复杂的作用机制,因此产生了很多网络构建的模拟理论和计算方法。由于数据的高维低样本特性以及数据固有的噪声,这些方法在构建网络时会有很高的假阳性率。为了克服这个缺点一种新的方法被提出,方法结合了互信息理论和常微分方程来优化降噪。网络中相关性较小的边可以通过信息论的方法来检测滤除,而一些冗余的边信息可以通过微分方程优化降噪来筛除,从而进一步提高网络构建的精度。算法通过DREAM(Dialogue for Reverse Engineering Assessments and Methods)实验数据集来仿真验证,结果显示算法在复杂网络构建过程中有较高的准确率及较低的假阳性。

复杂网络;网络构建;信息论;逐步优化;降噪

0 引 言

复杂网络的构建已经成为人们研究的热点领域,通过构建的网络可以系统地研究网络中节点之间的调配关系,为深入挖掘节点之间的复杂关系及作用机制提供理论模型。在网络的建模方面,国内外已经研究了大量的数学建模方法,如布尔代数模型理论方法[1-2]、偏微分方程模型[3]、贝叶斯网络模型[4-5]以及统计回归模型[6]等方法。在复杂网络构建的方法中,信息论的方法[7-8]可以识别网络节点变量之间的非线性相关性而被广泛采用。实验数据由于其成本问题而具有高维低样本特性,这成为了网络构建的难点所在,但信息论的方法对样本的个数要求很低,所以信息论的方法在构建网络模型有较高的性能。

尽管信息论方法在构建网络模型中有很多优点,但由于其计算出来用于构建网络的互信息矩阵具有对称性,所以无法判断网络中边的方向问题,而且计算出来的网络规模相对较大,有很多冗余的边,使得构建的网络假阳性率较高。为了克服这个缺点,本文提出了一种基于信息论的微分方程优化降噪方法,来降低网络的假阳性,提高网络构建的精度,算法的流程图如图1所示。该方法首先对实验产生的数据用信息论的方法来计算节点之间的相关性,从而构建出网络,对于网络中冗余的边用基于微分方程的优化方法来去除降噪,从而去除假阳性和假阴性的边。通过DREAM[9]竞赛的标准网络数据来对方法进行测试,实验结果表明我们构建出的网络具有较高的性能和精度。

图1 算法流程图

1 理论方法

1.1 信息论

基于信息论的互信息已经广泛应用于网络的重构,而且取得了较好的效果。它是衡量两个变量X和Y之间的相关性,现给定一个变量X,它的信息熵H(X)描述如下:

(1)

其中p(x)表示变量X为x时的概率值,变量X和Y的联合熵H(X,Y)可以被定义为:

(2)

其中p(x,y)表示变量X和Y分别为x和y时的联合概率值,变量X和Y的互信息值I(X,Y)定义如下:

(3)

由公式(2)和(3) 互信息值I(X,Y)被重写为:

I(X,Y)=H(X)+H(Y)-H(X,Y)

(4)

这里H(X,Y)表示变量X和Y的联合熵,互信息值的大小表示变量相互作用关系的强弱,当互信息值非常小或者接近于零时表示两个变量相互独立。条件互信息CMI的公式定义如下:

(5)

其中H(X,Y)表示变量X,Y和Z的联合熵,这里的熵用高斯核概率密度函数来估计[10],它的计算机公式如下:

P(Xi)=

(6)

(7)

由公式(7),互信息公式(4)被重写为:

(8)

同理,条件互信息公式(5)被重写为:

(9)

1.2 优化方法

网络节点间的调配关系可以用如下的线性模型来描述,其中y,X表示网络节点,β表示节点间相关系数:

yi=βiX,i=1,2,…,n

(10)

β可以用最小化预测值和观察值的差来估计,即如下公式,λ是调节网络规模大小的非负参数:

(11)

公式(10)可以写成如下线性规划模型:

(12)

对于公式(11),可以用线性规划模型的标准解法来求解[11]。

2 分析讨论

2.1 网络性能评价标准

网络预测的结果用真阳性(True Positive, TP),假阳性(False Positiv,简称FP),真阴性(True Negative,简称TN),假阴性(Flase Negative,简称FN)等指标来衡量,本文用真阳性率(True Positive Rate,简称TPR),假阳性率(Flase Positive Rate,简称FPR),查准率(Positive Predictive Value,简称PPV)和精确度(Accuracy,简称ACC)来对构建的网络进行检测,公式定义如下:

TTPR=TTP/(TTP+FN)

FFPR=FP/(FP+TN)

PPPV=TTP/(TTP+FP)

AACC=(TTP+TN)/(TTP+FP+TN+FN)

除了上述指标外还有受试者工作特性曲线 (Receiver Operation Characteristic Curve, ROC曲线)和其曲线下的面积 (Area under ROC, AUROC)来衡量构建算法的优劣性。

2.2 网络构建仿真分析

图2 标准网络

图3 构建网络

图4 构建网络ROC曲线图

标准的实验数据集可以检测网络构建算法的精确性,研究的网络构建算法对这些实验数据进行网络构建,然后和实验数据集潜在的真实网络进行比对,从而验证算法的优略性。在本文中采用的DREAM竞赛数据来对算法进行检测评估。这里选取了DREAM3的一个子网络对应的数据进行实验仿真,真实网络含有10顶点,10条作用边,如图2所示为网络的真实关系图。

图3是按照算法,在互信息理论构建出来的网络基础上,再采用基于微分方程优化降噪后得出的最终网络。从图中可以看出方法构建的网络可以预测出大部分真实网络,算法准确无误地预测出8条边,仅遗漏掉了6—4、4—9两条边,有3条冗余的边。表1给出了算法优化前后构建网络的各种指标性能评价,从表中可以看出算法优化降噪前,网络有较高的真阳率90%,同样假阳率也较高为18.8%,能反映网络整体性能的精确度指标为82.2%;而经过算法优化降噪后网络的假阳率降低至3.7%,网络的精确度高达94.4%,可见逐步优化降噪的方法可以提高网络构建的准确率和精度。为了进一步说明算法的性能,给出了网络构建的ROC曲线如图4所示,反映网络构建综合性能指标AUROC的值达到0.908。综上所述,各种性能指标反映了基于信息论的优化降噪方法在网络构建中有很好的性能。

表1 构建网络ROC曲线图

文中提出的基于信息论的微分方程优化降噪方法对实验数据进行复杂网络构建,通过实验验证了其良好的性能,主要归因于以下特征。首先,信息论的方法在构建网络中滤除了一些噪声,使得后面的优化更为精确,这也是算法保持高效性能的关键步骤。其次,算法用信息论方法集合了网络节点数据间的线性和非线性关系,最后的微分方程优化模型检测了数据的线性成分,使得数据间的线性和非线性关系充分互补,提高算法性能。但方法也存在一些不足,一些数据间特殊的非线性三角函数关系,算法无法识别检测,这也是以后考虑的方向。

3 结束语

文中提出了一种基于信息论的优化降噪方法,该方法能够去除噪声和冗余来提高复杂网络构建的准确性。网络中相关性较小的边可以通过信息论的方法来检测滤除,而一些冗余的边信息可以通过微分方程优化降噪来筛除,从而进一步提高网络构建的精度。通过实验数据的模拟仿真,算法表现出良好的性能,网络的构建准确率和精度都非常高。实验各种性能参数指标都证明了算法设计的合理性和方法的有效性。

[ 1 ] GIACOMANTONIO C E, GOODHILL G J. A Boolean model of the gene regulatory network underlying Mammalian cortical area development[J]. PLoS computational biology, 2010, 6(9): e1000936.

[ 2 ] HERRMANN F, GRO B A, ZHOU D, et al. A boolean model of the cardiac gene regulatory network determining first and second heart field identity[J]. PloS one, 2012, 7(10): e46798.

[ 3 ] NOMAN N,PALAFOX L, IBA H. Inferring genetic networks with a recurrent neural network model using differential evolution[M]. Springer Handbook of Bio-/Neuroinformatics. Springer Berlin Heidelberg, 2014.

[ 4 ] WATANABE Y,SENO S, TAKENAKA Y, et al. An estimation method for inference of gene regulatory net-work using Bayesian network with uniting of partial problems[J]. BMC genomics, 2012, 13(Suppl1): S12.

[ 5 ] YOUNG W C, RAFTERY A E, YEUNG K Y. Fast bayesian inference for gene regulatory networks using scanBMA[J]. BMC Systems Biology, 2014, 8(1): 47.

[ 6 ] TIBSHIRANI R. Regression shrinkage and selection via the lasso[J]. Journal of the Royal Statistical Society:Series B (Statistical Methodology), 1996: 267-288.

[ 7 ] FAITH J J,HAYETE B, THADEN J T, et al. Large-scale mapping and validation of Escherichia coli transcriptional regulation from a compendium of expression profiles[J]. PLoS biology, 2007, 5(1): e8.

[ 8 ] ZHANG X, ZHAO X M, HE K, et al. Inferring gene regulatory networks from gene expression data by path consistency algorithm based on conditional mutual information[J]. Bioinformatics, 2012, 28(1): 98-104.

[ 9 ] MARBACH D, PRILL R J, SCHAFFTER T, et al. Revealing strengths and weaknesses of methods for gene network inference[J]. Proceedings of the National Academy of Sciences, 2010, 107(14): 6286-6291.

[10] BASSO K,MARGOLIN A A, STOLOVITZKY G, et al. Reverse engineering of regulatory networks in human B cells[J]. Nature genetics, 2005, 37(4): 382-390.

[11] WANG R, JIN G, ZHANG X, et al.Modeling post-transcriptional regulation activity of small non-coding RNAs in Escherichia coli[J]. BMC Bioinformatics, 2009, 10:S6.

A Research on Optimal Noise Reduction Methods Based on Information Theory

LIU Fei
(Department of Physics and Information Technology,Baoji University of Arts and Sciences,Baoji Shaanxi 721016, China)

Reconstruction of complex networks can disclose the potential control relationship among network nodes and help us better understand the complex regulatory mechanisms among them. Thus, lots of theoretical and computational approaches have been introduced for network construction. Due to the high-dimensional low-sample characteristics of data and the noise inherited in it, however, these approaches have a high false positive rate during network construction. To overcome this disadvantage, this paper presents a new method, which combines mutual information theory and ordinary differential equation to optimize noise reduction. Edges with low correlation in the network can be detected and removed in the methods based on the information theory, while redundant edge information can be screened out through noise reduction optimization realized by differential equation, so that the accuracy of network construction may be further improved. The algorithm is verified through simulation of DREAM (Dialogue for Reverse Engineering Assessments and Methods). The results indicate that our algorithm has a quite high accuracy and low false positive rate in the course of construction of complex networks.

complex network; network construction; information theory; progressive optimization; noise reduction

宝鸡市科技计划项目资助(2013R5-5,15Rkx-1-5-18)

10.3969/j.issn.1000-3886.2015.05.009

TP391

A

1000-3886(2015)05-0025-02

刘飞,男(1981-),陕西榆林人,硕士,讲师,主要研究方向为复杂网络和数据挖掘。

定稿日期: 2014-10-13

猜你喜欢
信息论互信息变量
抓住不变量解题
也谈分离变量
基于超像素和信息论的SAR图像目标检测研究
基于改进互信息和邻接熵的微博新词发现方法
信息价值率在产品质量检测中的应用
基于互信息的贝叶斯网络结构学习
联合互信息水下目标特征选择算法
微生物二元网络作用关系研究
基于增量式互信息的图像快速匹配方法
分离变量法:常见的通性通法