王怡鸥, 丁刚毅, 刘天元, 刘来旸, 蒙军, 侯安琨
(北京理工大学 软件学院, 数字表演与仿真技术实验室, 北京 100081)
基于小世界无标度特征的回声状态小波网络
王怡鸥, 丁刚毅, 刘天元, 刘来旸, 蒙军, 侯安琨
(北京理工大学 软件学院, 数字表演与仿真技术实验室, 北京 100081)
针对储备池的适应性问题,提出了一种复合回声状态网络模型(CESN). CESN依据增量生长准则构建小世界无标度进化状态储备池,解除了储备池谱半径的限制. 同时,CESN将离散小波函数作为神经元的激活函数,用Symlets小波函数替代部分储备池神经元的S型函数,Symlets小波函数的伸缩和平移变换特征丰富了动态储备池的状态空间. 将CESN应用于一些非线性时间序列逼近问题中,即NARMA系统、Henon映射和二氧化碳浓度预测. 实验结果表明,在逼近高度复杂的非线性系统方面,CESN明显优于注入Symlets小波的经典回声状态网络(S-ESN)和具有高聚类系数的无标度回声状态网络(SHESN).
回声状态网络;小世界;无标度;小波函数;时间序列预测
递归神经网络(recurrent neural networks,RNNs)在理论上是一种理想的非线性时间序列预测模型,当满足某些假设条件的前提下,RNN能够以任意的精度逼近任何非线性系统. 然而,RNN算法的训练过程直接优化网络权值,存在收敛速度慢、计算代价大、训练效率低、易陷入局部最优值等缺点,因此无法取得令人满意的结果. 为了解决RNN中存在的这些问题,2001年,德国Bremen大学Jeager教授[1]提出一种新型的递归神经网络—回声状态网络(echo state network,ESN). ESN最具代表性的特征是“动态储备池”,拥有大量随机分布且稀疏连接的神经元. 在ESN训练过程中,储备池自身保持不变,只需通过简单的线性回归或在线方法(如递归最小二乘法)对输出连接权值矩阵进行计算. 因此,ESN极大地简化了RNN高度复杂的学习过程. ESN广泛应用于许多领域,包括时间序列预测[2-5]、模式识别[6]、机器人控制[7]和噪声建模[1]等.
目前,ESN已经引起了国内外研究者的高度重视,研究者们提出了各种各样基于经典ESN的改进算法,如回声状态高斯过程[2]、最小复杂度ESN[8]、平衡的ESN[9]、基于循环储备池的确定ESN[10]、连接ESN[11]等. 然而,这些改进算法采用的神经元激励函数都是Sigmoid函数(又称“S”型函数),而S型函数相互不正交,在函数逼近过程中,引入了大量冗余信息,网络学习往往出现峡谷型误差曲线,学习收敛速度缓慢. 针对此类问题,文献[12]中采用Symlets小波神经元部分取代部分S型神经元,Symlets小波函数的伸缩和平移变换特征丰富了状态储备池的状态空间,提高了回声状态网络的记忆能力和预测能力,进而提高了其对混沌时间序列的逼近能力. 文献[10]中指出谱半径越大,回声状态网络对于与输入反映的延迟就越长,其记忆能力就越强. 在这种情况下,回声状态网络具有更好的非线性逼近能力. 但是,回声状态网络谱半径通常需要满足0<λ<1,从而使其具有回声状态性能. 进一步,文献[3]中采用小世界无标度的储备池拓扑结构代替其随机结构,有效地解决了谱半径的限制问题,同时极大地提高了回声状态网络的非线性逼近能力. 考虑以上两种ESN改进策略的优势,调研了ESN状态储备池中同时引入小世界无标度拓扑机构和小波函数的可能性,本文提出了一种具有小世界无标度结构和离散小波特征的复合回声状态网络—CESN,从而进一步提高了ESN预测模型的非线性逼近性能.
作为一种典型的离散时间递归神经网络,回声状态网络的模型结构如图1所示,其网络结构主要包括3个部分:输入层、动态储备池和输出层. 对比BP神经网络[13-14]等传统神经网络,ESN动态储备池规模相对较大,通常拥有几十、几百甚至上千个神经元. 回声状态网络采用有监督的方式进行训练,其储备池内部状态更新方程和网络输出方程分别为
(1)
(2)
式中:x(t)=(x1(t),x2(t),…,xN(t))表示在t时刻的N个储备池状态;u(t)=(u1(t),u2(t),…,uK(t))表示在t时刻注入储备池的K个输入单元,y(t)=(y1(t),y2(t),…,yL(t))表示在t时刻L个网络线性输出单元;Win、W、Wout、Wback分别表示储备池的输入连接权值矩阵、内部连接权值矩阵、输出连接权值矩阵和反馈连接权值矩阵,且维数满足Win∈RN×K,W∈RN×N,Wout∈RL×(K+N),Wback∈RN×L;f表示储备池神经元的激励函数,通常为S型函数.
在传统ESN中,Win、W、Wback在初始化时随机产生,并且在训练过程中保持不变,因此只有输出连接权值矩阵Wout需要训练. 为了确保其回声状态性能(echostateperformance,ESP),传统ESN的W定义为
(3)
与Jeager教授提出的任何一个基于S型函数的完全随机的ESNs[1]不同,本文提出了一种具有小世界无标度结构和离散小波特征的复合回声状态网络(composite echo state networks, CESN). 该模型由3层组成:一个输入层、一个新型储备池拓扑和一个输出层,其结构如图2所示. 这个新型的动态储备池具有与小世界无标度网络有关的自然进化特征:短平均路径长度、高聚类系数和分层分布式结构. 此外,储备池中部分神经元采用小波激励函数代替S型(Sigmoid)激励函数,从而在一定程度上能够保证更高非线性逼近能力[12].
2.1 小世界无标度储备池
现在,给出CESN储备池的自然生长准则. 事实上,小世界无标度的联合特征已被应用到建模ESN. 而且,大量研究表明:具有小世界影响和无标度分布的神经网络模型在逼近能力、记忆能力和同步性等方面具有很好的性能. 尤其文献[3],提出了一种具有小世界和无标度联合特征的改进型ESN,可以有效地逼近高度复杂的非线性动态系统. 本文提出的CESN采用了与其类似的小世界无标度储备池结构,但是CESN储备池拓扑是基于Matlab产生的,并且产生的方式也有着本质的不同. 其构建过程描述如下:
① 在初始化过程中,定义储备池有m个组(每个组对应着小世界网络拓扑或者无标度网络拓扑),同时假设其中有n个BA组,这就意味着该储备池具有m-n个小世界组.
② 若储备池规模为N,则每个组(除了最后一个组)神经元数目是[N/M],最后一个组神经元数目是N-(m-1)×[N/M],其中,[ ]表示向下取整运算.
③n个BA组是通过增量生长和优先连接的方式来构建的,具体过程如下:开始随机产生一个由m0个节点构成的小规模网络拓扑结构,然后在每个时间间隔内加入一个具有e0条边的新节点,新增加的节点基于优先连接的原则更趋向于连接网络中度大的节点,其连接概率p(ki)依赖于被连接节点i的度ki,表示为
(4)
重复上述操作,直到无标度网络规模达到预定的要求,这样就产生了一个BA组.
④m-n个SW组,组成m-n个小世界网络的拓扑结构,具体过程如下:首先,构建一个最近邻耦合网络,该网络中的节点按照环形进行排列,而每个节点都与其邻居节点i相连接,这里,i=1,2,…,k/2且k为偶数. 然后,以概率p随机化重连网络中的某一条边,即先固定一个节点,然后从剩余的节点中随机选择一个节点进行连接.
⑤ 从每个组中,随机选择一个节点,使这些被选择的节点相互连接,从而构建了一个具有N个节点的小世界无标度储备池拓扑结构.
2.2 Symlets离散小波神经元
CESN的另外一个关键技术是向储备池中注入小波神经元. 小波神经元与S型神经元完全不同,CESN部分采用小波神经元替代S型神经元. 这些小波神经元都是由同一个母小波产生的,具有多样化的激励函数,而且相互之间极为相似. 小波激励函数使得储备池神经元具有良好的局部特性和变焦特性,可以在不增大储备池规模的前提下,极大地扩展储备池的状态空间,这将有助于改善储备池的非线性逼近能力. 本文选用Symlets小波作为母小波,表示为
(5)
对每一个小波神经元使用不同的伸缩平移尺度,Symlets小波的派生小波函数系为
(6)
(7)
至此,完成了CESN的构建.
对提出的CESN进行综合的实验评估,主要考虑了两个传统的基准任务和一个实际应用,即:NARMA系统、Henon映射和二氧化碳(carbon dioxide, CO2)浓度预测. 为了进一步验证提出的CESN的优越性,将其与注入Symlets小波的经典回声状态网络(S-ESN)和具有高聚类系数的无标度回声状态网络(SHESN)[7]进行了比较,并且对CESN、S-ESN、SHESN使用同样的参数配置,如表1所示.
表1 3种情形下的实验配置
采用标准均方根误差(NRMSE)来度量预测精度,进而评估不同模型的非线性逼近能力. NRMSE值越小,模型的预测精度越高,其非线性逼近能力越强,NRMSE的计算方式为
(8)
3.1 NARMA系统
NARMA系统[8]即非线性自回归滑动平均,是一种离散时间系统,其当前输出依赖于它的输入和历史输出值. 一般而言,由于NARMA系统的非线性和长期记忆能力,对其建模是相当困难的. 实验中,采用10步NARMA系统进行评估,其表达式为
(9)
式中s(t)、y(t)分别为在t时刻该系统的输入和输出.
该实验仿真中,使用的NARMA时间序列包括4 000个值,其中前2 000个值用于训练,其余2 000个值用于性能测试. 若储备池规模以50为步长从50变化到500,且谱半径为0.7,小波神经元比例为0.4,则在不同储备池规模N的情况下,S-ESN、SHESN和CESN对于10-th步NARMA系统非线性逼近性能如图3所示. 可以看出,除了N=250之外,CESN的非线性逼近性能明显超过了S-ESN和SHESN,而且当N=350时,CESN获得最优性能,此时αNRMSECESN=0.003 6.
若储备池的谱半径以0.1为步长从0.1变化到1.5,且储备池规模为50,小波神经元的比例为0.3,则不同谱半径λ条件下,S-ESN、SHESN和CESN对于10-th步NARMA系统的非线性逼近性能如图4所示. 可以看出,当λ>1时,CESN仍然具备令人满意的非线性逼近性能. 尤其是当λ∈[0.5,1.2]时,CESN的非线性逼近能力明显优于S-ESN和SHESN.
3.2 Henon映射
Henon映射[10]混沌过程是ESN的另一个典型基准测试系统,该系统以其易于计算和有趣的混沌行为得到广泛研究,其表达式为
(10)
Henon映射主要依赖参数a和b,令a=1.4,b=0.3以得到混沌特征,且在Henon映射系统中存在标准差的高斯白噪声.
Henon映射时间序列长度是6 000,其中前3 000个值用于训练,其余3 000个值用于性能测试. 若储备池规模以50为步长从100变化到550,且谱半径为0.6,小波神经元比例为0.4,则在不同的储备池规模N的情况下,S-ESN、SHESN和CESN对于Henon映射的非线性逼近性能如图5所示. 可以看出,除了N=400、450之外,CESN非线性逼近性能明显超过了S-ESN和SHESN,而且当N=500时,CESN可以得到最优性能.
若储备池规模为50,小波神经元比例为0.5,则不同谱半径λ条件下,S-ESN、SHESN和CESN对于Henon映射的非线性逼近性能如图6所示. 可以看出,当谱半径λ∈[0.1,1.5]时,CESN的非线性逼近能力优于S-ESN和SHESN,尤其当λ≤0.6时,CESN的预测精度明显高于其他两种算法.
3.3 CO2浓度
实验数据来源于总碳柱观察网络(TCCON)[15],该网络是一个基于地表傅里叶变换的关于大气成分的光谱分析网,通过反演计算获得不同测量地点CO2、CH4、N2O等大气成分的柱平均值. 在实验中,使用2004年6月-2015年5月的CO2浓度数据集,该CO2浓度时间序列包括1 800个数据,其中前900个数据用于训练,其余900个数据用于性能测试. S-ESN、SHESN和CESN的参数设置为:储备池规模N=50,谱半径λ=0.7,小波神经元比例Rmix=0.5.
图7~图9分别给出了S-ESN、SHESN和CESN在不同时间步内实际输出和预测输出的比较曲线及其误差曲线. 可以看出,对比其他两种方法,CESN具有更高的预测精度,这是由于图9中CESN预测输出可以更为准确地跟随其实际输出,且S-ESN,SHESN,CESN的αNRMSE值分别为0.129 9、0.134 4和0.109 0.
本文提出了一种具有小世界无标度结构和离散小波特征的复合回声状态网络(CESN). CESN的小世界无标度储备池解除了谱半径必须满足(0,1)的限制,当谱半径大于1时,CESN仍然能够获得较好的非线性逼近能力;同时,CESN引入Symlets小波函数替代部分储备池神经元的S型函数,丰富了动态储备池的状态空间. 通过两个传统的基准任务(NARMA系统、Henon映射)和一个实际应用(CO2浓度预测)的仿真实验表明,针对不同的储备池规模和谱半径,CESN的预测精度都明显高于S-ESN和SHESN,即CESN对于高度复杂的非线性系统具有更好的非线性逼近能力.
[1] Jaeger H, Haas H. Harnessing nonlinearity: predicting chaotic systems and saving energy in wireless communication[J]. Science, 2004,5667(304):78-80.
[2] Chatzis S P, Demiris Y. Echo state Gaussian process[J]. IEEE Transactions on, Neural Networks, 2011,22(9):1435-1445.
[3] Deng Z, Zhang Y. Collective behavior of a small-world recurrent neural system with scale-free distribution[J]. Neural Networks, IEEE Transactions on, 2007,18(5):1364-1375.
[4] Holzmann G, Hauser H. Echo state networks with filter neurons and a delay&sum readout[J]. Neural Networks, 2010,23(2):244-256.
[5] Xia Y, Jelfs B, Van Hulle M M, et al. An augmented
echo state network for nonlinear adaptive filtering of complex noncircular signals[J]. IEEE Transactions on, Neural Networks, 2011,22(1):74-83.
[6] Ozturk M C, Principe J C. An associative memory readout for ESNs with applications to dynamical pattern recognition[J]. Neural Networks, 2007,20(3):377-390.
[7] Salmen M, Ploger P G. Echo state networks used for motor control[C]∥Proceedings of the 2005 IEEE International Conference on Robotics and Automation. [S.l.]: IEEE, 2005:1953-1958.
[8] Rodan A, Tiňo P. Minimum complexity echo state network[J]. IEEE Transactions on, Neural Networks, 2011,22(1):131-144.
[9] Koryakin D, Lohmann J, Butz M V. Balanced echo state networks[J]. Neural Networks, 2012,36:35-45.
[10] Sun X, Cui H, Liu R, et al. Modeling deterministic echo state network with loop reservoir[J]. Journal of Zhejiang University Science C, 2012,13(9):689-701.
[11] Chatzis S P, Demiris Y. The copula echo state network[J]. Pattern Recognition, 2012, 45(1): 570-577.
[12] Wang S, Yang X J, Wei C J. Harnessing non-linearity by sigmoid-wavelet hybrid echo state networks[C]∥The Sixth World Congress on Intelligent Control and Automation, WCICA 2006. [S.l.]: IEEE, 2006:3014-3018.
[13] 殷高方,张玉钧,胡丽,等.BP神经网络水华预测模型的敏感性分析[J].北京理工大学学报,2012,32(12):1288-1293.
Yin Gaofan, Zhang Yujun, Hu Li, et al. Sensitivity analysis of BP neural network for Algal bloom prediction model[J]. Transations of Beijing Institute of Technology, 2012,32(12):1288-1293. (in Chinese)
[14] 金福生,牛振东,吴璠,等.基于BP神经网络的信誉欺骗检测模型[J].北京理工大学学报,2012,32(1):62-66.
Jin Fusheng, Niu Zhendong, Wu Fan, et al. A cheating detection model for reputation system based on BP neural network[J]. Transactions of Beijing Institute of Technology, 2012,32(1):62-66. (in Chinese)
(责任编辑:刘芳)
Echo State Wavelet Network with Small-World Scale-Free Characteristics
WANG Yi-ou, DING Gang-yi, LIU Tian-yuan, LIU Lai-yang, MENG Jun, HOU An-kun
(Digital Performance and Simulation Technology Lab., School of Software,Beijing Institute of Technology, Beijing 100081, China)
For adaptability problems of the reservoir, a composite echo state network (CESN) model was proposed. The small-world scale-free evolving state reservoir was constructed based on the incremental growth rules to relax the restriction for the spectral radius of the state reservoir. Moreover, discrete wavelet function was used as the activation function of neurons in CESN. The Symlets wavelet function was substituted for the fractional S-function of reservoir neurons, its dilation and translation features contributed to expanding the state space of dynamic reservoir. CESN can be applied to solve some approximation problems of nonlinear time series, which are the NARMA system, Henon map and the CO2concentration prediction. The experiment results show that CESN is able to significantly outperform the ESN with injected Symlets wavelet (S-ESN) and scale-free highly clustered echo state network (SHESN) in approximating highly complex nonlinear dynamics.
echo state network; small-world; scale-free; wavelet function; time-series prediction
2015-12-28
国家自然科学基金资助项目(61202243);国家教育部高等学校博士学科点专项科研基金资助项目(20121101110037);江西省自然科学基金资助项目(20151BAB207042)
王怡鸥(1990—),女,博士生,E-mail:wangyiou90@163.com.
TP 301.6
A
1001-0645(2016)05-0502-06
10.15918/j.tbit1001-0645.2016.05.012