方一博,金 涛,屈世显
(陕西师范大学 物理学与信息技术学院,陕西 西安710062)
亚稳态存在于真实的大脑记忆中[1-4],同时对人工神经网络的应用也起着非常重要的作用.例如,神经网络可用于联想记忆和模式识别[5-7],但由于亚稳态的存在可能会导致记忆失败和识别错误[8-10].所以对神经网络中的亚稳态的研究一直是人们比较关注的问题.
目前,在真实大脑中对亚稳态的研究集中在临界过程[2-4],如临界分支过程[2].在人工神经网络中以对称网络为主,研究亚稳态的结构[11]和数目[12],尤其是当记忆模式为3个时,系统中亚稳态的结构和数目可通过群论方法准确得出[13],但是当网络存储率较大时这种方法不适用,更为严重的是亚稳态的产生机制至今没有得到有效的解决[14].另外,在神经网络的应用方面,人们关注于如何降低亚稳态的影响.研究表明由于网络的高对称性导致系统中存在更多的亚稳态,因此可通过增加网络的不对称度以降低亚稳态的影响[8],即设计不对称网络.
实验数据表明大脑网络呈非对称连接[1].对于实际应用来说非对称神经网络也更有优势.例如对联想记忆,非对称网络可以特定的学习规则直接控制与记忆模式对应的吸引子的吸引域从而提高记忆模式的稳定性[9-10]、降低亚稳态的影响.目前有两种学习方法可以满足上述要求,一是感知机学习规则[8],另一个是蒙特卡罗优化选择变异(MCA)学习规则[10].
本文以广义感知机学习规则设计的单层反馈神经网络为基础,研究系统中亚稳态的稳定性及相空间位置.
单层反馈神经网络是典型的多体非线性相互作用系统,其动力学演化方程为
其中,Si(t)表示神经元i在t时刻的状态;Jij表示神经元i与神经元j之间的相互作用类型(抑制或促进)及强度;局域场hi(t)表示t时刻其它神经元对神经元i的作用总和;sgn(hi(t))表示神经元i对输入信号的响应,本文采用符号函数,意味着神经元只有+1或-1两个状态;N表示系统中神经元的个数.在t时刻,整个系统的运动状态由所有神经元的状态决定,表示为{Si(t),i=1,…,N}.对由(1)式描述的系统来说,其动力学行为由相互作用矩阵J决定.
网络设计的目标是寻找合适的相互作用矩阵J,使给定的p个系统状态设计成为由(1)式所描述的系统的不动点吸引子,这些系统状态被称为记忆模式,表示为{ξμi}(i=1,…,N,μ=1,…,p).要使这些记忆模式成为系统的不动点吸引子,需满足条件[15]
其中κ>0,为控制参数,且κ越大,吸引子的稳定性越高[10].
对于hμi=κ的特殊情形,本文采用广义感知机学习规则的弛豫形式[8,15],其表达式为
其中m表示迭代次数.网络设计过程为:选择控制参数κ,并用[-1,1]之间均匀分布的随机数初始化相互作用矩阵,使矩阵元素满足条件
然后按照(3)式进行迭代,整个过程需保证(4)式始终成立,直至所有记忆模式都满足条件|hμi-κ|<10-6.
图1 亚稳态出现概率随控制参数κ的变化Fig.1 The probability of metastable states with different control parameterκ
对设计好的网络,随机选取初始状态使其按(1)式进行演化直至收敛.将最终没有收敛到记忆模式所对应的吸引子{ξμi}或其镜像{-ξμi}(i=1,…,N,μ=1,…,p)上的状态称为系统的亚稳态.我们计算了在不同κ值下亚稳态出现的概率Ptotal.图1给出在参数N=1 000,p=3的情况下Ptotal随κ的变化情况.从图中可以看出,当参数κ≤2.3时,系统中亚稳态出现的概率Ptotal=0,这是因为随机选取的初始状态经系统演化后没有收敛或收敛到记忆模式所对应的吸引子上而造成的,因此在该参数区间内不存在亚稳态;当参数κ>2.3时,Ptotal>0且随参数κ的增大而增加,此时系统中出现亚稳态,这意味着可选取较大的参数κ,以找出更多的亚稳态进行研究.
首先研究反馈神经网络中亚稳态的相空间位置.我们选取参数κ=4,记忆模式p分别为30、40和50的情况下,计算亚稳态和记忆模式(基态)之间的汉明距离.图2给出汉明距离的分布情况,由图可以看出汉明距离以0.5为中心呈对称分布,并且随记忆模式增加其分布趋于集中.由此可知,该系统中的亚稳态集中出现在与各记忆模式近似相等的位置.
图2 不同记忆模式下汉明距离的概率分布Fig.2 The probability distribution of Hamming Distance under different p
为研究亚稳态的稳定性,我们计算它们的能量.对于由感知机学习规则设计的非对称网络,在p有限且满足热力学极限的条件下,由于随机选取的记忆模式相互正交且线性无关,因此满足条件=κ的相互作用矩阵可分解为
其中Jdij由Hebb学习规则
得到,为对称矩阵[17-18],因此可定义能量函数[19-20]
选取参数κ=4,记忆模式p分别为30、40和50的情况下,根据(5)式计算亚稳态和基态的能量之比.图3给出p=30的情况下能量比的分布情况.p为40和50的情形与p=30的能量比分布完全相同.
图3 控制参数为κ=4的情况下能量比的概率分布Fig.3 The probability distribution of energy ratio withκ=4
由图可知,在不同存储率(α=p/N)下亚稳态和基态的能量之比由于参数κ的控制而呈现出相同的分布,又由于系统中所有基态的能量相等,因此系统中亚稳态的能量有相同的分布.这说明即使在不同存储率下,由于参数κ对亚稳态的有效控制使其表现出近似相同的稳定性.为进一步说明参数κ对亚稳态稳定性的影响,我们在同一存储率下(p=10)选取不同的参数κ,计算亚稳态和基态的能量之比.其分布如图4所示.可以看出对于不同的控制参数κ,能量比呈现出不同的分布情形,即亚稳态在不同参数下显示出不同的稳定性.另外,从图4还可看出,在记忆模式p=10的情况下,随参数κ的增加,能量比的分布向左偏移,这意味着亚稳态与记忆模式的能量比变小,即亚稳态与记忆模式的差别变大.对于神经网络的应用来说更有利于对记忆模式的识别.
图4 不同控制参数κ情况下能量比的分布Fig.4 The probability distribution of energy ratio with differentκ
本文以感知机学习规则设计的非对称反馈神经网络为例,研究亚稳态在相空间中的位置及其稳定性.通过计算亚稳态与记忆模式之间的汉明距离,发现系统中的亚稳态集中分布在与各记忆模式近似等距离的位置,并随存储率的增加更趋集中.并通过计算不同存储率下系统的亚稳态与基态的能量比,发现系统中的亚稳态表现出近似相同的稳定性,得出亚稳态的稳定性依赖于控制参数.
[1]Gustavo Deco,Viktor K Jirsa,Anthony R McIntosh.Emerging concepts for the dynamical organization of resting-state activity in the brain[J].Nature Reviews Neuroscience,2011,12:43-56.
[2]Clayton Haldeman,John M Beggs.Critical branching captures activity in living neural networks and maximizes the number of metastable states[J].Physical Review Letter,2005,94:058101.
[3]Stefan Auer,Mark A Miller,Sergei V Krivov,et al.Importance of metastable states in the free energy landscapes of polypeptide chains[J].Physical Review Letter,2007,99(17):178104.
[4]Nir Friedman,Shinya Ito,Braden A W Brinkman,et al.Universal critical dynamics in high resolution neuronal avalanche data[J].Physical Review Letter,2012,108:208102.
[5]Hopfield J J.Neural networks and physical systems with emergent collective computational abilities[J].Proceedings of the National Academy of Sciences,1982,79:2554-2558.
[6]Hopfield J J.Neurons with graded response have collective computational properties like those of two-state neu-rons[J].Proceedings of the National Academy of Sciences,1984,81:3088-3092.
[7]Kanter I,Sompolinsky H.Associative recall of memory without errors[J].Physical Review:A,1987,35:380-392.
[8]Gardner E.The phase space of interactions in neural networks with definite asymmetry[J].Journal of Physics A:Mathematical and General,1989,22:1995-2008.
[9]Tao Jin,Hong Zhao.Pattern recognition using asymmetric attractor neural networks[J].Physical Review:E,2005,72:066111.
[10]Hong Zhao.Designing asymmetric neural networks with associative memory[J].Physical Review:E,2004,70:066137.
[11]Peter Kumhlmann,Joachim K Anlauf.The number of metastable states in the projection rule neural network[J].Journal of Physics A:Mathematical and General,1994,27:5857-5870.
[12]Gardner E.Structure of metastable states in the Hopfield model[J].Journal of Physics A:Mathematical and General,1986,19:L1047-L1052.
[13]Pierre Baldi.Symmetries and learning in neural network models[J].Physical Review:E,1987,59(17):1976-1978.
[14]Daniel J Amit,Hanoch Gutfreund,Sompolinsky H.Storing infinite numbers of patterns in a spin-glass model of neural networks[J].Physical Review Letter,1985,55(14):1530-1533.
[15]Qingguo Zhou,Tao Jin,Hong Zhao.Correlation between eigenvalue spectra and dynamics of neural networks[J].Neural Computation,2009,21:2931-2941.
[16]Daniel J Amit,Hanoch Gutfreund,Sompolinsky H.Spin-glass models of neural networks[J].Physical Review:A,1985,32(2):1007-1018.
[17]Bruce A F,Gardner E J,Wallace D J.Dynamics and statistical mechanics of the Hopfield model[J].Journal of Physics A:Mathematical and General,1987,20:2909-2934.
[18]David Shrrrington,Scott Kirkpatrick.Solvable model of a spin-glass[J].Physical Review Letter,1975,35(26):1792-1796.
[19]Robert J McEliece,Edeward C Posner,Eugene R Rodemich,et al.The capacity of Hopfield associative memory[J].IEEE Transaction on Information Theory,1987,33:461-482.
[20]Glauber R J.Time-dependent statistics of the Ising model[J].Journal of Mathematical Physics,1963,4(2):294-307.