朱玮 刘兰 文常保 李杰
(长安大学电子与控制工程学院, 西安 710064)
现有计算机体系架构下的神经网络难以对多任务复杂数据进行高效处理, 成为制约人工智能技术发展的瓶颈之一, 而人脑的并行运算方式具有高效率、低功耗和存算一体的特点, 被视为打破传统冯·诺依曼计算体系最具潜力的运算体系.突触仿生器件是指从硬件层面上实现人脑神经拟态的器件, 它可以模拟脑神经对信息的处理方式, 即“记忆”和“信息处理”过程在同一硬件上实现, 这对于构建新的运算体系具有重要的意义.近年, 制备仿生突触器件的忆阻材料已获得进展, 但多聚焦于神经突触功能的模拟, 对于时空信息感知和传递的关键研究较为缺乏.本文通过制备一种双层结构忆阻器, 实现了突触仿生器件的基本功能包括双脉冲易化和抑制、脉冲时间依赖突触可塑性(spiking time dependent plasticity, STDP)和经验式学习等, 还对器件的信息感知、传递特性和稳定性进行了研究, 发现该器件脉冲测试结果满足神经网络处理时空信息的基本要求, 这一结果可以为忆阻器在类脑芯片中的应用提供参考.
类脑芯片是能实时模拟人类大脑处理信息的新一代智能芯片, 它可以为多任务执行、大数据处理和智能人机交互等应用技术提供强大的硬件支持.不同于现有集成芯片技术, 类脑芯片主要是由数十万个神经突触和神经元仿生器件构成, 这些器件可以从硬件层面上模拟人脑神经突触的信号处理方式, 从而构建一个庞大的类脑神经网络[1−4].在现公布的类脑芯片技术中, 忆阻器是制备突触仿生器件的重要成员之一, 其特征在于器件阻值能够随流经电荷的变化而实时变化, 这一特点与神经突触的工作方式非常接近, 因此忆阻器模拟神经突触功能的研究成为近年来忆阻器的热点问题[5−10].在诸多模拟神经突触功能的阻变材料中, 已知的材料包括高介电材料(SiO2, Al2O3和AlN等)制备忆阻器具有较好的电路稳定性[11−13]; 过渡金属氧化物(TiO2, ZnO2和VO2等)制备的忆阻器模拟神经突触功能最为相似[14−16]; 功能型材料(HfO2和In2O3等)还可用于人类视觉和感觉神经系统的模拟[17,18]; 二维材料(MXene、石墨烯等)的开发可以为忆阻器的新应用提供思路[19,20].其中铝基薄膜作为常见高介电材料的一种, 具有制备简单、成本低廉、能与现有CMOS技术融合、同时具有单极和双极阻变特性、运行功率低、耐高温和化学性能稳定等优势, 因此铝基薄膜突触仿生忆阻器的研究在忆阻器应用领域有特殊意义.单极和双极阻变特性分别指器件的置位(set process)和复位(reset process)过程发生在相同和相反极性的电压范围内, 是由不同阻变机理引起的.忆阻器的阻变机理目前明确的有两种机制, 一种是与材料内导电丝的形成和断裂有关[21,22]; 另一种是电极活跃离子在不同电场方向下迁移运动的结果[23,24], 这两种机制也有可能同时发生.从前期工作来看[25,26], 含有铝纳米颗粒的单层铝基薄膜制备的忆阻器, 无论沉积银或铝材料作为顶电极, 均显示单极阻变特性, 这是因为材料内含量高的铝纳米颗粒更易形成接近金属特性的导电丝; 在含有铝纳米颗粒的铝基薄膜上, 再沉积一层20 nm的Al2O3膜和200 nm银电极制备双层结构忆阻器, 实验发现双层结构铝基薄膜忆阻器显示出了与单层铝基薄膜忆阻器的单极阻变特性不同的双极阻变特性.在神经网络设计中, 单极忆阻器具有稳定的阈值电压, 大多用来模拟带有阈值电压的神经元, 在受到足够强烈刺激时才会被激发, 激发后会释放频率略低的脉冲波至下一神经元; 而双极忆阻器的阻变特性如果由离子迁移运动主导, 则多用来模拟神经突触在不同时序脉冲刺激下权值的跟随变化, 它能够跟随信号传递的强弱实时调整突触权值[27−30].若同一类材料能够通过优化制备工艺而同时拥有单极和双极阻变特性, 即可同时制备神经元和神经突触仿生器件, 这对于类脑芯片的制备和高度集成化有积极的研究意义.从实验结果来看, 双层结构的忆阻器相比单层忆阻器多沉积了一层富含可迁移离子的缓冲层,能够提升器件阻变特性的反应效率, 形成更稳定的神经突触特性.本文在前期工作基础上, 对双层结构忆阻器的突触仿生特性, 信号感知、传递及器件稳定性展开了研究.
实验主要利用射频磁控溅射和离子束蒸发工艺在硅衬底上制备双层结构铝基薄膜忆阻器.在用氢氟酸清洗后的p型硅衬底上用离子束蒸发法沉积500 nm厚度的Al作为底电极.在Al底电极上沉积nc-Al/AlN薄膜时采用99.99%纯度铝靶材,设定衬底温度25为 ℃, 电源功率为150 W.溅射时通入的氩气和氮气流量比为45∶1, 溅射气压保持在0.1 Pa, 溅射时间约为20 min, 溅射完成后将样品立刻在氮气中进行400 ℃高温退火, 退火时间为2 min.退火后的AlN可生成直径5—10 nm的铝纳米颗粒如图1(a)中的插图所示.第二层Al2O3薄膜制备同样采用射频磁控溅射工艺, 靶材选用99.99%纯度Al2O3靶材, 电源功率设定200 W,溅射时仅通入氩气, 并保持溅射气压0.1 Pa, 溅射时间为15 min.200 nm厚度的Ag采用离子束蒸发法进行沉积, 利用掩膜板形成直径为100 µm的圆形顶电极, 器件TEM测试如图1(a)所示.双层忆阻器Al/nc-Al AlN/Al2O3/Ag结构如图1(b)所示, 顶电极活跃金属银在不同电场方向和强度下可以迁移进入或退出Al2O3薄膜, 因此造成器件阻值可跟随外界电压而实时变化.含有铝纳米颗粒的AlN层作为缓冲层, 除可以提供更多的活跃离子外, 还可防止开态电流过大造成击穿, 使器件获得更为稳定的突触仿生特性.图1(c)描述了神经突触的工作原理, 作为前后神经元的连接点, 神经突触的权值会随外界刺激的变化而增强或减弱.较弱的突触权值意味着前后神经元处于无沟通状态, 此时神经突触内产生的感应电流称为抑制性突触后电流(inhibitory post synaptic current, IPSC); 较强的突触权值代表前后神经元正处于信息传递状态, 此时神经系统内也会产生较强的兴奋性突触后电流 (excitatory post synaptic current, EPSC)[31].若将忆阻器权值(G, 器件电导率)比作突触权值,它在模拟神经突触功能时也应具备随外界电压而变化的特点.对突触忆阻器做正负向各100次I-V扫描时的结果如图1(d)和图1(e)所示, 正向电压扫描会引起器件权值逐渐增大; 而负向电压扫描会引起器件权值逐渐减小.这种权值随电压变化而逐步增加或减少的忆阻器, 才具备模拟神经突触功能的基本条件.
图1 (a) 器件TEM图; (b) 器件结构图; (c) 神经突触工作原理; (d) 连续100次正向电压扫描测试; (e) 连续100次负向电压扫描测试Fig.1.(a) TEM result of bi-layer memristor; (b) structure of memristor; (c) mechanisms of synapse working; (d) continued positive I-V biasing with 100 times; (e) continued negative I-V biasing with another 100 times.
脑神经大多以脉冲波的形式进行信息传递, 只有当前神经元的信号到达一定强度才会引起神经突触感知并传递到下一神经元, 强度较小的脉冲则视为噪声信息.仿生忆阻器的脉冲测试如图2所示, 当输入信号为一个幅值2 V、宽度1 ms的脉冲波时, 器件内EPSC约为0.42 µA, 若间隔5 ms再施加一次脉冲, 则会引起双脉冲易化(paired-pulse facilitation, PPF)现象, 即第二个脉冲引起的EPSC要高于第一个脉冲达到0.73 µA.这种现象通常被认为是第一个神经刺激信号产生时人体细胞内残留的钙离子会导致第二次神经刺激信号时突触小泡的额外释放[9,32].应用时可以设定只有超过阈值的EPSC才会形成有效输出, 即信息才能从前神经元通过神经突触传递至后神经元, 这能够排除信息传递中的干扰因素, 更贴近神经系统的工作方式.若将两个脉冲的间隔增加到350 ms, 器件内可以探测到两个幅值约为0.4 µA的EPSC, 但是没有观测到PPF现象, 无法形成有效输出.这说明当脉冲幅值固定时, PPF现象更依赖脉冲频率而发生, 频率过低的脉冲信号也很难在器件内引起强EPSC形成有效输出.图2(d)—图2(f)施加了同样的负向脉冲电压, 器件显示出双脉冲抑制现象(paired-pulse depression, PPD).在生物学上PPD通常被认为是具有电压依赖性的钙离子通道失活,或是由于积累在突触前神经元的神经递质囊泡的暂时耗尽造成的.仿生忆阻器的PPF/PPD可通过控制正负脉冲电压及频率来实现.易化比和抑制比指的是第一个脉冲产生的幅值A1和第二个脉冲幅值A2的关系通常与脉冲频率有关, 过大的脉冲间隔无法实现双脉冲易化或抑制[31].
图2 器件内EPSC和IPSC的脉冲测 (a) 施加单个正向脉冲的EPSC; (b) 双脉冲易化的EPSC; (c) 施加双正向脉冲但间隔时间350 ms的EPSC; (d) 施加单个负向脉冲的IPSC; (e) 双脉冲抑制的IPSC; (f) 施加双负向脉冲但间隔时间350 ms的IPSCFig.2.Pulse voltage measurement of memristor: (a) EPSC with single positive pulse applied; (b) EPSC of PPF; (c) two positive pulses applied with 350 ms interval; (d) EPSC with single negative pulse applied; (e) IPSC of PPD; (f) two negative pulses applied with 350 ms interval.
在明确双脉冲易化和抑制特性后, 将双脉冲信号改为连续脉冲信号同时测试器件权值, 结果如图3(a)—(c)所示.用器件权值可以更直观地表达忆阻器工作状态.实验发现, 频率为100 Hz连续的正向脉冲可以引起器件权值的增加, 这与之前图1(d)连续正向电压扫描使器件电导率增加的结果相符.若施加频率100 Hz连续的负向脉冲, 会导致器件内银离子向相反方向迁移, 引起器件权值的减少.这与图1(e)中连续负向电压扫描降低器件权值的结果一致.当连续施加频率为2 Hz的正向脉冲时, 器件权值依旧缓慢减少, 如图3(c)所示.这是由于频率较低的正向脉冲无法引起器件内活跃离子的持续累积, 器件权值也会随时间流逝而降低.因此只有持续施加高频率的脉冲波, 才可获得持续增强的器件权值.时空信息传递中核心的一部分, 即是对信号频率的响应.相比与信号幅值,仿生忆阻器受信号频率影响更为深远, 这一特性也符合神经系统传递时空信息的基本特性.
图3 (a) 以100 Hz频率施加幅值和宽度为2 V和5 ms的正向脉冲, 器件权值随时间增加; (b) 以100 Hz频率施加幅值和宽度为–2 V和5 ms的负向脉冲, 器件权值随时间减小; (c) 以2 Hz频率施加幅值和宽度为2 V和5 ms的正向脉冲, 器件权值也会随时间减小Fig.3.(a) Device conductance increased with 100 Hz, 2 V in amplitude and 5 ms in width positive voltage pulse applied; (b) device conductance decreased with 100 Hz, -2 V in amplitude and 5 ms in width positive voltage pulse applied; (c) device conductance will decrease with 2 Hz, 2 V in amplitude and 5 ms in width positive voltage pulse applied.
改变连续施加的脉冲电压幅值、频率和数量,会对器件权值的增加幅度产生不同的影响, 具体关系如图4(a)和图4(b)所示.固定脉冲间隔, 当施加的脉冲数量增加时器件权值会相应增加; 而固定施加脉冲的数量, 更小的脉冲间隔可以使器件权值急剧增加.若设定器件权值1为最大值, 器件达到最大权值所需的脉冲个数也与脉冲幅值和间隔有关.脉冲间隔越小、幅值越大时器件达到最大权值所需的脉冲数量越少, 如图4(b)所示.器件权值的减少也有对应的特性, 即负向脉冲幅值和频率的增加, 也会引起器件权值迅速降低.在明确器件的PPF和PPD特性后, 脉冲时间依赖突触可塑性(spiking time dependent plasticity, STDP)机制也是神经突触的重要特性, 它是指当前神经元脉冲先于后神经元发生时, 突触权值应加强; 当后神经元脉冲先于前神经元发生时, 突触权值应减小[33].将仿生忆阻器的上下电极视为接受前后神经元信息的连接部分, 分别对两极施加不同时序的脉冲信号, 测量到器件STDP特性如图4(c)所示.当前神经元信号先于后神经元信号发生时器件权值增加(long term potentiation, LTP), 并且相隔时间越短增加幅度越大; 当后神经元信号先于前神经元信号发生时器件权值减小(long term depression,LTD).权值的增加和减少应符合指数函数分布.
图4 (a) 器件权值与施加脉冲数量和脉冲间隔的关系;(b) 器件达到最大权值所需脉冲数量与脉冲电压和间隔的关系; (c) STDP特性Fig.4.(a) The relationship of device conductance with pulse number and interval; (b) the pulse number needed to make device conductance maximized with different pulse voltage and interval; (c) STDP.
三脉冲STDP测试(triplet-STDP)在前后神经元的两个脉冲序列中加入了第三个脉冲[34,35], 可以更进一步地确定器件权值在不同脉冲时序中的变化规律.图5(a)列举了两种不同的脉冲时序, 以时间发生顺序从右至左, 分别命名为后-前-后时序和前-后-前时序.在后-前-后时序中, 第一个后神经元的脉冲①先于前神经元脉冲②发生(t1< 0), 这属于图4(c)中提到的LTD过程, 初步判定器件权值应降低; 紧接着第三个脉冲③来自后神经元, 时序上它在上一个前神经元脉冲②之后发生(t2> 0)属于LTP过程, 器件权值反而应增加.同理, 在前-后-前时序中, 第一个前神经元脉冲先于后神经元脉冲发生(t1> 0), 这属于STDP中的LTP过程,因此器件权值先增加; 紧接着第三个脉冲来自前神经元, 时序上它比后神经元②较晚发生(t2< 0),属于LTD过程, 此时器件权值反而减小.由此可见, 在三脉冲STDP时序中前后神经元脉冲发生时间是相对的, t1和t2的取值共同影响了器件最终权值的增加或减少.若固定t1数值, t2的取值就会对器件最终权值产生影响, 即器件最终权值的增加或减少取决于第三个脉冲和第二个脉冲之间的时间间隔t2.为了验证这一特性, 在两种时序中设定t1等于 ±50 ms, t2分别等于 ±10, ±20, ±30,±50, ±70, ±100, ±120, ±150和 ±200 ms, 测试的器件权值结果如图5(b)所示.在前-后-前时序中即便器件在前两个脉冲经历了LTP过程, 但如果前神经元的第三个脉冲发生时间较快依旧可以引起器件权值的降低; 而在后-前-后时序中, 即便前两个脉冲经历了LTD过程, 只要第三个后神经元发生时间较早也可以引起器件最终权值的增加.由此推论, 在三脉冲STDP测试中如果t1时间固定,器件权值最终值更多取决于第三个脉冲发生的时间, 由此可见器件的权值变化也与信息发生先后有关, 这符合神经网络时空信息传递的基本特性.
图5 (a) 后-前-后和前-后-前时序的神经元信号; (b) 三脉冲STDP器件权值的变化Fig.5.(a) Singal with post-pre-post and pre-post-pre sequence; (b) triplet-STDP.
Ebbinghaus遗忘曲线是由德国心理学家艾宾浩斯在1885年提出的, 它描述了记忆与时间的关系[36]:
其中G0和Gt为器件权值, 对应记忆的初始状态和随时间变化的状态; t为时间; τ为弛豫时间系数;β应在0和1之间变化.突触仿生忆阻器的权值保持规律也应符合Ebbinghaus遗忘曲线, 这是检验器件稳定性的重要依据.如果没有持续的强脉冲(高幅值和高频率脉冲)施加, 器件权值会随时间推移而减少, 正如人的记忆也会随时间流逝而衰退一样.另外, 实验发现突触仿生忆阻器的遗忘特性还与之前所受的脉冲刺激, 即感应过程所受脉冲刺激的强弱相关.分别对忆阻器施加幅值和宽度为1.2 V和5 ms的不同数量的脉冲电压, 其遗忘曲线如图6所示.对器件施加10个脉冲后立即停止并开始测试器件权值变化, 随着时间流逝器件权值会从最初的最大值有一个明显降低, 这意味着短时记忆的持续时间相当短暂, 当测试时间达到60 s以上器件最终权值保持在0.24左右; 若增加脉冲数量至50, 100和200个, 器件的遗忘曲线衰退趋势明显变缓.对四种情况的遗忘曲线进行指数拟合, 对应的弛豫时间系数从施加10个脉冲的1.6 s逐渐增加到4.8, 11.1 和21.0 s, β=1, 器件最终权值也从0.24增加至0.7, 形成了更稳定的长时记忆.由此可知, 当脉冲幅值和宽度固定时, 前期施加的脉冲刺激数量越多, 造成器件“遗忘”前的“记忆存储”越高, 器件衰退过程越缓慢, 最终的权值保持也越高.
图6 分别施加10个(a), 50个(b), 100个(c)和200个(d) 幅值为1.2 V、宽度为5 ms的脉冲电压后器件权值随时间减弱的特性Fig.6.The device conductance changed with time after applied (a) 10, (b) 50, (c) 100 and (d) 200 positive voltage pulses with the amplitude of 1.2 V and pulse width of 5 ms.
将器件最终权值、弛豫时间系数与脉冲数量、幅值的关系总结如图7所示.当脉冲电压幅值和宽度固定时, 施加越多的脉冲数量可以引起较高的最终权值和较长的弛豫时间如图7(a)和图7(b)所示, 这说明经历过长时间脉冲刺激的器件, 可以在长时间内保持较高的器件权值, 这与人类经历了深刻学习也会保持较长记忆时间相符.若增加前期刺激的脉冲电压幅值, 器件弛豫时间也会增长如图7(c)所示.通过研究器件权值在达到最大值后随时间流逝的测试, 可以更准确地掌握器件遗忘机制, 确定所需的权值保持时间.
图7 (a) 器件最终权值与施加脉冲数量的关系; (b) 器件弛豫时间与施加脉冲数量的关系; (c) 器件弛豫时间与施加脉冲电压的关系Fig.7.(a) The relationship between device conductance and applied pulse number; (b) the relationship between device relaxation time and applied pulse number; (c) the relationship between device relaxation time and applied pulse voltage.
器件稳定性的测试包括循环测试、耐久测试和高温测试, 测试结果如图8所示.在图8(a)中施加幅值为2 V、宽度为5 ms的脉冲电压, 第一次达到器件权值最大仅需要13个脉冲, 之后将器件静置10 min开始第二次测试.发现第二次测试仅需要6个脉冲就可使器件权值达到最大值.依次循环施加脉冲发现, 在第6次测试之初器件权值已经保持在最大值附近, 这说明器件已接受足够强烈的刺激形成稳定“记忆”, 10 min时间不足以使器件权值发生明显减弱.图8(a)所示结果符合突触仿生忆阻器的“经验式学习”特性, 即器件在经历相同刺激时, 下一次的学习时间要短于上一次的学习时间.器件耐久测试在室温和50 ℃条件下进行, 结果如图8(b)所示.在施加1000次脉冲确保器件经历足够强度刺激后, 将器件在室温和50 ℃下静置2 ×104s以上, 发现室温时器件权值保持状态良好,但50 ℃条件下器件权值有明显下降, 可见温度还是会对器件权值保持时间产生影响.设定器件权值下降30%的时间为器件能够存储记忆的保持时间, 并将测试温度提高到175, 200, 225和250 ℃, 器件在高温下的保持时间如图8(c)所示.进行线性拟合后发现在85 ℃时器件权值的保持时间大约为115.7 d.这一保持时间基本满足电路设计要求, 但突触仿生忆阻器的权值保持时间还应视具体应用而定.
图8 (a) 循环测试; (b) 耐久测试; (c) 175, 200, 225和250 ℃高温测试Fig.8.(a) Duration study; (b) retention study at room and 50 ℃ temperature; (c) device failure time at high temperature 175, 200,225 and 250 ℃.
本文制备了双层结构仿生忆阻器, 在实现神经突触功能的基础上, 还对忆阻器处理时空信息的感知和传递等关键问题进行了研究, 发现脉冲频率对器件权值产生的影响更大.在同时接受前后神经元连续的脉冲序列传递时, 器件应遵循三脉冲STDP学习机制, 当前两个脉冲间隔固定时, 权值最终值更多依赖于第三个脉冲发生的时间.另外, 器件权值随时间减弱的特性应符合Ebbinghaus遗忘机制, 当受到强烈脉冲刺激后器件权值衰退较缓慢,其保持时间较长形成更稳定的长时记忆.在经过循环测试、耐久测试和高温测试后发现, 本文制备的双层结构仿生忆阻器具有较好的稳定性, 满足类脑芯片的电路设计要求.