神经形态阻变器件在图像处理中的应用*

2022-07-28 07:33江碧怡周菲迟柴扬
物理学报 2022年14期
关键词:导电器件脉冲

江碧怡 周菲迟 柴扬

1) (南方科技大学深港微电子学院,深圳 518000)

2) (香港理工大学应用物理学系,香港 999077)

随着搭载于边缘终端上的图像与视频等数据密集型应用的日益增长,基于传统冯·诺依曼架构的互补金属氧化物半导体(complementary metal oxide semiconductor,CMOS)硬件系统正面临着能耗、速度和尺寸等多方面的挑战.神经形态器件包括具有存算一体特性的电学阻变器件和具有感存算一体特性的光电阻变器件,因其具有与生物神经系统的高相似度,及其高能效、高集成度、宽带宽等优势,在图像处理应用方面展现出巨大发展潜力.这类器件不仅能够用于加速传统图像低阶预处理和高阶处理中的大量运算,且能用于实现仿生物视觉系统的高效图像处理算法.本文介绍了最近的电学及光电神经形态阻变器件,并结合图像处理算法综述了神经形态阻变器件在图像处理方面的硬件实施和挑战,并对其发展前景提出了思考.

1 引言

随着人工智能、大数据与5G 时代的到来,图像和视频等应用变得普遍且占据了很大比重,尤其在移动和嵌入式系统、自动驾驶、机器人、医学图像分析和工业制造业等应用中.图像及视频处理是一种数据密集型应用,其数据量和任务复杂度不断增加,纵使视觉处理算法正在快速优化,大量的计算负载仍对实施算法的硬件系统构成了挑战,尤其是在资源有限的移动及嵌入式系统中(如手机人脸识别[1]、无人机自动驾驶[2]、智能机器人交互[3]等).与固定设备不同,大多数移动设备的可用空间较小,更加限制了图像处理模块的计算能力.此外,在这些由电池供电的移动设备中,电池中的有限能量对计算单元的低功耗提出了更为严格的要求.因此,为降低响应时间、功耗和通信带宽,迫切需要将智能、高效、强大的处理能力集成到图像传感系统中以进行高能效的实时决策.

图像处理通常可以分为低阶预处理(如边缘检测、锐化、运动检测等)和高阶处理(如图像认知和识别等)[4].低级预处理通常涉及在原始和非结构化数据中对数据的降维、去噪声和特征提取,而高阶处理涉及图像的抽象表示及认知学习的过程,如识别、分类和定位.预处理操作中完成的图像特征初步提取或图像质量初步提升可有效提高后期高阶处理的表现.基于互补金属氧化物半导体(complementary metal oxide semiconductor,CMOS)器件的冯·诺依曼计算系统,如大规模可编程阵列(field-programmable gate array,FPGA),中央处理器(central processing unit,CPU),图形处理器(graphics processing unit,GPU),专用集成电路(application-specific integrated circuit,ASIC)等已被广泛用于实现不同的图像低阶及高阶处理[5-8],然而,冯·诺依曼架构硬件系统中处理、存储和传感功能的分离导致的数据在不同单元之间的频繁传输和转换限制了带宽、功耗及延迟性能的进一步提升,不利于海量传感数据的高能效低功耗处理的需求.

在人类的感官系统中,超过70%的信息是由高效率的视觉感知系统获得[9].视网膜光感知细胞将接收到的光信号转化为电信号,并通过视网膜系统内部的突触和神经元对特征进行初步处理.视网膜内感光和撤光细胞组成的同心圆区域不仅能传递输入图像的明暗信息,并能以中心和周围细胞发射率的差异传递图像对比度的信息,以此完成缘检测和运动检测等功能[10,11].此外,生物视网膜系统对不同频率光输入的不同响应使其具有增强彩色图像的能力[12].完成预处理的图像电信号通过视神经被传递到大脑皮层,进行进一步的记忆和处理[13],最终能够从复杂的环境图像中高效识别出大部分所需特征.因此,模拟生物视觉系统感知是设计高效能图像处理系统的关键步骤.

神经形态电学阻变器件(resistive random access memory,RRAM)和神经形态光电阻变器件(optoelectronic resistive random access memory,ORRAM)因其与生物视觉系统功能的高相似度而常用于构成人工视觉系统,实现多种图像预处理和高阶处理.在神经形态RRAM 中,电阻值随外部电压刺激而发生改变的过程与生物突触权重的改变过程非常相似.此外,一些神经形态RRAM 还可以展现出与生物神经元相似的脉冲输出特性.因此其阵列的存算一体特性能有效模仿视觉系统的处理和记忆功能.感存算一体的神经形态ORRAM 阻值可直接响应于光信号,与高度集成的生物视觉系统相似度更高,可进一步应用于神经形态视觉传感器,能够有效避免传感、存储及计算单元间大量冗余数据的传输及转换,进一步提高了带宽和集成度,降低了延迟与功耗,同时增强数据的保密性[14-17].

本文首先从材料、器件结构和原理以及神经网络应用等方面分别综述了可用于图像处理的神经形态RRAM 和ORRAM;接着文章结合多种图像预处理(包括边缘检测、运动检测和图像增强)和高阶处理(包括图像识别)等算法,综述了基于这些器件及其阵列的硬件实现;最后总结了该领域存在的问题,并提出未来可能的研究方向.

2 电学神经形态阻变器件

2.1 应用于人工神经网络

人工神经网络(artificial neural network,ANN)在图像增强[18]、边缘提取[19]和图像识别[20]等图像处理任务中展现出了优越的性能.然而,不断增加的ANN 任务规模和复杂性给基于冯·诺依曼架构的传统计算机带来了能耗与速度等方面的巨大挑战.这使得对模仿生物神经系统工作方式的神经形态器件的研究成为必要.RRAM,因其能够以阻变机制模拟生物突触的长程突触可塑性(long term plasticity,LTP)[21],常被用作ANN 的人工突触器件.LTP 特性包括长程增强特性和长程抑制特性.

以金属导电丝的生成和断裂作为LTP 机制的RRAM 通常由活性金属电极(例如Cu,Ag 和Ni)/介质层/非活性金属电极(如Pt,Pd,W,Au 和TiN)组成[22].在外加电场的影响下,活性金属溶解产生金属离子向着惰性电极迁移,在此过程中金属离子逐渐被还原,形成金属导电丝,器件电导率上升,实现了长程增强特性.反向的电场使导电丝溶解并断裂,电导率下降,实现了长程抑制特性[23].2017 年Yuan 等[24]进一步观察到导电丝的形状、尺寸和阻态保持时间与电极的尺寸密切相关.为缓解导电丝生成的随机性对器件性能稳定性的影响,Choi 等[25]利用SiGe 中的位错将Ag 导电金属丝限制在一维的确定通道中,器件周期性误差和器件间误差分别仅为1%和4.9%,且开关比可达到104.

由HfO2[26],TaOx[27],TiO2[28],SrTiO3[29]和ZnO[30]等氧化物和非活性金属电极组成的RRAM 通常由氧空位导电丝实现LTP 特性.Chen 等[31]用透射电子显微镜技术观测了Pt/ZnO/Pt RRAM 中氧空位导电丝的生成和断裂(图1(a),(b));导电丝生成和断裂过程中器件的I-V特性曲线如图1(c)所示.导电丝生成过程中,外加电场作用下氧空位的迁移导致导电丝处的ZnO 转变为ZnO1—x,器件从高阻态(high resistance state,HRS)转变为低阻态(low resistance state,LRS).而反向电压使氧离子迁移到底电极附近与氧空位复合,导电细丝断裂,器件回到HRS.为进一步提高器件的多阻态和线性度,Wu 等[32]在HfOx介质层和底电极之间插入了AlOx阻挡层,将导电丝的破裂和连接限制在了层间界面上.此外,TaOx热增强层也可用于增加存储态个数.TiN/TaOx/HfOx/TiN 氧空位导电丝型RRAM 阻态数的增加来自热增强层热效应导致生成的多个弱导电丝.

图1 氧空位导电丝型RRAM[31] (a) Pt/ZnO/Pt RRAM 内生成的氧空位导电丝;(b) Pt/ZnO/Pt RRAM 内导电丝的断裂;(c) 导电丝生成(蓝)/断裂(红)过程中器件的I-V 特性曲线Fig.1.Oxygen vacancy conductive filament in RRAM[31]:(a) Oxygen vacancy conductive filament formed in Pt/ZnO/Pt RRAM;(b) rupture of conductive filament in Pt/ZnO/Pt RRAM;(c) I-V characteristic curves of the device during conductive filament formation (blue) and rupture (red).

浮栅型和电解质栅控三端RRAM 因其额外的端口而具有较好的稳定性和控制能力,有利于提高实现算法的运算准确率.HfO2阻挡层/石墨烯浮栅层/Al2O3隧穿层/MoS2沟道层结构的浮栅型RRAM具有高线性LTP 特性[33].其LTP 特性源于浮栅层在外加电场作用下存储/释放来自沟道的隧穿电子.恰当的材料介电常数和厚度导致的高层间电容耦合度提高了电子隧穿效率,实现了LTP 特性的高线性度.Seo 等[34]结合WSe2沟道/WCL 浮栅通道(具有高线性长程增强特性)和MoS2沟道/WCL浮栅通道(具有高线性长程抑制特性)构成的双通道浮栅型RRAM 同样具有非常高的线性度.PEOLiClO4/α-MoO3电解质栅控型RRAM 的LTP 特性主要来源于Li 离子的调控[35].该RRAM 同时具有高线性LTP 特性以及HRS 时的超低通道电导值 (< 75 nS),有利于减小器件的漏电流,提高其能效.

为实现大规模及高分辨的图像应用,开发基于RRAM 的大规模阵列及稳定性调控至关重要.乘加运算(multiply and accumulation,MAC)是许多图像处理算法的核心计算单元,如图像识别神经网络中的向量-矩阵乘法(vector-matrix multiplication,VMM),算子边缘提取法中卷积核和输入图片的卷积运算,以及图像平滑算法中滤波器和图片的卷积运算等.如图2(a)所示,基于RRAM (one resistor,1R)的人工突触阵列可以用于实现VMM运算[36].阵列中每个行列交叉点的电流是输入电压和对应RRAM 电导的乘积,即利用欧姆定律实现了乘法运算.此外,根据基尔霍夫电流定律,每一列输出总电流是每个交叉点的电流之和,即利用阵列本身的结构实现了加法运算[36].2018 年,Bayat 等[37]制造了基于Pt/Al2O3/TiO2—x/Ti/Pt RRAM 的20 × 20 1R 阵列.基于两个这样的阵列实现的16×10×4 全连接神经网络经过在线训练,于识别三组4×4 输入字母图片的任务上可达到70%的准确率.此外,Sheridan 等[38]制造了基于WOxRRAM 的32 × 32 1R 阵列,并基于此阵列实现了图像的稀疏编码.稀疏编码的原理是利用从预定义的特征集中选出的部分特征来取代原图片.选取特征时的判定标准为该特征与图片的相似度.1R 阵列中的RRAM 突触器件被用于存储这些特征,并接收原图片作为阵列的输入.编码过程中,相连突触存储的特征与输入相似度较低的神经元被抑制,以此完成输入图片的稀疏编码.

然而,1R 阵列中的漏电流使计算准确率下降,因此阵列规模通常较小,难以应用于大规模、高分辨的图像处理任务中[39].采用RRAM 和晶体管相连(one transistor one resistor,1T1R)的结构能有效缓解此问题.CMOS 技术的成熟使1T1R阵列的制造难度较低,一些具有较大规模的1T1R已被制造并应用于图像处理.如Yao 等[40]制造了基于TiN/HfAlyOx/TaOx/TiN RRAM 器件的128 × 8 1T1R 阵列,此阵列具有实现ANN 的能力,可用于人脸识别(图2(b));利用128 × 64 1T1R的HfO2RRAM 阵列实现的循环型ANN 被应用于USFNIST 数据库中的步态识别,准确率达79.1%[41];由选通器件和RRAM 组成的单元(one selector one transistor,1S1R) 也可用于抑制漏电流.得益于选通器件与RRAM 堆叠的结构,1S1R单元尺寸通常比1T1R 单元更小,因此1S1R 阵列(图2(c))[42]面积开销通常更低.选通器件的机理包括导电丝[43]、隧道结[44]、离子传输[45]、金属-绝缘体转换[46]以及肖特基势垒[47]等.

图2 应用于ANN 的神经形态RRAM 阵列 (a) 1R 阵列的VMM 运算示意图[36];(b) 1T1R 阵列实现ANN 的方式[40];(c) 1S1R阵列结构[42]Fig.2.Neuromorphic RRAM arrays applied to ANN:(a) Schematic diagram of the VMM operation of 1R array[36];(b) method of implementing ANN with 1T1R array[40];(c) structure of 1S1R array[42].

2.2 应用于脉冲神经网络

脉冲神经网络(spiking neural network,SNN)作为第三代神经网络,更接近于生物神经系统的行为,其使用脉冲信号传递信息.在该过程中,漏电整合放电(leaky integrate and fire,LIF)神经元[48]接收到足够的兴奋信号产生脉冲,通过突触传递给下一个神经元.在网络学习过程中,SNN 不仅能够进行有监督学习,其突触的脉冲时序依赖可塑性(spiking time dependent plasticity,STDP)[49]还支持了SNN 的无监督学习行为.此外,突触的短程突触可塑性(short term plasticity,STP)有利于模仿神经系统的遗忘特性,加速网络中较弱的噪声信号的衰减,进一步提高神经系统相似度,获得更高性能的SNN[50,51].神经元的LIF 特性和突触的STDP,STP 特性使得SNN 在处理大量时空信息上具有优势,因此可用于图像分割[52]、运动检测[11]、图像识别[53]和图像压缩[54]等场景.许多RRAM都展现出了STDP 和STP 特性,且可以与电容组合实现LIF 特性,因此常被用于SNN 人工突触器件和SNN 人工神经元器件.

两端RRAM 人工突触器件与生物突触的结构及功能都具有极高的相似度,能够展现出实现SNN所需的STDP,STP,PPF 特性,有利于实现较小面积的二维阵列或高度集成的三维堆叠结构.2018 年Yan 等[55]设计了Ag/TiO2:Ag/Pt 结构的两端RRAM,在不同的电压下,此RRAM 在金属导电丝和Ag 纳米团簇间的电子隧穿行为这两种导电机制之间切换,实现了电导率的调控.器件的高速STDP 行为表现为输入突触的激活脉冲早于(晚于) 输出的激活脉冲时,器件的电导率分别增加(减少),且输入输出脉冲到达时间差越小,电导率幅值变化越大.该器件可以通过增加脉冲幅值或脉冲数量实现从STP 到LTP 的转换过程.双脉冲易化(paired pulse facilitation,PPF)是STP 的一种表现形式,即相近的两个激活/抑制脉冲可引发电导率短暂提升/降低,常由PPF 因子描述分别为第1 个和第2 个输入脉冲后的电导率,τ1,τ2为特征衰减时间).得益于输入脉冲后Ag 离子迁移率的残留增强效应,Ag/TiO2:Ag/Pt RRAM 也展现出了PPF 行为.Ag/ZrO2/WS2/Pt金属导电丝RRAM 被证明具有STDP 和PPF 特性,器件的STDP 特性可由指数函数拟合,即A和τ分别为强度和时间常数[56].由于ZrO2和WS2层具有不同的离子传输速率,Ag 导电丝的断裂/生成被限制在层间界面上,从而使这一器件具备低功耗和高稳健性的额外优势.

基于Al/Ti3C2Tx/Pt 结构,Yan 等[57]报道了具有STDP 和STP 特性的氧空位导电丝型RRAM,能够以极窄的脉冲(10 ns)进行高速电导率调控.器件STP 到LTP 的转换可通过增加输入脉冲的数量、频率或幅值实现.Pt/KNbO3/TiN RRAM也可展现出SNN 所需的STDP(图3(a),(b)),STP和强直后增强(post-tetanic potentiation,PTP)(图3(c))特性[58].PTP 为STP 的另一种表现,表征第10 个输入脉冲信号产生的输出电流增加程度.此外,其导电细丝的生长/溶解主要受到氧离子氧化还原过程的影响,氧离子扩散的影响可忽略不计,因此还具有高线性度的LTP 特性.改变输入脉冲信号的数量或频率可调控器件的电导率.

图3 Pt/KNbO3/TiN 神经形态RRAM[58] (a) 具有40 µm 时间差的突触前脉冲(红)和突触后脉冲(绿),以及对应的等效输入脉冲(蓝);(b) 器件的STDP 特性;(c) STP(I2-I1)和PTP(I10-I1)特性Fig.3.Pt/KNbO3/TiN neuromorphic RRAM[58]:(a) Presynaptic pulse (red) and postsynaptic pulse (green) with 40 µm time difference,and the equivalent input pulse (blue) of the RRAM;(b) STDP characteristic;(c) STP (I2-I1) and PTP (I10-I1)characteristics.

扩散型Au/SiOxNy:Ag/Au RRAM 具有STDP,尖峰速率依赖可塑性(spike rate dependent plasticity,SRDP),STP,PPF 以及双脉冲抑制(paired pulse depression,PPD)特性[59].基于Ag 纳米团簇的阻变机制与生物突触基于Ca2+的权重调制具有非常高的相似度.在初始状态下,两组较大的Ag 纳米团簇分别聚集于顶电极和底电极.外加正电压产生的焦耳热使顶电极处的团簇分裂,在电场作用下逐渐形成导电通路与底电极处团簇连接,电导率升高.而电压一旦撤去,团簇将自发扩散重新聚集到电极附近,电导率下降,团簇的自发扩散以及在电场下的分解和漂移使扩散型RRAM 具有STDP,SRDP,STP 和PPF 特性.而其PPD 特性来源于过高电压下团簇倾向聚集于底电极的行为.

相比两端结构,三端结构的SNN 型RRAM人工突触器件可同时利用栅电极和沟道电流分别进行阻态调控和信号传输操作.同时,调控通道和传输通道的分离可减小阻态调控信号对存储阻态的干扰,有利于提高阵列的稳定性和精确度.基于DEME-TFSI 离子液体/WO3结构,Yang 等[60]设计了具有STDP,LTP,PPF 和PTP 特性的三端电解质栅控型RRAM.离子液体/WO3RRAM 的STP 特性来自低栅压下沟道表面积聚/自发结合的离子生成的屏蔽电场,而其LTP 特性来自于高栅压下水分子分解产生氢离子嵌入/嵌出沟道的行为.栅压调控的STP 和LTP 之间的切换可用于模仿生物神经系统基于注意力的长短记忆机制.基于Li 离子调控机理的LixSiO2电解质层/Nb2O5沟道层结构的RRAM 也具有STDP 特性[61].32×32的LixSiO2/Nb2O5RRAM 阵列与CMOS LIF 神经元的系统可用于实现25 × 8 的SNN.RbAg4I5电解质层/PEO 阻挡层/P3HT 沟道层结构的低功耗RRAM 具有STDP,STP 和PPF 特性[62].得益于RbAg4I5的超离子导电性和高介电常数,每次阻态变化仅需2.0 pJ 能量.

对于人工神经元器件,传统的CMOS LIF 神经元通常由复位电路、电容和比较器组成[63].输入脉冲可使电容电位逐渐增加,当比较器检测到电容电位超过阈值时,复位电路将存储的电荷清零,形成脉冲输出.为了减少面积开销,具有阈值开关(threshold switching,TS)特性的RRAM 常用于替代比较器和复位器,与电容并联形成RC LIF 人工神经元[64].Ag/SiO2/Au RRAM 的TS 特性表现为外加电压大于Vth2时,Ag 导电细丝生成,RRAM从HRS 切换到LRS.外部电压小于Vth1时,导电细丝断裂,RRAM 回到HRS.其组成的RC LIF 人工神经元在整合过程中,输入脉冲通过充电回路CL给RC LIF 人工神经元中的电容充电,RRAM 两端电压到达Vth2之前,输出电流可以忽略.两端电压到达Vth2之后器件切换到LRS,电容通过放电回路DL 放电,产生输出脉冲.Ag/SiO2/Au 器件电位下降到Vth1时,器件回到初始HRS,进入下一轮整合过程.

Pt/Ti/NbOx/Pt/Ti RRAM 也可以与电容并联形成RC LIF 人工神经元[65].Duan 等[65]制备了4×4 的Pt/Ta/Ta2O5/Pt/Ti RRAM 人工突触阵列,阵列每行连接1 个NbOx人工神经元,以此实现了具有4 个神经元的SNN,能够分辨输入图片的模式.为了降低RC LIF 人工神经元的功耗,Lu 等[66]制备了Pt/Ag/TiN/HfAlOx/Pt 结构,具有临界开关特性的RRAM.由于TiN 缓冲层对Ag扩散的限制作用和HfO2/Al2O3多层结构下导电丝的非均匀生长,形成的导电丝较弱,器件具有极高的关断电阻(1012)、较小的LRS 阈值电压(0.4 V)和高低阻之间的快速开关速度(50 ns),因此与电容并联后可以实现高效率LIF 特性.

不同于RC LIF 人工神经元中电容和RRAM并联结构,Wang 等[67]设计了Pt/Ta2O5/TaOx/Pt电容和Ag/SiOx:Ag/Ag/Pt 扩散型RRAM 串联的电容式LIF 神经元.此RRAM 在开/关状态下的本征电容值不同,导致了阻态转换后电荷在本征电容和串联电容之间的重新分配,以此实现了LIF特性.同时,Wang 等[67]将电容式LIF 神经元中的RRAM 替换为非易失RRAM,实现了人工突触的功能,最终利用所设计的电容式LIF 神经元和人工突触实现了完整的脉冲神经网络.

单个RRAM 也可表现出LIF 特性.Wang 等[68]设计的两端Ag/V2C/W RRAM 具有本征LIF 特性.器件的漏电、整合、放电特性分别源于无外加电压时Ag 离子的扩散,Ag 导电细丝的生长过程,以及器件的TS 特性(图4(a)).该RRAM 实现的LIF 神经元和其LIF 特性如图4(b)所示.其输出脉冲的频率可由输入脉冲的频率和幅值所调控(图4(c),(d)).此外,基于氧空位导电丝的Ag/SiOx/TiN RRAM 也可以展现出本征LIF 特性[69].这一器件的输出脉冲频率不仅与输入脉冲的频率和幅值成正比,同时还受SiOx中氧空位的密度调控.

图4 两端Ag/V2C/W 型RRAM 器件[68] (a) RRAM 的TS 特性;(b) RRAM 作为人工LIF 神经元(左)和神经元的LIF 行为(右);LIF 人工神经元输出脉冲频率受(c)输入脉冲频率和(d) 输入脉冲幅值调控Fig.4.Two-terminal Ag/V2C/W type RRAM[68]:(a) TS characteristic of RRAM;(b) RRAM as an artificial LIF neuron (left) and the corresponding LIF behavior (right);modulation of LIF artificial neuron output frequency by (c) the input pulse frequency and(d) the input pulse amplitude.

Han 等[70]设计的Si/SiO2/Si3N4/SiO2/Si 浮栅型神经形态RRAM 能同时实现SNN 人工神经元所需的LIF 特性和SNN 人工突触所需的STDP特性.器件作为人工神经元时需要撤去外加的正向栅压(图5(a)).由于Si3N4浮栅层的存储能力,器件初始处于HRS,随后输入漏极的脉冲信号使电荷积累在器件沟道中,电荷量到达一定阈值后沟道导通,电荷被释放形成输出脉冲.而作为人工突触(图5(b))时需要利用栅极接收来自神经元的脉冲信号,控制Si3N4层内捕获电荷的密度,从而调控沟道阈值电压,改变器件的输出电流.人工神经元和人工突触的连接方式由图5(c)所示.人工神经元LIF 行为产生的输出脉冲频率随人工突触权重的增加而增加(图5(d)).基于单一浮栅型神经形态RRAM 构建的阵列可实现SNN,并应用于字母图案识别和人脸图像识别的图像处理任务中.

图5 Si/SiO2/Si3N4/SiO2/Si 浮栅型神经形态RRAM[70] (a) 作为人工神经元;(b) 作为人工突触;(c) 人工突触和突触后神经元连接方式;(d) 人工神经元LIF 行为产生的输出脉冲频率与所连接的人工突触权重大小的关系Fig.5.Si/SiO2/Si3N4/SiO2/Si floating gate neuromorphic RRAM device[70]:(a) As artificial neuron;(b) as artificial synapse;(c) connection of artificial synapse and postsynaptic artificial neuron;(d) effects of connected synaptic weight on the artificial LIF neuron output frequency.

3 光电神经形态阻变器件

不同于传统电学调控RRAM,ORRAM 的阻值可直接响应于不同光刺激.ORRAM 具有光可调控的LTP,STP,PPF,STDP 和SRDP 等特性,不仅可用于模拟生物突触的功能,还能与LIF 神经元组合形成光可调控的人工光电神经元器件,因此可作为高效能人工视觉系统的组成单元.ORRAM 组成的阵列能够应用于感存算一体化智能图像传感器,集成图像感知、存储以及计算功能,具有高运行速度、高带宽与低互连功率损耗的优势[71],可用于图像锐化、降噪、边缘检测、运动目标检测及图像识别[72-75]等场景.

两端ORRAM 因其较简单的结构而具有低功耗,低面积开销和良好的可扩展性等优势,有利于集成大规模阵列,实现较复杂的图像处理算法.Gao 等[76]报道了基于ITO/Nb-SrTiO3/Ag 结构的ORRAM.如图6(a) 所示,光照使界面陷阱电荷脱离,在正向电压的作用下向顶电极方向移动,留下带正电的界面氧空位,导致界面肖特基势垒高度和宽度降低,对应器件电导率升高.而在负电压下,光生电子与氧空位复合,界面肖特基势垒的宽度和高度重新增加,器件电导率随之降低.该器件具有可见光区宽光谱响应、输入光脉冲频率和数量调控的STP 和LTP 之间的转换(图6(b))及PPF 等特性,因而适合用于构建人工视觉系统,且能以外加电压幅值的调控模仿人类关注度决定记忆强度的行为(图6(c)).

图6 ITO/Nb-SrTiO3/Ag 结构的神经形态ORRAM[76] (a) 光电调控的阻变机理;(b) 通过改变输入光脉冲频率或数量实现的STP 和LTP 特性之间的转换;(c) 器件阵列记忆强度随输入电压幅值增加而增强的特性Fig.6.ITO/Nb-SrTiO3/Ag neuromorphic ORRAM[76]:(a) Optoelectronic resistive switching mechanism;(b) transition between STP and LTP characteristics by changing the frequency or number of input optical pulses;(c) enhanced memory characteristics in the array with increased input voltage amplitude.

基于ZnO/NSTO 界面肖特基势垒变化机理,Tan 等[77]设计了ITO/ZnO/Nb-SrTiO3(NSTO)结构的ORRAM.该器件具有光可调控的STP,LTP,PPF 和SRDP 特性.基于此ORRAM 的人工传入神经具有提取手写字母的特征.前端的压力传感器和紫外LED 根据输入压力的强度输出不同频率的光脉冲信号,末端的ORRAM 将多组输入的光脉冲信号融合为一组电脉冲输出信号,实现了特征的降维提取.

随后,基于光照作用下Mo 离子的价态转变机理,Zhou 等[78]设计了有紫外光可塑性的ORRAM(图7(a)),并将其首次应用于图像处理.由图7(b)所示,紫外光照下光生空穴和水分子反应产生H+离子.H+离子和MoOx反应产生具有导电特性的HyMoOx,实现Mo6+到Mo5+的价态转换,器件从HRS 转换到LRS.相对地,负向电压能使H+离子从MoOx向Pd 电极漂移,Mo5+转变回Mo6+,回到HRS.此器件的STP (图7(c))和LTP (图7(d))特性使ORRAM 人工突触阵列同时具备图像传感、图像记忆和图像预处理功能[78].

图7 ITO/MoOx/Pd 神经形态ORRAM[78] (a) 器件结构;(b) 基于Mo 离子价态转变的电阻调控机理;(c) ORRAM 的STP 特性;(d) ORRAM 的LTP 特性Fig.7.ITO/MoOx/Pd neuromorphic ORRAM[78]:(a) Device structure;(b) resistive switching mechanism based on change of Mo ion valence state;(c) STP characteristic of ORRAM;(d) LTP characteristic of ORRAM.

光照影响导电细丝的断裂和形成这一特性同样可用来构建ORRAM.Liu 等[79]设计了Al/TiS3/ITO 结构的ORRAM.光照条件下,光生电子抑制了Al 原子的氧化,使导电细丝的断裂更加困难,实现了电阻值的调控.受益于TiS3的宽光谱吸收能力,此器件具有宽光谱响应能力.在相同条件下,短波长光照下产生的氧化抑制电子数量更多,电导值更大.此外,该ORRAM 器件不仅有良好的突触可塑性,较大的开关比率,还具有STDP 特性.

得益于二维材料所具有的独特光电性质,基于二维材料的三端ORRAM 具有优越的光可调控性和宽光谱响应等优点,同时可支持多信号同时输入的优势[80].Xiang 等[81]设计了基于BN/WSe2异质结结构的三端ORRAM (图8(a)).如图8(b)所示,负栅压下光生电子从BN 漂移到WSe2沟道层,电导率上升,剩下的正电荷储存在BN 层中[81].这些正电荷产生的屏蔽电场降低了沟道的阈值电压,实现了器件的存储功能.而正栅压下,光生空穴向沟道漂移,电导率下降.该ORRAM 在输出电流比率(1.1×106)、阻态数(> 128)、阻态保持时间(> 4.5×104)、循环耐久性(> 200 次)上展现出了优良的表现.此外,具有宽带频谱上的高分辨率响应,这一特性为它在3×9 阵列中直接检测和存储彩色图像的应用提供了支持(图8(c))[81].

图8 基于BN/WSe2 异质结结构的三端ORRAM[81] (a) 器件结构;(b) 光电调控的阻变原理;(c) ORRAM 组成的阵列对不同波长光输入的不同存储效应Fig.8.Three-terminal ORRAM device based on BN/WSe2 heterostructure[81]:(a) Device structure;(b) switching mechanisms;(c) different storage levels resulted from different light wavelengths in ORRAM array.

Zhang 等[82]报道了h-BN/WSe2/Al2O3/BP 结构的三端ORRAM 人工突触,同时具有高线性度和高对称性正光电导和负光电导特性.正栅压使WSe2层内的电子隧穿到达顶电极,层内余留的空穴产生作用于BP 沟道的电场,器件电导率上升.随即施加的负向电压和光照使空穴获得能量越过h-BN/WSe2表面势垒,离开WSe2层,器件电导率下降,产生负光电导.产生正光电导的过程与之相反.WSe2的宽光谱吸收能力使ORRAM 能够响应不同波长的光照,因此被用于彩色小车的动作检测和识别.

有机材料因其良好的延展性、灵活性和低制造成本等优势而被认为是实现ORRAM 人工突触的选择之一.Wang 等[83]设计了有机材料PTCDA/二维材料MoS2结构的ORRAM.光照条件下,大量光生电子从PTCDA 隧穿入MoS2沟道,电导率上升,光照撤去后,电子逐渐回到PTCDA 层,电导率降低.通过控制栅压的幅值或输入光脉冲的数量可实现STP 和LTP 之间的转换.该ORRAM还展现出SRDP 和PPF 特性.此外,零维量子点材料(QDs)具有良好的电荷捕获性能和光电响应能力,因而有利于实现高响应率的ORRAM.Zhu 等[84]利用CNT/CsPbBr3-QDs 结构在可见光区实现了具有高光敏度的ORRAM.在正向栅压条件下,光照产生的电子被CsPbBr3-QDs 所捕获,而空穴漂移到CNT 沟道层,器件电导值升高.外加负向栅压可以使电导值重新降低.此器件对光输入具有高响应率(5.1 × 107A/W)和高探测率(2 × 106Jones,1 Jones=1 cm·Hz1/2·W—1),同时也具有LTP,STP 和PPF 等生物突触特性.基于此ORRAM 制造的32 × 32 阵列可以模仿学习增强记忆这一生物特性.在输入阵列的弱光脉冲(1 µW/cm2)从0 个增加到200 个的过程中,阵列权重中存储的图片与输入目标图片的相似度从约65%逐渐提高到95%.

当前大多数ORRAM 主要基于光学和电学的共同调控(如光学或电学复位),而纯光学ORRAM的电阻调控仅依赖于光照,不需要电信号辅助.这类ORRAM 构成的人工视觉系统所需的连接更少,具有高带宽、高计算效率和低互扰等优势,因此被认为能更好地模拟生物视觉系统的行为.Hu 等[85]基于Au/缺氧IGZO/富氧IGZO/Pt 结构实现了纯光学调控的二端ORRAM(图9(a)).如图9(b)所示,施加波长较短的可见光和波长较长的近红外光分别可以使器件电导率上升和下降,这是由于在短波长条件下,界面氧空位的电离占主导地位,产生的电离氧空位带正电,使界面势垒变窄;而在长波长条件下,由隧穿电子与电离氧空位发生的中和反应占主导地位,使界面势垒重新增宽[85].这一器件还具有光调控的STDP 特性(图9(c))[85].

图9 Au/富氧IGZO/缺氧IGZO/Pt 结构的ORRAM[85] (a) 器件结构;(b) 可见光脉冲(420 nm)使器件电导率上升和近红外光脉冲(800 nm)使器件电导率降低的过程;(c) 光调控的STDP 特性Fig.9.Au/oxygen-deficient IGZO/oxygen-rich IGZO/Pt ORRAM[85]:(a) Device structure;(b) conductivity increasing realized by visible light pulses (420 nm) and conductivity decreasing realized by near-infrared light pulses (800 nm);(c) light modulated STDP characteristic.

Hou 等[86]设计的两端Pyr-GDY/石墨烯/PbS量子点ORRAM 在栅压为零时,输入450/980 nm的光脉冲信号可以得到负/正光电流响应.这一特性来源于石墨烯和Pyr-GDY 之间的功函数差异,短波长光照下,Pyr-GDY 的光响应占主导地位,大量光生电子进入石墨烯层导致其电导率降低.相反,长波长光照下,PbS 量子点的光响应占主导地位,光生空穴进入石墨烯层,电导率升高.此外,通过集成在红色光(635 nm)照射下具有正光电导的Bi2O2Se 材料和在紫外光(365 nm)照射下具有负光电导的石墨烯材料,也可以实现光波长调控的ORRAM[87].与生物突触相似,这一器件具有长程记忆、短程记忆和PPF 特性.

此外,除了利用光电突触器件,Pei 等[88]将TiN/PbS-QDs/ITO ORRAM 人工突触和基于Ag/MoOx/Ag RRAM 的RC LIF 神经元电路相连接,构造了人工光电神经元.光照强度增强时,ORRAM 人工突触电导率上升,输入LIF 神经元的电流增加,导致人工光电神经元的输出脉冲频率上升.这一特性使其可实现于汽车自动驾驶中的碰撞检测.两辆无人驾驶汽车距离越近,来自对方车灯的光照越强,人工光电神经元输出脉冲频率升高,汽车速度随之降低.John 等[89]设计的基于ReS2的ORRAM与CMOS LIF 神经元相连接后(图10(a))也可以展现出输出脉冲频率受光调控的性质,且可以接受不同波长的光作为输入(图10(b)).

图10 基于ReS2 ORRAM 与CMOS LIF 神经元构建的光可调控神经元[89] (a) 光可调控神经元结构;(b) 光可调控神经元输出脉冲频率在光照下增加的行为Fig.10.Light tunable artificial neuron based on ReS2 ORRAM and CMOS LIF neuron [89]:(a) Structure of light tunable artificial neuron;(b) increasing of light tunable artificial neuron output frequency in response to light illumination.

4 阻变神经形态器件在图像处理的应用

描述型的传统图像处理算法通常使用人为定义的特征来判定图像类别,因此很难应对实际应用中可能出现的未定义场景和噪声干扰.然而,具有自我学习能力的神经网络(全连接ANN、卷积神经网络(convolutional neural network,CNN)和SNN 等)能够发现输入数据之间的基础规律,预测到所有可能的干扰因素,使实际结果和预测结果之间的误差最小,因而具有更好的准确率和稳定性[90].然而,随着所需处理的数据量和任务复杂度的不断增加,所需神经网络的规模也在不断增加,大大提高了功耗和计算时间.包括运动检测、边缘检测和图像增强[4]等操作的图像预处理因其计算复杂度通常低于神经网络的计算复杂度,且同样具有增强图像中的相关信息,抑制冗余噪声的功能[91],从而可以用于减小后端神经网络的计算压力,有助于提高其效率和准确率.RRAM 和ORRAM 常被应用于实现图像预处理和图像识别.相比具有分立传感,信号转换,计算和存储等模块的传统CMOS 电路,基于神经形态器件的系统具有更高的集成度和并行运算能力,有利于实现更高能效、更低延迟的图像处理.

4.1 边缘检测

图像的像素值包含了图像的明暗信息,因此,图像的边缘可以看作像素值阶跃变化的像素点集合,即像素值的导数较大的位置集合.图像边缘检测可以通过比较并判定相邻像素值幅值的差别是否大于特定阈值来实现.随着输入图像维数的增加,传统的CMOS 边缘检测电路将在处理器和存储器之间的数据交换上消耗大量能量.2019 年,Chakraborty 等[92]提出用RRAM 存算一体阵列并行运算的优势来加速这一差别判定算法,通过训练得出RRAM 阵列的一种权重模式,使阵列以这种模式工作时的输出与差别判定算法的输出具有最高的相似度.训练所得的RRAM 阵列可实现BSD500 数据库的边缘提取.

Pannu 等[93]改进了基于RRAM 阵列的差别判定边缘检测法,原始的二输出差别判定算法被改进为三输出(存在/不存在/不重要)算法.比起模仿二输出算法的阵列提取的边缘图像,模仿三输出算法的8×8 HfO2RRAM 阵列提取的边缘图像噪声更少且所需能耗更低.Mannion 等[94]将输入像素值映射到脉冲频率,设计了基于RRAM 分压器的频率差检测电路(图11(a))来实现差别判定边缘检测法.如图11(b)所示,若输入频率不同,RRAM两端的输入信号无法相互抵消,两个器件的电导值分别上升/下降,使输出信号包含两组具有不同幅值的脉冲序列.输入频率差越大,幅值的差别越大.基于RRAM 分压器的频率差检测电路不需要额外的训练过程,识别过程中也不依赖于电源和控制信号,极大地减少了电路复杂程度.基于这一电路提取的图片边缘如图11(c)所示.

图11 基于神经形态阻变器件频率差检测电路实现的图像边缘提取[94] (a) 基于RRAM 分压器的频率差检测电路(右)和所使用的器件结构(左);(b) 两组输入脉冲频率相同(左)和不同(右)时频率差检测电路的输出;(c) 原图和频率差检测电路提取的图片边缘Fig.11.Edge detection based on frequency difference circuit implemented by neuromorphic RRAM[94]:(a) Frequency difference detection circuit (right) and the adopted RRAM (left);(b) output of the frequency difference detection circuit when two sets of the input pulses are at the same frequency (left) and different frequencies (right),respectively;(c) original image and extracted edges by frequency difference detection circuit.

算子边缘提取法利用差分算子和图像卷积的结果估计图像像素值的梯度,检测图像的边缘.每个差分算子中包括两个卷积核,分别用于估计横向和纵向梯度,最终输出为两组卷积结果的平方和.RRAM 阵列常用于加速此卷积运算.Li 等[95]制造了基于Ta/HfO2/Pd RRAM 的1T1R 阵列来加速Sobel 算子的卷积运算.此器件具有高线性度、多阻态和高产量(99.8%)的优点,因此其阵列可以达到较大规模(128×64),支持多个卷积核并行运算.Lin 等[96]设计的三维HfO2RRAM 阵列可用于加速基于Prewitt 算子的边缘提取运算.

蚁群边缘检测算法是一种高效的生物启发式算法.通过将路径长度设置为像素值之间的差,即利用蚁群通过信息素的更新选择最短路径的行为来进行边缘检测.而该行为与RRAM 电导值受输入电流影响而更新的趋势具有很高的相似度[97].在实现蚁群优化边缘检测算法的阵列中,每一个RRAM 单元对应一个像素值,ML和MU控制当前单元与左/右单元连接模拟蚂蚁行进方向,MDD用于更新电导值(模拟信息素更新).图片边缘提取完毕后,以Mread和Mini分别控制读取结果和重新置位.Yu 等[98]通过在图像外部填充对称像素,定义了蚂蚁运动的边界,进一步提高了基于RRAM 的蚁群边缘检测法的精确度,所设计的以外部控制电路和1R 阵列组成的RRAM 蚁群边缘检测电路具有更小的面积开销.改进的蚁群边缘检测法提取的边缘比Sobel 算子提取的边缘更加清晰.

光感受细胞、双极细胞和输入神经节细胞组成的生物视网膜系统,可以将光信号中心强度和边缘强度之间的差别编码为不同频率的脉冲输出(见图12(a)),以此完成边缘提取图像预处理操作[99].Bao 等[99]基于此设计了如图12(b)所示的基于HfOxRRAM和CMOS 晶体管的人工视网膜单元,其中晶体管T 与RRAM 组成了人工双极细胞,剩余晶体管实现了神经节细胞的LIF 特性.如图12(c)所示,人工视网膜单元输出脉冲的频率同时与Vth端口的输入(模拟光信号输入)和input 端口的输入(模拟来自其他神经元的生物脉冲输入)相关[99].以该人工视网膜单元组成的人工视网膜网络因其高度并行的处理模式而具有很高的效率,有利于实现移动终端中的实时边缘提取功能.

图12 基于RRAM 和CMOS 晶体管人工视网膜单元实现的边缘提取[99] (a) 生物视网膜系统(光感受-双极-神经节细胞)对不同输入光照的不同输出脉冲频率;(b) 人工视网膜单元结构;(c) 人工视网膜单元输出信号V0 随Vth 端口输入信号和input 端口输入信号的变化Fig.12.Unit of artificial retinal system based on RRAM for edge extraction[99]:(a) Different output frequencies of the biological retinal system (photoreceptor cells-bipolar cells-ganglion cells) in response to different light pulse inputs;(b) structure of artificial retinal system unit;(c) change of the artificial retinal system unit output signal V0 with respect to input signals from Vth port and input port.

4.2 运动检测

运动检测是从时间图像序列中检测物体运动行为的过程,常用于智能监控[100]、交通情况检测[101]和运动物体追踪[102]等场景.RRAM 具有的存算一体特性使前一帧图片信息的存储和部分计算可以在同一器件内完成,有利于减少器件的面积和能耗.ORRAM 具有的感存算一体特性可进一步提高运算效率.差别判断是常见的运动检测方案之一,通过检测连续两帧图片之间的差别,并将差值与特定阈值相比较,可以判断运动行为是否发生.Maan 等[103]设计了基于RRAM 的二元可变电阻阈值逻辑单元来进行差别判断.输入图像的每4 个像素连接到一个四输入的逻辑单元.在检测过程中,t1时刻的4 个图像像素(x1-4)分别输入到存储着t1—Δt时刻图像信息(w1-4)的4 个RRAM 中.Δt为前后两帧图片的时间差.当t1与t1—Δt时刻的输入有显著不同时,RRAM 的输出电流之和超过末端反相器的阈值,使输出翻转.完成当前时刻的检测后,位于器件前端的训练电路将t1时刻的输入信息写入权重,以便t1+Δt时刻的判断.实验证明该二元可变电阻阈值逻辑单元所组成的阵列可以实现运动目标的追踪.

Zhang 等[82]设计了一个基于三端h-BN/WSe2/Al2O3/BP ORRAM 阵列的神经形态运动检测电路.两个正光电导和负光电导(W/—W) ORRAM 阵列分别用于感应先后两帧图片阵列输出的叠加即为运动检测的结果.随后,为进一步完成目标识别,ORRAM 被用于构建ANN.h-BN/WSe2/Al2O3/BP ORRAM的高线性度和对称性LTP 特性使构建的ANN 表现出良好的抗噪声能力.

基于图像帧的传统运动检测机制比起生物视网膜光感受-双极-神经节细胞给光/撤光反应运动检测机制,其能耗大且延迟高.Wang 等[11]利用Ag/HfO2/C RRAM 阵列成功模拟了给光/撤光反应机制(图13(a),(b)),实现了目标运动方向的高效检测.如图13(c)所示,Ag/HfO2/C RRAM 的STP 特性使人工神经节细胞可以捕获输入信号的时空特性,从给光区运动到撤光区(A 到B)和从撤光区运动到给光区(B 到A)时输出电流脉冲的方向相反,以此判断运动方向[11].图13(d)示意了包含基于4 个人工神经节细胞的RRAM 阵列,其可实现全方位方向检测.对这一检测结果的进一步识别可以由ANN 完成,当方向精度为15°时,ANN识别准确率达到83.92%[11].

图13 基于Ag/HfO2/C RRAM 人工神经节细胞实现的运动检测[11] (a) 具有给光/撤光反应机制的生物视网膜系统结构;(b) 人工神经节细胞结构;(c) 人工神经节细胞工作原理;(d) 包含4 个人工神经节细胞的RRAM 阵列Fig.13.Artificial ganglion cell based on Ag/HfO2/C RRAM for motion detection[11]:(a) Structure of biological retinal system with both excitation and inhibition response to optical input;(b) structure of artificial ganglion cells;(c) working principle of artificial ganglion cells;(d) RRAM array realized with four artificial ganglion cells.

除此之外,受蝗虫小叶巨型运动检测神经元(lobula giant movement detector,LGMD)启发,Jayachandran 等[104]设计了一个基于RRAM 和光感受器堆叠的人工LGMD 神经元,具有进行碰撞检测的功能.物体靠近时,这一神经元对接收到的兴奋(源于物体靠近)和抑制(源于背景)信号做非线性数学运算.其输出与时间呈非线性关系,呈现出单个尖峰,这一尖峰即为触发逃跑反应的信号.人工LGMD 神经元器件电导率随光脉冲增加,随背栅电信号降低,以及输出电流随时间的变化,分别与LGMD 神经元的兴奋,抑制和信号输出过程相似(见文献[104] Fig.1(c)—(i)).因此,该器件可以模拟LGMD 的碰撞检测行为.人工LGMD 神经元不仅能对具有不同速度的接近物体进行碰撞检测,还可通过调整背栅电压来调整器件对高速/低速物体检测的精度.

为了进一步缩减人工LGMD 神经元的面积开销,Wang 等[105]利用如图14(a)所示的Ag/FLBPCsPbBr3/ITO ORRAM 模拟了生物LGMD 细胞输出脉冲频率随时间的非线性行为(图14(b)).连续施加的光脉冲可用于模拟物体的靠近,物体距离较远时,光照产生焦耳热效应导致器件温度升高,合理的温度促进Ag 导电丝的形成,电导率增加;物体距离过近时,过高的温度使导电丝熔解断裂,电导率降低,形成尖峰(图14(c))[105].该柔性器件组成的类眼球形阵列(图14(d))比起单个器件具有更大的接受角,且可以分辨接近物体的方向和速度.Ag/FLBP-CsPbBr3/ITO 器件也可以与电容组合形成人工RC LIF LGMD 神经元.这一人工神经元随后被成功地应用于小车避障任务中.

图14 基于Ag/FLBP-CsPbBr3/ITO ORRAM 类眼球形阵列实现的运动检测[105] (a) 单个器件的结构;(b) 生物LGMD 细胞输出脉冲频率对接近物体的非线性反应;(c) 基于Ag/FLBP-CsPbBr3/ITO ORRAM 实现的人工LGMD 神经元对生物LGMD 神经元非线性响应特性的模仿;(d) 柔性Ag/FLBP-CsPbBr3/ITO ORRAM 构建的类眼球形阵列Fig.14.Ag/FLBP-CsPbBr3/ITO ORRAM array based biometric compound eye for motion detection[105]:(a) Structure of single device;(b) nonlinear response to approaching objects regarding output spike frequency of biological LGMD cell;(c) emulation of the nonlinear response properties in biological LGMD neuron by artificial LGMD neuron based on Ag/FLBP-CsPbBr3/ITO ORRAM;(d) flexible Ag/FLBP-CsPbBr3/ITO ORRAM array as biometric compound eye.

4.3 图像增强

图像锐化和图像平滑均可用于增强图像质量.图像锐化强调对比度的增强,而图像平滑强调噪声的衰减[106].平均值滤波器、高斯滤波器、圆形均值滤波器、拉普拉斯滤波器等平滑滤波器与图像的卷积可以实现图像平滑.RRAM 或ORRAM 组成的阵列常用于加速此卷积运算.例如,Li 等[95]设计的基于Ta/HfO2/Pd RRAM 的1T1R 阵列可实现.为进一步提高运算效率,Wang 等[107]设计了基于WSe2/BN/Al2O3ORRAM 的传感器阵列,利用此ORR AM 阻态由背栅电压和光照共同决定的特性,拉普拉斯滤波器权重和输入图片像素值分别被映射到背栅电压和光照强度上,以此完成卷积运算.感存算一体的特性使这一阵列具有高效率和低电路复杂度的优点.

RRAM 和ORRAM 的本征非线性阻变特性常被用于图像锐化.基于ITO/MoOx/Pd ORRAM,Zhou 等[78]构建了8× 8 ORRAM 阵列(图15(a)),并证明了该阵列具有图像锐化能力.图15(b)展示了ITO/MoOx/Pd ORRAM阵列的非线性阻变特性.阵列输出电流与输入光脉冲强度不呈线性关系,且器件衰减时间的非线性进一步扩大了输出电流之间的差值[78].以该阵列实现的图片锐化处理,可以提高后续神经网络的识别准确率和识别速率(图15(c))[78].

图15 基于ITO/MoOx/Pd ORRAM 阵列实现的图像锐化[78] (a) 8× 8 ITO/MoOx/Pd ORRAM 阵列;(b) ORRAM 阵列的非线性阻变特性;(c) 基于ORRAM 图像锐化阵列和图像识别神经网络的人工视觉系统Fig.15.ITO/MoOx/Pd ORRAM array for image sharpening[78]:(a) 8× 8 ITO/MoOx/Pd ORRAM array;(b) nonlinear resistance switching characteristics of the ORRAM array;(c) an artificial vision system based on ORRAM image sharpening array and image recognition neural network.

Yang 等[108]设计的自供电光电突触具有相似的本征非线性阻变特性,由SiNx/n-Si/p-Si/Al 太阳能电池光探测器和ITO/CsPbBr2I/P3HT/Ag RRAM 人工突触组成.光电突触阵列对输入强度和输入波长均具有非线性输出和非线性衰减特性,因此可用于彩色图像的图像增强.彩色手写图片数据库经过图像增强处理后,神经网络识别准确率上升了5.31%,识别速率上升了85.71%.用于复杂的MNIST 数据库时,图像增强的作用更加显著,神经网络准确率从77.31%上升至85.45%.

基于Ni/NiO/Ni RRAM 阵列的两步非线性图像锐化算法可达到与传统锐化算法相似的性能[109].无控制信号条件下,忆阻器的本征非线性只能增加输入信号中间亮度范围内的对比度,而添加了控制信号的的两步非线性可以拓展图片全亮度范围内的对比度,包括过亮/过暗部分.运算过程中,灰化的原始图片每4 个像素最暗像素作为控制信号输入RRAM 阵列,再将原始图片像素值作为输入信号输入同一阵列,阵列输出电流即为锐化后的图片像素值.与传统锐化算法相比(21624 kB,0.542 s),具有相似性能的Ni/NiO/Ni RRAM 阵列能耗更低,速度更快(6816 kB,0.047 s).

扩散型RRAM 的STP 和阈值阻态变换特性使其具有本征阈值开关特性,可以实现用于图像平滑的均值滤波器[110].阵列大小与输入图片像素数相同,其中每种扩散型RRAM 的LRS 阈值都被设置为对应像素周围8 个像素的平均值.此外,为缓解因均值滤波器滤除原图边缘造成的图像质量下降问题,另一扩散型RRAM 阵列被用于边缘增强.以扩散型RRAM 阵列均值滤波器、扩散型RRAM 阵列边缘增强滤波器与漂移型RRAM阵列组成的预处理-ANN 网络,在受白噪声影响的MNIST 数据库识别任务中准确率可达91.55%.

4.4 图像识别

在不同类型的ANN 中,CNN 常被认为在图像识别任务上具有更好的表现[111].它能通过卷积捕捉相邻像素之间的关系,同时减少网络中的数据量,因此有利于处理高维图像信息,在一些复杂的图像识别任务中,能以更低的功耗取得比全连接ANN更好的表现.

RRAM 组成的阵列可用于加速CNN 中大量的卷积运算.Yao 等[112]用基于TiN/TaOx/HfOx/TiN RRAM 阵列的硬件系统实现了5 层结构的CNN,支持卷积核间并行卷积运算.所用的离线和在线训练相结合的训练方式使实现的CNN 对于器件本身产生的噪声的容忍能力更强,在手写数字识别任务(MNIST 数据库)上的准确率从93.86%(仅离线训练)上升至95.83%(离线和在线相结合).这一硬件系统消耗的能量仅为实现同样CNN 的Tesla V100 GPU 的1/110.以该硬件系统实现的更大规模的CNN (ResNET-56)可用于更复杂的图像识别任务(CIFAR10 数据库)中,准确率为95.57%,仅比理想情况低1.49%.

Lin 等[96]设计的具有像素级并行操作能力的三维HfO2RRAM 阵列不仅支持多个卷积核之间的并行运算,且支持每个卷积核与整个图像卷积的并行运算.卷积核的每行权重被映射到一组以楼梯形电极连接的RRAM 上.因此,相同像素和卷积核不同行权重之间的多次乘加操作可以通过支持三维叠加的楼梯形RRAM 连接结构并行完成.三维RRAM 阵列的运行速度远快于TPU(V1)和GPU(RTX 6000).以此阵列实现的四层CNN 在手写识别任务上可达到与理想情况几乎一致的准确率(理想98.11%/三维阵列98.10%).

Wang 等[107]基于WSe2/BN/Al2O3ORRAM的感存算一体传感器阵列实现了图像识别CNN.3 个ORRAM 阵列组成了具有3 个卷积核的单层CNN.CNN 的3 个输出分别对应输入图片为字母n,j,u 的可能性.实现的CNN 在10 轮训练后可达到100%的准确率.

SNN 可直接处理来自基于事件的视觉传感器的脉冲输入,且因其低计算复杂度而具有低延迟和低功耗的优点[113],因此也被用于图像识别任务中.Boybat 等[114]利用多RRAM 并联的人工突触结构缓解了单个GST RRAM 作为人工突触时的阻态高度非线性问题,并基于改进的人工突触构建了单层SNN 进行手写字母识别(MNIST 数据库).当单个人工突触中并联的GST RRAM 数量达到7 个时,构建的SNN 准确率高于77%,与理想情况(77.02%)十分相近.Wang 等[115]利用基于Pt/SiOxNy:Ag/Pt RRAM 的RC LIF 人工神经元和基于Pd/HfO2/Ta 氧空位导电丝型RRAM 的人工突触实现了SNN,并成功利用该SNN 分辨输入的字母图片.

为提高SNN 识别的准确率,Li 等[116]用Pt/TaOx/AlOδ/Al RRAM 模仿了生物神经元中树突的噪声抑制和非线性整合功能.该人工树突器件只有在输入信号大于阈值(3 V)后才会开启,进行整合,因此可以阻止幅值较小的噪声信号通过,放大图片信息.人工树突器件与基于TiN/HfOx/TaOx/TiN RRAM 的人工突触阵列、基于NbOxRRAM的LIF 人工神经元一起实现了生物相似度更高的SNN.RRAM 人工树突的加入使实现的SNN 在门牌号数字图片识别任务上(SVHN 数据库)准确率从80.1%上升到88.5%.

5 结论

神经形态RRAM 和ORRAM 因其存算一体或感存算一体特性,在图像预处理和高阶处理应用中具有实现低功耗,高集成度人工视觉系统的潜力.然而,这一领域的研究工作仍处于发展阶段,算法和硬件方面仍亟需进一步提升.

在器件层面上,尽管ORRAM 人工突触被证明在实现高效能人工视觉系统上占有优势,但研究人员对这一类器件的工作机理和塑性调控机制尚未深入研究,尤其是可实现纯光学电阻调控的ORRAM 限制未来器件性能及面向不同图像应用的进一步提升.基于有机或二维材料实现的吸收特性及可调控性不利于未来大规模集成及高分辨图像应用.而基于氧化物实现的ORRAM 仍需从器件结构设计和机理上突破.进一步提升ORRAM 的集成度、改善光反应的灵敏度以及优化ORRAM的结构,是改进ORRAM 的3 个重要策略.目前对RRAM 的研究相对更加成熟,已有一些研究汇报了较大规模阵列的实现.然而,RRAM 的非线性度和不稳定性使其相比于传统CMOS 器件实现的人工视觉系统表现较差,不利于需要较高精确度的应用场景.进一步缩小RRAM 性能与需求的差距仍然是未来热门的研究方向.

在算法层面上,神经形态器件在实现图像预处理算法方面的潜力尚未充分挖掘.目前大部分应用集中在利用神经形态器件组成的阵列加速传统预处理算法中的卷积或乘加运算.而考虑到生物视觉系统的高效性,更多模仿生物图像预处理机制,且可以RRAM 和ORRAM 的阻变特性所模拟的生物图像预处理算法应当被设计出来,实现软硬件协同发展.

在系统层面上,当前外围电路设计的缺乏不利于实现信号在系统内部的高效调度和不同模块之间的分工协作.更多可应用于实际场景的全硬件RRAM 或ORRAM 人工视觉系统仍待开发.

猜你喜欢
导电器件脉冲
基于非因果滤波和零点法的近断层脉冲型地震动识别方法
无Sn-Pd活化法制备PANI/Cu导电织物
基于荧光材料的有机电致白光发光器件
他克莫司联合超脉冲CO2点阵激光治疗慢性湿疹的疗效观察
激光脉宽对熔融石英中超连续光谱的影响*
导电的风筝
Finding the Extraterrestrial
带螺旋形芯的高效加热线
通用贴片式器件及应用电路(五)电压变换器MAX860及MAX881R