半导体激子极化基元神经网络的调研

2021-08-10 07:26郭子煖
科教导刊·电子版 2021年18期
关键词:激子人工神经网络光子

郭子煖

(吉林大学物理学院 吉林·长春 130012)

1 研究背景

1.1 人工神经网络的基本原理

1.1.1 人工神经网络简介

计算机作为一种协助处理数据的工具,已经在各个领域取得了十分广泛的应用,但计算机虽然有着很高的计算速度,面对一些复杂的,不能很好的量化的问题依然无从下手,例如人脸识别,数字识别,这样的问题对于人脑很容易,但对于“只能算数”的计算机似乎十分困难。为了解决这类问题,模拟人脑学习过程的学习算法被提出,机器学习算法需要已有的数据,改变和调整模型中的参数从而不断接近一个最佳模型以便对未知的数据给出准确的结果。

而一般的机器学习算法也有其局限性,适用范围较窄,只能对符合条件的问题进行应用。于是以机器学习算法的思想为基础,进一步模拟人脑学习的人工神经网络被提出,和人脑类似,人工神经网络由一个个节点(或称“神经元”)组成,数据可以在神经元之间传递并一步步被处理,我们可以用已有的数据对每一个神经元进行训练,从而使整个神经网络输出准确的结果。较为完整的神经网络模型在20世纪60年代就已提出,但受到计算机运算能力的限制,一直停留在理论阶段,直到近几十年来,随着计算机运算能力的提升,以神经网络为代表的深度学习的应用得到了巨大的发展。现在,机器学习以及深度学习已经在生活的方方面面取得应用。下面,我们将介绍神经网络的最简单的模型。

1.1.2 M-P神经元模型

人脑中最基本的单元是一个个神经细胞,神经网络系统中,我们将神经元细胞的结构简化为M-P神经元模型。而所谓的M-P神经元模型本质上是一个广义线性回归模型。

如图1,其中xi是一个神经元的输入,wi是他们的权值,经过线性加和与激活激活函数f的处理,得到输出y,输出y再作为下一层的神经元的其中一个输入便可实现数据在大量神经元之间的传递与处理。

图1:M-P神经元模型

通过大量神经元的连接,就可以得到一个神经网络系统,如图2,我们可以看见神经网络通常由输入层,输出层和中间的隐层构成,我们可以通过调整这些神经元的参数使输出结果越来越准确。

图2:神经网络结构示意图

1.1.3 反向传播算法

为了训练一个神经网络,还需要一个合适的训练算法。反向传播算法是一个较为基本和重要的神经网络训练算法,一般应用在分层前馈神经网络上的算法。这种神经网络的节点按层划分,向前层层传递和处理数据,并将错误通过反馈的方式传播给上层的神经元。网络通过输入层的神经元输入原始信号,并通过位于输出层的一系列神经元给出输出结果,两者之间则可能会存在一层或多层的隐层用于进一步处理数据。

同时,反向传算法一般需要以监督式学习的方式进行,即对每一个输入,我们由一个理想的最佳输出。通过比对网络的输出与预期的输出,将输入激励和误差相乘,从而获得权重的梯度,由于梯度的方向指明了误差扩大的方向,要对权重按梯度的反方向更新,将这个梯度乘以步长,取反,加至原权重上完成一次更新。从而减小权重引起的误差,直到误差下降至合理的范围。这种方案是目前最为普遍的训练方式,但仍然存在被限制在局部最优解以及梯度爆炸的问题。

1.2 神经网络的困境与新模型的提出

1.2.1 人工神经网络的困境

尽管现在人工神经网络的应用已经在各个领域取得了大量的成果,但它的进一步发展也陷入了困境。随着需要处理的问题越来越复杂,对计算机的运算能力的需求也越来越高。目前,计算机的运算能力和处理器中晶体管的数量有很强的正相关性,而过去,计算机处理器的发展业主要是通过制造更小的晶体管从而在一个处理器中放入更多的元件实现,但随着原件的尺寸越来越小,处理器也逐渐开始遇到越来越强的量子隧穿效应,虽然人们提出了一些减弱量子隧穿效应的方案,但这仍然极大的限制了处理器算力的发展。

同时,由于现今的计算机普遍基于冯·诺伊曼架构,存储器和运算处理单元物理上是分离的,随着人们对运算速度要求的提升,数据在存储单元和处理单元之间的传递时间也逐渐变得不可忽略起来。计算机本身的这一特性也极大的限制了人工神经网络的效能,为了打破这一困境,有必要从系统的物理结构直接入手。

1.2.2 新平台的提出

相比于打破传统计算机架构之类的不切实际的构想,利用硬件直接实现神经网络似乎是一个十分可行的方案,在众多尝试之中,光学系统在能源效率,带宽和延迟上都具有独特的优势,可以实现超高速,复杂的数据处理,光学架构平台可以将有源器件(如激光器和探测器)和无源器件(如波导,谐振器,调制器)集中于同一芯片。考虑到其带宽,理论上这种架构可以比电子神经网络系统的效率高6~8个数量级。研究者已经成功利用CMOS FPGA液态机,光电延迟系统上实现了人工神经网络。但一直以来,各种光学架构的计算速率,准确率的进一步发展均被较弱的光学非线性所限制,能否找到具有较强光学非线性的学习平台成为光学架构人工神经网络进一步发展的关键。

近年来,研究者提出并实现利用量子强耦合体系中的半导体微腔组成人工神经网络的硬件平台。激子极化声子是系统中光子与激子耦合产生的准粒子。它同时具有物质的特性和光的特性。同时,激子之间的静电相互作用会导致它们产生相比于普通光学介质强几个数量级的光学非线性效应。空腔光子的寿命在皮秒的数量级。它们具有极低的有效质量,利用激光固定其位置即可在接近室温的条件下实现玻色爱因斯坦凝聚,并产生极强的非线性效应。此前,人们已经利用这样的性质实现了许多基本的逻辑元件,如各种逻辑门、极化开关、晶体管等。而近年,人们开始尝试使用这样的光学性质搭建脱离计算机的人工神经网络。

2 物理理论基础

2.1 激子与极化子

在半导体中,一个电子由满价带激发至导带,会在价带产生一空穴,同时在导带内产生一电子。空穴带正电,电子带负电,两者之间存在库伦力,使得它们被束缚在一起,这种电子空穴对形成的复合体被称为激子。激子是一种电中性准粒子,存在于绝缘体、半导体和某些液体中。激子是凝聚态物质的元激发,它可以传递能量而不传递净电荷。

极化子是由电磁波与电或磁偶极子激励的强耦合产生的准粒子,极化子描述光的色散与任何相互作用的共振的交叉,极化子也被认为是由裸模的强耦合引起的一种新的材料或结构的正模。极化子是玻色子准粒子。

极化基元包括声子极化激元,激子极化激元,离子极化激元和磁子极化激元等种类。其中离子极化激元是光子和金属中电子耦合而成,磁子极化激元是声子与电磁波耦合而成。

激子极化基元是一种极由激子和光子的电磁偶极振荡的强耦合而产生的光和物质准粒子的混合。最近,研究人员测量了有机材料与光学微腔耦合的远距离传输,发现激子极化子的传播可以达到数微米之长。激子极化子是复合玻色子,可以观察到形成玻色子-爱因斯坦凝聚。

2.2 激子极化子的玻色爱因斯坦凝聚

极化子是玻色子准粒子,可视作修饰光子。在微腔中,光子具有有效质量,当微腔中的光共振在能量上接近微腔内介质中的激子共振时,光子相互作用变强,并相互排斥。可见激子极化子由相互碰撞接近平衡,并可以在高密度时或低温下发生玻色-爱因斯坦凝聚。玻色极化子的凝聚体会像激光一样发出相干光。由于相干性产生的机制是极化激子之间的相互作用,因此激子极化子可以在较低的密度下产生相干光。

2.3 激子极化子的光学非线性特性

多年以来,激子极化子因其独特的特性而引起了人们极大的关注。包括超高效四波混合的能力,凝聚态的超流性等。这些准粒子具有很强的固有非线性,同时保持了底层光子的大部分特性。事实上,利用极化子进行光学计算确实比传统的光学方案具有明显的优势。对于计算和仿真,极化元素的相互耦合很容易实现,很容易承受较大的非线性。此外研究者还发现混合激子会产生较强的光学非线性。

2016年,研究者实现并观察了一种不同寻常的非平衡凝结,即“超模—密度—波—极化子凝聚”(超模DW极化子凝结),研究者发现在较强的泵浦下,处于凝结状态的极化子会大幅增强其耦合非线性,而较弱的光学非线性正是此前的光学架构神经网络的瓶颈所在,这为利用极化激子实现神经网络系统打下了物理基础。

3 神经网络具体实现

3.1 神经网络结构的选择

通过神经网络进行深度学习经历多年发展,也发展出多种多样的模型,但在利用极化激子实现神经网络时,我们注意到对单个节点的光学非线性进行“训练”仍然是很困难的,因此目前仍然无法实现具有反向传播属性的普通神经网络,但储层神经网络这种仅需要对输出层进行训练的模型就可以符合要求。

3.2 二值神经网络

二值化神经网络相比于普通神经网络的区别仅在于对输入原始数据做了二值化处理,这样,原本的乘法运算可以利用简单的位移运算代替,而具体到由半导体微腔搭建网络时,则可以用逻辑门代替。此前,研究者已经成功实现了可以自校正的TOFFOLI门的搭建。

近期,华沙大学的研究者利用异或门搭建并利用手写数字数据集(MNIST)测试其性能。研究者利用放置于非磁性布拉格反射器中的多层含锰离子的量子阱样品组成半导体微腔,以极化凝聚体的实空间辐射作为输入信号,实现了异或门后,将二值化后的手写数据集的像素点两两输入得到处理后的信息。虽然对于输出层偏置矩阵的训练仍然在传统计算机上进行,但由于极化声子皮秒量级的反应时间,仍然可以以极高的效率完成数字识别,如图3所示。

图3:神经网络搭建方案

图3二值化神经网络模型示意图:(a)节点的总发射强度与两个输入能量的非线性关系。(b)四种输入时对所应的输出非线性。(c)异或门的精度与非线性度 的关系。(d)MNIST数字识别的准确度与异或门数量的关系。虚线为直接在计算机上实现的二值化神经网络的识别准确度。(e)该人工神经网络的方案模型,此模型中只有一层隐层。

3.3 储层神经网络

3.3.1 储层神经网络的原理

储层神经网络是一般神经网络的一种扩展,如图4,一般一个储层神经网络由输入层、输出层、中间层三部分组成。其中输入层和前馈神经网络一致,中间层和与递归神经网络类似,输出层为一加法器。而储层神经网络最重要的特点是中间层在最初随机生成后不变,训练时仅调节输出层的权重,这个特点使得储层神经网络的训练效率比传统神经网络快。

图4:储层神经网络的结构

3.3.2 储层神经网络

近期,研究者将GaAs样品放置于半导体微腔中,在维持皮秒量级的反应时间的同时取得了极强的克尔光学非线性,并以此搭建了储层神经网络并测试了对手写数字数据集MNIST的性能。研究者创建了一个8×8耦合节点的晶格实现网络的储层,这些节点均为由半导体微腔组成的非线性人工神经元。对28×28的图像灰度赋值,并“存储”在一列向量ai中,再左乘一82×282的稀疏矩阵得到一对应8×8节点的列向量bi=∑Wijai,该结果通过空间光调制器发送至耦合节点,经过节点的非线性响应,由CCD相机记录输出乘以权重矩阵得到预测结果,如图5所示。

图5:储层神经网络的模型(a)对28x28的输入图像的每个像素赋值并排列成一列向量,输入为aj。这些输入乘以一个82×282的随机稀疏矩阵,得到bj=Wijaj。其中i为一8x8图像的像素按列向量的排列,排列到储层的对应位置得到(b),(b)数据集被发送到SLM,获得激光束,经过极化激元节点的非线性效应(c)产生输出(d),由CCD记录并乘以权值矩阵(e)得到数字分类(f)。(g)为数据由节点处理的实验装置示意图。

研究者利用logistics回归调整输出层权重矩阵的取值,并测试其识别率,最终得到了高于完全使用logistics回归的结果。研究者还将手写数字压缩至8×8与4×4,仍然分别得到了93.1%和86.3%的识别率,如图6所示。而此前其他对人工神经网络的硬件化子阵列,可以进一步提高系统的性能。

图6:极化子神经网络与logistics回归对比

新加坡的研究者提出了一种由激化极子 Fock空间构成的神经网络,以此实现了对于手写数字的识别,并实现13%的错误率。在这里,考虑单极激子模,由量子模的Fock态构成的网络,激子模的哈密顿量为

图7(a)单个神经元的模型(b)神经网络实现方案:将28×28图像压缩至4×4识别,4×4的图像对人眼而言很难识别,但神经网络仍能战线极高的识别率。

研究者比较了利用不同的光子抽运方式下,神经网络准确率的区别,并发现在使用单光子和依赖相位的双光子抽运时,在其错误率最低,如图8所示。研究者还比较和不同节点数量时的情况,得到了500个左右的最佳节点数量,超过后可能会出现过拟合现象,如图9所示。同时,研究者通过比较以往各种系统达到相同的错误率所需要的系统参数,证明了利用激化极子的 Fock空间维度对于神经网络系统的增强。由于所使用的极化子模式数量较少,其错误率与其他工作相比偏高,但可以看到使用较多极化子模式后其效能大幅提升的潜力。

图8:识别错误率与不同光子抽运模式的比较:其中SP为单光子,TP为双光子,SPTP为单光子和双光子,SPTP’为单光子相依赖相位的双光子,(a)(b)分别为最低错误率和平均错误率。

图9:不同神经元数量下,错误率的变化

另一组研究者则利用 Ginzburg-Landau极化子实现储层神经网络工作,如图10所示,研究者发现Ginzburg-Landau系统的非线性依赖于相位调制,这与以往的情况由很大区别。其中Ginzburg-Landau方程的离散形式为

图10:手写数字分类任务的方案:数据被随机权值处理后,通过激活每个格点在“记录”在格上。同时,系统被泵浦保持接近稳定阈值的状态。最后记录每个节点的密度,得出输入的分类。

此外,研究者还比较了误差率与泵浦偏置参数,晶格N的线性大小的关系。RC系统显示最佳性能时,在没有输入信号时系统是稳定的,但总是接近一个不稳定阈值。在CGLE情况下,在零增益点=0处,解不再具有稳定性,出现新的定态,如图11所示。图9则展示了错误率与晶格大小(格点数)之间的关系,可见准确率与晶格大小呈正相关,但实际N>20后误差率的下降就十分缓慢了,如图12所示。

图11:误差率与泵浦偏置参数的关系。最佳工作条件在零增益点=0处

图12:错误率与晶格N的线性大小的关系,其中晶格位总数为N2。

最后,研究者以语音识别数据集(TL46)为基准估算得出这种神经网络系统的处理速率可以达到1.6×1010word/s。由于极化激子系统的皮秒量级的反应时间,以及可以在所有晶格内分别并行处理数据的特点,这个速率远高于此前的其他光学硬件神经网络。此外,研究者所构建的单个节点尺寸约为10 m2这意味着每平方毫米可排布10万个这样的节点,与IBM TrueNorth芯片每平方毫米5000个神经元的数据相比,也证明了极化激子竞争下一代神经网络平台的潜力。最后研究者指出,由于极化激子是中性粒子,它们既不受辐射加热,也不促进辐射加热。相比于传统电子系统,这种系统的能量损失主要来源于光子通过微腔镜的逃逸,而目前尚无对其能量效率做基本限制的相关工作,可以考虑的解决方案是利用全内反射镜捕获的横向光子补偿反射镜带来的衰减。

总体而言,目前针对这一新架构的具体实现仍然较少,并且需要借助计算机进行训练,但由于极化激子解决了过弱的光学非线性的问题,其在准确率,计算速率,能耗上均有优秀的表现。

4 结论

基于极化激子实现的光学神经网络作为近两年新兴的研究领域,相关工作仍然较少,但已经展现出其巨大的潜力,由于极化激子较强的光学效应以及皮秒量级的反应时间和并行处理的能力,它在计算效率和错误率上都取得了比其他途径的光学神经网络更好的表现,并在某些方面接近甚至超越传统神经网络系统。但我们仍然可以看到,对这类神经网络的训练仍然主要在传统计算机上进行,传统神经网络中,每个节点的参数均会随着训练的进行而改变,这一点使其拥有较高的准确率,而目前极化激子神经网络仍然只能利用二值化计算或储层结构来规避传统神经网络中反向传播的过程,转而借助计算机对输出层进行训练。如何让一系列的极化子之间的出现更明显的相互作用,使其相互影响,是未来有待解决的问题。另外,极化激子解决了光学非线性过弱的问题,下一步自然是尝试控制其非线性,若未来可以通过实时的对半导体微腔的参数进行控制从而人为调整其光学非线性的具体表现,或许极化激子的平台可以挑战更加复杂的神经网络结构。

另一方面,硬件人工神经网络的发展也离不开神经网络计算本身模型的进一步发展,虽然反向传播仍然是应用最为广泛的训练方案,但其缺点显而易见,近年来计算机领域也在不断提出新的神经网络结构模型,新的训练方式,若未来出现更加契合当前硬件特性的架构,也可以使这种极化激子神经网络进一步走向应用。

猜你喜欢
激子人工神经网络光子
《光子学报》征稿简则
利用人工神经网络快速计算木星系磁坐标
人工神经网络实现简单字母的识别
CdSeS合金结构量子点的多激子俄歇复合过程*
找到你了,激子素
长程电子关联对聚合物中激子极化率的影响
在光子带隙中原子的自发衰减
基于声发射和人工神经网络的混凝土损伤程度识别
有机发光二极管中三重态激子的单重态转换
光子晶体在兼容隐身中的应用概述