自然语言处理技术又称为NLP 技术,是信息技术的发展前沿,能够实现人机交互。深度学习是帮助机器进行自主学习的重要方式,是机器学习算法的总称。目前,深度学习已经有了长足的发展,被广泛应用在自然语言处理、遥感影像翻译等多个领域中,在自然语言处理方面主要集中在分词识别、句法分析、语言分析、智能问答等方面,大大提升语言处理效率。通过利用深度学习,能够提高对抽象化文本的翻译能力,厘清文本间的关系,还能将相关的学习方法和结论储存到语料库中,提升NLP技术的判别能力和特征自学能力。
深度学习模型结构需要具有3 层以上的隐层节点,甚至会高达十几层[1]。与传统的浅层学习模式相比,多层学习模式呈现非线性映射结构,可以完成更加复杂的函数计算。深度学习需要基于特征学习,需要通过非监督式预训练算法来根据原始样本进行逐层变化,映射出一个新的特征空间。另外,还可以通过生成性训练方法来避免由于网络函数过强而导致的过拟合问题。深度学习代表着需要经过多个节点进行计算,并将经过节点后的结算结果作为下一次节点的输入数据,然后进行逐层计算。
利用深度学习方式需要通过特征来处理问题,因此需要将采用特征当成是应用前提。举个例子,在进行文本分类时,需要通过经常用词的方式进行集合,然后将集合特征用来指代文本,接着在使用不同的分类算法进行文本分类。如果是进行图像处理,则需要将图像特征作为深度学习的特征。特征的选择会直接影响到任务的最终结果,因此要慎重选择。在过去,传统的机器会依赖于人工进行特征选取,这样的方法难以提升机器的智能性和自动化,需要应用到大量人力,而且处理的效率不高。另一方面,人工选取特征就代表着需要依靠人类智慧和知识进行深度学习,但这样的方式限制了机器学习向更先进地步发展的步伐,会阻碍到机器智能化发展。因此,需要摆脱人工特征选择方式,实现深度学习的无监督特征学习,进而提升深度学习质量和效率。
传统深度学习方法无法实现自动学习特征的主要原因有三个方面。
第一,表示的深度不够。一般来说,在给目标进行精度函数采用时,需要使用2 层网络结构就,而这两层深度结构需要大量的计算节点,当深度结构与计算节点呈现数级增长时,使用深度的计算方式可以更加节约计算成本。这就不需要使用到计算节点表示的函数族。第二,深度学习的规律是基于人类认知规律,因此深度学习的分层相对于人类逐渐学习的过程。通过进行分层分析,就会导致总任务与子任务处于不同的认知层面,也就难以从中总结出自动学习特征。第三,人脑存在分层结构。深层学习是基于人类的认知,这就导致深层学习的存在仿生效果,难以脱离分层认知和学习。
前馈神经网络(简称FNN)是需要作用在多任务环境下的神经网络模型[2]。随着自然语言处理环境越来越复杂,神经模型也需要随之进行升级优化,但神经网络训练问题也会影响到自然语言处理。这时候使用前馈神经网络可以提升自然语言处理效率,主要依靠FNN 的反向传播算法,通过这种学习方式能够对不同层级存在的问题进行优化,及时调整相关网络参数。卷积神经网络(简称CNN)是FNN 的主流模型之一,它可以利用卷积核来扩展描述空间,增加模型的深度,是一种改进过得深度神经网络。在一般FNN 中,会通过全连接结构来连接输入层和隐藏层,而CNN 却可以通过不同的卷积层节点来实现对区域的链接,核心的卷积节点就是卷积核。目前,CNN 被广泛应用在NLP 领域的语义角色标注、语料训练、文本分析等方面。而且,CNN的池化技术能够固定每个区域的大小并能够使用平均值或最大值来代替矩阵区域,有效降低特征采用的难度。
递归神经网络是对时间递归结构进行表达的一种方式,能够为数据设置明确的时间序列关系。同时,RNN 还具有训练神经记忆的能力,能够将前后输入的信息建立有效联系。通过构建拥有RNN 的深度学习模型,能够将隐含层的信息激活,然后再根据不同时刻进行递归,使其形成一个连接隐藏层和输入层的参数矩阵,最后在通过计算得出偏向量。RNN 是树形神经网络结构,可以将它应用到语义标注、句法分析、机器翻译等方面。
词向量指的是通过利用神经网络方式来对稀有文本进行整合分析,通过在较小特征中进行大规模语料分析,能够获得有关上下文关系的分布式特征词编码技术。词向量的主要作用是进行词汇分析,通过对文本中的词组进行隔离分析,能够丰富语料库的词汇量。在词向量方面,我国的研究成果主要集中在SENNA 词向量、HLBL 词向量、word2vec 词向量以及glove 词向量等[3]。不同词向量有不同的规则,词向量主要代表的是词向量之间的组合关系,如与其他词相加时代表是什么意思或减掉某些词语或定语就会变成另外一个意思,因此词向量具有极强的应用意义。举个例子,glove 词向量能够通过矩阵的方式来表现不同的性能,使得测量指标更加具有针对性,可以快速解决很多自然语言处理问题。
循环神经网络(简称RNN)是隐藏层和自身相联系的一种神经网络,它的计算结果将会应用到下一次隐藏层的计算。RNN 的优化算法为BPTT 算法,能够用来处理语料库的机器翻译、文本生成、语音识别等工作。RNN 的反馈只能向后传递5-10 层,因此可以在此基础上建立长短时记忆模型。长短时记忆模型是基于记忆结构之前的输入帮助网络学习到新的Cell 结构。RNN 和长短时记忆模型被广泛应用在NLP 领域,如应用到情感分析、词性标注、实体命名识别等方面。另一方面,由于改进后的长短时记忆模型比较复杂,人们也随之提出另一种RNN 变体,就是GRU,它有效简化长短时记忆模型的步骤,可以得到更好的自然语言处理效果。
目前,我国在进行深度学习模型构建时,一般都会使用Nivre 分析来确定最终的语言特征分类。这种方法的好处是在进行特征分类后,所分取出来的特征能够联系上下文,即可以作为文本上下文的依存关系,然后结合全文完成句法分析。在建立Nivre 分析模型时,可以采用三元组的方式来表示模型的格局,进而建立一个科学合理的神经网络模型。在三元组中,需要包含三个主要部分,分别是堆栈、节点序列以及依存弧集合,人们常常会使用字母S 来代表堆栈,采用I 来代表节点序列,最后采用A 来表示依存弧集合。通过建立三元组神经网络模型,能够在分析动作是提取到句法特征,进而实现对句法的分析,为最终分析决策提供重要数据支持。在建立三元组网络神经模型时,需要注意三元组的相关信息,主要包括三个方面信息,分别是有词信息、词性信息和依存弧信息。
第一,有词信息。有词信息指的是文本中存在的词组的相关信息。不管是在堆栈还是节点序列缓中,都会包含大量的词信息,有些词信息可能已经被处理,也有些词信息还没有被处理,这些词信息都是重要的三元组信息,它们带有明显的特征。因此,在进行网络神经模型潜入前,可以通过稀疏的方式进行表达,但如果这些词信息已经完成潜入,就需要通过稠密的方式进行表达,由此可以看出潜入前后的表达方式是不一样的。第二,有词就会有词性信息,这些词性信息会与模型保持一一对应的关系,这样才能为每个词提供相对应的词性。第三,依存弧信息。依存弧信息的主要功能就是为已经被处理了的词信息提供相应的依存关系,具有连接文本信息的重要作用。通过获得三元组的相关信息,然后在将这些信息进行重新组合,就能得出二阶特征,丰富不同词的特征和为词进行模型组合时提供可参考的意见。应用三元组的神经网络模型,能够帮助不同类型的词进行重新组合,并且能够将新组合的词作用到不同层级中,有效提升自然语言处理效率。
随着深度学习模型层级不断提升,通过人工智能就可以实现非线性函数状态下的语言特征组合,但这样的神经网络模型需要依托于三元组信息,根据神经网络三元组的特征表现出来,然后按照多层级方式进行分类训练,这样就能实现提取不同特征的要求。具体来说,深度学习的神经网络模型主要分为四个层级,分别是输入层、嵌入层、隐含层以及softmax 层。
输入层是最基础的层级,是整个神经网络模型的根本,只有通过输入层将相关信息输入模型中,才能继续之后的分析、整合工作。输入层的功能是能够与已经完成构建的分析格局相联系,然后对三元组进行处理,帮助整个神经网络活动以构建格局中的元特征内容。嵌入层是一个信息处理层,它位于输入层之上。嵌入层是由与三元组相对应的子嵌入层组合而成,各个子嵌入层之间能够独立存在,然后负责获取词信息、词性和依存弧特征,接着在完成三元组稀疏和稠密的转换。隐藏层是嵌入层的上层层级,在嵌入层完成稠密特征的转换后,隐含层会对稠密特征进行处理,使其能够变换成可以进行非线性函数变化的模型。softmax 层是最后一个层级,能够将自然语言非线性转换成能够分析的数据,并根据分析的结果对这些特征进行分类和预测,进而实现对自然语言处理的训练。可以说,softmax 层是确保神经网络能够进行自然语言处理训练的重要保障。
通过对既有理论进行堆叠,可以得出新的训练模型,受限玻尔兹曼机就是其中一种。通过理论堆叠形成的训练模型被称为是深度信念网络模型,它能够通过对网络训练来进行数据还原,即对输入层数据进行还原训练。在训练过程中,深度信念网络模型能够根据可见层的受限玻尔兹曼机进行原始数据的输入,然后在通过对原始数据进行层级内部处理,且还能对层级的数量进行检验,确保层级数能够满足执行需要。如果检验得出的结果是不能满足执行步骤,就需要重新进行原始数据的获取,直到得出的结果能够满足执行需求为止。深度信念网络能够对内部层级数进行微调,这样就能根据深度学习算法模型进行整合和优化,是得层级内部能够达到最优解。有专家指出,深度信念网络的层数设置方式可以由自编码其来完成,通过自编码器的自动化、智能化编码,能够达到网络的泛化和拓展。自编码器是一种半监督学习和非监督学习的人工神经网络,主要的作用是能够将输入信息作为学习目标,然后进行表征学习。通过自编码器进行自主学习,能够有效解决编码器问题和升级编码器性能,因此可以通过自编码器实现网络模型的层数设置。在这个过程中,自编码器能够取代网络中的深度信念网络训练,实现对数据的简单堆叠,进而形成相应的自编码网格。这是一种虽神经网络自然语言稀疏特性进行隐藏的网格编码方式,可以通过抑制神经元的状态来实现稀疏自编码网格。根据多次实践应用,发现自编码网格方式能够对自然语言特征进行学习,为语言特征检索提供更加快速、准确的搜索途径。
综上所述,深度学习用语NLP 领域的步骤如下,第一步,将原始文本输入神经网络模型中,通过机器自主学习获得文本特征;第二步,将特征作为深度神经网络输入;第三步,根据不同需求选用不同的学习模型。
深度学习是一个处于快速发展的新兴技术,还有很多问题没有得到解决。人们对于深度学习的了解还处于起步阶段,没有足够的理论依据来指导实验,人们难以确定网络架构是否已经是最优质的。目前深度学习在NLP 的应用前景十分良好,可以将其应用到文法分析、信息抽取等方面,只有不断提升机器智能和拓展智能领域,才能为NLP 技术提供更有力的支持。因此,需要重视深度学习在NLP 领域的尝试,不断提升深度学习网络架构,促进NLP技术更好发展。