吴禀雅 魏苗
摘要:随着深度学习的发展及其在相关领域的应用,机器学习的性能得到了显著的提升。例如在自然语言处理和计算机视觉方面,深度学习就在AlphaGo算法中得到了较好的应用,这也同样改变了词嵌入的处理方法。在本文中,我们简单回顾几种最近在深度学习中运用的词嵌入方法。
关键词:词嵌入;深度学习;词向量转换;状态向量
中图分类号:TP18 文獻标识码:A 文章编号:1009-3044(2016)36-0184-02
最近Alpha Go的火热程度,让人工智能这个词语重新回到了人们的视野里。自从Alan Turing 在1950 年提出了图灵测试以来,就有许多人开始不断地尝试,试图通过这种检测程序来确定机器是否具有智能行为的能力。但是到了后期,人们发现机器具备一定的语言交流能力不再是一件困难的事情,而单纯的图灵测试也不再是检测机器是否具有智能行为的唯一标准。人们对于智能的理解从简单的交流这种单一化的方面,转向了多元化的方向,例如机器视觉、机器人自动化、自然语言处理等都与人工智能息息相关。那么说起Alpha Go,不得不提它背后的技术支持,这段电脑程序是由Google Deep Mind公司所开发研制的。Alpha Go为什么会这么被人关注,并且能够成功击败人类最强的棋手之一呢?关键在于其深度学习的技术得到了很好的应用。
其实对于电脑来说,围棋相比较其他的游戏设计而言,更加具有难度。因为对于传统的人工智能技术来说,围棋具有19*19个落子点,要通过alpha-beta 剪枝法、遍历树和启发式搜索等方法去试图寻找最优得分,并且根据对手的每一步落子都将建立一个巨大的假设空间,所以这种计算量过于庞大,机器无法直接模拟到最后一步,只能考虑到接下来的5步或者6步棋。但是对于Alpha Go来说,它的背后使用了deep convolutional neural networks(CNN, 一种图像处理的深度神经网络)来进行特征点提取以及模式识别,并通过先验知识来训练它的神经网络。与此同时,也利用了一种类似于遗传算法的方式来进行程序的自我下棋训练。
CNN的应用,让Alpha Go的性能得到了很大的提升,同样的事情也发生在自然语言处理领域。对于自然语言来说,我们并不能让神经网络对于词语或者文字直接进行处理,因此我们需要使用相应的方法将我们人类的语言和文字转换为深度神经网络所能理解并且能进行学习的相应数据,这就涉及了我们下面所讲到的词嵌入(word embedding)方法。接下来我们将介绍自然语言处理中词嵌入方法的主要几种模型。
1 词向量表示法one-hot
首先我们需要明确一个问题,对于深度神经网络(例如recurrent neural network——RNN)来说,他们并没有办法很好地理解我们人类的语言。那么对于机器而言,我们该如何将人类的语言,转化为一种机器能够识别的数学语言,从而将机器的计算能力转换为语言能力呢?在《数学之美》一书中,作者吴军介绍了早期的词向量表示法one-hot,这种方法借用二进制代码来为语料库中所出现的词语赋以唯一的编码。例如“今天是个好天气”,进行分词处理后,被划分为“今天/是/个/好天气”。那么在这个句子中总共存在四个词语,因此我们给予“今天”的编码是“0001”,“是”的编码是“0010”,“个”的编码是“0100”以及“好天气”的编码是“1000”。通过这种方法,简单地将词语转换为一张索引表,然后通过对应编码在词典中寻找对应的词语。
但是这种方法存在的问题是由于在语料库中有大量的词语,从而造成索引所组成的矩阵维度过大,因此需要对其进行降维,较为麻烦。因此后续G. Salton等人在1975年提出了向量空间模型(VSMs)。
2 向量空间模型VSMs
向量空间模型把近似语义的词语映射在连续向量空间的点进行聚类处理。这种模型方法在自然语言处理中存在着广泛的应用,也是词嵌入的早期模型,这些模型都基于分布式语义理论。所谓的分布式语义假设理论基于分布式语义的研究,其内容大致可被归结为在同一上下文中可以被相关替换的词语通常存在着相同或者类似的语义。这种理论对数据的稀疏问题产生了巨大的影响,同时这种分布式理论也是概率语义学的基础之一。向量空间模型大致可以分为两类方法:基于统计的方法(计数为主,例如潜在语义分析),和基于预测的方法(例如神经概率模型)。
在Baroni的文章中,对统计方法和预测方法进行了详细的比较。统计方法将语料库中出现相邻词语的频率数据转换为针对于每个词语的一个小的稠密向量(dense vector),而预测模型更加直接地从邻近词语进行推理从而将其映射为一个稠密向量。
例如在神经概率模型中主要使用了最大似然法,通过softmax函数来基于历史单词预测目标词语的概率最大化,从而确定目标词语。具体公式如下所示:
3 word2vec模型
目前较为流行的一种词嵌入模型为word2vec模型,该种模型的结构与深度神经网络模型较为接近,并且能够高效地从语料库中将词语以向量的形式进行表示。该模型主要有两种具体的方法,一是在固定窗口空间中,通过窗口中上下文的词语来预测目标词语的方法,称为连续词袋模型(continuous bag-of-words model, CBOW);另一种方法则刚好相反,通过目标词来预测周围邻近词语的模型,称为skip-gram 模型。
例如对于例句“回归神经网络 是 一种深度神经网络”来说,CBOW模型所做的是基于上文“回归神经网络 / 是 /一种”来预测“深度神经网络”这个目标词。而skip-gram所做的是基于目标词“深度神经网络”来预测上下文,与CBOW恰恰相反。CBOW模型对与较小的数据集有着更好的作用,但是对于大小数据集来说,skip-gram会有更好的效果。因此skip-gram成为了目前在词嵌入研究中主要的模型之一。
但是上述模型存在的缺点十分明显,因为模型粒度为单词,从而导致上述模型在使用过程中,大致存在两个弱点。首先,无论是在中文还是英文中,语句的顺序都十分重要,而上述的模型进行预测时的依据主要为窗口t的大小,在一定程度上限制了歷史数据的采样长度。例如在情感分析中,判断依据话是积极语义还是消极语义,上下文语序就会产生很大的影响,无论是先抑后扬,还是先扬后抑都会因为取样窗口的长度限制以及语序的丢失造成判断的不准确。其次,在上述模型中,没有办法很好地选择性保留语句中的一些重要的信息,简而言之就是没有记忆性。所以为了更好地对语句进行整体分析,Mikolov与Socher采取了不同的方法尝试解决长句子的语义分析。
4 长句模型
Mikolov将原有的Word2vec模型中细粒度提升为了句子和文档,从而发展出了Doc2vec的模型。而 Socher则通过将深度递归神经网络模型与语义树相结合( Recursive Neural Network with Sentiment Treebank )的办法,来尝试对于较长句子的语义分析和评价推理。
在doc2vec模型中,Mikolov将段落语句整体映射到分布式向量空间中,从而将语义相近的句子或者段落用向量进行表示,在Distributed Representations of Sentences and Documents文中,他比较了两种不同的评价方法,一种是fine-grained方法,另一种则是针对于积极消极的二分类法。段落向量的表现的错误率为12.2%,而相比较而言,Socher的递归神经网络的错误率为17.6%。Mikolov认为Socher的实验中使用的数据集为电影评价,均为较短的句子,那么Socher所提出的模型对于较短的、较精炼的句子有着更好的效果,并且其中词语和词组对句子整体的情感影响较大。
综上所述我们可以看出,Socher的递归神经网络以及语义树更加适合现在国内较为发达的电子商务网站上的评价分析。国内的电子商务平台,例如阿里、京东等,每天都产生大量的用户针对产品的评价,而在评价中,仍然需要用户对产品进行类似于fine-grained的分类任务,也就是进行星级评分,类似于人工对评价进行标签处理。面对如此庞大的评价数据,递归神经网络能够较为准确进行标签和分类推理,都能将词语或句子很好地转化为能够被深度神经网络所能理解的向量值,从而衍生出更多功能性的研究和开发。
参考文献:
[1] Silver D, Huang A, Maddison C J, et al.Mastering the game of Go with deep neural networks and tree search[J].Nature, 2016,529(7587):484–489.
[2] Mikolov T, Corrado G, Chen K, et al.Efficient Estimation of Word Representations in Vector Space[J].Proc. Int. Conf. Learn. Represent. (ICLR 2013),2013:1-12.
[3] Socher R, Perelygin A, Wu J Y, et al.Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank.