秦 越,禹 龙,田生伟,冯冠军,吐尔根·依布拉音,艾斯卡尔·艾木都拉,赵建国
(1. 新疆大学 信息科学与工程学院,新疆 乌鲁木齐 830046; 2. 新疆大学 网络中心,新疆 乌鲁木齐 830046;3. 新疆大学 软件学院,新疆 乌鲁木齐 830008; 4. 新疆大学 人文学院 新疆 乌鲁木齐 830046)
指代(anaphora)是常见的自然语言现象,它是指在语篇中用一个指代词回指前文出现过的某一语言单位。在维吾尔语语篇中,能够通过上下文语境判断出的部分经常被省略,被省略的部分在语句中承担相应的句法成分,且指代前文中出现过的某一语言单位,这一现象称为零指代。被省略的部分称为零指代项,被指代的语言单位称为先行语(antecedent)。如例句所示,其中“φ”代表零代词出现的位置(维吾尔语书写习惯为从右向左)。
例:
(译: 这时候克斯买提乔鲁克从路那边走过来了,[φ]手上拿着一个有五角星的帽子和军绿色的水壶。)
近年来,随着机器学习的深入研究,基于机器学习方法在零指代消解研究中得到运用。Zhao等[2]首先提出一个完整的关于机器学习的中文零指代消解方法,并提出适用于中文零指代消解任务的特征集。Kong等[3]设计了完整的中文零指代消解框架,并采用基于树核函数的方法完成对零元素消解子任务。Chen等[4]提出一个端到端中文零指代消解平台,并提取一系列更有效的句法和上下文特征。Chen等[5]采用深度神经网络思想,有监督地学习高层特征并完成中文零指代消解任务。Ryu Iida等[6]提出使用多列卷积神经网络进行日语零指代消解。由前人工作可知,基于机器学习的零指代消解能够有效提高性能,而深度学习机制则能够学习文本中高层特征和深层语义信息。
目前,零指代消解研究主要集中在中文等大语种,对同样出现缺省现象的维吾尔语等少数民族语言研究不够深入。针对此问题,本文探索维吾尔语中缺省零代词的消解问题,将富含上下文语义信息和句法信息的词嵌入表示(word embedding)向量作为候选先行语和缺省零代词的语义特征表达,并依据维吾尔语语言特点,提取针对本任务的14项hand-crafted特征,融合上述两类特征作为栈式降噪自编码(Stacked Denoising Autoencoder)的输入,采用无监督学习机制预训练网络参数,并使用有监督的微调反向调优,从而学习文本中的深层语义信息和隐含内部联系。此外,SDAE对原始数据加噪,使其能够从含噪数据中学习到更具鲁棒性的特征表达,有助于维吾尔语零指代消解性能的提升。
鉴于深度学习在计算机视觉及语音识别等领域取得重大突破,学者们试图在自然语言处理研究中运用深度学习技术。语言中蕴含丰富的语义信息和隐藏的语境表达,深度学习机制通过多层神经网络的逐层学习,能够将复杂的特征映射为抽象的高层语义特征,其强大的无监督学习方式及特征提取能力解决了众多自然语言处理问题。其中,李阳辉等[7]采用降噪自编码器的深度学习算法实现文本信息的情感分析;张开旭等[8]使用自动编码器无监督地学习语料中词汇的分布信息,完成分词、词性标注任务;刘勘等[9]提出采用深度噪声稀疏自动编码器提取文本中的本质特征并且在短文本聚类研究中取得良好效果。
维吾尔语语篇中包含丰富的语义,但也存在非必要的信息影响零指代消解性能,为了使包含“杂质”的数据复现原始信息,需要对噪声与冗余语义具备良好的鲁棒性,因此本文采用基于深度学习机制的栈式降噪自编码进行维吾尔语零指代消解。通过对原始数据加入一定比例的噪声,增强自动编码器的特征表达并使模型具备较强的去噪能力,经过多层特征提取及多次迭代,使模型学习到更具鲁棒性和有效性的深层语义特征,完成维吾尔语零指代消解任务。
基于SDAE维吾尔语零指代消解流程如图1所示。首先对待消解的零指代项φ与其候选先行语进行配对,表述为<候选先行语,φ>的形式(为方便表达,该内容将在2.2节中描述),将配对完成的零指代对进行特征抽取,本文把维吾尔语零指代消解特征分为两部分: word embedding特征与hand-crafted特征;其次对训练实例和测试实例进行抽取,并将训练实例送入模型中,经加噪处理后学习得到更具鲁棒性的深层语义特征,然后将测试实例送入训练调优完备的模型中进行测试,最后使用softmax分类器判断每个零指代对<候选先行语,φ>是否存在指代关系,最终完成维吾尔语零指代消解任务。
图1 基于SDAE的维吾尔语零指代消解流程
与图像不同的是,文本中不包含形如像素点这样可直接利用的特征信息,然而语篇中蕴含丰富的语义、语法及句法等信息,准确的特征抽取有利于深度学习模型进一步挖掘高层面语义特征,本文将维吾尔语零指代消解特征集分为两部分: word embedding特征和hand-crafted特征。其中,word embedding特征用于表述零指代项φ及其候选先行语的语义特征,此外,另抽取14项hand-crafted特征用于描述维吾尔语零指代现象,刻画零指代项φ与其候选先行语之间的联系。
2.1.1 word embedding特征
本文引入富含上下文语义信息及句法信息的word embedding[10]表述缺省零指代项φ及其候选先行语的语义层面特征。将候选先行语的word embedding作为候选先行语的语义特征;然而零指代项为缺省项,语篇中不包含零指代项的词嵌入表示,因此本文使用零指代项前一个词汇的word embedding及后一个词汇的word embedding来表示零指代项φ的上下文语义特征。若零指代项为语句的句首,即零指代项无前一个词汇,则用相同维度的0向量,表示零指代项的前一个词汇。
基于神经网络思想的词嵌入表示通过大规模语料库无监督地学习,将词汇进行语义的分布式表示,每个词汇由低维、稠密、连续的实值特征向量替代原先的one-hot稀疏向量,表示了词汇间的语法特征及语义相似性,因此本文引入词嵌入表示作为维吾尔语零指代消解特征类型之一。
2.1.2 hand-crafted特征
hand-crafted特征用于表示零指代项φ及候选先行语间的联系,凸显了零指代方面的知识表示,并依据维吾尔语语言特性刻画零指代现象,根据维吾尔语零指代消解研究,提取针对本任务的hand-crafted特征如下:
(1) 候选先行语是否为代词(CandiPron.)
(2) 候选先行语是否为包含领属性人称词尾的名词短语(CandiPossession)
(3) 候选先行语是否为包含宾格标志的名词短语(CandiObject)
(4) 候选先行语是否存在嵌套(CandiNest)
该属性取值FCandiNest={0,1}。若候选先行语嵌套于其他名词短语内,特征值取1,否则取0。
(5) 候选先行语的语义角色是否为施事者(CandiArg0)
该属性取值FCandiArg0={0,1}。若候选先行语的语义角色为施事者,特征值取1,否则取0。
(6) 候选先行语的语义角色是否为受事者(CandiArg1)
该属性取值FCandiArg1={0,1}。若候选先行语的语义角色为受事者,特征值取1,否则取0。
(7) 候选先行语是否在可被消解的名词短语集合{Obj-Zero}中(CandiInSet)
该属性取值FCandiInSet={0,1}。若候选先行语在可被消解的名词短语集合{Obj-Zero}中,特征值取1,否则取0。
(8) 候选先行语是否存在句法关系中的主谓关系(CandiSBV)
该属性取值FCandiSBV={0,1}。若候选先行语存在句法关系中的主谓关系,特征值取1,否则取0。
(9) 候选先行语是否存在句法关系中的动宾关系(CandiVOB)
该属性取值FCandiVOB={0,1}。若候选先行语存在句法关系中的动宾关系,特征值取1,否则取0。
(10) 候选先行语是否存在语义关系中的施事关系(CandiAgt)
该属性取值FCandiAgt={0,1}。若候选先行语存在语义关系中的施事关系,特征值取1,否则取0。
(11) 候选先行语是否存在语义关系中的受事关系(CandiPat)
该属性取值FCandiPat={0,1}。若候选先行语存在语义关系中的受事关系,特征值取1,否则取0。
(12) 零指代项φ是否出现在语句的开头(ZeroBegin)
该属性取值FZeroBegin={0,1}。若零指代项φ出现在语句的开头,特征值取1,否则取0。
(13) 零指代项φ是否在语句中的主语或宾语位置(ZeroPosition)
该属性取值FZeroPosition={0,1}。若零指代项φ在语句中的主语或宾语位置,特征值取1,否则取0。
(14) 零指代项φ与候选先行语间的距离(BothDistance)
距离特征指的是零指代项φ与候选先行语之间语句编号的空间距离[11]。若空间距离越远,零指代项φ与候选先行语发生指代关系的可能性越小,定义特征值f(d)=0.1×d,0≤d<4,对空间距离逆向取值。
设空间距离为d,因在构建训练/测试样例时,已配对的<候选先行语,φ>仅考虑4句之内,所以定义d取值为0≤d<4。
将零指代项φ与它之前出现过的名词短语依次配对,并根据2.1节的特征描述生成训练实例和测试实例。
生成训练实例时,指代链信息已知。对识别出的零指代项φ,查找其是否位于某条指代链中,若不在,则视为非待消解项,不必为其寻找先行语,进行下一个零指代项φ的查找;若在某条指代链中,则为零指代项φ寻找合适的先行语。经维吾尔语语料统计,选取与φ距离为四句之内的名词短语NP0,NP1,…,NPn为候选先行语,依次配对。如图2所示,若存在NPi(0为正例;φ与NPi+1,…,NPn配对的名词短语对
图2 维吾尔语零指代对配对
生成测试实例与生成训练实例过程类似,但指代链信息未知。对识别出的零指代项φ选取与其四句之内的名词短语,配对为<候选先行语,φ>对,将测试实例交由模型判断,若模型判断该实例为正例,则<候选先行语,φ>存在指代关系;若判断为负例,则<候选先行语,φ>不存在指代关系。
表1为引言中的例句依据2.1节抽取特征生成的训练/测试样例。
表1 维吾尔语零指代消解训练样例和测试样例
2.3.1 自动编码器
自动编码器(autoencoder,AE)为无监督学习网络,AE由编码器和解码器组成,包括输入层、隐藏层和输出层。AE尝试学习形如hw,b(x)≈x的函数,使得输出hw,b(x)无限接近于输入x,从而将输入信号从目标中重构出来,尽可能完整地保留原有特征信息。
(1) AE编码阶段: 编码器将n维输入向量x∈Rn通过编码函数fθ(x)映射到y,如式(1)所示。
y=fθ(x)=s(Wx+b)
(1)
其中θ={W,b}为编码参数,s为sigmoid(.)激活函数。
(2) AE解码阶段: 解码器将y反向变换,得到对原始输入x的重构表示z,y与z满足式(2)。
z=gθ′(y)=s(W′y+b′)
(2)
其中θ′={W′,b′}为解码参数。最后通过不断地调整θ和θ′的值,得到最小化重构误差J,重构误差如式(3)所示。
(3)
其中D为训练样本集合,L为重构误差函数,本文选择交叉熵误差函数,如式(4)所示。
(4)
2.3.2 降噪自动编码器
维吾尔语文本中包含丰富的语义信息,同样也存在干扰语义影响零指代消解性能信息,因此对模型学习出的特征提出更高的要求,训练得到的模型必须具备较强的鲁棒性。为了使AE具备鲁棒性的特征表达,Vincent[12]提出降噪自编码神经网络(denoising autoencoder,DAE),DAE与AE类似,也需要编码与解码过程来重构数据,同属于无监督学习。但不同的是,DAE在AE的基础上,对原始输入数据加入一定比例的噪声污染,经过编码与解码阶段后,最终映射还原出更具鲁棒性的特征信息,提高了基本AE对输入数据的泛化能力。
设原始输入数据为X,DAE通过一个随机映射变换X~qD(X′|X),对原始输入数据X进行“破坏”,进而得到一个含有噪声污染的数据X′,其中D为数据集,则DAE的编码器输出如式(5)所示。
Y′=fθ(X)=s(WX′+b)
(5)
接着通过解码器将Y′反向变换,得到对原始输入数据X的重构表示Z,Y′与Z满足式(6)。
Z=gθ′(Y′)=s(W′Y′+b′)
(6)
2.3.3 维吾尔语零指代消解的SDAE模型
深度神经网络经过多层非线性表达能够学习出更有效的特征,而SDAE由多个DAE叠加,对每个DAE加入一定比例的噪声ρ能够学习更强健的特征表达。基于维吾尔语零指代消解的SDAE,由多层DAE与一层softmax分类器构成,其结构如图3所示。其中,DAE数目作为模型的一个重要参数,将在3.2.1节实验部分讨论如何确定。将多层DAE学习到的特征作为softmax分类器的输入,若<候选先行语,φ>存在指代关系,标签为1;若不存在指代关系,则标签为0。由分类器判断<候选先行语,φ>是否存在指代关系,从而完成零指代消解任务。
SDAE的学习分为无监督逐层贪婪的预训练与有监督的微调。当模型在逐层预训练过程时,训练每一层DAE的输入数据为加入一定比例噪声ρ的数据信息,在微调过程中使用未加噪声的原始数据对整个SDAE网络进行微调,图3体现了预训练过程与反向微调过程。
模型学习的具体过程如下:
(1) 无监督的预训练(pre-training)
Step1将无标签的零指代消解训练数据加入一定比例的噪声ρ,生成样本数据X'作为第一个DAE的输入,利用DAE的重构方式,训练得到隐藏层1的权重参数θ1,同时计算出隐藏层1的输出Y1;
图3 SDAE模型结构及预训练、微调过程
Step3用同样的方法将上一层的输出数据加入相同比例的噪声ρ,作为第n个DAE的输入,训练得到隐藏层n的权重参数θn,并计算出隐藏层n的输出Yn;
Step4将Step3隐藏层的输出作为softmax分类器的输入,使用零指代消解标签训练得到softmax分类器的参数θn+1;
Step5将Step1~Step4逐层训练得到的网络参数θ1,θ2,…,θn,θn+1作为网络的初始参数,完成模型预训练。
(2) 有监督的微调(fine-tuning)
微调是采用少量标签数据进行有监督训练,与此同时对全局网络训练中的误差进行优化,微调的作用是对整个SDAE+softmax网络的权重进行调优,使模型具备更精准的特征提取和学习能力。
Step1使用带标签的维吾尔语零指代消解训练数据作为输入数据,对SDAE+softmax进行全局训练,计算整个网络的损失函数,以及对每个参数的偏导函数;
Step2如图4所示,采用误差反向传播算法并运用随机梯度下降法对网络权值进行优化,将这些参数作为SDAE+softmax整个网络的最优参数。
图4 误差反向传播算法流程图
本文针对维吾尔语零指代现象,对语料进行筛选及标注,实验语料以人民网、天山网、昆仑网及论坛、博客等维吾尔语版网页为来源,利用网络爬虫或人工下载页面,对页面内容进行去噪处理,最终获得实验所需的原始文本。为确保语料的普遍性,语料内容涵盖了新闻、人物、科普等。语料采取人工标注方式,在实验组维吾尔语语言学专家的指导下,将语料标注完毕并用XML文件存储。实验测评方式采用准确率P、召回率R和F值考察零指代性能,其中,P指正确消解的实体占实际消解的实体的百分比;R指正确消解的实体占消解系统应消解实体的百分比;F值为准确率和召回率的综合评价指标,即:F=2×R×P/(R+P)。
实验选择并标注维吾尔语语料179篇,包含维吾尔语语句900余句,配对完成的零指代对<候选先行语,φ>共3 286对,其中,存在指代关系的零指代对<候选先行语,φ>1 038对,不存在指代关系的零指代对<候选先行语,φ>2 248对,为避免实验不确定性,确保数据随机性,本文实验均采取五折交叉验证法进行,将80%的数据作为训练数据,其余20%的数据作为测试数据。
为了从不同角度考察维吾尔语零指代消解的性能,本文设计了以下五组实验: ①SDAE不同隐藏层层数对性能的影响; ②SDAE的噪声比对性能的影响; ③不同维度的词嵌入表示对性能的影响;④word embedding特征与hand-crafted特征对性能的影响; ⑤维吾尔语零指代消解模型SDAE与栈式降噪自编码、浅层机器学习的支持向量机(support vector machine,SVM)和人工神经网络(artificial neural networks,ANN)性能对比。
此外,本文对原有实验语料进行扩充,额外从大型维吾尔语网站获取共约7 000余篇题材丰富的生语料,进行去重、去噪处理后,使用Mikolov[13]提出的Word2Vec工具,选择Skip-gram模型作为训练框架,训练k维(k=10,50,100,150)的word embedding向量。
在实验过程中,先选择维度为50的词向量作为word embedding特征;SDAE的噪声系数取值为[0,1],先折中选择噪声系数为0.5,在后续实验考察中将确定它们的最优值。经过反复尝试网络模型的不同参数组合,确定了基于本实验数据量下的最优参数,如表2所示。
表2 模型最优参数
续表
3.2.1 SDAE不同层数对性能的影响
一般来说,模型中若包含更多的网络层,则能学习到更本质的数据表达与更抽象的特征,然而网络层数过多,会增加网络训练成本与计算难度,导致模型过拟合。SDAE的层数作为重要参数之一,本节采用DAEi(i为DAE的个数)表示SDAE隐藏层层数,实验结果如表3所示。
表3 不同隐藏层层数的零指代消解性能
由表3可知,反映P和R整体性能的F值随着隐藏层层数的增加而增加,在隐藏层层数为4时达到最优,为56.784%,在隐藏层层数为5时F值回落,说明本文中维吾尔语零指代消解的性能在第四层为最佳。随着SDAE隐藏层层数的增加,F值逐渐提高,这是由于深度学习机制通过多层映射单元提取主要的结构信息,能够挖掘文本中隐含的深层语义信息,然而在第五层F值并未提升,说明基于本研究的SDAE深度为4已足够,SDAE通过堆叠多层DAE,达到学习数据中有价值特征的目的,最终提升零指代消解性能。所以“深度模型”是手段,“特征学习”是目的[14]。因此在本文中确定SDAE的层数为4。
3.2.2 SDAE的噪声比对性能的影响
在SDAE的学习过程中,为了能够从原始文本中挖掘到更具鲁棒性的特征,对每层DAE的输入数据均添加一定比例的人工噪声。为了探索噪声比对零指代消解性能的影响,本节将噪声比取值[0.2,0.95]进行实验,实验结果如图5所示。
图5 不同噪声比的零指代消解性能
由图5可知,随着噪声比的增加,反映P和R整体性能的F值先呈上升趋势,在噪声比为0.45时达到最优,F值达到57.711%,表明在该噪声比下,模型学习数据中鲁棒性深层语义特征的能力为最优;随后F值呈下降趋势,说明过大的噪声比使数据受损严重,导致模型学习能力降低,从而造成零指代消解性能下降。因此在本文中确定SDAE的最优噪声比为0.45。
3.2.3 不同维度的词嵌入表示对性能的影响
词嵌入表示维度是生成word embedding向量的参数之一,本节分别采用词向量的维度为10维、100维、150维的word embedding向量,用以考察不同维度下的word embedding特征对零指代消解性能的影响,实验结果如表4所示。
表4 不同维度的word embedding特征对零指代消解性能的影响
由表4可知,F值随着维度的增加先上升,在50维时达到最优,然而维度达到100维时的F值较50维时有回落;150维与100维相比,F值也并未显著增加。F值先上升,这是因为50维较10维包含更为丰富的语义信息和上下文特征,使得模型能够挖掘更多的有用信息;F值接着下降,这是因为100维和150维的维度较大,生成训练实例的维度也相应较大,增加了模型的训练难度,产生过拟合,使模型对数据的泛化能力降低,因此在本任务中50维的词嵌入表示已足够满足需求。
3.2.4 word embedding特征和hand-crafted特征对性能的影响
word embedding特征表述了零指代项与候选先行语语义层面的表达,而hand-crafted特征则表述了零指代研究层面的知识表示,为了探索word embedding特征与hand-crafted特征对性能的影响,本节分别将word embedding特征与hand-crafted特征作为模型输入,与包含全部两类特征做输入的模型作对比,实验结果如表5所示。
表5 Fword embedding与Fhand-crafted对性能的影响
由表5可知,仅用word embedding特征与仅用hand-crafted特征条件下,与包含全部两类特征的F值相比,分别降低6.211%与8.374%。验证了本文将word embedding特征与hand-crafted特征融合,将二者共同作为维吾尔语零指代消解任务特征的有效性与可行性。在仅用word embedding特征的情况下,虽包含丰富的语义与句法信息,然而缺少了零指代消解研究方面的知识表示;在仅用hand-crafted特征的情况下,虽刻画了维吾尔语零指代现象,但缺乏语义层面的联系,因此将word embedding特征与hand-crafted特征结合,相辅相成,用以解决零指代消解问题。
3.2.5 SDAE与其他模型性能对比
为验证本文方法的有效性,将SDAE模型与传统栈式自编码SAE、浅层机器学习SVM、ANN的性能做对比,其中,SAE与SDAE的网络结构与模型参数相同;SVM采用RBF核函数,γ=1;ANN采用三层隐层网络结构,节点数为55,迭代次数为100,批尺寸为30。实验结果如表6所示。
表6 SDAE与其他模型性能对比
由表6可知: SDAE的F值与SAE相比,提高了4.450%,且SDAE与浅层机器学习SVM与ANN相比,F值均有明显提升;而基于深度网络结构的SAE与SVM和ANN相比,其F值也具有显著优势。SDAE优于SAE,这是由于SDAE在学习过程中向输入数据加入一定比例的噪声,使得SDAE的多层结构能学习到更具鲁棒性的深层语义特征,完美重构了原始数据的表达,所以其性能与传统SAE相比具有优势。而两种深度网络结构的SDAE与SAE的性能,均优于浅层机器学习的SVM和ANN,这是由于基于深度学习思想的模型具备挖掘隐藏信息能力,经过无监督的层层学习,能够自主抽取文本信息中的显著特征,有挖掘维吾尔语语篇中的深层语义信息的优势。
零指代消解研究有助于自然语言处理的发展,然而现有研究主要针对汉语等大语种,且缺乏对深层语义的探索,针对此问题,本文依据维吾尔语零指代现象,提出采用深度学习机制的SDAE解决维吾尔语零指代消解任务。结合维吾尔语语言特色及零指代特点,提出将蕴含上下文语义信息和句法信息的word embedding特征与刻画维吾尔语零指代知识表示的hand-crafted特征融合,将这两类特征共同作为SDAE的输入,挖掘更深层且具备鲁棒性的语义特征进而完成维吾尔语零指代消解任务。此外,本文还从SDAE隐藏层层数对性能的影响及word embedding特征与hand-crafted特征对性能的影响等方面对维吾尔语零指代消解研究进行了探索。与传统SAE、浅层机器学习SVM和ANN相比,SDAE均体现出其优势,验证了本方法在维吾尔语零指代消解任务中的有效性与可行性。
[1] 帕提古力·麦麦提. 基于向心理论的维吾尔语语篇回指研究[D]. 北京: 中央民族大学博士学位论文, 2010.
[2] Zhao S, Ng H T. Identification and resolution of Chinese zero pronouns: A machine learning approach[C]//Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and ComputationalNatural Language Learning,2007: 541-550.
[3] Kong F, Zhou G. A tree kernel-based unified framework for Chinese zero Anaphora Resolution.[C]//Conference on Empirical Methods in Natural Language Processing(EMNLP),2010: 882-891.
[4] Chen C, Ng V.Chinese zero pronoun resolution: Some recent advances[C]//Conference on Empirical Methods in Natural Language Processing(EMNLP),2013: 1360-1365
[5] Chen C, Ng V. Chinese zero pronoun resolution with deep neural Networks[C]//Proceedings of the Meeting of the Association for Computational Linguistics(ACL),2016: 778-788.
[6] Iida R, Torisawa K, Oh J H, et al. Intra-sentential subject zero anaphora resolution using multi-column convolutional neural network[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing(EMNLP),2016: 1244-1254.
[7] 李阳辉, 谢明, 易阳. 基于深度学习的社交网络平台细粒度情感分析[J]. 计算机应用研究, 2017, 34(3): 743-747.
[8] 张开旭, 周昌乐. 基于自动编码器的中文词汇特征无监督学习[J]. 中文信息学报, 2013, 27(5): 1-7.
[9] 刘勘, 袁蕴英. 基于自动编码器的短文本特征提取及聚类研究[J]. 北京大学学报(自然科学版), 2015, 51(2): 282-288.
[10] Bengio Y, Ducharme R, Jean, et al. A neural probabilistic language model[J]. Journal of Machine Learning Research, 2003, 3(6): 1137-1155.
[11] 杨勇, 李艳翠, 周国栋,等. 指代消解中距离特征的研究[J]. 中文信息学报, 2008, 22(5): 39-44.
[12] Vincent P, Larochelle H, Bengio Y, et al. Extracting and composing robust features with denoising autoencoder [C]//Proceedings of the 25th International Conference on Machine Learning. New York: ACM, 2008: 1096-1103.
[13] Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality[J]. Advances in Neural Information Processing Systems, 2013(26): 3111-3119.
[14] 余凯, 贾磊, 陈雨强,等. 深度学习的昨天、今天和明天[J]. 计算机研究与发展, 2013, 50(9): 1799-1804.