词向量的语义学规范化

2016-05-01 14:09唐雨曾蒙田
求知导刊 2016年10期
关键词:自然语言处理语义深度学习

唐雨?曾蒙田

摘 要:采用深度学习方法学到的词向量,与语言学义素还有距离,向传统语义学义素系统靠拢是有意义的。这里提出了避让原则,和提取向量或“呼唤”向量,相应地,概率语言模型有所改变。本文找到了两种规范词向量的方法:学习中注入自组织核心和学到词向量的线性变换矩阵,把向量分量排列规范化,表示出名字。讨论中涉及语言语义学对词向量学习处理的各种启发。

关键词:人工智能;深度学习;自然语言处理;词向量;语义

中图分类号:H030 文献标识码:A 收稿日期:2016-02-01

一、相关工作

本文最后所列的参考文献[2]曾经提出模式自动机想法,模式是满足关系的一组要素:f(x1,x2,...,xn)。模式自动机是模式的变动: f(x1,x2,...,xn)=F[f(x1,x2,...,xn)]。模式关系满足时有不动点。神经元网可看成模式: V=W.U 。 对矩阵和向量调整方法和终止条件看成模式自动机。每个可变项有“信息硬度级”:“目标,已知,假设,未知”。学习推理过程中,“已知”的项作为知识不变,而要求可变项随自己变动,这就成为自组织核心。

参考文献[3]、[4]、[5]是对词向量的研究及综述,通过不同的参数和语料库,可以学习50~1000维的词向量,能进行语义计算,如:V(罗马)=V(巴黎)-V(法国)+ V(意大利)。依照语义学,词向量应该能够表示义素,但义素不知名,组合而不分离,顺序随机,没有语义轴——对立关系。

参考文献[7]研究了词义联合,如果两词的向量是a、b,分别有矩阵A、B,联合词义向量是c=f(B.a+A.b),解释是b词,对a词进行一些修饰变化,反之亦然。

参考文献[6]给出机器翻译方法,利用词向量之间空间关系守恒原理,对两种语言分别进行无监督学习,提供部分双语对照语料,学习源语言到目标语言的线性变换V(d)=W·V(s),之后对源语言单词的向量做变换,在目标语言向量空间找到余弦最近向量,相应词就是翻译结果。

二、语义避让、呼唤向量和新模型

1.语义避让

描述词义的向量的各个特征应该是互相补充关系,不应混淆,所以应该各安其位。比如,描述实质的名词和修饰名词的形容词,应在同一向量中,各有一组向量分量,不是组合的,这就是语义避让。语义学里义素表达一个单独特征,以“+”表示“有”,以“-”表示“相反”。这样可以清晰地、正交地容纳不同语义信息。

语义向量内部义素应该避让,大概的结构是:特征段+名词段+动作关系段+宾语段+间接宾语段。逻辑上,可有下面分段的抽象示意性结构:

[adj ( attributes )(adv:degree)+

N(kind0,subject?number) + V(what action or have what relation)(preposition:structure)(adv: how,when,where)+object1(kind1)+object2(kind2)+ bias ]

对名词向量,如果可做宾语,kind1、kind2是kind0的摘要,这是冗余部分。相应地,动词要求宾语,可在呼唤向量对应位置为1 。如果知道是主格,如英文I 、he,object 段是0 。如果是宾格,N的是否主语维是0 。介词与结构相关,利用简明的语法规律,可以从不同词向量取N、object1、object2段。

即使做了规范化,有些义素成为知名的,还可保留很多不明确知道含义的信息,这样能使微妙信息得到表示。

bias 是偏置项,可不限制在[-1,1]区间内。如果是负数,绝对值较大,则说明结合中要求严格,不成立机会大;如果是正数,说明结合要求宽松。而呼唤向量尾上总是1 。

2.呼唤向量

现在的向量学习是通过向量点乘衡量结合概率的,这样,向量内容实际上应该是自身携带信息和与其他词结合度信息的混合。如果实现了上述避让,本该结合的单词之间,非零分量的位置不同,没有相交点,这才有必要结合互相补充修饰。因为语义表达清晰的词向量之间交叉少,计算点乘是不能反映结合性的,这就要求在作为主词和作为其他词语境时,使用不同的向量。

我们把在可以修饰自己、可以修饰对方、互相不冲突的义素位置取1的向量,称作“呼唤向量”,或“提取向量”。它呼唤相应的信息,在进行词结合时,通过按位乘,提取可结合信息。对词w,有Vs(w)和Vc(w),Vs(w)是语义向量,Vc(w)是呼唤向量。定义按位乘算符为双点“ ..” ,如 Vs(x)..Vc(y)提取能修饰单词y的单词x中信息。

我们与文献[7]对 A·b+B·a 进行词向量结合的语义解释不同,认为本词要表示哪些信息与自己相容,并被提取出来修饰自己。a、b 两词语义结合,应是:Vs(a)..Vc(b)+Vs(b)..Vc(a)。

呼唤向量与作为语境的衡量与主词结合性的向量是一致的,两者点乘值大,反映结合性强,共现概率大,按位乘计算量小,意义明确,而且一个位置上的分量,不会与其他位置分量值加减,这与语义学要求一致。

一个句子中,语义向量和呼唤向量都有避让,不然是信息重叠,而相应地,单个词的语义向量和呼唤向量之间也是避让的,因为不会提取已有信息来修饰自己,而且可能造成冲突。提取向量与语义向量的非:非0项置0,0项置1,比较接近。

可以看出,向量如果含满信息,其具体程度向着完整句子发展。经过避让分段,句子语义通过句中词向量相加成为可能。

呼唤向量的结合,是“按位或”:取两者最大的(大于阈值看成1),再与各语义向量相加的和向量的非,按位乘,这样,对缺少的单词的呼唤指向性更强。当然,这里是概念化性讨论,实践中可增加细节。

从这种大概的分量段划分就可看出,呼唤向量为1的位置,应该是自己可以结合的那些分量,排斥和不相关的位置是0。这样,与符合呼唤要求的语义向量点乘,值就会大。

比如三目动词对N、object1、object2三段信息(可能来自三个词)都有提取。

3.模型变化

通过区别语义向量和语义呼唤向量,模型改变为:f(x)=1/(1+exp(-x)),

p(w,context)= f(Vs(w). Vc (context )), 或p(w,context)= f(Vc(w). Vs (context))。也可两者结合:p(w,context)= f(x),x=α.Vs(w).Vc (context)+ β.Vc(w).Vs(context),其中,α+β=1 。

目标是对已有句子,在主词和语境Vs、Vc 条件下, 使得p(w | context)或p(context | w)最大。

借鉴GloVe,统计出一个全局同句共现矩阵,Mij是单词i和单词j的同句共现计数。随机取context中单词都不共现的单词,这几行中,取值全是0 的某列对应单词,作为w。以1-p(w | context )最大,对其Vs、Vc向量进行训练,这应该有利于学会排斥性。

可以句子为单位,句子太大时可使用前后取5个词的窗口。这种限制的意义在于刨去冠词、数词等语义稀疏词、意义比较丰满的词,向量求和时,非零项重叠过多,“避让”不及。

可以比较阈值,对Vc 每次训练后,取 0 、1 两个值,这样也能节省存储空间和计算速度(乘法变成:置0和不变)。

计算点乘Vs.Vc时,可乘以一个大于1的系数,系数较大,有利于向量的稀疏化,比如取4,有1/4非零项就达到所要的概率。

初始化可以按3/4比率对Vs项取0值。而初始化的Vc可使Vs的0值项取1。

当然,这些设想需要在实现过程中加以调整、细化。

三、词向量规范化

1.使用单义素词作为基准

我们的目标是使词向量与义素表示部分地一致起来,使语义处理、理解更加方便。如果前面学习模型使得词向量,特别是单义素词向量充分稀疏,或者进一步通过深度学习擅长的能力多层自主学习,可抽象出上层特征,把组合特征归纳成单一上层特征,就能考虑进一步规范化。

我们想到单义素词的向量应当十分稀疏,理想状态是单个非零项。所以可选用单义素的形容词,比如male,female。

由于没有针对性地指导系统学习对立义素,猜测没有一个性别项,对男性取值1,女性取值 -1,很可能是“是否male”和“是否female”分别存在,分布在不同位置多个项上。与语义学义素分析参照,可用两项表示一个义素,并在规范化知名义素后,把这种信息告诉系统,使之能处理对立义素。

比如以(male,female,younger,

elder,……)为向量分量标准顺序,male、female、younger、elder 四个单词的向量分别为:(1,-1,0,0,…)(-1,1,0,0,…)(0,0,1,-1,…)(0,0,-1,1,…),其他维度上,理想情况应该为0 。可按位乘0.5,把想强调的项突出来,呼唤向量通过学习得到。

2.注入自组织核心

因为学到的词向量中对应各分量排列顺序是随机的,而各个词语之间关系是反映客观信息的、守恒的,如果有部分词向量的前n个分量取值是固定不变的,那么,为了保持词语间语义关系,其他词的向量就会与不变向量分量取得协调,这样,加入的含有不变分量的向量,就成为自组织的核心。这相当于给选出单词的前n个分量,赋予了信息硬度级“已知”,把少量的指导学习信息加入到基本上无指导学习过程中,为自主学习带来一些约束。

在注入向量取值的钳制下,正学习的向量在前n个分量排列,就会和规范要求一致,甚至在取值上可能更接近典型的-1,0,1,并且,这部分分量在表示信息上可能更加密集。

比如,以(male,female,younger,

elder,……)为向量分量标准顺序,注入male、female、younger、elder 四个单词:(1,-1,0,0,…)(-1,1,0,0,…)(0,0,1,-1,…)(0,0,-1,1,…)。对一些可以有性别描述和相对年龄描述的词,可强制提取向量相应项为1 。

3.通过翻译变换进行规范化

对于作为基准的单义素词,把向量分量位置按规范要求排列。作为目标语言的词向量,由于V(d)=W·V(s),比如male,学会的向量,在L位置是1,M位置是-1,其他项很小,想要规范成(1,-1,0,0,…),W的第1行的第L列为1,其他是0,第L行第1列为1,其余为0;第2行的第M列为1,

其他为0,第M行第2列为1,其余为0;就能完成对male、female两个分量的交换。完成前n个分量的规范化,学会W的前n行就可以了。而呼唤向量用同一个W进行位置变换。

当然这是理想情况,具体可在male向量中找到绝对值最大两个分量,其余看成0,学习W,之后可以恢复实际向量各项的值,通过W的线性变换进行部分分量的规范化。m维向量X,Y点乘:∑(i=1,m)xi.yi ,顺序改变,不改变加法结果。

所以本方法和前面的方法由于是统一把所有向量的分量顺序进行改变,而概率语言模型中的点乘结果不变,所以学习能力与词出现和共现的概率不变。

进行了相同规范化的多种语言,在机器翻译时,不必再进行线性变换,直接从源语言词向量寻找目标语言单词。词向量成为共同的中介。

语义学规范化会为理解、处理相关内容带来益处。

词向量可以表现深层语义,对词向量进行语义学规范化,从向量中得到更多“知名义素”,将有利于符号化,使得潜意识向显意识的转化成为自然、有意义的过程。

规范后,机器翻译可直接利用知名义素的名,如:V(表哥)-V(cousin)=V(elder)+V(male),V(表哥)=V(elder)+V(male)+ V(cousin),elder和male 是知名义素,可直接提取,不必学习英语使用者较少使用的短语elder male cousin。

通过单义素词学到知名义素,并学会对立义素,可显性处理二元对立语义,也可以用一项代替两项,与义素表示进一步一致。

这里的讨论,动机来自把词向量引向语义学义素组的性质,区分词的语义向量和语义呼唤向量,带来词向量学习的概率模型的变化。未来工作是这种模型、两种规范化方法的程序实现。

参考文献:

[1]贾彦德.语义学导论[M].北京:北京大学出版社,1986.

[2]唐 雨.作为概念的模式自动机[A].中国计算机学会.99青岛—香港国际计算机会议论文集[C].青岛,1999.

[3]Tomas Mikolov,Ilya Sutskever,Kai Chen, et al.Distributed Represent-

ations of Words and Phrases and their Compositionality[J].Advanced in Nenral Information Processing Systems,2013.

[4]J.Pennington,R.Socher,C.D.Manning.Glove: Global vectors for word representation[J]. Proceedings of 2014Conrerence on Empiricial Methods in Natural Language Processing,2014.

[5]P. D. Turney,P. Pantel. From frequency to meaning: Vector space models of semantics[J]. Journal of Artificial Intelligence Research,2010.

[6]Richard Socher, Brody Huval, Christopher D. Manning,et al.Semantic Compositionality through Recursive Matrix-Vector Spaces [J].Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning,2012.

[7]Tomas Mikolov,Quoc V. Le,Ilya Sutskever. Exploiting Similarities among Languages for Machine Translation[J].Eprint Arxiv,2013.

猜你喜欢
自然语言处理语义深度学习
韩国语“容入-离析”关系表达及认知语义解释
基于组合分类算法的源代码注释质量评估方法
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
深度学习算法应用于岩石图像处理的可行性研究
基于深度卷积网络的人脸年龄分析算法与实现
面向机器人导航的汉语路径自然语言组块分析方法研究
汉哈机器翻译中的文字转换技术研究
HowNet在自然语言处理领域的研究现状与分析