向量语义学分析The Analysis of Vector Semantics

2021-07-28 07:34陈佳琳CHENJia-lin
速读·下旬 2021年1期
关键词:自然语言处理

陈佳琳 CHEN Jia-lin

◆摘  要:向量语义学通过分析单词在文本中的分布来表征词的意义,这种语义表征方法被用于自然语言处理的技术之中。通过考察单词出现的语境来表征词的语义,而不再是传统的语言学或逻辑学视角刻画词功能意义或模型论语义。

◆Abstract: Vector semantics represents the meaning of words by analyzing the distribution of words in the text, which is used in natural language processing technology. It is no longer the traditional linguistic or logical perspective to describe the functional meaning or model semantics of words.

◆关键词:现代语义学;向量语义学;自然语言处理

◆Key word:Modern semantics; vector semantics; natural language processin

随着人工智能日益发展,语义学的研究越来越受到重视。从逻辑的视角来看,语言分为语音、语形、语义和语用,其中,语音、语形为载体,语义和语用关涉内涵。人们交流的时候,既要说清楚自己想表达的意思,同时也要理解他人想表达的意思,所以语义是交流的核心,这也是现在语义学研究价值所在。

一、语义学及其分类

语义学(Semantics)是一个涉及语言学、心理学、逻辑学以及计算机科学等诸多领域的学科。语义学主要研究语言的意义,单词、短语、句子和篇章都是属于自然语言的语言单位。研究语义学可以发现语言表达的规律,甚至发现不同语言的语义机制的共同点和不同点。

语义学这个概念细究起来,会有不同的含义。从研究范围来说,语义学可以分为:语言学的语义学、逻辑学的语义学、普通话的语义学以及哲学的语义学,这四种是广义的语义学。而平时我们所说的语义学仅仅是指狭义的语义学,也就是语言学的语义学。主要是研究各种自然语言单位的意义及其相互关系,语义的共时变化和历时演变。这种狭义的语义学又可以分为:词汇语义学、句法语义学和语义语用学。除此之外,依据不同的研究兴趣,还有形式语义学、解释语义学、生成语义学、结构语义学、认知语义学等不同的语义学。

二、现代语义学重要性

语义问题非常复杂,传统语义学的发展一直相对缓慢。传统语义学的研究有三个缺陷,第一,传统语义学只研究词义,研究形式比较单一。第二,传统语义学的研究只是静态的研究语言中的语义,缺少在动态语境的研究。第三,传统语义学由于词义很多,无法形成一个完整的词义系统。这些缺陷使得传统语义学的研究受到阻碍,无法深入到词的内部进行研究。

现代语义学的研究深入到了词的内部,把研究范围从单词、短语扩大到了句子、篇章。使得语义研究的深度和广度的大大的加强。

現代语义学研究一方面深入到了词的内部,重视发展内部规律,把研究范围从单词、短语扩大到了句子、篇章。另一方面,随着社会的发展,对语义学的研究越来越注重在现实生活中的应用。随着机器翻译、人工智能以及通讯技术等的迅猛发展,语义学越来越受到重视。

三、向量语义学及简单模型

在众多的现代语义学体系中,向量语义学是非常具有竞争优势的一类。在传统语义学中,单词的意义是另一串字符串,或者是词汇表中的对应的某个索引。这些处理方式有个共同之处,即忽略了单词的相似性、单词的关联性等。比如在下面的例子中:

A bottle of tesguino is on the table.

Everybody likes tesguino.

Tesguino makes you drunk.

We make tesguino out of corn

虽然读者可能不理解斜体的“tesguino”的意义,但我们可以通过该单词出现的语境来识别它的涵义,这便是向量语义学的非形式解读。

向量语义学的哲学起源,至少可以追溯到20世纪50年代的语言学和哲学著作。比如,哲学家路德维希·维特根斯坦(Ludwig Wittgenstein)认为,为每个单词都给出一个全面的定义是做不到的,并提出“意义即使用”的口号。[1]简单的来说,人们不应该使用某种逻辑语言来解释每一个单词,而是应该去考察使用这个单词的语境,即人们在实际生活中,在说话和理解时如何使用这个单词的表示自己的意思的。

语言学家Joos(1950)、Harris(1954)和Firth(1957)为了实现维特根斯坦的意义理论提出了一个想法:根据语言使用的环境或分布来解释一个单词。一个单词的分布是由它发生语境的集合、相邻的单词或语法环境决定的,这种想法被称之为“分布假说”。支撑这种理论的语言学证据有:同义词(如“oculist”和“eye-doctor”)往往出现在相同的环境中。也就是说,出现在非常相似分布中的两个单词往往具有相同的含义。又如,形近词“eye”和“examined”这两个单词的涵义差别“大致相当于它们在环境中的差异”

向量语义学将一个单词表示为某个多维语义空间中的一个点。表示单词的向量通常称为“嵌入”,这是因为单词总是被嵌入到一个特定的向量空间中。向量语义学结合了分布主义思想和向量思想,将一个单词的意义看作是一个向量,即N维空间中的一个点。尽管向量语义学有很多种版本,但是每种版本都基于单词的共现矩阵(co-occurrence matrix)。下面简单介绍自然语言处理中几种常用的表征方式。

(一)项-文档矩阵(term-document matrix)

在项-文档矩阵中,每一个行表示词汇表中的一个单词,每一列表示某个具体的文档。两个相似的文档往往具有相似的单词,如果两个文档具有相似的单词,那么它们的列向量也可能相似。一个真正的项-文档矩阵通常不会只有几行几列,由于词汇表的大小至少有数万个,文档的数量可能也非常大。

(二)单词-单词矩阵(word-word matrix)

除了项-文档矩阵外,还存在一种单词-单词矩阵,不同于项-文档矩阵的是,其中的列是单词,而不再是文档,所以项-文档矩阵中的列由单词构成,可以表示为|V|×|V|。每个值表示某语料库中某一上下文中行词和列词共同出现的次数。

(三)余弦(cosine)方法

在自然语言处理中使用的向量的相似度的余弦方法基于线性代数的点积(dot product)算子。如果一个向量越长,点积就会越大,那么每个维度的值也就越大。对于频繁出现的单词,原始点积会更高。为了得到两个单词的相似性,不考虑频率,有标准化点积的概念,即将点积除以两个向量的长度。通过计算向量的余弦,可以比较单词的相似性。

(四)TF-IDF模型

随着向量语义学发展,人们发现,简单的频率表征并不是计算单词之间关联的最佳方法,于是提出了TF-IDF模型。其主要思想是:如果某个单词在一篇文章中出现的频率高,在其他的文章中出现的频率少,那么就可以认为这个单词具有很好的区分能力,可以用这个单词用来分类。在这个模型中,单词的含义是由邻近单词的简单函数定义的。由于有大多数的单词根本不会出现在其他单词的上下文中,这种方法会产生长的稀疏向量,即大部分包含0。

TF-IDF模型实际是TF*IDF。其中TF表示文档中单词的频率。通常我们希望原始频率低一点,因为一个单词在文档总出现200次并不会使得该单词与文档相关的可能性增加200次。所以我们使用频率权重定义:

在文档中出现10次的项将有TF=2,在文档中出现100次TF=3, 1000次TF=4,以此类推。IDF表示逆向文档频率,即一个术语出现在越少数的文档中,这个权重就越高。但是实际上,如果一个单词在一个类的文档中频繁出现,则说明该词条能够很好代表这个类的文本的特征,这样的词条应该给它们赋予较高的权重,并选作该类文本的特征词以区别于其它类文档。

四、总结

向量语义学的优点很多,首先向量语义学提供了一种細粒度的意义模型,可以实现单词的相似性和短语的相似性的计算。其次,向量语义学更具有实用性,有助于人工智能程序从文本中自动学习,而无需添加任何复杂的标签或监督。鉴于这些优点,向量语义学模型是现在自然语言处理中表征单词意义的标准方法。

向量语义学可用于查找单词释义、跟踪单词意义的变化或自动发现不同语料库中单词的含义。此外,还可通过计算余弦来估计两个文档的相似性。虽然向量语义学表征单词的意义方面具备优势,但其在表征句子的意义方面稍微缺乏符合直觉的解释。

参考文献

[1]Wittgenstein,L.Philosophical Investigations. (Translated by Anscombe,G.E.M.).New Jersey:Wiley-Blackwell,1953:43.

[2]Harris,Z.S.Distributional structure.Word,1954(10): 146-162.

[3]Osgood,C.E.Suci,G.J. and Tannenbaum, P.H.The Measurement of Meaning. University of Illinois Press.1957.

[4]Luhn, H.P.A statistical approach to the mechanized encoding and searching of literary information.IBM Journal of Research and Development,1957,1(04):309–317.

[5]Sparck Jones, K.A statistical interpretation of term specificity and its application in retrieval.Journal of Documentation,1972,28(01):11–21.

作者简介

陈佳琳(1995—),女,辽宁沈阳人,湘潭大学碧泉书院哲学与历史文化学院硕士研究生。研究方向:逻辑学。

猜你喜欢
自然语言处理
基于LSTM自动编码机的短文本聚类方法
自然语言处理与司法案例
国外基于知识库的问答系统相关研究进展及其启示
基于组合分类算法的源代码注释质量评估方法
词向量的语义学规范化