基于词干单元的维-哈语文本关键词提取研究*

2020-03-04 08:15沙尔旦尔帕尔哈提米吉提阿不里米提艾斯卡尔艾木都拉
计算机工程与科学 2020年1期
关键词:词素语料库准确率

沙尔旦尔·帕尔哈提,米吉提·阿不里米提,艾斯卡尔·艾木都拉

(新疆大学信息科学与工程学院,新疆 乌鲁木齐 830046)

1 引言

关键词提取是对一组最能概括文本中讨论内容的词或术语的自动识别方法[1]。关键词提取在文本挖掘[2]、信息检索[3]和文本分类[4]等领域具有极其重要的意义。在搜索过程中,关键词被广泛用于对搜索结果进行分类,帮助用户快速查找特定数据。文本关键词提取任务中的一个重要问题是如何表示文本中的词语,使计算机能够有效地读取最有代表性和起决定性作用的关键词。

维吾尔语和哈萨克语(以下称维-哈语)是粘着性语言,维-哈语的语法和词法结构是基本一致的。维-哈语的句子由自然分开的词组成,词由词干追加词缀来派生,因此维-哈语中词汇量巨大。其中,词干是具有实际意义的词汇单元,词缀提供语义及语法功能,因而词素切分和词干提取能够使我们获取有效的、有意义的特征,并减少特征的重复出现率和特征位数,如以下例子所示:

(维语原型)musabiqidA musabiqiniN vaHirqi musabiqA numurini velip,tallanma musabiqidin GAlbilik vOtti.

(维语词素切分后)musabiqA+dAmusabiqA+niN vaHir+qimusabiqAnumur+i+ni val+ip,talla+an+mamusabiqA+din GAlbA+lik vOt+ty.

(哈语原型)jaresta jaresneN soNGe jares nomeren alep,taNdaw jarestan jENespEn votte.

(哈语词素切分后)jares+tajares+neN soNGejaresnomer+en al+ep,taNdawjares+tan jENespEn vot+te.

以上句子中文意思是:在比赛中取得比赛的[比赛]终局分数,胜利地通过了选赛。在中文中,中括号[ ]里的‘比赛’这个词一般不会出现,但在维-哈语句子中对应于这个词的第4个词musabiqA和jares,是必不可少的。

以上每个维-哈语句子中有10个词,其中4个词的词干(被加粗部分)都是musabiqA(比赛)或jares(比赛),将以上句子经过词素切分和词干提取后,1个词干能够表示4个词的主要意思,并获取4个词特征,特征位数会大幅减少,如表1所示。

Table 1 Uyghur-Kazakh word variants表1 维-哈词语变体

维-哈语自然语言处理NLP(Natural Language Processing)的主要问题是资源缺乏和语言形态结构多变,从互联网上收集的数据在拼写和编码等方面具有噪声和不确定性等特点[5]。方言以及在拼写和编码等方面的不确定性对提取和分类带噪声文本数据的可靠性带来了巨大挑战[6]。然而,提取和分类有噪声的文本数据是维-哈语NLP中不可避免的重要步骤。

以往的维-哈语词干提取相关的研究大多基于以后缀为基础的词干方法和一些人工收集的规则[7,8],因此存在歧义。维-哈语词干提取任务中1个特殊的问题是声音的和谐与不和谐,这个问题导致词形的变化,这需要通过句子层面的语境分析来解决。基于句子或长上下文的可靠词干提取方法可以正确预测噪声文本中的词干和词条,有利于维-哈语等少数民族语言NLP的其他许多方面的研究。基于上述方法的多语言处理工具[6]可以为整个句子提供形态分析,并减少噪声文本中的歧义。

常用的关键词提取方法有4种:(1)基于统计的方法,包括词频TF(Term Frequency)[9]和词频-逆文档频率TF-IFD(Term Frequency-Inverse Document Frequency)[10]。TF是统计1个文本中每个词的出现频率,把出现频率高于某个阈值的词选为关键词。这种方法简单快捷,但它将所有高频词视为关键词,并排除所有低频词,这就降低了它的准确率。TF-IDF通过降低出现频率高但可分类性低的词语的权重来避免所有高频词被选为关键词。因为TF-IDF算法需要考虑整个语料库来计算给定词的IDF值,所以语料库较大时,这种算法才能更正确地提取关键词。(2)基于语义的方法[11]。该方法利用词之间的语义特征来提取关键词。(3)基于机器学习的方法,包括朴素贝叶斯NB(Naive Bayes)分类器[12]、支持向量机SVM(Support Vector Machine)分类器[13]等。该类方法将关键词提取问题转化为二元分类问题,即确定候选词是否为关键词。(4)基于文档网络的方法。在这类方法中,将文本映射到以词语为顶点和以词语之间的关系为边的网络,如TextRank算法[14]。TextRank算法认为1个词的重要性由与此词有关的其他词来投票确定,投票的重要性是由词的权重来确定。

目前,部分学者对维-哈语文本关键词提取做了一些研究[15 - 17]。文献[15]用特征加权的方法计算词的出现频率,加以考虑词的位置信息,通过设定特征项权重因子得到词的最后权重,以此提取维吾尔语文本的关键词。文献[16]用词的位置信息、语义相似度以及词频等特征来加权的TextRank算法提取维吾尔语文本中的关键词。文献[17]利用改进的 TF-IDF算法以及词的位置和出现频率等信息进行哈萨克语文本关键词提取实验。

以上研究中用到的关键词提取方法虽然利用了文本中的信息,但是并没有对文本的表示形式进行改变,其中把词性和词频等特征作为词语的特征,这样就忽略了文本上下文词语之间的语义联系,因此这些特征在聚类和分类等过程中不能提供语义有关的充分信息,就导致所提取到的关键词准确率偏低。

本文提出了基于稳健的词素切分及词干提取和word2vec_TFIDF融合特征表示的维-哈语文本关键词提取方法。首先,用网络爬虫技术从政府网站下载维-哈语文本,并用多语言词素切分工具[6]对其进行词素切分及词干提取,以构建词干序列文本语料库。然后,用word2vec将语料库的词干向量化,并用TF-IDF算法对词干向量进行加权处理之后,进行了基于词干的自动关键词提取实验。

2 提出的关键词提取方法

2.1 实验文本的处理

跨语言和跨文化交流所引起的书写形式上的不确定性在给维-哈语文本带来噪声的同时,也会导致新词、新概念和新表达的出现。这些新词大多是借用新进的外来词或词干,以及由于拼写习惯的不同和方言的变形而引起的噪声整合而成。引起书写形式上不确定性的另一个原因是书写系统的历史变化。例如,维-哈语目前使用阿拉伯字母,但30年前使用了罗马字母。在更古老的时代,有更多的书写形式被使用。这些不同的书写系统在现代社会留下了它们的遗产,虽然不太可能在官方媒体上出现,却广泛存在于网上论坛和聊天工具中。

多语言处理工具[6]提供多种预处理功能,它将粘着性语言文字切分成词和词素序列。该工具在功能和语言上都是可扩展的。

该工具根据词素和语音规则,从对齐的词-词素平行训练数据中自动学习粘着性语言词语的各种表面形式和声学变化。词素边界上的音素根据语音和谐规则改变其表面形式。当发音准确时,可以在文本中清楚地观察到语音和谐。该工具基于维-哈语的词素规则所准备的词干、词缀表、语音和谐与不和谐等语音规则的搜索算法,通过匹配方法依次切分候选词,并根据切分结果分别与词干、词缀表和维-哈语词的各种表面形式进行匹配,来导出每个候选词的所有可能的词素切分形式。将这些词素送入1个独立的统计模型,从前N个最好的词素中选择最佳词素。该工具为词干提取提供了可靠的依据,极大地改进了少数民族语言文本处理效果,词素切分流程如图1所示。

Figure 1 Morpheme segmentation process图1 词素切分流程

本文用该工具在包括10 025个维吾尔语句子和5 000个哈萨克语句子的词-词素平行训练语料库上训练统计模型,选择其中80%的句子作为训练语料,其余部分作为测试语料,进行词素切分和词干提取实验,其词干提取准确率最高分别达到97.66%和95.87%,所有自动切分的词素与人工切分的词素完全匹配的百分比如表2所示。

Table 2 Morpheme segmentation based on rule表2 基于规则的词素切分

2.2 基于word2vec_TFIDF的文本表示

近期,深度神经网络和表示学习[18,19]提供了更好的文本表示和缓解数据稀疏问题的方法。Mikolov等人[20]提出了word2vec文本表示方法,并利用深度学习和向量运算的思想,通过训练把文本内容的处理简化到Q维向量空间,以寻求文本数据更深层次的特征表示,并使用向量空间中的相似度来表示文本的语义相似度。

2.2.1 词向量学习方法

词(词干)向量是1个真数向量[21],利用word2vec可以快速有效地训练词干向量。通过计算任意2个给定的词干向量之间的距离,可以容易地找到它们的相似度。word2vec包括2个重要的子模型:连续词袋CBOW(Continues Bag Of Words)模型[22]和Skip-gram模型[23]。

CBOW是1个在给定上下文词干Wt-c,W(t-c)-1,…,Wt-1,Wt+1,Wt+2,…,Wt+c的条件下预测特定词干Wt发生的概率P(Wt|Wt-c,W(t-c)-1,…,Wt-1,Wt+1,Wt+2,…,Wt+c)的模型。在这个模型中,1个词干由在这个词干前后的c个词干表示,c是预选窗口的大小,输出是这个特征词干Wt的词干向量,如图2所示。本文使用CBOW模型训练词干向量。

Figure 2 CBOW model图2 CBOW模型

Skip-gram模型的思想与CBOW模型相反,它在给定特定词干Wt的条件下,预测上下文词干Wt-c,W(t-c)-1,…,Wt-1,Wt+1,Wt+2,…,Wt+c的发生概率P(Wt-c,W(t-c)-1,…,Wt-1,Wt+1,Wt+2,…,Wt+c|Wt),如图3所示。

Figure 3 Skip-gram model图3 Skip-gram模型

通过word2vec训练得到的词干向量可以通过其余弦距离来判断语义相似度。计算得到的余弦值越大,语义越相近;反之,语义相差越远,如表3所示。

Table 3 Semantic similarity of stem vector 表3 词干向量语义相似度

从表3可以看出分别输入维吾尔语词muzika(音乐)和哈萨克语词vaqxa(人民币),并通过计算词干向量之间的余弦距离来得到的与这2个输入词语义最相近的5个词干。

2.2.2 TF-IDF权重

对于包含M个文本的集合D,其中Di∈D,i=1,2,…,M,通过CBOW模型得到词干向量。对于文本中的每个词干,通过TF-IDF算法计算其权重值tfidf(Wt,Di),它是指词干Wt在文本Di(i=1,2,…,M)中的权重值。TF-IDF考虑单个文本中的词干频率tf和整个文本集的词干频率idf。TF-IDF的计算公式如式(1)所示:

(1)

其中,tf(Wt,Di)是词干Wt在第i个文本中的出现频率,分母是归一化因子。idf(Wt)是词干Wt的逆文档频率,计算公式如式(2)所示:

idf(Wt)=log(M/nt)

(2)

其中,M是训练集中的文本总数,nt是词干Wt在训练集中的出现次数。

每个词干的词干向量被tfidf值加权来表示1个文本,如式(3)所示:

(3)

其中,vec(Di)指的是每个文本Di的词干向量,wt表示词干Wt的N维词干向量,tfidf(Wt,Di)表示词干Wt在文本Di中的TF-IDF权重值。

2.3 关键词提取方法

对实验文本进行处理,通过多语言处理工具[6]进行词素切分和词干提取之后,建立词干序列文本语料库,并把语料库分为训练语料库和测试语料库2个部分,为每个文本人工选择若干个关键词干,并进行标注;然后用word2vec生成所有训练文本的词干向量,并用TF-IDF算法计算出每个词干的权值,以此值加权,生成加权的词干向量集;然后对测试文本进行向量化和加权,以生成加权的词干向量集,算出训练文本集中的每个关键词干向量到待测试文本集中所有词干向量之间的余弦距离,排序后,选取排在前面的K个关键词干作为最终提取的关键词。

3 实验结果及分析

目前,维-哈语文本关键词提取研究还处于起步阶段,尚无公开可用的文本语料库。因此,须通过下载网上文本来构建维-哈语文本语料库,并用此进行实验。

3.1 实验语料库

本文使用网络爬虫技术从官方的维-哈文网,如人民网等,下载文本构建文本语料库。该语料库包括法律、财经、体育、文化、卫生、旅游、教育、科技和娱乐等9大类维吾尔文新闻,每类包含500篇,共4 500篇,和包括法律、财经、体育、文化、旅游、教育、科技和娱乐等8大类哈萨克文新闻,每类包含500篇,共4 000篇。本文实验中,从语料库中随机选择维吾尔文新闻和哈萨克文新闻各1 000篇,并使用其中80%的新闻作为训练集,其余部分作为测试集。

针对互联网网页中的文本易出现拼写错误的情况,本文开发了维-哈文字拼写检查工具。该工具通过分析维-哈语音节的结构形式和规则,可以发现大部分有拼写错误的维-哈语词汇,从而能够指导我们更正给定词汇中的拼写错误。拼写检查程序流程如图4所示。

Figure 4 Flowchart of Uyghur-Kazakh spell checking program图4 维-哈语拼写检查程序流程

本文将所有文本从各种编码形式规范化成统一的罗马字母编码形式,并送入词素切分工具包,转换成词素序列,提取其词干。基于词素和语音规则的词干提取方法能够很好地降低待选择关键词干的维数,其中,除去词缀和停用词后(停用词数为1 085),词干词汇的数量显著地下降到词词汇数量的30%以下,如表4所示。

Table 4 Reduction in vocabulary number by stem extraction表4 词干提取引起的词汇数量的减少

在稳健的词素切分和词干提取之后,用基于Hierarchical Softmax 算法的CBOW模型训练所有语料库的词干向量。在训练时,向量的维度设置为100,训练窗口设置为5,学习速率设置为0.025。取得词干向量之后,用TF-IDF算法分别对所取得的词干向量集进行加权。

3.2 实验结果及分析

本文使用准确率P、召回率R和F1评分对本文方法性能进行评价。其中准确率P、召回率R和F1评分计算公式如下所示:

P=正确提取关键词个数/全部提取关键词数

R=正确提取关键词个数/人工标注的关键词个数

F1=2×P×R/(P+R)

为了验证本文方法关键词提取性能,将本文方法与TF、TF-IDF[18]和TextRank[17]等方法进行对比。本实验中为每篇文本人工标注3个关键词干,然后用本文提出的方法为测试集的每篇文本分别选择训练集中已标注关键词干的词干向量与测试集中词干向量之间余弦距离最大的3个、4个和5个词干作为方法提取的关键词,对比实验结果如表5~表7所示。

Table 5 Results comparison of extracting three keywords表5 提取3个关键词的结果比较 %

Table 6 Results comparison of extracting four keywords表6 提取4个关键词的结果比较 %

Table 7 Results comparison of extracting five keywords表7 提取5个关键词的结果比较 %

从表5~表7可以看出,基于本文提出的word2vec_TFIDF融合特征表示的方法的准确率随着被提取关键词数的增加而逐渐提高,在关键词数为5时,召回率和F1值分别达到44%和42%以上。传统的TF算法的准确率随着关键词数的增加而下降;传统的TF-IDF算法在关键词数增加时准确率逐步提升,但是提取效果比较一般,准确率比本文方法低约8%;TextRank方法的准确率比较稳定,但是比本文方法低,并且关键词数增加时,本文方法与TextRank方法准确率之间的差值逐步增加。

本文为了验证词干单元在粘着性语言关键词提取任务中的优越性,用本文提出的融合体征表示方法对原始文本中的词特征进行表示,同时对原始文本进行词素切分和词干提取,然后再用此方法表示文本中的词干特征,以此分别进行基于词和词干单元的关键词提取实验,并对实验结果进行了对比,结果如表8所示。

Table 8 Comparison of extraction results based on word and stem units表8 基于词与词干单元的提取结果比较 %

从表8可以看出,随着关键词数的增加,基于词与词干单元的准确率,召回率和F1值都开始增加,这就证明词与词干向量数增加时,能够参加距离计算的矩阵参数就越多,也就能更准确地找到相似度更接近的关键词;在所有的关键词数水平上,基于词干单元的准确率都比基于词单元的大。随着关键词数的增加,本文方法基于词干单元提取关键词的准确率与基于词单元的准确率的差值开始增大,当关键词数为5时,本文方法基于词干单元提取关键词的准确率和F1值比基于词单元的准确率和F1值高出约4%。由此可见,对于维-哈语等粘着性派生语言而言,词干单元在关键词提取任务中比词等其他词汇单元有着更优异的效果,能够提高关键词提取的准确率。

4 结束语

关键词提取是从海量数据中快速取得用户需要信息的重要手段之一。维-哈语是一种形态丰富的粘着性语言,词是由多个后缀所附的词干构成,因此,维-哈语的词汇量巨大,后缀提供语义和语法功能。因此,词干提取和形态分析是关键词提取的有效途径。谷歌开发的word2vec词向量技术可以将语言单元映射成基于上下文的顺序向量空间。本文讨论了一种基于词-词素平行训练数据的稳健词素切分及词干提取方法,以及一种基于word2vec和TF-IDF融合特征表示的维-哈语文本关键词提取方法。本文分别用不同的关键词提取方法和不同的词汇单元进行维-哈语文本关键词提取实验。本文提出的基于词干单元和word2vec_TFIDF融合特征表示方法,相较其他方法,能更有效地提高维-哈语等粘着性语言文本关键词提取的性能。

猜你喜欢
词素语料库准确率
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
《语料库翻译文体学》评介
基于词素解构的高中英语词汇扩充方法分析
词素配价理论与应用
高速公路车牌识别标识站准确率验证法
从词素来源看现代汉语词素同一性问题
词汇识别中歧义词素语义加工:ERP研究*
基于JAVAEE的维吾尔中介语语料库开发与实现