藏语动词形态变化的还原研究与实现

2019-12-10 09:48格桑加措赵栋材
电脑知识与技术 2019年28期

格桑加措 赵栋材

摘要:论文在对藏语动词随时态的形态变化分析的基础上,根据藏语语法对动词随时态形态变化的分类,建立了藏语动词随时态变化的词典库,提出基于词典匹配的藏语动词词形还原方法。

关键词:藏语动词;动词词形还原;数据预处理

中图分类号:TP311        文献标识码:A

文章编号:1009-3044(2019)28-0205-03

动词()一般就是用来表示动作或状态的词汇()[1]。词形还原是将一个任何形式的单词还原为一般形式。词形还原作为文本数据分析中数据预处理的一部分,其对数据分析起到降低数据复杂度、提升处理效率的作用。本文把英语中词形还原技术的思想应用到藏语中,对藏语的动词三时一式的变化进行还原操作,还原规范为将未来时、过去时和命令式的藏语动词的形态,归一到藏语动词的一般形式。在藏语书面语里,动词的时、式、态都是用动词本身的屈折形式来表达的()[1]。本文按藏文动词的随时态变化规律,分别统计藏语动词来建立词典,最后用词典匹配法进行了藏文动词的词形还原操作。其在藏语数据处理中起到减少数据量、降低噪音、降低所占空间和提高文本处理效率的作用。

1 藏语可变动词的随时态变化规律

1.1藏语动词和英语动词随时态的形态变化上的比较

英语动词的"时"有两种,"体"有两种,两者可以互相结合构成8种动词的时、体形式[2]。与英语的动词词形变化一样,藏语动词也有随时态的形态变化。传统语法中藏语动词分为有形态变化的动词和无形态变化的动词,有形态变化的动词有未来时、进行时、过去时、祈使式三时一式的形态变化。英语词形还原技术已经很成熟,主流还原方法均是利用语法规则或利用词典匹配获得词的原形。nltk、Pattern、TextBlob等自然语言处理库都有相关词形還原的模块[4]。由于藏语自然语言处理起步比较晚,虽然语言学家和学者们对动词词形变化的规律做了很多相关研究,但是很少见到词性还原模块相关的研究。在英语语法中,动词的时态变化除了极少无规则的时态变化可以统计出来的外,其余都有明显的后缀变化规律,比如(say, says,said,saying)。比起英语,藏语动词随时态变化规律比较复杂,藏文动词的变化主要有前加字、后加字和再后加字的变化。有些特殊动词,随着其时态的变化,动词的基字也会发生变化。瞿霭堂在《藏语动词屈折形态的结构及其演变》中提到,藏语书面语中能发生时炙屈折变化的动词约占整个单音动词的70%左右,能发生语态屈折变化的动词约占20%,而现代藏语中,发生语态屈折变化的动词约占10%,发生时、式屈折变化的动词,卫藏方言约占30%,安多方言约占45%。在书面语中,动词的屈折形态具有独立表达语法意义的功能[3]。

藏语语法里,藏语动词从形态变化上分有时态变化的动词和无时态变化的动词两种。

3藏语动词的词形还原

词形还原 (Lemmatization) ,是把一个任何形式的语言词汇还原为一般形式,是数据预处理的一部分,是一种对词的不同形态的统一归并的过程。主要应用于信息检索和文本、自然语言处理等方面[4]。它可以减少数据量,降低噪音,降低所占空间和提高实际信息提取任务的准确性提高文本处理的效率。藏文动词作为句子中重要的组成部分,占数据总量的较大比例,还原藏语动词各种形态作为藏文数据预处里的一部分,可以减少数据复杂度,提高藏文数据处理效率。本文在测试语料中随便抽取了100个藏语长句进行了分析,其中平均100个音节字中包含动词9个左右。其中一个动词各种形态的重复率占所有动词的13%左右。当然,所选的句子不同,动词在句子中的比率和动词各种形态的变化率差距也很大。词形规范化将一个词的不同形式统一为一种具有代表性的形态,目标是将词的屈折形态或派生形态简化或归并为原形的基础形式。本文中将藏语动词的现在时形态暂且定为一般形式,以将未来时、过去时、命令式词形还原成一般(现在时)形式的方式进行还原。比如句子中出现四个字的任何一种,统一还原成这个现在时形式。

3.1语动词的词典库建立

在藏语语法中,藏语动词随时态的形态变化提出了较完整的规律,但是用计算机来实现,歧义较多,很难用规则来实现。本文依据《藏文动词变化表》,按照藏语动词的三种形态变化规则分别进行收集、建立藏语动词词库,对文本中读取出来的动词进行还原。收集藏文动词规则库的方式为:首先以变形动词的最基本的三个变形规则进行分开收集,然后从零散形藏语动词中提取不变形动词成为另一个分类,总共收集了常用的823个动词,建立动词词典库。格式如上。

3.2藏语动词的还原

3.2.1藏语动词还原原理

语言学中的词形还原(Lemmatisation)是将单词的变形形式组合在一起的过程,这样同一单词不同的几个形态就可以作为单个项目进行分析。在许多语言中,单词以几种变形形式出现。例如,在英语中,动词“to walk”可能表现为'walk', 'walked', 'walks', 'walking'。可能在字典中查找的基本形式“walk”被称为单词的原型[7]。藏语句子中,藏语动词也会以变形形式出现,文中以藏语的一般现在时词形作为基本形式进行还原,在还原过程中不是现在时的动词形态还原成现在时形态。比如骑马()中原型且定为,而还原成(现在时)的形式。把四种不同形态的藏语动词统一到原型的形态,可以降低数据的复杂度,提高藏语数据的精确度。