艾孜尔古丽,阿力木·木拉提,玉素甫·艾白都拉
(1.新疆师范大学计算机科学与技术学院,新疆维吾尔自治区乌鲁木齐830054;2.中国科学院新疆理化技术研究所,新疆维吾尔自治区,乌鲁木齐830011)
现代维吾尔语名词词干识别是自然语言处理领域的重要基础性研究,主要目的是从句子中提取名词词干。现代维吾尔语名词具有丰富的句法和语义信息,识别的结果可以被广泛应用于维吾尔语名词短语分析、词性标注、命名实体识别、句法分析、机器翻译等领域。现代维吾尔语名词词干识别还被应用在平行语料的对齐上,以提高词对齐的效果;由于维吾尔语歧义切分问题导致句法分析的任务变得十分复杂,维吾尔语名词词干的识别能部分消解这些歧义;随着新事物的不断涌现,新词术语的识别、统计分析、翻译也是亟待解决的重要问题。
维吾尔语在形态结构上属于粘着语类型,作为粘着语类型的语言,词的词汇变化和各种语法变化都是通过在实词词干上缀接各种附加成分的方式来表现的。维吾尔语词形态的多变性是维吾尔语的最突出的特点之一。“形态是在语言中词与词组合时形式要发生变化,同一个词与不同的词组合就有不同的变化。这些不同的变化形成一个聚合,叫作词形变化,或者叫做形态。”①叶蜚声、徐通锵著:《语言学纲要》,北京大学出版社,108页维吾尔语名词类词语的特点就集中体现在形态的变化上,容易产生歧义。本文结合现代维吾尔语语言学、形态学、计算语言学、计量语言学等学科,通过研究维吾尔语名词的形态特征,并根据名词特定的构词规则和格式,很大程度上提高了名词的识别率和机器翻译的准确性。例如北京人”是一个新词,是由维吾尔语原词(北京)连接词缀(...人),通过这些形态特征可以准确地识别其词性和翻译其意义。
确定划分词类的标准,实质是找出各类词在类别上的语法特点。每一种词类都有区别于其他词类的特点。维吾尔语的词类特点表现在词的形态学、结构学和语义学三个方面。维吾尔语是黏着语,根据其语法特点,应该把形态学特征作为划分维吾尔语词类的重要标准之一。例如,维吾尔语的名词有人称、数、格的范畴。各个词类有不同的形态变化。②程适良、阿不都热西提、米扎尔等著:《现代维吾尔语语法》,新疆人民出版社,47页
形态学特征的另外一个重要标志是维吾尔语的派生新词的能力。根据构词词缀的不同,很容易将维吾尔语词的类别划分清楚。如在原词词根后连接词缀 构成的词是名词。
现代维吾尔语属于黏着语,在形态学方面以词干或词根为基础,后接附加成分派生新词和进行词形变化;附加成分分为构词附加成分和构形附加成分(包含名词、代词、形容词、数词的格、领属、数范畴以及动词时、体、态、式等)两大类,其中构形附加成分不改变词根或词干的词类属性;但词干后缀接构词附加成分时,有时发生词类变化,有时不发生词类变化.因此,在维吾尔语名词识别中上下文的词类特征和当前词的形态特征都是很重要的。
维吾尔语中有相当一部分新词都是由词缀缀加于词干构成的。本文归纳总结了构成名词的词缀,并通过这些词缀识别名词。表示人的维吾尔语词缀20种,共36个;表示物的维吾尔语名词词缀20种,共52个;表示人、物的维吾尔语名词词缀五种,共13个;表示地域的维吾尔语名词词缀五种,共五个;不能构成名词的维吾尔语名词词缀53种,共53个;共103种,共159个。样例如表1,2,3,4,5所示。
表1 表示人的维吾尔语名词词缀样例
表2 表示物的维吾尔语名词词缀样例
表3 表示人、物的维吾尔语名词词缀样例
表4 表示地域的维吾尔语名词词缀样例
表5 不能构成名词的维吾尔语名词词缀样例
同一词缀接在词干上也会产生不同的词类。对于这个类型的问题,本文专门列出具有歧义的词缀及其消歧规则,已提出七种,共19个词缀歧义及消解规则,有效地提高了维吾尔语名词的识别率。样例如表6所示。
现代维吾尔语名词识别主要包括维吾尔语词汇统计、词性标注(基于词典、统计)、名词识别等关键技术与方法,如图1所示。
表6 词缀歧义及消解规则样例
图3 -1 名词识别流程图
本文提出一种融合现代维吾尔语形态变形特征的最大熵名词识别模型。根据上述总结的维吾尔语构词特点,定义上下文特征模板,提取特征集,再通过人工设置规则筛选模板;然后,训练最大熵概率模型参数。经实验结果表明,融入多个语言形态特征的最大熵模型能获得较好的性能。
最大熵原理的主要思想描述为:将已知事实作为制约条件,求得可使熵最大化的概率分布作为正确的概率分布。该模型的形式如式(1)-(2)所示。
其中,Zλ(x)为归一化函数,fi(x,y)∈(0,1)为特征函数,λi是特征函数的权重,它代表每个特征函数的重要性,每个λi对应一个特征函数。
3.2.1 特征选择
(1)特征选择依据
使用最大熵模型对维吾尔语名词进行识别,是根据当前词的上下文特征确定它的信息。本文的模型特征选择依据维吾尔语名词本身的构词特点。
(2)特征模板定义
根据维吾尔语构词特点和统计结果,本文共设计了词内部特征、前后依存词特征。
3.2.2 词内部特征
词内部特征表现的是一个词的内部变化,包括词干信息和词缀信息。维吾尔语词是通过在一个词干之后连接不同的词缀(构词词尾)构成,词缀信息表现词性等语法意义,本文设计了以下两个类型的词内部信息特征模板。
(1)词干信息
因为构形词尾并不影响整个词的词类信息,对于维吾尔语词干、词根上连接构形词尾构成的词,只需考虑其词干或词根的标注信息,词内部信息特征如表7所示。例如,“ ”(水壶)是名词,该词是由词干“ ”(茶)加上词缀“ ”构成,只要考虑词干“ ”的词性即可,特征函数定义为式(3)。
表7 词内部信息特征模板
(2)词缀信息
尽管维吾尔文的构词和构形都是以词根、词干上连接不同词尾来完成,形成各类词,但是词尾信息是有限的,根据“维吾尔文语法语义信息词典”收录为准维吾尔文词缀中过滤的100余种名词词缀。设计如“ ”等作为名词词缀的一些特征模板。例如特征函数可以定义为式(4)。
3.2.3 前后依存词特征
前后依存词特征体现一个维吾尔文句子中与当前词紧密联系的词之间的关系,使用前后依存词相关信息可以解决一词兼多个词类的问题.例如,句子1: (阿里木骑着马玩)和句子2:(阿里木向进入果园的小偷扔石头)。句中的 有动词和名词两种词性,可以通过其前后词的词类特征进行消歧处理。本文设计了以下特征,如表8所示。
表8 前后依存词信息特征模板
本次统计语料以维吾尔语初中、高中物理教材为主。实验数据如表9所示。
由表9所示,中学物理教材中名词在整个教材词汇的平均比例为46.37%,本教材作为实验语料合理、可行。
表9 中学物理教材词种数
实验结果如表10所示,本实验中一些带领属性人称的代词、缀接一些词缀的动词命令式等也被识别成名词。还有一些既不带附加成分的,又不在名词词根库中的名词容易被忽略,需要丰富名词词根库。
表10 实验结果
本文介绍了现代维吾尔语名词词干识别方面的一些研究工作,重点是维吾尔语名词的形态分析和在最大熵模型特征的选择。本文根据维吾尔语的特点,选取词内部词干和词缀、词前后信息等形态信息作为特征,构建了名词识别系统。实验结果表明,利用维吾尔语形态特征和最大熵模型,有效地利用上下文信息,得到了较好的识别率,尤其是对普通新词的名词识别有显著的效果。
[1] 赵岩,王晓龙,刘秉权,等.融合聚类触发对特征的最大熵词性标注模型[J].计算机研究与发展,2006,43(2):268-274.
[2] 赵伟,赵法兴,王东海,等.一种基于改进的最大熵模型的汉语词性自动标注的新方法[J].计算机研究与发展,2006,43(增刊):174-178.
[3] 玉素甫·艾白都拉,张海军,艾孜尔古丽.信息处理用现代维吾尔语词干类标记集研究[J].信息技术与标准化,2011:45-48.
[4] 艾孜尔古丽,努尔艾合买提,玉素甫·艾白都拉.现代维吾尔语常用词统计关键技术研究[J].中文信息学报,2014,28(5):192-197.
[5] 艾孜尔古丽,艾山江·阿不力孜,玉素甫·艾白都拉.现代维吾尔文网络媒体用词研究[J].计算机应用与软件,2012,29(2):67-68,121.
[6] 艾孜尔古丽,齐向卫,玉素甫·艾白都拉.基于网站用词调查的现代维吾尔语词干提取和应用研究[J].计算机应用与软件,2012,29(3):32-34.
[7] 玉素甫,艾孜尔古丽.基于网站用词调查的现代维吾尔语词尾切分和应用研究[J].计算机应用与软件,2012,29(4):13-15.
[8] 玉素甫,艾孜尔古丽,祖力皮亚.基于网站用词调查的现代维吾尔语词长研究[J].计算机应用与软件,2012,29(5):32-34.
[9] 苏新春.汉语词汇计量研究[M].厦门大学出版社,2001.
[10] 苏新春,杨尔弘.2005年度汉语词汇大规模统计的分析与思考[J].厦门大学学报,2006,6:84-91.
[11] 赵小兵.基于动态流通语料库的现代汉语基本词汇自动识别与提取方法研究[D].中央民族大学博士学位论文,2007.