藏语及物与不及物动词的自动识别研究

2014-02-21 02:16完么才让曹玉林
关键词:藏语自动识别助词

完么才让, 曹玉林

(1.青海民族大学藏文信息处理与软件研究所,青海 西宁 810007; 2. 青海师范大学计算机学院, 西宁 810008)

藏语及物与不及物动词的自动识别研究

完么才让1, 曹玉林2

(1.青海民族大学藏文信息处理与软件研究所,青海 西宁 810007; 2. 青海师范大学计算机学院, 西宁 810008)

藏语动词分类很细, 准确识别和判断藏文动词的词性是藏语自然语言处理中一个基础又关键的内容, 及物与不及物动词的自动识别, 可以在用计算机生成自然语言句子时能很好地阻止不合法句子的生成, 也能从整体上减少句子生成量, 从而提高效率. 提出了一种在理想环境下, 通过句子中的使格助词来自动判断动词及物性的方法, 这种自动识别方法是一种理性主义的判断方法, 所以不需要大规模语料的支持. 因为是一种理想情况, 所以自动识别效率高, 准确率为100%.

及物; 不及物; 自动识别

1 引言

动词这一词性在藏文传统文法著作中就有研究, 后经藏族学者不断探索、钻研, 迄今为止, 对藏语动词的研究较深. 对动词的理解和运用程度已经成为衡量藏文藏语水平的一项重要指标, 然而鉴于藏语动词的时态、形态的复杂性[1], 使藏语及物与不及物动词的自动识别成为一个难点, 幸运的是, 藏语及物、不及物动词和汉语、英语及物、不及物动词不同, 当它出现在具体语境中的时候, 往往伴随着某些具体的、可作为区别及物不及物动词的特征, 因此, 藏语及物与不及物动词的自动识别变得有规律可循, 以及在生成句子的时候, 限制了很多不合语法、不合语言习惯的句子的产生.

2 及物与不及物动词特点

2.1 相关概念

定义1[2]“及物”动词:只要能带宾语, 不管带的是受事宾语、施事宾语还是处所宾语, 都是及物动词, 我们用tv表示. 即包含tv的一个句子的完整结构可表示为S->np np vp, 其中, np表名词短语[5-7], 前后两个np分别为主语和宾语, 是两个不同的事物, vp即tv.

定义2[2]“不及物”动词:不能带任何宾语的动词是不及物动词, 我们用iv表示. 即包含iv的一个句子的完整结构可表示为S->np vp, 其中, vp即iv, iv的主语与宾语为同一事物np.

2.2 藏语tv与iv的特点:

设Bt和Bi分别表示tv与iv的基本辅音,则Bt∈C,Bi∈D;

当然, 一般情况下上述结论是成立的, 也有极个别反例, 如在两句中构成

if vp->v+h(v表示一般动词)

then v=tv

if vp->v+h=False

then v=iv

(6) 有无宾语不同

这个特点在上述对及物不及物的定义中也有说明. 其实在藏语中, 宾语往往出现在动词的前面, 根据定义1和定义2, 我们知道:在一个完整的合法句子中, 如果可以出现S->np np vp(其中S为语法的开始符号, v表示动词, np表示名词短语)这种语法结构, 那么可以判定此时的v为tv, 如果不能出现这种语法结构, 则v为iv. 可形式化描述为

if S->np np vp

then vp=tv

3 及物与不及物动词自动识别算法

⑴ 当句子中只有一个动词时, 不管句子长短, tv与iv的识别都变得简单, 如下表1所示:

表1 实例1

上表中, 因为每句都含使格助词cm, 所以动词字段所列动词都为tv, 可表示为(v表示动词). 如下表中的句子所示:

表2 实例2

我们可以利用上面的分析和2.2节的第四个特点, 让计算机自动识别tv与iv. 假设句子是切分好的并标注了词性的词串w, 那么可用图1所示算法流程图表示自动识别过程.

图1 句中只有一个动词时的tv与iv 自动识别算法流程图

图2 当Vc=2且 cmc=2时tv与iv的自动识别算法流程图

⑵ 我们用cmc表示使格助词数, vc表示动词数, cm1为第一个使格助词, cm2为第二个使格助词, s1是cm1的主语, s2是cm2的主语, 则:

当Vc=2且 cmc=2时,即这两个动词都是及物动词.

看下面两个例子:

句子②与句子①的情况相似, 都有两个tv和两个cm, 第1个cm修饰第2个tv, 第2个cm修饰第1个tv.

这种情况下, 我们可以再写一个算法来判断当Vc=2且 cmc=2时的动词的及物性, 如图2所示.

⑶ 当然, 一个句子不一定只有一个动词, 我们用Vc表示一个句子中的动词数, 当Vc≥2时, 情况比较复杂,请看下面几个例子:

总之, 在一个句子中, 当Vc≥2时, tv、iv与cm的关系显得很灵活, 所以这时, 计算机很难通过cm把tv和iv区别开来.

这样的句子数不胜数, 情况也就复杂多变, 很难找出一个确定的规律. 一个句子中及物动词和不及物动词的数量及出现位置都不呈规则, 所以加大了研究的复杂度, 因篇幅有限, 在此不讨论这种复杂情况, 有情趣的读者可专门研究.

⑷ 看如下例句

这三个句子中, 单下划线和双下划线标记的分别是动词(v)和助动词(vh), 第一、二两个句子中的v为tv, 第三个句子中的v为iv, 所以不管是tv还是iv, 自动识别算法在扫描过程中, 若发现一个v和一个vh连续出现, 即若vp->v vh, 那么可把v vh视为一个动词, 可用如下伪代码描述如下算法:

if vp->v vh then v+vh=v.

4 结束语

在实际语料中, 句子结构复杂多变, 并不是所有的句子都按照S->np np vp或者S->np vp这样的固定格式出现, 本文提出的算法适用于上述特定环境, 是一种理想状态下的算法. 上述句子成分是严格遵循藏语语法的, 在真实语料中也占多数, 要特别注意的是当句子中出现的所有并非都是真正意义上的使格助词, 什么情况下不是真正的使格助词, 上面有分析. 设计这个算法, 主要用于在生成句子时, 如果知道句子中包含的动词为及物或不及物, 那么可以根据定义, 不及物不带宾语, 及物动词可带可不带, 从而大大减少句子的生成量, 也能产生很多符合语法或藏语表达习惯的句子.

[1] 格桑居冕. 实用藏文文法教程[M]. 成都: 四川民族出版社, 2004. [2] 邵敬敏. 现代汉语通论[M]. 2版. 上海: 教育出版社, 2007.

[3] 吉太加. 藏语语法研究[M]. 西宁: 青海民族出版社, 2011.

[4] THUPTEN JINPA. A Modern Tibetan Grammar[M]. Tibetan Institute of Culture, 2010.

[5] 才让加. 藏语语料库词语分类体系及标记集研究[J]. 中文信息学报, 2009(4): 1-4.

[6] 马进武. 藏文语法四种结构明晰[M]. 北京: 民族出版社, 2008.

[7] 羊毛卓玛. 藏文词性自动标注中歧义问题处理方法研究[J]. 计算机工程与应用, 2012: 4-5.

[8] 毛尔盖·桑木旦. 藏文文法概论[M]. 西宁: 青海民族出版社, 2005.

Research on the automatic identification of Tibetan transitive and intransitive verbs

WANMECAIRANG1, CAO Yu-lin2
(1. School of Computer Science, Qinghai University for Nationalities, Xi’ning 810007, P.R.C.;
2. School of Computer Science, Qinghai Normal University, Xi’ning 810008, P.R.C.)

Tibetan verb has a very fine classification, so an accurate identification and judgment of Tibetan verb’s parts of speech is a foundation in the Tibetan natural language processing and key task. An automatic identification of transitive and intransitive verbs can enable the computer to prevent the formation of illegal sentences while generating natural language sentences, and also can help reduce the number of the sentences to be generated as a whole, so as to improve efficiency. The paper proposes a method which, under an ideal environment, can automatically determine the verb in the sentence and the property by using case of utterances. This method of automatic identification is a judgment method of rationalism which does not need the support of large-scale corpus. Because it is an ideal situation, the automatic identification is of high efficiency with an accuracy of 100%.

transitive; intransitive; automatic identification

TP301.4, TP391.1

A

1003-4271(2014)01-0132-05

10.3969/j.issn.1003-4271.2014.01.27

2013-09-22

完么才让(1988-), 男, 藏族, 甘肃甘南人, 硕士研究生, 研究方向: 藏文信息处理及应用; 曹玉林(1970-), 男, 土族, 青海化隆人, 教授, 博士生, 研究网络信息安全、传感器网络、社会网络.

猜你喜欢
藏语自动识别助词
基于数据挖掘的船舶航迹自动识别系统
浅谈藏语中的礼仪语
韩国语助词的连续构成与复合助词的区分
基于卫星遥感图像的收费站位置自动识别与校核
船舶自动识别系统对船舶救助的影响
高校朝鲜语专业学生助词使用偏误调查分析
日语中“间投助词”与“终助词”在句中适用位置的对比考察
自动识别系统
藏语拉达克话的几个语音特征
藏语地理分布格局的形成原因