央金藏文分词系统

2011-06-28 06:27史晓东卢亚军
中文信息学报 2011年4期
关键词:藏文分词语料

史晓东,卢亚军

(1. 厦门大学 人工智能研究所,福建 厦门 361005; 2. 西北民族大学 机器翻译研究所, 甘肃 兰州 730030)

1 引言

随着少数民族语言(主要是藏、维、蒙)到汉语的机器翻译研究逐渐进入人们的视野,相关的少数民族语言基础语法分析工具也亟待完善。藏文分词是藏语到其他语言的基础性工具。虽然研究的时间也不算短(2002年陈玉忠[1]是较早的一篇研究),已经有至少10年的历史,但是还没有公开可用的工具。第一作者在研究汉语分词方面有丰富的经验,从2005年就开发的Segtag汉语分词系统,虽然没有发表相关的论文,但是在北京大学公开的1998年《人民日报》一个月的语料上的准确率约为98%。因此将其移植到藏文,并加以公开,是我们的一个想法。经过与第二作者密切合作,已经成功地开发出了藏文的分词标注系统,在一个测试集上的准确率约为93%,取得了较为令人满意的效果。本文描述该系统的基本算法,并对藏文所作的特殊改进。

本文下面的内容如下: 首先综述一下国内外的相关工作,然后介绍了央金藏文分词系统的基本结构,然后再描述为了改进性能对藏文所作的特殊处理,最后得出结论,并指出了进一步的工作。

由于第一作者一点也不懂藏文,因此本文对想开发一个未知语种(如蒙语、泰语、彝语等)的分词系统的人,有一定的借鉴意义。

2 相关工作

陈玉忠[1]在2002年提出了基于格助词和接续特征的藏文分词算法。从此文中作者得出,其实藏文和日语类似,有很多格助词,表示一定的句法语义功能。扎西加等[2]给出了藏文分词的词类划分。Huidan Liu等[3]研究了藏文分词中的数字识别问题。才智杰[4]描述了班智达藏文分词系统的设计和实现。苏峻峰[5]描述了一个基于HMM的藏文分词模型。Yuan Sun等[6]在天之灵2009年也实现了一个基于格助词和接续特征的分词算法,并做了组块切分研究。刘智文[7]做过一个基于CRF的藏文分词系统。国内的藏文相关工作基本上集中在青海师大、西北民大、西藏大学等单位。

与采用机器学习为主的汉语分词相比,目前藏文分词系统显得落后一些。在汉语方面一般都采用HMM、ME、CRF等模型,很少采用相对原始的规则或最大匹配模型。

作者也用过青海师大开发的国内最早的藏文分词软件班智达,但是该系统只支持班智达编码。

3 央金藏文分词系统介绍

HMM模型由于其简单高效已经成为了分词系统的基准模型,虽然ME或者CRF的准确率比HMM略高一些,但是其训练却相对复杂一些,而且当标注语料库比较小的时候,并不见得有优势。所以我们便用HMM模型来做藏文分词。另外,作者恰好早已经实现了一个基于HMM的汉语分词系统Segtag,因此便直接移植过来。

Segtag的结构非常简单,分词和标注一体化完成,其结构如图1。

图1 Segtag分词系统(其中词典为央金系统所加)

由于Segtag本身已经是基于Unicode的,所以对Unicode的藏文处理毫无困难,原始程序改动不到1%,主要是参照文献[8]*实际上我们参考的主要规范是青海师范大学才让加、吉太加、扎洛等起草的拟作为教育部标准的“信息处理用藏语词类标记规范”。修改了词性表,并增加了对藏语Unicode的未登录词识别。因为,与汉语相比,在0平面内,一个汉字只需双字节表示码位,藏文很多字(有些文章称之为字丁[9],其实指一个可纵向叠加的书写单位,我们仍然称为字)是多个双字节构成的序列。此外,专门针对藏文数字修改替换了原汉字数字识别,使之能处理藏文数字。移植后的系统由第二作者命名为央金藏文分词系统。

如果纯粹用训练语料来生成分词词典,由于训练语料很小,得到的词条仅有13 200余条,根本无法对藏文进行分词。所以我们又合并了几本藏文词典。大约有9万词。简单地把词典中的词条以频率1加到训练语料,从中训练出分词词典,一共97 800余条。

央金系统的性能如表1(此处2.7M指UTF16编码的文件大小)。

表1 央金分词系统的性能

这些训练语料都是在央金系统的分词结果的基础上,由第二作者校对修正而滚雪球一样得到。而初始种子语料来自于班智达分词系统。

另外,虽然Unicode目前已经是国际标准,国内仍然存在着部分班智达和同元编码的文档,我们集成了编码识别和自动转换功能,以方便用户使用。

南充市仪陇县柑橘示范园区规划采用“大园小镇”模式,即乡村旅游开发中所提出的一种创新休闲农业的模式。所谓“大园”就是有一定规模或正在规划的大型园区,而“小镇”则是符合园区特色和整体风格,满足园区旅游发展所需要的各种服务配套功能开发。在本项目中,小镇指庙子梁中心场镇,结合柑橘食文化以及“三乡文化”等元素,发展以客家文化为主题的特色农家乐;大园则以海升集团柑橘产业为园区基底,由休闲、教育、观光、康养、文化体验、电商物流等功能片区组成[4]。

此外,我们还集成了鼠标藏汉词典,以方便作者校对分词结果。

由于第一作者一点也不懂藏文,所以许多央金分词系统的很多功能都是为了方便用户能够在系统内便于进行分词校对而设。

4 分词系统的错误分析和改进

4.1 分词系统错误

通过文件比较,对测试语料中的错误进行了分析。首先我们注意到,标注的准确率偏低。结果发现,训练出词典中的有些词的不同词性之间的频率差异很大,如

其中gj 和 gl都是格助词,怀疑gj这个词性是训练语料中的标注错误而混进来的,因此在装入词典的时候做了一个简单的处理: 如果某个词的频率低的词性与该词的频率最高的词性之频率比小于阈值β(目前取1%),则舍弃该词性。经过这样处理以后,分词的准确率没有任何变化,而标注的准确率有所提高。

简单的分析表明: 分词错误大部分是由于未登录词而造成的。而很多标注错误是因为训练生成的词典中根本没有测试答案中的词性造成的。其实这些错误大部分是训练语料的不一致性造成的。

舍弃低频词性后央金分词系统的性能见表2。

表2 舍弃低频词性以后央金分词系统的性能

4.2 汉语人名识别

藏文新闻中经常出现人名。相对于地名等其他专名,人名是最丰富并且变化的。因此,分词系统最好能自动识别人名。从来源分,人名基本上可以分为藏语人名、汉语人名、欧美人名等三大类。目前我们只考虑了汉语人名的自动识别。

汉语人名翻译成藏语,基本上都是采用音译。也就是说,“王东”和“王栋”翻译成藏语应该是一样的。当然,不同的译者可以选择不同的藏文字来对同一个汉字(或同音汉字)进行译音。目前我们已经收集了一个汉藏人名对照表TC(目前只有300条),我们可以把它改为藏音对照表(这里音指汉语拼音)。另外我们还有一个常用汉语人名表C,有20多万条。此外还有一个海量的汉语语料库。那么藏文中的汉语人名识别算法可简单地描述如下:

假设藏文的音节序列ABC,其中每个音节都是一个可能的汉字译音A′B′C′,而且不是藏文单词,P(A′B′C′)作为汉语人名的概率大于一定的阈值,那么可把ABC识别为一个藏文中的汉字人名译音。

人名识别和数字识别都在图1的构造词图中进行,与其他处理无关。其实实现的时候就是和数字识别一样加一个加权自动机即可。

人名识别后的央金分词系统的性能见表3。

表3 人名识别后的央金分词系统的性能

尽管有所改进,但和汉语分词相比差距不小,训练语料库太小可能是一个主要原因。

5 结论和进一步的工作

本文描述了一个基于HMM的藏文分词系统。就我们和同类系统比较而言,该系统的分词速度快,准确率也基本达到了可以使用的水平,目前已经用于我们的藏汉统计机器翻译系统。

下一步要做的主要工作是: 继续扩大训练语料规模;进行地名和机构名的自动识别;克服n元模型的局部性,处理长距离语义相关性。

[1] 陈玉忠,李保利,俞士汶.藏文自动分词系统的设计与实现[J].中文信息学报,2003,17(3): 15-20.

[2] 扎西加,珠杰. 面向信息处理的藏文分词规范研究[J].中文信息学报,2009,23(4): 113-117.

[3] Haidian Liu. Tibetan Number Identification Based on Classification of Number Components in Tibetan Word Segmentation[C]//Proceedings of the Coling 2010: 719-724.

[4] 才智杰. 班智达藏文自动分词系统的设计与实现[J].青海师范大学民族师范学院学报,2010,12(2):75-77.

[5] 苏峻峰. 祁坤钰,本太. 基于HMM 的藏语语料库词性自动标注研究[J]. 西北民族大学学报(自然科学版),2009,30(1): 42-45.

[6] Yuan Sun et al. Design of a Tibetan Automatic Word Segmentation Scheme[C]//Proceedings of International Conference on Information Engineering and Computer Science, 2009: 1-6.

[7] 刘智文. 藏汉统计机器翻译研究[D]. 厦门大学硕士论文,2010.

[8] 才让加.藏语语料库词语分类体系及标记集研究[J].中文信息学报,2009,23(4):107-112.

[9] 王维兰,陈万军.藏文字丁、音节频度及其信息熵[J].术语标准化与信息技术,2004,(2):27-31.

猜你喜欢
藏文分词语料
基于归一化点向互信息的低资源平行语料过滤方法*
敦煌本藏文算书九九表再探
分词在英语教学中的妙用
西藏大批珍贵藏文古籍实现“云阅读”
结巴分词在词云中的应用
结巴分词在词云中的应用
黑水城和额济纳出土藏文文献简介
藏文音节字的频次统计
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法