面向汉语教学的汉藏语料库系统设计和实现*

2012-07-25 03:20安见才让
微处理机 2012年2期
关键词:汉藏藏语分词

安见才让

(青海民族大学计算机学院,西宁810007)

1 概述

语料库由大量收集得来的书面语或口语构成,使用计算机储存并处理的用于语言学研究的文本库。它为语言教学提供了自然出现的真实语料,为语言研究提供了科学的方法[1]。经过20多年的发展,很多领域的语料库已达到一定规模,相应的语料库日趋成熟,但藏区的汉语教学至今没有一个可以应用的汉藏语料库。目前,国内汉藏平行语料库缺乏统一的标准,藏区的汉语教学工作仍采用传统的面授模式,教师的知识储备有限,知识得不到及时更新与总结,缺乏知识对比的参照标准和有效信息的搜索工具,而且检索效率低下[2]。因此,文中建立了汉藏双语语料库平台系统,立足于“藏区使用的小学、初中汉语文教材”,充分结合汉藏双语的特点,应用计算机技术,实现了对汉、藏语料的收集、筛分、统计、检索、对齐、对比、发音、朗读、显示等功能,为藏区的汉语教学、汉藏语言的研究提供了一个高效、准确、统一的教学平台。

2 系统特点

九年义务教育六年制小学和三年制初级中学共17本《汉语》教科书(藏族地区使用)的内容及与之对齐的藏语翻译内容是本系统的生语料。它含有904个课文文本文件,约2794445字。据此,本系统在设计上突出了以下几个特点:

(1)实现了良好的人机交互

系统在生语料的人工处理和熟语料的人工修正模块中,通过友好的交互界面,实现了汉藏分词、汉藏词性标注、汉藏句法分析和汉藏树库结果的人工修正等功能。

(2)加工深度到达词、句、段级

在对生语料进行加工的过程中,提取并保存了每个文件的段数、句数、词数及其对象在数据结构中的存取地址,可以方便地实现对任意文件、段、句、词的检索和提取。

2.1 汉藏双语语料库系统功能

汉藏平行语料库系统功能结构如图1所示。

系统包括前台应用和后台维护2个子平台。应用子平台供最终用户进行语料检索、统计、对比分析的使用,功能如下:

(1)语料检索:检索引擎根据检索请求,输出用户需要的汉藏语料数据。

(2)语料对齐显示:根据用户的检索请求,语料按成篇、段落、语句对齐等多种形式输出给用户。

汉藏句子级对齐如图2所示。

图1 汉藏双语语料库系统功能结构

图2 汉藏句子对齐

单击汉语句子时,会使其本身及与之相对齐的藏语句子的颜色加深并朗读发声,反之亦然。

(3)统计分析:系统分别对汉、藏语的各种项目进行频率统计,并自动成为语料检索的结果之一。

表1是任意选择初级中学《汉语》课本第五册,对其内所有课文中各词性类别、词性出现次数和所占总字数的百分比等情况作出的统计:

表1 汉语的词性类别、词出现次数和百分比统计

(4)汉语朗读:根据教学要求,对汉语语篇、段落、句子、词语和字进行朗读或发音,为藏族学生普通话水平的提高提供帮助。

维护子平台的功能是提供对语料的编辑和入库操作。其功能如下:

·汉藏语料的录入和编辑。如语料的录入、修改及语料人工标记的添加等

·汉藏语料中词的切分和标注

汉藏语料的分词和标注如图3和图4例示。

·语料句法分析和树库生成

例如句子:汉语“我们学习汉字”和与之对齐的藏语“NGA TSOS RGYA YIG SLOB,”的句法分析的树型标示如图5和图6。

图3 藏语句子的分词和标注

图4 汉语句子的分词和标注

·汉藏语料校对

汉藏平行语料库系统分为语料库文件和语料库引擎(即语料库索引程序)及其他应用程序。本系统的总体框架如图7所示。其中语料库加工模块对生语料或熟语料进行词语切分、词性标注和句法分析处理,得到存放在计算机磁盘中的库文件。语料库索引模块则对库文件中的语料信息,运用特定的工具进行分析处理,并生成索引文件,实现特定的功能。

图5 汉语句子的句法分析

图6 藏语句子的句法分析

图7 汉藏平行语料库系统

2.2 库文件的数据结构

全部的汉语文教材内容按册分成18个类,系统将每个类作为一个单独的库文件存取,并可由语料库索引程序根据用户的选择装载、调用。每个库文件由四个动态数组构成,分别是文件数组、段信息数组、句信息数组和词信息数组。每个数组元素为一个结构,具体定义如下所示:

由于汉语中95%的词语都不超过4个字,教材中与汉语词语对应的藏语词语基本上也是4个字长,为了减少存储空间的占用,系统设定汉语词条长度为8字节,藏语词条长度为28字节。若汉语词条长度超过8字节或藏语词条长度超过28字节,则设一个指针指向LONGWORDINFO结构。

在语料库加工过程中,对熟语料文件,分析提取出其中的各个段、句、词或者词性标记等信息,由这些信息计算出结构各成员的值填入各数组中,对后继的文件,同样的信息也依次添加到数组中。对每篇文章的首段、每段的首句及每句的首词或字,将其ID填入上一级对象相应的成员中,实现上一级对下一级相应对象的寻址,这样就能够存放文章的段、句结构信息。通过词对象的FileId,SenId成员,系统能够方便地为词语建立B+树索引。

2.3 语料库加工模块

语料库加工模块的结构如图8所示。

词语切分和词性标注是熟语料生成的基本步骤,本系统采用了基于N-最短路径方法的汉藏词语粗分模型实现生语料的切分和标注。它综合了最短路径分词方法与全切分分词方法二者之长处,其基本思想是:

图8 语料库加工模块

根据词典,找出字串中所有可能的词,构造词语切分有向无环图。每个词对应图中的一条有向边,并赋给相应的边长(权值)。然后针对该切分图,在起点到终点的所有路径中,求出长度值按严格升序排列(任何两个不同位置上的值一定不等,下同)依次为第 1,第 2,...,第 i,...,第 N 的路径集合作为相应的粗分结果集。若两条或两条以上路径长度相等,则它们的长度并列为第i,都要列入粗分结果集,而且不影响其他路径的排列序号。最后粗分结果集合的大小应该大于或等于N。在原有模型的基础上,进一步加入词频信息,建立统计模型,能够使整个模型粗分结果的召回率有很大提高,模型的运行效率也达到满意的效果[3]。

数据结构装填和保存模块实现了将切分标注后的熟语料文本信息填入数组的功能,此外,还负责数组元素对象中各个成员的修改,数组元素的添加、删除和数组的存取。

在熟语料的人工修正模块和生语料的人工处理模块中,通过交互界面提供的词类选择框、主题分类选择框,可以很方便地实现句子的人工分词、词语的人工词性标注和文件的人工分类等功能。由于效率的要求,这两个模块一般利用不多。

2.4 语料库索引模块

语料库索引模块的结构如图9所示。

语料库载入模块根据用户的选择提取某一册的库文件,得到语料信息以供处理。指令分析模块接收用户发给交互界面的请求,发送指令调用相应的功能模块进行运作。

F1~F4功能模块分别实现B+树索引[4](一种改进的B+树索引)、词表生成和语篇统计、分类主题词提取和词语搭配分析,获得的结果由交互界面返回给用户。

图9 语料库索引程序

交互界面接收用户的请求,发送给指令分析模块,并将处理结果返回给用户,用户对选定分类的库文件的装载请求也通过交互界面发送给语料库载入模块。此外,它还可将处理结果,如索引、主题词集保存在计算机磁盘中。

为方便汉语教学,本系统为便捷地使用语料库信息提供了一些工具,并集中在“语料库索引模块”中。

3 结束语

系统地介绍了面向汉语教学汉藏平行语料库平台的基本功能、设计思想和实现方法。笔者实现了基于C/S模式的语料库系统,使用最短路径分词方法与全切分分词方法二者之长处和动态索引树技术实现对海量语料的各种操作。目前该语料库已采集了含有904个课文文本文件,约2794445字的语料,并逐步投入到了面向藏族学生的汉语教学和汉藏语言对比的研究中。

[1] 杨惠中.语料库语言学导论[M].上海:外语教育出版社,2002.

[2] 王长,胜刘群.双语语料库的检索和管理[J].计算机工程与应用,2002,38(7):113-114.

[3] 李文翔,晏蒲柳,夏德麟.基于内容主题的语料库系统设计与实现[J].计算机应用研究,2004,21(10):149-151.

[4] 徐逸文,方钰,陈闳中.一种处理B+树重复键值的方法[J].计算机工程,2009,35(5):25-27.

[5] 哈斯.蒙古语语料库语言资源管理平台的设计与实现[J].内蒙古师范大学学报(自然科学汉文版),2007,37(6):743-745.

猜你喜欢
汉藏藏语分词
浅谈藏语中的礼仪语
分词在英语教学中的妙用
结巴分词在词云中的应用
结巴分词在词云中的应用
藏语拉达克话的几个语音特征
藏语地理分布格局的形成原因
汉藏姐妹一家亲
古代汉藏文化交流研究成果(1979-2011)述评
《敦煌吐蕃汉藏对音字汇》读后
《栴檀瑞像传入中国记》的回鹘语与藏语译文