小学藏文教材中词性的分布情况研究

2016-06-06 22:11冷毛措张有谊
电脑知识与技术 2016年6期

冷毛措++张有谊

摘要: 在自然语言处理中, 词类划分属于基础研究, 其重要性不可忽视。本文以小学藏语文教材为语料,利用计算机对教材中藏语词的频次,数量等信息做出统计,进而摸索出目前藏语文教材编辑中藏语词性的分布规律,目的在给藏语词的安排、重要程度等是否科学合理,即是否符合各个年龄段藏族学生对知识的接受状况,提供重要的参考作用。

关键词:藏文信息处理;语料库分词;标注

中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2016)06-0195-02

1 概述

藏文的词性主要包括名词、动词、形容词、数词、量词、代词、副词、介词、连词、助词、叹词、拟声词等12种构成,特别是动词、名词和虚词占重要的地位。通过搜集和查阅相关的文献,目前针对藏语文教材中词性的分布情况的研究还不多见,最近端智项杰在《中小学藏语文教材中词汇统计及分布情况研究》硕士论文中,对词汇的统计及分布做了一些工作,但其仅对中小学藏语文教材中词汇的用词状况作了统计,分析了其用词信息及在真实文本中使用的程度信息,没有对藏语文教材中词性的分布情况进行研究。

本论文拟以小学藏语文教材中词性作为研究对象,采用藏语言信息处理技术对其词性的分布进行统计与分析。

2. 藏文词类信息的分类方法

我们根据藏语语料库建设的实际需要,藏语传统文法的八种格为:主格、业格、作格、为格、从格、属格、于格和呼格,语料库标注时,根据其语法功能用介词P标记。本文遵循格桑居冕、格桑央京编著的《实用藏文文法教程》中的词法分类方法,将藏文词类分为13种,即名词n、动词v、数词m、量词q、副词d、连词c、介词p、助词u、语气词y、叹词e、代词r、形容词a、拟声词o、其中动词存在三时一式(过去时、现在时、未来时和命令式)的形态变化,

3 藏语文课文体裁

选用的教材是五省区藏语文教材编写委员会编著,青海民族出版社2009年改版的五省去写作教材义务教育课程标准试验教科书,共12册作为语料,本套藏语文教材共有课文274篇,第1册为字母学习,在进行课文统计时,未计算在内;藏语文教材第2册、第3册、第4册中分别有10篇、4篇、4篇课文是生词学习,在课文体裁和篇幅统计时未列入课文数目统计,在用词统计中计入。

课文体裁在一定程度上反映了整套教材的语言风格和面貌,体现了教材编写者的教育理念。各类体裁的分布及用词情况,可以反映出教材各体裁的词量分布情况。

4 语料处理

对于录入的语料首先进行分词,在及其分词的基础上,对分词软件标注的“未登录”部分做人工修改,并人工校对错误分词。藏文分词尽量与藏语语感中的“词”保持一致,既能独立运用,使用稳定且具有固定语义的最小单位这里所说的 “词义”指词语释义,当词语为多义词时,解释标注其常用词义。

5 统计方法

语料采用人工和计算机软件想结合的方法:词语分词才用及其字段分词与人工干预相结合的方法进行。分词软件采用自己编写的 “藏文分词与词性标注一体化软件”;对分词软件标注为“未登录词”的部分,做人工修正。藏文分词尽量与藏语预感中的“词”保持一致,既能独立运用、使用稳定且具有固定语义的最小单位。

5.1 小学藏文教材中词性分布统计及分析

在小学阶段根据教学大纲要求,将藏语文教材的文章体裁分为记叙文、说明文、议论文、散文、诗歌、小说、童话、其他(戏剧、格言、谚语、谜语)8类。

以系统统计的数据和科学调研为依据提出新的教材中新生词的分布情况和新生词的难易程度,使教材的新生词更严谨更科学地进入教材编辑,依此达到藏语文教学的严谨性,以便提升小学生对藏语文教育的兴趣和小学教学中的藏语文教学成果,所以本文主要分析以下几种词性。如图 1所示:

图1显示,除第1册字母学习外总分析11册,由于量词、感叹词、时间词的数量比较少,所以本论文中撤销了那些词性的分析。将各词性在小学藏文教材中按比例排序为:名词,动词,助词,代词,动词,形容词,数词,副词,方位词,名词在小学藏文教材中均占优势,其中助词、方位词和数词占的比例比较少,体现了基础教育阶段的词汇学习以常用和名词为主,课文个词性平均分布在各册,属于典型的分散式教学。

6 结束语

通过本论文研究,一方面可以摸清小学藏语文教材中词性分布状况,其研究数据对小学藏语文教材的编纂有参考作用;另一方面将藏语自然语言处理理论与技术应用于藏语文教材中词性的分布研究,具有很强的针对性,可以填补藏语言信息处理在这一研究领域的空白。

参考文献:

[1] 毛尔盖·桑木旦.藏文文法概论[M].青海民族出版社,2005.

[2] 李素建.汉语组块计算的若干研究[D].中国科学院研究生院,2002.

[3] 赵德宇.汉语句法分析技术及其在机器人辅助教育智能接口中的应用研究[D].天津师范大学,2004.

[4] 韩雪林.现行中小学藏文教材中存在的问题及解决的办法[J].甘肃省甘南藏族自治州教育局,1997(3).

[5] 赵小华.KNN词汇统计及分布中特征词权重算法的研究[D].太原理工大学,2010.