摘要:每种文字创制之初都不可能十分完善,需要在运用中不断总結经验,逐渐规范,日益完善,藏文同样有一个发展过程。“藏文”一词写作,意为“藏族的文字”。藏文作为藏族人民的书面交际工具,历史之悠久。该文中着重介绍了中小学课本中藏文字的常用频率,使教育者能够基本了解每一阶段藏文文字掌握程度。
关键词:中小学藏文;文字結构;字频
中图分类号:G642文献标识码:A文章编号:1009-3044(2011)27-6771-03
藏文信息处理是自然语言信息处理的一个分支,是一门与计算机科学、语言学、数学、信息学、声学等多种学科相关联的综合性学科。信息处理技术在现代有广泛的应用,从1984年代开始,藏文信息处理进入了快速发展阶段,并极大地提高了藏文信息处理效率。藏文信息处理分为藏字信息处理与藏语信息处理两部分,具体内容包括对字、词、句、篇章的输入、存储、传输、输出、识别、转换、压缩、检索、分析、理解和生成等方面的处理技术。藏文字频统计是藏文信息处理的基础性工作,通过对藏文字的部件、音节、結构和字的频度与通用度等定量统计与定性分析,为藏文信息处理提供基础数据。
藏语作为藏字形成的基础,具有强大的历史意义,而吞米•桑布扎大师作为藏族文化的创始人,具有不可磨灭的贡献。大师在创造了文字的同时,还有八部藏语文论著,现只有《文法根本三十颂》和《音势论》一直传流至今,而其它著作在历史的演变和政局的变化过程中被毁。《文法根本三十颂》是藏语的愈发著作,重点讲虚词和词格助词。我们在研究字频时语法也很重要,藏语语法的严谨使语言在发展过程中起到很重要的作用。因而藏语语法在文字中占据的比例是很大的,尤其在字频方面出现频率高,每个语句基本上离不开语法限制。
藏文的频度统计不仅可以为藏文的语料库研究提供极有用的数据.而且对于藏文教学和藏文信息处理的研究也有重要的指导和参考价值。研究藏文使用在各个专业范围内的分布情况、藏文构件频率的统计,可以为设计更加合理的藏文语料库打下很好的基础,特别是藏文词频的统计,使使用者能够很好的设计好词频排序。这样能给使用者带来查找方便、快速、节约等效率。藏文字频统计中不仅要统计出整字频度信息还需统计出构成藏文字的各构件的频度信息,由于构成藏文字的构件結构复杂形式变化灵活多样在藏文信息处理中必须分解其构件。本文通过对中小学藏文课本中的藏文进行统计。
1 中小学课本中藏文文字結构
藏文文字是由多个字符构成,最多是七个字符构成,而少则一个字符构成。其結构有:
1)只有一个基字,例如:
2)基字带后加字,例如:
3)基字带后加字和重后加字,例如:
4)基字带下加字,例如:
5)基字带双下加字,例如:
6)基字同时带下加字和后加字,
7)基字带下加字和后加字以及重后加字,例如:
8)基字带前加字,例如:
9)基字带前加字和后加字,例如:
10)基字带前加字和后加字以及重后加字,例如:
11)基字带前加字和下加字,例如:
12)基字带前加字、下加字和后加字,例如:
13)基字带前加字、下加字、后加字和重后加字,例如:
14)基字带上加字,例如:
15)基字带上加字和后加字,例如:
16)基字带上加字、后加字和重后加字,例如:
17)基字带上加字和后加字,例如:
18)基字带上加字、下加字和后加字,例如:
19)基字带上加字、下加字和后加字以及重后加字,例如:
20)基字带前加字和上加字,例如:
21)基字带前加字、上加字和后加字,例如:
22)基字带前加字、上加字和后加字以及重后加字,例如:
23)基字带前加字、上加字和后加字,例如:
24)基字带前加字、上加字、下加字、后加字,例如:
25)基字带前加字、上加字、下加字、后加字以及重后加字,例如:
从以上結构中可以看出有些結构在应用中出现的频率较多,而有些则出现的较多。其中出现较少的結构与出现较多結构之间相差一千倍以上。在其中,基字带后加字的、基字和基字带前加字和后加字的最多,占藏文文字的一半以上,其他結构的藏文文字所占的比例较小。
2 中小学课本中字切分特征和难点
2.1 从藏文的文字特征来看,可利用的切分特征主要有以下几点
1)是音节特征,藏文是拼音文字,她由30个辅音字母、4个元音字母以及基字、前加字、上加字、下加字、后加字、后后加字组成。藏文字以音节为单位,每个音节最少可由一个辅音字母构成(元音和上、下加字不能独立成字),最多可由7个字母拼合而成,各音节间用音节点分隔。
2)是拼写特征,藏文自左向右书写,组成音节时以基字为中心分为前加字、后加字、后后加字,基字可横向和纵向双向拼写,而前加字、后加字、后后加字只能横向拼写。
3)是形态特征,藏文由确定的10个辅音字母作后加字,既:其形态特征都发生在这10个确定的后加字上。
4)是标点符号特征,藏文有一套独立而完整的标点符号体系,主要在篇章、段落、句子和字之间起“分界符”