藏语言的定性分析与定量研究

2015-03-18 11:01格桑多吉扎西加
西藏大学学报(社会科学版) 2015年1期
关键词:藏语文藏语语料

格桑多吉 扎西加

(西藏大学藏文信息技术研究中心 西藏拉萨 850000)

藏语言的定性分析与定量研究

格桑多吉 扎西加

(西藏大学藏文信息技术研究中心 西藏拉萨 850000)

随着信息技术和计量方法的迅速发展,社会科学研究领域定量研究和定性分析方法得到迅速推广,获得了公认的学术地位,“拿数据说话”已成为学术界的主流方法。尤其在语言研究领域计量研究法的运用是现代词汇研究的一个趋势。文章采用定量研究和定性分析的方法,对藏语基础词汇的总词量、文本数、词种数、词频、词性、频次、词长等方面进行研究,观察藏语基础词汇的同时,为藏语语言习得及教材编写提供了依据,也为字词教学制定量化的教学目标提供了较为科学的思路。同时,这种计量方法的引入有助于开拓新的研究领域,有助于重新审视、考察、印证现有的词汇理论和观点。也就是说通过定量解决“有多少”的藏语基础词汇的数量问题,通过定性解决“是什么词汇”、“有没有这种词汇”的性质问题。

藏语教学;藏语基础词汇;藏语语料;定量方法;定性方法

一、词汇计量与语言习得

我国学者多年前就开始重视语言学的计量研究。著名教育学家陈鹤琴编写的《语体文应用字汇》于1925年完成,1928年由商务印书馆出版,应该算是第一部权威的汉字计量研究成果。冯志伟先生曾估测汉字熵值,并提出术语形成经济率和生词增幅递减率,同时和刘海涛一起提出了概率配价模型;周有光先生提出了汉字效用递减率,并利用汉语语料库的数据来计算依存距离;范凤祥分析了英语文本随机词汇的覆盖率等,他们都使用计量的方法,来探索语言的某些数学特性。这些研究都是对于语言本身内在规律的探讨。什么是语言“定量研究”?因研究侧重不同出现了多个定义,如苏新春认为:“计量研究,又叫定量研究,通过对语料进行数的反映,以达到认识语言规律和特点的目的。”[1]赵家祥等认为:“在科学研究中,对事物进行数量分析,称作定量研究。”[2]唐钰明则认为:“所谓定量方法,就是将处于随机状态的某种语言现象给予一定的数量统计,然后通过频率、频度、频度链等量化形式来揭示这类随机现象背后所隐藏的规律性。”[3]

词汇作为句子最基本的构成单位在语言应用中有着举足轻重的作用,词汇、句子、文章之间是点、线、面的关系,如果没有词汇也就谈不上用句子和文章来传递信息、表达情感和沟通交流,因此,“语言说到底是由词语组合而成的,语音是词语的具体读音的综合,语法是词语的具体的用法的概括,离开了词语也就没有语言而言”[4]。任何语言学习都不可能抛开词汇的学习,在藏语中词汇同样是最基本的表意单位。“语言是语法化的词汇,而不是词汇化的语法,教师与学生应以词汇作为教学中心构建语言知识体系。基于同样的语言建构机制,我们在母语基础教学中,也应重视词汇的重要意义”[5],藏区中小学的母语教学是一个以藏语文为基础,融合了其他各种资源的综合性体系,将字词作为基础教学内容的主导思想始终贯穿其中。因此,通过对学生所掌握藏语词汇量进行统计的方式来考察其实际语言能力是很有必要的。

在语言教学中,“词语教学贯穿于中小学语文教学阶段的全过程,从概念的理解、语句的表达和段意的概括,到文章内容的归纳,以及中心思想的领会,都离不开词语这个要素。”[6]在以母语为主导语言的义务教育阶段,词汇教学不仅要贯穿始终,而且是重中之重。按照藏语文学习的传统习惯,词汇的识记诵读作为一项基本功自古以来就备受重视,这是后续进行篇章阅读理解以及撰文写作的前提和基础。因此,词汇教学是藏语教学中极为重要的组成部分,对于义务教育阶段的学生而言更是如此。而词汇教学中的层级问题即“什么阶段应该教什么词汇,什么阶段需要教多少词汇”,对于词汇教学的科学发展以及构建实用性强、识记率高的学生词汇平台有着非同寻常的理论指导意义。

二、藏语基础词汇的统计

语言学应当属于实验科学,计量研究是语言研究中的一种重要手段,是通过对语言的结构、分布、使用等要素进行数量分析来揭示语言的状态、性质与特点的一种方法。它在实践上具有鲜明的可操作性和直观性,以及实验过程的记录性,与语言性质上的通用性与生僻性、普遍性与具体性等密切地相呼应。因此,计量方法的运用也就愈来愈受到学界的重视和普遍使用。本文依据藏语词汇学、计量语言学和对比语言学的相关理论,建立语文教材语料库,对教材词汇进行了全面的计量研究。由于《藏语文》数据库内容丰富,计量研究以专题的形式进行。进行专题研究时,对该专题范围内的语料要做到准确、封闭与穷尽。准确是指必须真实地反映《藏语文》的本来语言面貌,不能有讹误。“封闭是将专题研究做到纯化,不将无关的问题掺杂其中。穷尽是保证语料不出现缺损、遗漏,使计量研究反映出来的频率、比例等数据真实可靠”[7]。根据研究内容的情况,本文确定的工作方案具体见藏文词汇计量分析的基本流程图(图1)。

图1 藏文词汇计量分析的基本流程

语料库包括了小学《藏语文》教材12本,语料规模为76680万词次构成,其中参与计量研究的课文数共为230篇。

三、词汇计量与文本分布

课文体裁在一定程度上反映了整套教材的语言风格和面貌,体现了教材编写者的教育理念。各类体裁的分布及用词情况,可以反映出教材各体裁的词量分布情况。本调查将藏语文教材的文章体裁分为记叙文、说明文、议论文、散文、诗歌、小说、童话、戏剧、格言、谚语、谜语、写作、辞藻8类,分布如图2所示。

图2显示:说明文篇数最多,为54篇,占文章总数的23.5%;小说、儿歌、辞藻的篇数最少,各为1篇,占文章总数的0.4%。按文章体裁分类的课文数排序为:说明文>叙事文>故事>散文>教诲>格言>语法>写作>谜语>民歌>成语>小说等。从各册文章体裁分布表来看,各册文章体裁的分布较为分散,体现了分散教学的理念。各册均以说明文为主,小说和议论文各只出现了1篇,说明文主要分布在第5册-10册,诗歌和散文在各册分布较为均匀。另外,随着册号的增加,课文数量整体呈现下降趋势。

图2 文本分布图

四、藏语词汇的定性分析

语料的计量分析是定量研究中非常重要的一环,但这只是它的外部表现,不能以为语料库量的统计就完成了所有的研究工作。语料的计量工作并不意味着自动获得研究意义和显示内在的价值,它只是理论研究的一种手段。定量研究中的语料选取、语料标注、量化分析,每一个环节都只有依靠理论的指导,才会使定量数据获得生命力。

(一)词类分布

对从语料库中提取出来的词语及词频,应该如何处理才更为合理,更能真实地反映词语的存在状况,这也是研究者特别注意的地方。反映词语通用度的最直观的方法就是看它在调查对象语料中出现的次数,通常称之为“词次”。这确实是反映词语使用程度的一个重要标志。但如果调查对象数量庞大,类型众多,且性质相差较大时,这时考虑到词语是出现于局部还是整体,也就成为一个重要的参考依据。把“词次”的因素加上“分布”的因素,也就成为正确反映该词分布情况的“通用度”了。

根据藏语自动词性标注的实际需要,依照“功能分类”思想,拟提出信息处理用藏语的分类方案,并拟定了相应的标记符号:一般名词(n)、动名词(nv)、及物动词(vi)、不及物动词(vt)、判断动词(vp)、助动词(ux)、形容词(a)、副词(d)、否定副词(df)、数词(m)、量词(q)、目的助词(um)、时态助词(us)、原因助词(uy)、语气助词(yy)、祈愿助词(uq)、终结助词(uz)、状态词(z)、拟声词(e)、叹词(o)、成语(x)、格助词(p)、连词(c)等共15类[8],在此基础上,对词类分布进行了统计。(见表1)

表1 藏语词语分类及出现频次

图3 词类分布图

表1显示:名词数最多,出现9767次,占总词类的45.8%,数量最少的是目的助词,为43次,占总词类的0.1%。按词类的出现次数的高低可以排序为:名词>动词>形容词>连词>格助词等,具体数据如图3所示。

(二)高频词分布

根据语料库语言学的理论和研究方法对语言的各个考查项进行了抽取、统计和分析。比如:对总词量、文本数、词种数、词频、词性、频次、词长等分布特征方面全面、细致地计量分析,得出教材语料库的词汇信息表(见表2)。表2数据表明,10个高频词中9个是虚词,因此,藏语字词教学量化中虚词的研究和描述极为重要,具体详细数据如表2所示。

通过以上数据范例,我们对小学藏语文教材有了一个全面而深入的了解,量化研究了教材的各个方面,获得了大量的数据。从语料显示小学全部课本的词种数为9373词,76680万词次,其中低频率词占总词汇的87.23%,单音节和双音节占87.5%,三音节和成语、习语等占22.5%。这些数据为之后藏语词汇研究及藏语文教材的编写提供理论依据,另一方面也为字词教学制定量化的教学目标提供较为科学的思路。

五、总结与展望

在中小学汉语文教学中,词汇统计及分级工作已比较成熟,要求九年义务教育阶段的中小学生“至6年级应累计认识常用汉字3000个,其中2500个左右会写,至9年级累计认识常用汉字3500个,其中3000个左右会写”。[9]作为基础教育阶段母语教学的主要载体,小学藏语文教材摘录了大量体现藏民族悠久的历史和民族传统文化的文章,词汇是教材的重要组成部分,但是藏语教学研究中缺乏常用词和教材词汇的计量分析,使得藏语文教材欠缺较为科学的组织方法。本文的研究不仅对中小学教材的编写提供了科学的参照依据,同时为藏语自然语言处理的研究奠定了一定的基础。

表2 高频词分布

与此同时,我们也认识到藏语母语学习是一个将习得与学得有机结合的过程,而中小学生对书面语系统地掌握主要靠学得而非习得。在学得的过程中,藏语文课本成为了最主要的信息载体,课本中的字、词、句又形成了一个相对独立的知识体系,是中小学生词汇学习的主要对象,无论是数量、类别还是难易程度,对词汇层级工作而言都具有一定的代表性。因此,以中小学藏语文课本为基础建立语料库的工作蕴含着极大的研究价值,一直以来都备受关注。

综上所述,本文既对藏语词汇本身进行了研究,如藏语词汇的平均长度、基本词汇的数量及其覆盖率等,又从教学的角度出发,统计了通用课本词汇的频率、频次和分布度等数据,并由此大致推测出我国藏区具备小学文化水平的学生对藏语文词汇的掌握情况。上述数据和结论为评价和修订现行通用教材提供了客观依据,若能将语料库统计方法应用于今后的教材编写中,教材质量必将得到质的飞跃,我国藏区中小学藏语文教学水平和质量也将随之大幅提升。

[1]苏新春.词汇计量及实现[M].北京:商务印书馆,2010:7.

[2]赵家祥,聂锦芳,张立波.马克思主义哲学教程[M].北京:北京大学出版社,2011:159.

[3]唐钰明.定量方法与古文字资料的词汇语法研究[J].海南师范学院学报,1991(4).

[4]胡明扬.对外汉语教学中词汇教学的若干问题[J].语言文字应用,1997,21(1):12-17.

[5][9]陆清.试论中小学语文课本词汇计量研究[J].语文学刊,2004,45(6):23-25.

[6]袁冉.对外汉语教材与汉语母语语文教材词汇层级性对比研究[D].厦门:厦门大学,2008:2.

[7]苏新春.关于《现代汉语词典》词汇计量研究的思考[J].世界汉语教学,2001,58(4):39-47.

[8]扎西加,索南尖措.基于藏语信息处理的词类体系研究[J].西藏大学学报,2008,23(1):36-41.

The Qualitative Analysis and Quantitative Study of Tibetan Language

Gyesang Dorji Tashi Gyal

(Tibetan Information Technology Research Center,Tibet University Lhasa,Tibet 850000)

Along with the rapid development of information technology and metering methods,the method of qualitative analysis and quantitative study has been wildly promoted in the field of social science study.“Speaking with the data”is now becoming a new mainstream in the academic world.Particularly,it has become a new trend to apply the metering study method in the field of modern language study.This article employed the method of quantitative study and qualitative analysis to study the basic Tibetan words in following aspects:the total number of words,the number of texts,the number of word types,word frequencies,word types,and word length of the basic Tibetan words and so on.By observing the basic language units of Tibetan,the article built a foundation for compiling and producing Tibetan language study materials and curriculums,and it also provided scientific thoughts for formulating a quantification teaching objectives in the language teaching system.Meanwhile,applying this type of metering methods would definitely expand the on-going researches into new fields,and also would contribute to review,observe and testify the current word theories again from a very fresh angel.In another words,It means that we could use the quantitative analysis to solve the question of“how many basic words are there in Tibetan language?”and use the qualitative study to solve the question of“what type of word is it?”and“Is there this type of the word?”.

Tibetan teaching;Tibetan basic vocabulary,Tibetan corpus;quantitative method;qualitative method

10.16249/j.cnki.1005-5738.2015.01.018

H214

A

:1005-5738(2015)01-131-05

[责任编辑:周晓艳]

2014-10-14

2011年度国家自然科学基金项目“基于群体智能涌现的藏文网络舆情分析及突发事件预警机制研究”(项目号:61165013),2011年度国家自然科学基金项目“藏语依存树库的构建”(项目号:61163043),2012年度国家自然科学基金项目“基于Ontology的藏文语料库检索关键技术研究”(项目号:61262053)阶段性成果。

格桑多吉,男,藏族,西藏亚东人,西藏大学藏文信息技术研究中心副教授,主要研究方向为藏文信息处理。

猜你喜欢
藏语文藏语语料
浅谈藏语中的礼仪语
基于归一化点向互信息的低资源平行语料过滤方法*
浅析新形势下高中藏语文教学的重要作用及其优化策略
高中阶段学生藏语文学习消极表现成因的反思
分析教材精讲精练 贴近实际夯实基础
——简述林芝二高高中藏语文1-5册校本教材编写与应用
藏语拉达克话的几个语音特征
藏语地理分布格局的形成原因
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法
Reliability assessment consideringdependent competing failure process and shifting-threshold