机关文书语料库的开发和应用

2013-04-29 06:57王雪梅
现代语文 2013年4期

摘 要:机关文书语料库是实用文写作教学进行运思训练和语体训练的教学资源库,也是信息化时代实用文写作者自主学习的基础支撑。目前,语料库的技术和理论使机关文书语料库的建设和应用成为可能。

关键词:机关文书语料库 运思 实用文语体

建设机关文书语料库,是笔者基于多年实用文教学的感悟而提出来的。回顾实用文写作教学的发展历程,从“知识—例文—练习”这一传统的教学思路到情景教学,再到重视运思训练和语体训练的一路变革,许多从事实用文教学的教师都做了不懈的努力。就教学对象——已具备一定语文基础的高校学生而言,对其进行实用文运思训练和语体训练是提升其实用文写作能力的有效途径。然而,现实残酷,依据笔者对部分高校(包括高职)公文写作教学的调研,采用这种方法的写作教学仍然无法摆脱教学过程枯燥和教学效果式微的尴尬处境。为什么被公认的有效的教学方法,却无法成为“利器”?是实用文语体教学的缺省或偏误是造成这种现象的主要缘由。现阶段部分教师将实用文语体教学作为实用文写作基础知识的一部分,讲解多停留在语体知识的传授上;也有教师把它作为文种的“语言要求”泛泛而谈,缺乏实质性、针对性的训练。应当承认,这种状况并非是教学对实用文语体的忽视,而是源于我们对实用文语体的模糊认知。截至目前,我们还没有对实用文语体进行量化式的分析、总结,对实用文语体域场的依存性、表达的选择性、语阶的级差性和风格的伴随性往往也是以个案的方式去讲解和理解,没能从宏观的范畴中解读。解决这些问题,真正实现实用文写作教学的有效性,我们认为有必要建设机关文书语料库。

一、机关文书语料库的功能和作用

(一)语料库及其作用

语料库(Corpus)是指应用计算机技术对海量自然语言材料进行处理、存储以供自动检索、索引以及统计分析的大型资料库。语料库不仅仅是原始语料的集合,而且是有结构的,是标注了语法、语义、语音、语用等语言信息的语料的集合,这是语料库区别于一般的文本数据库的重要标志。迄今为止,我国已建成并投入使用的语料库多达上百个,涵盖多个类型和多方应用目标。如现代汉语通用语料库、《人民日报》标注语料库等。这些大型语料库的建立为我国运用语料库开展各种学术研究提供了宝贵的数据源。

语料库发展之初,其用途主要体现在对语言现象以及语言本质的研究上,如语言频率统计、词典编撰、词汇搭配研究和自然语言处理等方面。随着语料库技术的发展,其功能和作用也跃出了语言学范畴,在其他领域如英语写作教学等方面的应用也越来越广。薛学彦(2004)在《语料库与基础英语教育》一文中就指出:语料库不仅可为字典编撰提供可靠的依据、为教材编写和大纲制定提供参照,还可为课件开发提供动态数据,为英语外语教学误用分析提供支撑等。

(二)机关文书语料库的构建

构建机关文书语料库,就是以机关文书为样本构建语料库,以样本中的特殊词语、常用句型、句式、修辞为研究对象,借助语料库语言学的理论方法,对研究对象进行定量的统计、分析,系统地研究机关文书的语言运用特点,以期从语言学角度解读机关文书的写作技巧。样本机关文书以文件规定公文(行政机关公文、中国共产党党的机关公文、军队公文)和常用行政事务文书为范围。

机关文书语料库又可依据内容建立公文语料库、事务文书语料库两个子库。由于公文涉及到级别权限,因而在语料搜集、整理的过程中,应以国务院、省、地区三级单位某时段的公文为语料来源,规避涉密文件、行业文件。事务文书的语料搜集应注重体裁、题材的广泛性和内容表达的成效性。

从学习写作的角度运用机关文书语料库主要是通过分析语料,考察机关文书中的词语运用情况,句型、句式及修辞的运用特点和表达效果。这样,逐渐实证性地彰显出实用文语体的特征及其学习掌握的要素。

一些学者近几年一直致力于这方面的研究探索。张海龙(2008)的硕士学位论文就是以“行政公文写作数据库”为研究对象的。李忠朋、柳新华(2009)在《秘书之友》中也谈到公文语料库建设的问题。目前,柳新华、邵建国等学者致力于建设公文文献数据库,并通过这个语料库开始进入到对公文语言的微观分析,如分析讲话稿中的修辞以及公文中的句子等。

二、机关文书语料库的功能

(一)机关文书语料库使教师微观把握教学内容成为可能

目前对实用文语体特征的阐述多数全凭直觉。实际上,我们对实用文语言的“准确、庄重、简洁、规范”缺少量化的清晰认知。到底哪些要素可使实用文语言更加准确?哪些语言要素的运用会使文章更庄重?哪些要素使表达更简洁?哪些更规范?什么样的语境需要什么样的语音、词语、句式、辞式?和语言学语料库关注点不同的是,写作角度的语料库分析需要考察语言各要素之间的配合和整体表达效果,需要考察语境类型的制约。写作教学一直是汪洋中的一条船,不知四周的真实面容。语料库为其提供了新的视角和思路,借助计算机技术,以海量的语言事实为研究对象,对其进行言语行为分析,从中可以找出语言运用的规律。而这恰是我们写作教学多年来无法解决的诟病。由于语料库可以统计词频、对比词语搭配、追踪新词新语等等,这些功能促使教师不再单纯地从鉴赏的角度关注范文。此外,词语搭配研究将展现言语使用是否规范。大容量语料库的问世为词语搭配研究提供了客观的量化分析依据,使之更科学。教师在这个过程中得以梳理教学内容。

(二)机关文书语料库使写作教师改变教学方法成为可能

前文已述,实用文写作教师的教学方法多已由例文赏析式转变为以语体、运思的训练为主,但是教学效果依然不理想的现实促使我们进行深层次思考。其中,语体训练的举例式方法恐怕是教学中不能达到举一反三效果的主要缘由。语料库将使“实用文语体”的直观性、量化性得以实现,使实用文语体的整体面貌得以呈现,从而使语体训练具备了较强的操作性。

(三)机关文书语料库为学生提供自主式学习的可能

语料库不仅惠及教师,学生也可以利用语料库实现高效的自主式学习。

语料库使学生真正进入实用文的微观世界。通过语料库,学生可以自主提取人们一般审美认知中较能接受的表达;可以赏析到内容相同而表现方法不同的写作技巧;可以借助语料库构建学生大脑中的“语料”。

三、机关文书语料库的建设

机关文书语料库构建的基本步骤为:规划、语料采集、语料输入计算机、校对、标注、赋码、入库。

(一)规划和采集阶段

语料库的规划阶段首先要进行语料库建设的必要性和可行性分析。语料库中语料的采集并不是语言材料的简单堆砌,而应该充分考虑材料的代表性和平衡性。为了使语料库具有代表性,语料库的选材结构就要具有平衡性。所谓平衡,不是指各种类型的语料在语料库中占有相同的比例,而是指语料库中各种类型的语料比例恰当,能代表它们对现实语言生活的影响。比如要考虑到公文文种类型、公文发文机关级别、公文文种使用频度、事务文书的典型性等。理想的情况是,这种比例能和每种类型的语言对实际语言生活的影响因子相一致。为了追求这个目标,在机关文书语料库选材时要预先设计分类指标,科学地确定每种类型的语料在语料库中的比例。就公文而言,其语体文本的采集首先应按照行文方向分类选取。

(二)标注阶段

语料库同纸质材料最大不同点的一个重要标志是机器可读。为了充分发挥计算机运算速度快、计算能力强的特点,必须预先对语料库进行标注。语料库标注的过程是一个语言知识形式化的过程。语料库的标注质量以及标注深度直接影响到可从语料库中发掘的信息的丰富性、准确性,决定了语料库的可利用性和利用价值。机关文书语料库的标注应该包括词性的标注、语义的标注、句法结构的标注、篇章结构的标注等。何婷婷博士(2003)曾经结合Leech的结论提出了标注的6项原则:1.原始语料和标记符号的数据独立性原则;2.语料标注的公开性原则;3.语料标注的通用性原则;4.语料标注的折衷性原则;5.语料标注的一致性原则;6.标注符号的确定性原则。未经标注、没有做任何处理的电子文本语料库被称为生语料库,其应用价值非常有限。基于机关文书语料库的写作指导性,语料库需要人工标注句型、句式、修辞格等信息。

(三)检索软件的选择与开发

语料库检索软件很多,较成功的共享软件有Wordsmith Tool v4、Concordance v3、Monoconcord以及WordCrucher等,自由软件有Microconcord、Tact 2.1(基于DOS平台)、Wconcord等。在语料库建设的初级阶段应根据需要使用现有的语料库检索软件。但是,这些现有的检索软件不是万能的,有可能不完全适用于实用文语体研究。在研究的过程中开发出适合于写作学习的检索软件是语料库研究的又一贡献。

总而言之,机关文书语料库的建设,是一个集计算机技术、实用文写作、社会语言学于一体的开发研究项目,涉及许多专业技术,同时还需要各专业的有效配合。

参考文献:

[1]薛学彦.语料库与基础英语教育[J].山东师范大学外国语学院学

报(基础英语教育),2004,(4).

[2]何婷婷.语料库研究[D].武汉:华中师范大学博士论文,2003.

[3]李忠朋,柳新华.公文语料库建设浅谈[J].秘书工作,2009,

(3).

[4]邵建国.基于语料库的公文句式浅析[J].语文学刊,2009,

(12).

[5]丁善信.语料库语言学的发展及研究现状[J].当代语言学,

1998,(1).

[6]冯志伟.数理语言学[M].北京:知识出版社,1985.

[7]冯志伟.自然语言的计算机处理[M].上海:上海外语教育出版

社,1996.

[8]陈明瑶.语料库与词汇学研究[J].宁波大学学报(人文科学

版),2000,(1).

(王雪梅 河北廊坊 中国人民武装警察部队学院基础部 065000)