苗天顺
(北京工商大学,北京 100048)
语料库就是存放语言材料的仓库,或者说,语料库是为专门目的、按照明确设计标准收集的文章的集合(Granger 1998)。任何一种语言的语料都是无限的,要将其全部存入计算机是不可能的。但是为了研究一种语言,可以根据统计学的原理把这种语言的语料按一定的原则抽样存入计算机,把它作为这种语言的代表而进行统计分析。这样分析得出的结果,只要抽样的原则合理,存入的语料有足够的量,结果也是相当可靠的(侯敏1999)。现在世界上已经有了不少规模较大的语料库,有些是国家级的,有些由大学和词典出版商联合建设。另外,由于个人微机的迅猛发展和存贮数据的硬盘造价持续下降,研究者个人也开始建立适合于自己研究的小型语料库。
McEnery(2001))认为,“语料库语言学就是以语料库为基本知识源来研究自然语言规律的一门学科。”由此可以看出,语料库语言学这个术语有两层主要含义。一是利用语料库对语言的某个方面进行研究,即“语料库语言学”不是一个新学科的名称,而仅仅反映了一个新的研究手段。二是依据语料库所反映出来的语言事实对现行语言学理论进行批判,提出新的观点或理论。只有在这个意义上“语料库语言学”才是一个新学科的名称。
语料库语言学是20世纪80年代才崭露头角的一门交叉学科,它研究自然语言(natural language)文本的分类(classification)、采集(collection)、存储(storage)、加工(processing)、统计分析和应用(application),目的是凭借大规模语料库提供的客观翔实的语言证据来从事语言学研究和指导自然语言信息处理系统的开发和应用。语料库语言学的崛起和迅速发展令世人耳目一新。人们希望通过大规模真实语料的调查来获取自然语言的各种语言事实及语言规律,从多方面多层次描写语言并验证各种语言理论和假设,甚至建立新的语言理论和语言观。许多国家相继建立了数以百计的各种语料库,规模也跃升到数亿词级,语料库建设正朝着扩大库容、国际化和多元化方向发展。
对语料库语言学方面的研究和应用主要有以下几个方面:
对词语语义、语用的研究一直是词汇学研究的一个主要方面,语料库中真实的语料能对单个词语的意义和语用功能做出更为客观的描述。这个研究成果对学习者深入全面了解词的意义和实际面貌很有帮助。
词语搭配研究越来越得到人们的重视。语言学家弗思(J.R.Firth)有一句名言:“观其伴,而知其意。”因此,一个词的词义只能通过与之相伴出现的搭配才能加以辨识。从这一观点出发,无论是要识别一个词的不同词义,还是学会这个词的用法,都必须普遍调查词语的搭配关系和用法模式。换句话说,词的含义与上下文有极其密切的关系,即:词的含义服从于这样的一般规则:一个词用于一种新的语境时,就具有了新的含义。人们通过语料库可以在自然语境下观察词语的搭配行为和类联接,进而启迪词汇教学。
词语的语义韵律(semantic prosody)是一个词语与语言中其他词语反复联系而获得的连续的意义氛围,它通常表达某种态度意义。语料库是研究语言意义的有力工具。从一个语料库中检索节点词(node),检索上下文或临近若干个词而组成的并置结构(collocates),并将出现这些节点词或并置结构的句子进行比较分析,揭示了用常规方法很难发现或很难确定的语义特征——语义韵律。国内有关语义韵律的研究有对语义韵律的介绍及其运用对其他领域的启示(潘瑶,冯跃进 2003),有探讨科技和学术研究文章中存在的语义韵律现象。
字典编篡者(lexicographer)用语料库来编撰词典(lexicalization)是语料库运用的又一个方面。计算机语料库与词典学的关系和对词典学的贡献,在国内外辞书出版界可谓人人皆知。语料库中大量的自然语言例证使词的定义更加完整、精确。电子语料库给出了关于某一词或词语的所有用法举例,使词典的编撰与修改速度空前加快。词或词语在真实语料中的前后搭配语境更清楚地显示该词或词语的语义特征、使用频率和语用特点,这使词典的编撰更趋科学化。
利用语料库对英语语言作多方面研究进一步揭示语言规律,有助于英语的教和学。对教师课堂用语的研究可以提高教师对自己使用英语的认识和敏感性;对学习者中介语的研究可以帮助教师认识外语学习的规律,采取科学合理的教学方法。语料库在外语教学中的应用可以转变教学思想,改进教学方法,具有重要意义。
语料库的研究成果在语言教学中的运用是多方面的。参考语料库语言学对英语语言的描述,人们可以更科学地制定和修订教学大纲,更合理地编写教材,更准确地制定教学词表。1994年9月开始实行的“大学英语教学大纲通用词汇表(1-4级)”就是参考JDEST语料库科技英语词汇表和其他词汇表进行定量分析制定的。语料库用于课堂教学有助于改进教学方法。一个重要的例子是基于语料库索引的数据驱动学习。这种新的教学模式鼓励学生自己积极主动地从真实语料中去观察语言现象,发现语言规律。
基于语料库对英语教师话语的研究成果有助于教师对其教学用语的认识并提高其应用教学用语的敏感意识,为英语教育和教学改革提供实证性参考依据。何安平(2003)调查和分析了英语课堂教学语料库中教师话语的部分语言特征,探讨了国内高中、初中和小学英语课教师话语中的认知思维导向特点及其教育教学功能。利用语料库对学生中介语的研究有利于教师在教学过程中采取更合理的教学方法,提高教学效果。
利用语料库研究写作教学可以通过分析学生作文中出现的错误,或是通过与本族语学习者语料库比较来了解母语写作能力对英语写作能力的影响,为写作教学提供建议和参考依据,也可以利用语料库改进写作的评估模式。娄宝翠(2001)利用中国学习者英语语料库中的大学英语学习者作文子语料库研究中国学生的造词现象,提出了外语教师对造词现象应采取的态度以及在教学中应采取的相应措施。
利用口语语料库对学生口语的研究,包括对小品词的研究、韵律特征研究、学生交际策略的研究、某些句式在口语中的语用功能的研究等。对口语多方面的研究能更好地指导教师的口语教学,培养和提高学生的口语能力。何莲珍等(2004)利用大学英语四、六级考试口语考试(CET-SET)语料库研究非英语专业大学生在大学英语口语考试中使用交际策略的情况。研究发现,口语水平对交际策略的观念和使用影响显著。这一研究结果对培养学生的交际能力具有启示作用。
用语料库研究修辞和文学可以提供数据支持,将定性与定量研究方法相结合,研究更科学可信。周江林等(2003)使用英国国家语料库检索“high”和“low”两个词,研究英语的空间隐语。从语义的角度,通过分析共现于同一语境中有关词项的语义特点,可以开辟一个新途径来理解英语的修辞手段及其效果。语料库在文学领域的研究通过对文学作品文本总体特征的描述来分析文学文本、作家的写作技巧、语言风格等。
通过对不同语域语料库的调查研究,可以了解在不同语域中英语使用的一些特点。余千华等(2001)以科技英语语料库中统计的模糊限制语使用频率作为参照标准,研究中外重要英语科技期刊上的论文中模糊限制语的使用情况,分析说明了中外科技工作者在用英语写作科技论文时使用模糊限制语习惯上的一些异同点,给中国科技工作者用英语写科技论文时提供借鉴。
基于大规模的语料库的语音识别、音字转换技术(中文输入)、自动文本校对技术;
基于语料库的句法分析、机器翻译、机器学习技术、语音模型训练以及语言模型的评价等等;
利用语料库训练隐马尔可夫模型(Hidden Markov Model,简称HMM)进行分词(word segmentation)、词性标注(word tagging)、词义标注等等。
语料库语言学的发展离不开语料库的建设,而语料库的建设依赖于语言处理技术。国内许多学者依据自己的研究需要提出了自建语料库的设想。王克非(2004)具体介绍了新型双语对应语料库的设计和构建。徐箐等(2003)介绍了一个对汉语语料进行切分标注加工的系统。对自然语言信息处理的研究基本上是对中文语料进行的。
对于语料库语言学的发展前景,近年来语料库语言学家多有论及。如Svartvik(1992)预测“计算机将运行更快,体积更小,价格更低;语料库将规模更大,质量更好,利用率更高。”.McEnery(1996)则认为,语料库语言学的发展将主要受语料库规模、类型、国际关注和计算机发展等四方面力量的左右。基于语料库语言学的研究现状,语料库语言学未来的发展方向将主要体现在以下几个方面:
鉴于大型语料库语料标注工作的滞后,有人认为今后一段时间还应发展小型专用语料库,例如肖特(1996)为研究言语和思维的表达所建立的语体研究语料库。此外,口语语料库的发展应加大力度,以克服目前书面语语料库和口语语料库发展的失衡,促进口语研究的发展。Wilson(1996)预测在不久的将来会有更多的语料存储媒体问世。
语料库标注是对语言进行多维、多层面分析的基础,而此种分析结果的受益者不仅限于原标注者,因而语料库的有效利用在很大程度上有赖于语料库标注的层次和质量。
语料库分析有赖于计算机环境的支持,即从语料库中检索数据并对语料进行加工的软件工具。充分利用统计学方法,建立科学有效的语料处理工具可以增加语言学研究人员的工作效率。目前软件工具尽管已有了一定数量,但多数工具都是针对某一个特定的语料库,适用范围有限,缺乏通用性。
语料库是一个由大量在真实情况下使用的语言信息集成的、可供计算机检索的、专门作研究使用的巨型资料库。它以其容量大、语料真实、检索快捷准确等独特的优势在现代语言学研究和语言教育中正发挥着越来越重要的作用。语料库语言学不仅仅是研究方法论的一个重要突破,它更孕育着对语言描述框架乃至语言观念的不断更新(张政 2010)。
Granger,S.(1998).Learner English on computer[M].London:Longman。
McEnery,T.Wilson(1996).A Corpus Linguistics[M].Edinburgh University Press。
何安平(2004).语料库在外语教育中的应用:理论与实践 [M].广东高等教育出版社。
何莲珍,刘荣君(2004).基于语料库的大学生交际策略研究 [J].外语研究(1)。
候敏(1999).计算语言学与汉语自动分析 [M].北京广播学院出版社。
娄宝翠(2001).中国学生英语写作中的造词现象 [J].外语教学与研究(1)。
潘瑶,冯跃进(2003).非英语专业研究生写作中连接词用法的语料库调査 [J].现代外语(2)。
王克非(2004).新型双语对应语料库的设计与构建 [J].中国翻译(6)。
余千华,官玲玲,李娜,刘义(2001).英语科技论文中的模糊限制语 [J].华中科技大学学报 (社科版)(4)。张政(2010).计算语言学与机器翻译导论 [M].外语教学与研究出版社。
周江林,张家强(2003).基于语料库的英语空间隐喻研究 [J].解放军外国语学院学报(5)。