石志亮
摘要:文章回顾了语料库和语料库语言学的由来,分析了语料库的应用与研究现状,肯定了语料库语言学在语言描述、语言理论发展和语言学研究方法等方面的贡献。特别就语料库语言学研究在语料库标注技术、研究层次、与其它学科的交叉研究和语料库建库等方面出现了平台期这一现状做了阐述。
关键词:语料库;语料库语言学;研究现状;理论发展
中图分类号:H0 文献标识码:A 文章编号:1671-1580(2017)01-0098-03
一、语料库语言学的由来
不同的语言研究专家对语料库的定义不尽相同。Atkins和Clear(1992)认为“语料库是按照明确的设计标准,为某一具体目的而建立的大型语言文本库”。John
Sinclair(1996)认为:“语料库就是根据明确的语言标准选择和排序的语言的汇集,以作为语言的样本。”A.Renouf认为“语料库是由大量收集的书面语或口语构成并由计算机存储和处理用于語言学研究的文本库”。Tony
McEnery(2006)认为:以机器可读的形式储存的,带有各种语言信息标注的书面或口头的样本文本集合。
不论如何定义,有几个关键点是一致的,就是语料库必须是语言的电子文本集合、必须按照一定的标准采集、采集后的文本最好经过加工(比如,标注、赋码)、文本的量应该达到一定的规模、能够被计算机处理等。语料库研究就是:研究者借助于各种计算机分析工具,以大量精心采集到的真实文本为研究素材,以经验主义为哲学基础,进行相关的语言现象观察、语言理论验证以及其它的实证性研究。
近些年,人们在语料库的建设和开发过程中,在观察和经验的基础上逐渐创造了一些新方法,提出了一些新规则,并且对这些方法和规则在理论上进行了一些探索和总结,逐渐形成了“语料库语言学”。因此,语料库语言学是一门基于大量真实的语言数据,以经验主义为哲学基础,以独到的理论体系结合计算机科学来研究语言的一门边缘学科。
二、语料库语言学的应用
(一)在语言教学方面
语料库语言学的重要应用领域之一就是语言教学,可以利用检索工具对语料库进行词频、词块、句型、语态、搭配等的观察和统计,进行数据驱动式的学习。词频统计也能让我们准确确定高频词,检索出的词块、句型、语态、搭配等的情况,有助于教师更合理高效地开展词汇、语法、阅读、翻译等各种语言教学活动;学生们通过观察和实践,既能掌握词语的用法,也能了解语言变化的规律。这些检索结果(特别是词频统计的结果)也可以应用于语言教材的编写、教学大纲的设计,甚至词典的编撰等。
(二)在应用语言学方面
利用相关的计算机软件结合语料库可以进行词汇、句法、语义、口语、语言变异、二语习得、机器翻译、语用、话语分析等研究。此外,还可以利用语料库技术进行语音识别和语音合成等。
利用语料库进行词汇研究,主要包括词频、词块、词语搭配、类连接、语义韵、新词语的提取以及词典编纂等。结合语料库进行句法研究,主要是进行语法的定量分析和句型的频率统计。结合语料库进行语义研究,可以为词项赋义提供客观的标准,有助于建立语义模糊范畴的梯度概念。语料库与口语这方面的研究主要是建立口语词语提取的模型,目前集中在韵律层面的研究。语料库与语言变异的研究,是通过对比不同时期、不同地域、不同民族、不同性别的口语语料库来推断语言的变异和变化,从而进行语域变体、地域变体以及语言变化的研究。语料库与二语习得研究,主要是通过观察语料库中语言现象的分布和频率以及学习者语言应用和使用的失误,研究语言形式在语境中的意义和用法。语料库与机器翻译,利用过去已经翻译过的语料,采用模拟的方法来翻译句子。此外,利用语料库还可以进行语音识别和语音合成等研究。
(三)在社会语言学、文学、翻译学等方面
依据大规模真实语料库进行社会语言学现象、语言变异等调查,可以得出更加真实客观的数据和结论;通过建设文学作品或文学评论语料库,对其进行标注和检索,分别对其中的人物形象、意象、情节、主题、母题、作品风格等进行研究,可以为观点提供更为客观的数据支撑,开拓文学研究和语料库相结合的新型研究模式;在翻译学方面,利用建成的双语平行语料库,可以为翻译研究与实践提供实证材料,也能极大提高翻译的效率和准确性。
(四)在语言定量分析方面
利用大规模的真实语料,设计出要进行定量分析的知识点和所使用的各类题型,可以提高定量分析结果的信度和效度。
除以上几方面,语料库还可用于语法、多语言跨文化研究、法律(军事)语言学、文体学、意识形态和文化、作者的立场研究,甚至认知语言学研究等等。它所带给我们的也绝不只是一种研究方法的革命,随着语料库技术的迅速发展其应用范围也必将更为广泛。
三、语料库语言学的贡献
(一)对语言描述的贡献
语料库语言学这门交叉学科是在20世纪80年代前后随着Brown和Lob两大语料库的建立才逐步形成的。语料库最早和最普遍的应用就是其在语言描述方面,比如上文提到的语料库在语言教学、词典编撰、应用语言学、社会语言学、文学、翻译学、定量分析等等方面的运用,主要是语言描述层面。
以往进行的一些研究,比如对现代英语特征的分析:词汇的使用频率、语用特征及其在某段时间内的变化,男女使用某些词汇的多寡、偏好,口语与书面语的异同,不同地区使用英语情况的比较(特别是学习者与本族语者语言之间的差异),某些词汇空缺的成因,儿童词汇及句式习得的过程,甚至考察某些种族使用语法转换背后的动机等都是进行语言描述的具体研究事例。
可以说语料库语言学通过对大量客观详实的语言数据进行系统分析为语言研究提供了全新的思路和方法,人们可以凭借语料库提供的语言证据来进行语言学研究。
(二)对语言理论发展的贡献
Sinclair认为只有用巨量的语料来驱动的研究才能揭示那些单凭语言直觉无法预测的语言现象和发现新的语言使用规律,更新现有的理论乃至构建新的语言理论模式。Leech也认为语料库语言学绝不是仅仅收集和描述语料,它包括三个层次:语言收集、语言描述和理论构建。Halliday提出建立一套完善的口语语料转写系统以便更好地解决传统语言理论将词汇和语法分离的问题,因为口语语料是任何语言的原型语义单位始发和延伸的基础,这些语义单位已经高度语法化且灵活多变,所以加强大型口语语料库的研究能够带动语法研究的发展。
(三)对语言学研究方法的贡献
语料库语言学深受西方语言哲学中经驗论的影响,经验论认为感性经验是知识的唯一源泉,主张一切知识都通过经验而获得。西方语言学界的经验论注重语言事实,强调直观的感性,也就是要对真实的语言材料进行采集、描述和实证研究,借助于真实语料是语料库语言学开展研究的基础。
语料库的各种处理工具,如语料转写、文本整理、词性附码、句法标注、检索和统计等,这些计算机程序的出现使得语料库语言学定性与定量相结合的方法成为可能。利用语料库工具的标注手段和检索功能,研究者可以很容易地检索出某些语言现象,内省出一些语言规律,并进而对以往的理论假设进行验证,大大提高了证伪能力。
四、语料库语言学研究的平台期
(一)语料库标注技术发展缓慢
语料语言学从上世纪60年代开始发展,起初人们只用语料库进行一些简单的分析,如词频统计等,后来又增加了词的语法属性的标注,即词性标注。但时至今日,语料标注没有实质性突破,实际有使用价值的标注还只能是词性标注。目前语料库已经发展到了基于浏览器检索的第四代,在标注和检索能力等方面也增强不少,但其基本功能仍与第三代相似。除词性标注外,对语料库其它层次的标注,如,语音、句法、语义、语用和多模态语料库等的标注仍不成熟,因而要想利用语料库中的熟语料进行更深层次的研究就会遇到难以克服的障碍。
(二)语料库研究层次单一
语料库标注层次发展的缓慢制约着语料库研究方法的进一步发展。语言研究者利用语料库进行研究的目的就是为了更深入地挖掘语言的结构与演化规律,而语料库中语音、句法、语义和语用等层次标注的不成熟、不完善,就会使得相关研究停滞不前。目前绝大多数的语料库研究主要停留在词汇、句法层次,对语义等方面的研究尚不够深入。
(三)与其它学科的交叉研究尚不成规模
结合语料库进行社会语言学、文学和翻译学等方面的研究数量少、规模小、影响力也较弱。这可能与各个学科属性的表现形式不同有关,比如,文学更注重语言的内容,而语料库语言学多侧重语言的形式,用语料库研究文学就会有一定的难度。
(四)语料库建库方面的问题
语料库的标注和赋码系统缺乏统一性,没有统一的规范和标准,适用性较差。语料库工具软件(赋码工具、标注工具、文本分析工具等)开发滞后与语料库的迅猛发展不相协调。口笔语语料库发展不均衡,书面语语料库和口语语料库发展不均衡,相对于丰富的书面语语料库,口语语料库的发展落后很多。大多数的语料库资源难以共享,重复建设造成了各种资源的巨大浪费。
(五)对语料库语言学理论的期待
语料库研究以量化描述见长,但若仅仅满足于量化和描述,就只能成为其它学科研究的辅助工具,很难有长远的发展,也不能形成一门独立的学科。另外,虽然不少人主张语料库研究应结合现有的语言学理论来阐释量化数据,但结合语料库数据和现有语言学理论的成功案例也不多见。
目前,比较遗憾的仍然是语料库语言学研究主要还是应用性研究,尚未形成成熟的理论和理论体系,语料库对语言学理论几乎没有实质性的贡献,语料库语言学理论很值得期待。
五、结束语
经过几十年的发展,语料库语言学的研究丰满了许多,在相关领域也已取得了广泛的应用,对语言的描述和对语言理论的发展也有了很大的贡献。但我们也应该看到,语料库语言学研究也出现了一个平台期,在语料标注、研究层面、交叉研究、语料库资源共享等方面逐渐显露了一些不足,更为关键的是语料库语言学要有自己的理论建树,人们对此也充满了期待。
[责任编辑:韩璐]