基于语料库的语篇分析范式研究*

2012-03-19 07:01滕延江
外语学刊 2012年1期
关键词:语言学语料库语篇

滕延江 李 平

(鲁东大学,烟台264025)

1 引言

语料库是以计算机为载体存放真实语言材料的集合。语料库语言学是收集数据的重要手段(桂诗春等2010:419),语料库语言学方法的目的在于通过对大规模数据的分析来观察人们使用语言的特点,其优势体现在发现词汇用法、使用频率、搭配、中心词索引等方面。(O’Keeffe&Farr 2003:390-391)近年来,语料库语言学方法在分析书面语或者口语方面得到了广泛的应用。与传统的语言学研究方法相比,语料库语言学分析方法的优势体现在以下方面:1)实证性,能分析自然语篇的实际使用模式;2)以大规模收集的自然语料作为分析素材;3)采用自动的、交互式模式,依靠计算机进行数据分析;4)集定性分析与定量分析于一体,能对语言进行功能性解释。(Biber,et al 1998)因此,语料库语言学“现在正处于成为主流语言学的节点上”。(Mukherjee 2004:118)近十几年来,语篇分析研究者一直思索如何采用计算机手段进行语篇分析,从而降低人工分析的劳动强度与分析误差,而几乎所有的语篇研究都是针对真实语料的分析,这说明二者有结合的兴趣点。

2 语料库语言学分析方法与语篇分析的兼容性问题

2.1 对语料库语篇分析模式质疑的声音

由于语料库语言学方法最初只是应用于词汇、语法分析领域,因此采用语料库语言学的方法进行语篇分析研究从一开始就受到了很多学者的质疑。Leech(2000:678)认为两者之间有一种“文化分界线”(Cultural divide line)。这是因为语篇分析强调文本的整体性,语料库语言学则侧重采用典型的例证;语篇分析大都是质的研究,语料库语言学从根本上讲是量的研究;语篇分析侧重对文本内容的分析,语料库语言学侧重对语言的分析。此外,Bhatia(2008:83)也提到了三种反对二者结合的观点:第一,从语境观上看,基于语料库的研究是一种去语境化(decontextualization)的研究,而语篇分析恰恰要求所有的研究要在语篇全文以及情景语境中进行。第二,从研究方法上看,基于语料库的分析属于事后分析(Post-hoc analysis)方法,在分析完数据出现频率后,再进行解释说明,而语篇分析采用的是一种自上而下(Top-down)的分析方法;换言之,语料库语言学的方法忽略语篇的结构,侧重对中心词索引(Concordance)的研究,而这正是语篇分析开展的必要前提。针对上述批评,Tribble进行了正面的回应,尤其对语篇的语境特征进行了详细讨论。比如,语篇的社会语境、交际目的、读者与作者角色、共享的文化价值等都会有助于确立所分析文本的语境。他还特别指出,“理解语言使用包括理解社会与语境知识,并非仅仅语言系统本身的知识”(Tribble 2002:138-139)。此外,Swales(2002:154-158)也指出,语料库语言学分析中的各种技巧,比如“中心词索引”(concordances)用来分析有关项目是一种“自下而上”式的分析,这与学术语篇对语步分析(move analysis)所要求的“自上而下”的模式是相悖的。然而,之后Swales却改变自己的观点:公开承认语料库语言学方法可以用于语篇分析,特别是针对学术目的英语语篇的分析与教学。(Lee&Swales 2006:56-75)由此可见,语料库语言学方法并非不能与语篇分析相结合。

2.2 语料库技术的发展与语篇分析结合的可行性

语料库提供收集大量、可靠数据的手段,“文化分界线”正在逐渐消失。在过去的十几年里,学者对语料库语言学方法用于语篇分析越来越感兴趣。(Baker&McE-nery 2005)Baker(2006)鼓励学者大力实践,并提供基于语料库的语篇分析(Corpus-based Discourse Analysis,CBDA)的多种方法。

语料库技术与语篇分析的结合点在哪里呢?首先,从历史上看,计算机辅助语料库分析方法曾经在语篇分析实践中被采用过。早在1970年代,Michel Pecheux曾经采用自动句法分析的方法对马克思主义理论语篇中的附加语进行过分析,该分析中的重要一点是把语料库中的句子转换成简单的结构集合,然后使用分配程序的方法来观察同样被重复或者被替代的结构模式。(McEnery&Wilson 2001:114)不仅如此,Hardt-Mautner(1995)也曾经采用中心词索引技术分析语篇中的搭配关系。因此,从方法论上看,语篇分析能够借助语料库语言学分析方法进行超句子层面的分析。其次,语料库对语篇分析研究有潜在的重要性。如果语篇分析者发现某个语篇中的一系列重要特征,就可以提出这样的思考:这些语篇特征仅仅局限于这类语篇,还是一种普遍的社会惯例?如果是后者,就构成新的语篇类型。再次,语料库语言学的研究对更好地了解书面语篇与口语语篇的特征提供重要的数据资源,这种基于语料库的海量数据分析,其结论也更具科学性与概括性。语篇分析研究借助于这种大规模的数据分析,有利于提高研究效率,增强研究发现的权威性。

3 基于语料库语篇分析模式的研究范式

进入新世纪以来,有关“计算机辅助方法与语篇层面研究的兼容性问题一直受到较多关注”。(Adel&Reppen 2008:2)许多学者回顾并总结了语料库语言学研究方法在语篇分析层面上的应用情况并概括出常见的研究范式。具体说来,基于语料库的语篇分析模式可以概括为质的研究,质、量相结合的研究与纯粹的量的研究三种研究范式。

3.1 质的研究

语料库是各类交际活动中所使用语言的集合。借助于语料库中的语料,针对某一类型的文本,对其宏观结构、词汇、句法、语体特征等方面进行分析,多采用人工统计为主的方法,然后在此基础上进行分类、解释与概括,以此发现此类型文本的突显特征。例如借助语料库,通过分析多篇学术论文的结构,我们发现绝大部分学术论文通常包括研究背景、文献回顾(研究空白)、研究方法、研究结论与研究意义等几个主要部分;当然,还可以统计学术语篇中的名词化现象使用情况、被动语态的使用频率等问题。从研究方法来看,这样一种自下而上的研究属于质的研究。由于语料库只发挥提供语料的作用,因此这也是一种语料库意识的研究(corpus-informed study)。

代表性的研究如Swales(2004)采用Michigan Corpus of Academic Spoken Englis(MICASE)语料库,调查不同学科语境下的大学生在学术会话方面使用语言的特征。MICASE专门收集大学生英语口语语料,涵盖讲座、实验、办公、图书馆服务等语域,为国际应用语言领域提供美国英语口语素材,并为语言学和特殊用途英语学生提供学习资源。该研究的目的在于分析大学生学术口语会话与日常会话的使用情况方面的异同。Swales的研究发现,就大学生的学术会话与日常会话的语言使用来看,在语言特征方面并无较大差异,而且在学科上的差别也不明显,学术会话与日常会话一样,也具有非正式性的特征。

此外,Hyland(2004)对第二语言学习者学位论文“致谢(Acknowledgement)”部分的研究也是一项基于语料库的质的研究,该语料库是由香港学生的学位论文组成的语料库。他考察其中“致谢”部分的结构特征以及社会角色。该研究不仅显示这些文本的典型呈现方式,还发现学生如何用其来展示他们对学科归属性的认识,即用特定的方式来表达对他人的感谢。例如通过观察thanks左边的词汇,结果发现使用最多的是special thanks,其次是deep thanks与 sincere thanks。正如 Hyland(2004:303-304)所指出的,“致谢”这一文本虽然简短,但它却架设起个人与公众、社会与专业、学术与道德的桥梁。与Swales的研究一样,该研究不仅展示学术语篇的重要特征,而且也从社会、人际层面诠释这类语篇的重要性。

3.2 质、量相结合的研究

大多数基于语料库的语篇分析研究属于质、量相结合的研究范式。根据研究者在多大程度上依赖数据决定研究结论,该研究范式可以分为两类。如果研究者把已有的语言感知或理论框架用在语料库数据分析上,这种研究被称为语料库支持的研究(corpus-supported study);如果研究者在数据分析时尽可能少地利用已有的成见,而是让语料数据说话,这种研究被称为语料库驱使的研究(corpus-driven study)。无论采用哪种分析方法,这一范式的特点是研究需要依靠语料库技术进行。例如,Lee&Swales(2006)的研究表明采用语料库“中心词索引”技巧是可以检验语类-修辞与词汇-语法问题。不仅如此,采用语料库分析方法还可以防止语步分析过程中的主观随意性问题以及分析缺乏语言学理论基础等问题。此外Ooi(2001:168-183)对比分析美国与新加坡两国的网民在互联网上发布交友广告时所使用语言的特征问题。他采用中心词索引的检索软件WordSmith来检测所选文本的词汇分布频率、语法以及词汇搭配情况。研究表明:许多美国人喜欢用attractive,great来描述自己,而新加坡人大都不用此类词汇。从两国网民使用语言的共同点来看,动词短语looking for出现频率最高,通常与表达作者“希望与梦想”的表达方式连在一起,比如someone special,that special woman,a special relationship等等。此外,研究还显示,交友广告语篇大都具有语言简洁、口语化、多使用缩略语的特征。例如:

SWF,attractive,young 40,seeks cool,off-beat guy 30 -45 who likes film,literature,music,outdoors.

Secure and laid back.(Paltridge 2006:174)

3.3 量的研究

语料库的实际价值体现在:通过大规模的自动分析,获取语言实际使用中的定量信息,依据语料库所反映出来的语言事实对现行语言学理论进行批判,提出新的观点或理论。比如说,频率分析信息可以引导出使用规则或语法模式,运用在语篇合成、机器翻译、信息激活、自动文本概括等方面,这种研究被称为语料库引导的研究(corpus-induced study)。该研究范式现在被纳入“自然语言处理”(Natural Language Process,NLC)或者计算机语言学的范畴内。Flowerdew(2008)采用基于语料库和语言类型(genre-based)的研究方法分析由60篇环境报告、约225,000词汇构成的语料库。该研究首先描述语篇层面的编码系统,为语篇类型的语步分析提供概念支持,并描述文本的3个层面:宏观结构、语篇类型结构以及文本模式。进而采用关键词检索技术对整个语料库和每个文本进行分析。检索发现这类文本的语言类型特征为“问题-解决问题 (Problem-Solution)”修辞模式。该研究表明可以对语料库进行语篇层面的以及语篇类型层面的分析。

4 语料库语篇分析模式的特征

纵观现有的研究,语料库语篇分析模式的特征主要体现在以下诸方面:

第一,研究范围进一步扩大,检索效率更高。如今随着语料库技术的发展,语料库的规模不断扩大:Bank of English收录了约 4.5亿词汇,British National Corpus(BNC)收录了大约1亿词汇。这些大规模的语料库能够对日常语言使用的词汇-语法模式提供有效的、可信的信息资源。这些现存的语料库可以直接、便捷地进入我们的研究视野,更多的研究者有机会接触这些现有的语料库进行分析。现存的大型语料库从语篇类型(genre)上看多为普通型的语料库,随着研究者研究范围的扩大,特定的语篇类型逐渐进入研究者的视野,比如超市购物单、明信片、课堂语篇、天气预报、宣传海报以及商业语篇(Koller 2004),日常大众语篇(Carter& McCarthy 2004),媒体语篇(Page 2003),网络交互时代的网上征友广告、手机短信(Bax 2011)等等。越来越多的研究人员开始对各类型的语篇模式进行分析,这必将提高我们对语篇模式的整体认识水平。

第二,以量的、实证性研究为基础,研究结果更为系统科学。建立在以实证性、量的研究基础上的语篇分析模式可以让语篇研究者更好地观察“词汇-语法”模式的应用,使结论更具说服力,从而克服原来靠人工统计方法,凭研究者直觉得出结论的片面性与局限性。此外,依靠计算机软件,比如WordSmith、Concordance等能够对其中的关键词进行检索,从而得出某一特定语篇的语篇模式。其次,在语料库技术方面,现在的编码与分析更为科学,例如AntMover软件可以对一个大的语篇进行自动语步分析,对一个文本文件中的每一个句子进行修辞或结构上的赋值,这样可以节省大量的人力工作,由此研究者可以把更多的精力转移到对自动分析结果的修订上去。

第三,基于语料库语篇分析的结果有利于发现新的假设。正如Lee(2008:93)所指出,“现有的技术是以庞大的语料库为基础进行语言分析,因为单纯靠人工或凭借研究者的直觉很难有新的发现,大量数据下出现的模式使得分析自动化、半自动化或者呈现互动状态”。有些语言现象单靠直觉是难以发现的,依靠语料库自动检索的关键词或关键域(Key domain),研究者就能发现这种现象出现的规律以及所产生的语篇效果。

5 语料库语篇分析模式的前景展望

语料库语言学证明,语言研究是体验性的,以大量自然发生的语篇为基础。(郑丹杨玉晨2010:68)可以肯定,尽管将来依靠人工进行语篇分析仍然必不可少,但是越来越多的语篇分析会依靠语料库进行。同时,语料库技术的发展也会使其对语言现象的分析超越语言特征层面,对语料库发现的量的特征进行质的、功能性的解释。基于语料库的语篇分析模式在未来的发展中机遇与挑战并存,具体来说:

第一,以语类(genre)为建库标准的语料库亟需加强。语料库开发正在向两头快速发展和延伸:一是通用型的、基于网络的超大型语料库开发;二是个性化、专门化、行业化的小型语料库开发。(桂诗春等2010:424-425)从语料来源上看,语料库分为普通语料库(general corpus)与专业语料库(specialized)两种。普通语料库容量大,语料来源丰富。该语料库适合观察语言的一般特征,能够从整体上发现语言使用的特点,比如出现频率、中心词索引等,但难以发现特定语类的语篇特征。专业语料库,比如新闻社论、学术语篇、学术讲座等,可以研究日常谈话中的模糊限制语(hedges)、情态动词的用法特征等具体问题。现在绝大多数的语料库中各种语篇类型混合在一起,难以进行针对某一特定语篇类型的研究。这就要求我们在建立语料库时从开始就要进行语篇类型的分类,或者按语篇类型建立特定用途的语料库,方便研究人员进行量的研究与观察。此外,目前基于语料库的语篇分析多侧重词汇-语法层面的研究,而对语篇的功能与修辞层面的研究还需加强(Upton&Connor 2001)。

第二,多模态语料库(Multi-modal corpus)的创建需要提上日程。随着多媒体、网络技术的革新与发展,未来集音、像等多媒体手段的多模态语料库会越来越多。现有的语料库中包含音像资料的极少,即使个别包括音像的语料库,处于隐私、版权的考虑能够为大多数研究者所使用的更是少之又少。在建立多模态语料库时要充分考虑讲话人的年龄、身份、性别、当时的语境、非语言因素等信息,这些信息如何呈现在语料库中的确是语料库建设中应该予以重视的问题。总之,与普通语料库相比而言,多模态语料库的资料收集难度大,储存与分析过程更加费时耗力,“该模式的语料库建设仍处于刚刚起步阶段”。(Ruhlemann 2007:13)与之相对应,电子语篇语料库的分析将会进入研究视野,这包括电子邮件、公告栏、聊天室语篇(Net speech)、论坛、手机短信等,也就是所谓的EMC(Electronic Media Communication)与DMC(Digital Media Communication)信息资源。(Crystal 2006)这必将是今后语料库资源的重要组成部分之一,对于该类型语篇的分析将会成为语篇分析新的学术生长点之一。

第三,语料库中语篇分析单元需要进一步明晰。语料库语篇分析模式的重要问题之一是确定分析的单元基础,也就是语篇单元(Discourse Unit)。此前的大多数语料库语篇分析的切分单位是文本,比如一本著作、一篇论文或者一条新闻报道。然而,由于交际任务、目标的不同,一个文本内会有很多的变异现象,有时,文本的内在话题或任务单元很容易被识别,而有时,口语文本中这些单元的识别就较为困难。因此,对大的语料库进行语篇分析时,明确语篇单元就非常必要,需要进一步发展语料库技术,提供更为有效的科学可行途径,只有这样,语料库技术下的语篇分析才能真正实现大规模、高效率的分析,其研究结果也更为可信。

6 结束语

语料库可以提供真实的、鲜活的语料。(吴军2010:105)语料库收集了大量现实生活中自然发生的真实语言材料,体现出语言的时代性与动态性。当初语料库的设计研究人员认为基于语料库的语言学研究仅限于词汇层面,难以超越小句进入语篇层面,如今,随着学科发展逐渐成熟,在语料库语言学中很多研究已经涉及到了语篇层面的问题。诸多研究表明,如果不采用语料库语言学的方法,一些搭配模式、变量的交互问题就很难探讨清楚。当然,为了让语篇分析有更多的语境知识,针对语料库语篇分析所反应出的不足与局限,可以采用访谈(interview)、语篇类型使用者的特定小组讨论等形式帮助确立语境,以更好地体现语篇的语境因素。同时,把与语料库相关的一些元语言信息也纳入到分析中来。总之,基于语料库的语篇分析模式为语篇分析研究提供了一条新的研究思路,有着较为明显的实用价值,但是其具体应用效果还有待于进一步做大规模的研究。

桂诗春等.语料库语言学与中国外语教学[J].现代外语,2010(4).

吴 军.语料库与英语语法教学[J].外语学刊,2010(1).

郑 丹杨玉晨.论词汇与语法的一体性——语料库语言研究给予的启示[J].外语学刊,2010(5).

Adel,A.& R.Reppen.The Challenges of Different Settings:An Overview[A].In A.Adel& R.Reppen.(eds.).Corpora and Discourse:The Challenges of Different Settings[C].Amsterdam:John Benjamins,2008.

Bax,S.Discourse and Genre:Analysis Language in Context[M].New York:Palgrave Macmillan,2011.

Bhatia,K.Corpus-based Discourse Analysis[A].In K.Bhatia,J.Flowerdew & H.Jones.(eds.).Advances in Discourse Studies[C].Abingdon:Routledge Press,2008.

Biber,D,S.Conrad& R.Reppen.Corpus Linguistics:Investigating Structure and Use[M].Cambridge:Cambridge University Press,1998.

Baker,P.Using Corpora in Discourse Analysis[M].London:Continuum,2006.

Baker,P.& T.McEnery.A Corpus-based Approach to Discourses of Refugees and Asylum Seekers in UN and Newspaper Texts[J].Language and Politics,2005(4).

Carter,R.& M.McCarthy.Talking,Creating:Interactional language,Creativity,and Context[J].Applied Linguistics,2004(1).

David,C.Language and the Internet[M].Cambridge:Cambridge University Press,2006.

Flowerdew,L.Determining Discourse-based Moves in Professional Reports[A].In A.Adel& Reppen,R.(eds.).Corpora and Discourse:The Challenges of Different Settings[C]. Amsterdam:John Benjamins,2008.

Hardt-Mautner,G.Only connect:Critical Discourse Analysis and Corpus Linguistics,Unit for Computer Research on the English Language[D].Lancaster:Lancaster University,1995.

Hyland,K.Graduates’Gratitude:The Generic Structure of Dissertation Acknowledgements[J].English for Specific Purposes,2004(3).

Koller,V.Metaphor and Gender in Business Media Discourse:A Critical Cognitive Study[J].Journal of Sociolinguistics,2004(8).

Lee,D.& J.Swales.A Corpus-Based EAP Course for NNS Doctoral Students:Moving from Available Specialized Corpora to Self-Compiled Corpora[J].English for Specific Purposes,2006(1).

Lee,D.Corpora and Discourse Analysis:New Ways of Doing Old Things[A].In K.Bhatia,J.Flowerdew & R.Jones.(eds.).Advances in Discourse Studies[C].Abingdon:Routledge Press,2008.

Leech,G.Grammar of Spoken English:New Outcomes of Corpus-oriented Research[J]. Language Learning,2000(4).

McEnery,T.& A.Wilson.Corpus Linguistics[M].Edinburgh:Edinburgh University Press,2001.

Mukherjee,J.The State of the Art in Corpus Linguistics:Three Book-length Perspectives[J].English Language and Linguistics,2004(8).

O’Keeffe,A.& F.Farr.Using Language Corpora in Initial Teacher Education:Pedagogic Issues and Practical Applications[J].TESOL Quarterly,2003(3).

Ooi,V.B.Y.Upholding Standards or Passively Observing Language:Corpus Evidence and the Concentric Circles Model[A].In Ooi,V.B.Y.(eds.).Evolving Identities:The English Language in Singapore and Malaysia[C].Singapore:Times Academic Press,2001.

Page,R.Cherie:Lawyer,Wife,Mum:Contradictory Patterns of Representation in Media Reports of Cherie Booth/Blair[J].Discourse and Society,2003(5).

Paltridge,B.Discourse Analysis[M].London:Continuum,2006.

Partington,A.Corpora and Discourse,A Most Congruous Beast[A].In A.Partington & J.Morley.(eds.).Corpora and Discourse[C].Frankfurt:Peter Lang,2004.

Ruhlemann,C.Conversation in Context:A Corpus-driven Approach[M].London:Continuum,2007.

Swales,J.M.Integrated and Fragmented Worlds:EAP Materials and Corpus Linguistics[A].In J.Flowerdew.(eds.).Academic Discourse[C].London:Longman,2002.

Swales,J.M.Research Genres:Explorations and Applications[M].Cambridge:Cambridge University Press,2004.

Tribble,C.Corpora and Corpus Analysis:New Windows on Academic Writing[A].In J.Flowerdew.(eds.).Academic Discourse[C].London:Longman,2002.

Upton,T.& U.Connor.Using Computerized Corpus Analysis to Investigate the Textlinguistic Discourse Moves of a Genre[J].English for Specific Purposes,2001(4).

猜你喜欢
语言学语料库语篇
新闻语篇中被动化的认知话语分析
体认社会语言学刍议
《复制性研究在应用语言学中的实践》评介
《语料库翻译文体学》评介
认知语言学与对外汉语教学
基于COCA语料库的近义词辨析 ——以choose和select为例
基于JAVAEE的维吾尔中介语语料库开发与实现
从语篇构建与回指解决看语篇话题
语篇特征探析
社会语言学名词