语料库语言学在语域研究中的应用

2009-08-21 07:35
文教资料 2009年16期
关键词:语域词表体育赛事

陈 玮

摘要:随着计算机和网络技术的发展,语料库语言学成为新的研究领域。本文从语域语言的研究入手,以体育语域为例,研制体育语域语料库,利用语料库进行定性和定量的分析,通过词汇统计和词频分级,探讨体育语言的特点,并提取专用词汇,制成词表,以此为基础进行更深层次的研究。而研究的成果则可以应用于语言教学、词典编撰等领域,也为机器翻译提供了一定的参考。

关键词:语料库语言学语域研究应用

语料库(corpus或corpora,corpuses(复))是指按照一定的语言学原则,运用随机抽样的方法,收集自然出现的连续语言运用文本或话语片段而建成的具有一定容量的大型电子文本库。语料库语言学就是在文本语料的基础上进行语言研究的一门学科。语料库是作为信息载体的大量语言资料的集合。以语料库为手段研究语言的主要目的是描写和解释语言中的词汇和句法的各种问题,以及处理自然语言的各种课题。语言研究者可以根据研究课题的要求,使用“标注”手段(即给语料的词汇和其它形式加上识别和分类标记)和检索工具,分析语料库中的语料,对语言现象进行定量和定性的分析。

一、语料库语言学研究的现状

语料库方法应用于特殊用途英语的研究在国外已具规模。英国学者运用以语料库和计算机技术为基础的多维度分析法(multi-dimensional analysis)调查了生物学论文与历史学论文两种特殊用途英语的语言特征。(B1bin,Conrad,Reppen,《语料库语言学》(Corpus Linguisttcs),2000目前已建成了几个较大的语料库,如SEU语料库、布朗语料库、LOB语料库等。其中LOB语料库不仅进行了词性的标注,而且进行了句法标注。在国内,利用语料库研究汉语也得到了一批学者的支持。从20世纪70年代末开始,我国陆续建成了一批大规模的用于汉语计量分析研究的语料库,如北京语言文化大学建立的汉语词频统计语料库、台湾中央研究院平衡语料库、国家语委现代汉语语料库等。20世纪90年代以来语料库语言学快速发展。大规模语料库的建成和对语料库的深加工都反映了这种研究方法的广泛运用,将语料库广泛应用于与语言相关的各个领域逐渐成了现在研究的趋势。

二、语言的分层性及语域性研究

李葆嘉先生(2003)将人的语言分为三个层面:思维方式差异的语层性、应用领域差异的语域性和文本范式差异的语体性。他指出:“尽管言语思维成为现代人的本质,但是精神世界中仍然积淀着早期意识方式的孑遗,言语行为中也同样包含着相应表达方式的层垒。人类思维交际符号演变的连续统积淀在现时言语中并进一步典型化,由此形成言语的层垒包容性或分层性,即语言内部存在确实有别但相互渗透的不同层级。”他将人类语言分为六个语层,由高到低分别为:思辨性语层、艺术性语层、行业性语层、日常性语层、含混性语层、体态性语层,并分析了各个语层的作品形态、主要特征和思维倾向。这是从横向思维方式上的分层级,他继而认为,言语系统还存在纵向应用功能的分领域。这里所说的“语域”是专指社会不同应用领域所造成的“社会方言”,即植根于社会分工的不同专门领域的言语表现。这一语域并非社会语言学意义上的社会方言。(李葆嘉,2003)因此依据社会分工的不同,可以划分出一系列的语域。如日常性语层可以划分为家庭交流语域和社会交往语域。而行业性语层则可以划分为“经济语域(生产性、流通性、服务性和管理性)、公务语域(政务性、政论性)、法律语域、传媒语域(新闻传媒、出版传媒、影视传媒)、教育语域、竞技语域等”。在语域的基础上,他又进一步提出“语体”的概念。这里所说的“语体”“不是通常的泛指性语体或言语的功能变体,而是限定在某一语域基础上所形成的专门性用语、惯用表达式和篇章规范性的文本范式总和,接近于通常所说文体”。简单地讲,“语体就是在某一语域基础上形成的文本范式,其显著特征就是固定体裁”。如体育语域的体育规则、法律语域的法律文书、经济语域的商务文书等都属于语体的范畴。基于语层性、语域性和语体性的三级划分,李葆嘉先生进一步提出了分领域言语研究的具体步骤,提出了建立各个特定语域语料库的构想,并制定了比较详细的技术路线。

比如搜集以体育、商务、法律等为主题的涵盖社会各个方面的真实语料制成语料库,并在此基础上进行一定的语言研究,如词性的标注、词汇的提取和搭配,专用词表的建立,词汇的语义分类及义征分析等,这些研究成果可以广泛应用于语言教学、词典编撰等领域,也为机器翻译提供了一定的参考。下面就以体育语域为例,在运用语料库语言学基础上进行体育赛事语言的研究。

三、体育语域语料库的研制

所谓“语域”,这里“专指社会不同应用领域所造成的‘社会方言,即植根于社会分工的不同专门领域的言语表现”。(李葆嘉,2003)应用于体育领域的言语即“体育语域”,“体育语言”包含于“体育语域”,体育赛事语域是体育语域中的重要部分。本文所指的体育语域的研究包括体育赛事活动各个方面的研究,既包括了体育赛事(竞技)项目,体育竞赛规则中使用的语言,又包括了有关体育赛事活动的信息传播和和对体育活动进行评价的语言。体育语域语料库涵盖了体育赛事活动各个方面的语料的搜集、统计和处理。

体育语域语料库的研制,首先要确定语料库的建设目标、标本的分布原则和采样的途径。这是语料库建设的准备阶段,在这一阶段中,我们需要对体育语域语料库的建设目标和体育赛事活动的基本环节有一个清楚的认识,在此基础上确立语料库的体例、规模及语料采集原则。此次建立的体育竞技语域语料库分为两大部分,共80A万字。分类的主要依据是语料所产生的体育赛事活动的不同环节。第一部分“竞技赛事”和“竞赛规则”,“竞技赛事”语料主要产生于体育竞技的各个项目的定义和分类,“竞赛规则”包括在各个体育竞技项目中所产生的竞赛规则和裁判法。这两个部分都属于“体育赛事”;第二部分“赛事传播”,主要产生于新闻媒体对体育赛事活动和体育信息的报道评论,其中包括少量的解说,即直播评论。

在语料搜集完成后,对于所涉及的文本进行编目,并设计分词和词性标注程序进行机器自动分词和词性标注,再进行人工校对,形成附码语料库。语料库的建设历时一年。最终建成的体育语域语料库包含文件814个,规模为80.4万字

四、体育语域词汇的统计和分析

体育语域语料库的分词校对工作完成之后,要使用词频统计软件对其进行词频统计。由于体育语域语料库涉及体育语域的各个方面,不同的领域使用的词汇有一定的特殊性,因此,将语料分为两大部分,即体育赛事和赛事传播,分别进行统计和研究。

1体育语域词汇的统计

体育语域语料库规模为80.4万字。其中体育赛事运动部分初次统计,包含不同词语16204条,总词次283522;

赛事传播部分初次统计,包含不同词语21239条,总词次245088。经过整理和校改之后,体育赛事部分剩余11883条词语,共计频次222674条。

2体育语域中体育赛事的语言特点及专用词汇的提取

要在体育语域语料库中研究赛事语言的特点,单凭对统计词表的研究是远远不够的,孤立地看待一个专业的语料库,并不能发现它的特点,因此,将其与一个通用语料库统计出来的词汇进行比较是必要的。这里我们只选取体育赛事词表的前200词与通用词表《现代汉语频率词典·表二(2)频率最高的前8000个词词表》(以下简称《表二》)的前200个词进行比较。之所以选择这个词表,是因为其统计的语料具有通用语料库的特点,体现一般交际语言的词汇情况,符合比较的要求。

通过比较结果显示,共有词为一些语法功能词(助词、介引词、限制词等)。除此之外,表示动作的词最多。共有词汇中有8个词是体育赛事200词的前10位,可见体育赛事部分的最高频词语多为日常用语中的常用词,而并不具有明显的体育竞技特色,与日常语域有着一定的共同性。但是我们也必须看到,共同词只占总词数的32%,比例相对较小,体育赛事词汇大部分的词是有别于日常语域的。赛事200词中有136个是现汉200词所没有的,占到总数的68%,这说明体育赛事和日常语域有一定的差异性。

以上比较的规模虽然不大,但已经充分显示出两表在词汇上存在较大的差别,体育赛事部分的语料中含有大量的体育竞技专用词汇,造成这种差别的原因是它们所属的语域不同。体育赛事200词属于体育赛事语域,因此词汇必然体现体育赛事的竞技特点。而《表二》统计的语料属于交际语域,语料涉及报刊政论文章及专著、科普书刊、剧本和日常用语、各类体裁的文学作品等四类。它们比较结果的不同,恰好证明了语域不同所带来的词汇的差异,以及各自表现出的不同特点,反映出语域的独特模式和规则。

五、体育赛事词汇的其他研究

在前200词比较的基础上,我们提取了体育赛事的专用词汇。下面我们可以运用同样的方法,扩大研究的范围,将所有体育赛事语料中的体育赛事专用词汇提取出来,制成词表。提取出来的词表将为体育教学、体育语言词典编撰和体育语言学的建立提供参考。

同时,我们还可以对体育赛事专用词汇进行语义分类和义征分析。比如从体育赛事专用词汇的语义出发,我们可以将其分类,如组织、场地、项目等。每个大类下面,根据不同的意义,又分成了不同的小类。比如体育赛事的组织,下面又可以分为不同的义类。在语料库的基础上,我们可以继续探究体育语域的语义网络的关系。

这种研究的方法还可以推广到其他的特定语域中。随着研究的深入,可以发现词汇间隐藏的语义联系,从而有利于建构不同的语义场体系,探寻一个完整的语义系统。

参考文献:

[1]Biber等.CorpusLinguistics[M].外语教学与研究出版社.剑桥大学出版社,2000.

[2]北京语言学院语言教学研究所.现代汉语频率词典[M].北京语言学院出版社,1986.

[3]陈安槐等.体育大辞典[M].上海辞书出版社,2000.

[4]段慧明等.大规模汉语标注语料库的制作与使用[J].语言文字应用,2002,(2).

[5]董振东,董强.面向信息处理的词汇语义研究中的若干问题[J].语言文字应用,2001,(3).

[6]黄昌宁,李涓子.语料库语言学[M].商务印书馆,2002.

[7]李葆嘉.论言语的语层性、语域性和语体性[J].语文研究,2003,(1).

[8]卫乃兴等.语料库应用研究[M].上海外语教育出版社.2005.

猜你喜欢
语域词表体育赛事
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奥会项目名称汉英对照词表
2022年冬奥会对中国体育赛事转播的影响
叙词表与其他词表的互操作标准
体育赛事品牌化发展研究
意义隐喻与语域的关系——基于自建英语新闻语料库的研究
畅聊体育赛事
国外叙词表的应用与发展趋势探讨*
常用联绵词表
语域语块与外贸英语教学
构式视角下“X+N役事”致使复合词的类推及其语域特定化