语言学语域的学术词汇表与术语词汇表

2022-04-02 12:37刘宇红殷铭
中国科技术语 2022年2期

刘宇红 殷铭

摘 要:通过对56万余字的语言学语料用AntConc 3.5.8等软件进行统计,创建了包括469个词的语言学学术词汇表(Linguistic Academic Word List,LAWL)和包括338个词的语言学术语词汇表(Linguistic Terminological Word List,LTWL)。LAWL是排除了通用词汇表(GSL)和通用学术词汇表(AWL)之后的专门学科词汇。LTWL不必排除通用词汇表和通用学术词汇表,所以除了与LAWL有265个词交叉之外,还包括GSL和AWL的73个词。

关键词:通用词汇表;通用学术词汇表;语言学学术词汇表;语言学术语词汇表

中图分类号:H083;H08  文献标识码:A  DOI:10.12339/j.issn.1673-8578.2022.02.007

Abstract: By using a linguistic corpus of over 560 thousand words which is processed by softwares including AntConc 3.5.8, we constructed a 469-word Linguistic Academic Word List (LAWL) and a 338-word Linguistic Terminological Word List (LTWL). LAWL, constructed by excluding General Service List (GSL) and Academic Word List (AWL), is discipline-specific and overlaps substantially with LTWL. LTWL does not have to exclude GSL or AWL and thus consequently comprises 73 words coming from GSL and AWL besides 265 words shared with LAWL.

Keywords: General Service List (GSL); Academic Word List (AWL); Linguistic Academic Word List (LAWL);Linguistic Terminological Word List (LTWL)

收稿日期:2021-08-07  修回日期:2021-09-11

基金项目:国家社会科学基金一般项目“语言学语域的释义元语言研究”(19BYY003)阶段性成果

词汇组合成句子并最终构成文本,所以词汇是文本的基本要素。通用文本、通用学术文本和专门学科学术文本,都有一批在各自领域使用频率更高的词汇,如果把它们归纳为有边界的词汇集,就可以构成通用词汇表、通用学术词汇表和专门学科学术词汇表。专门学科学术词汇表的大部分词汇同时属于专门学科术语词汇表,即两者有较大的交叉部分;专门学科术语词汇表除了与学术词汇表有较大交叉之外,还包含部分通用词汇和通用学术词汇。

通用词汇表和通用学术词汇表,由于研究内容相对封闭,所以已经有了较充分的研究。相反,專门学科的学术词汇表和术语词汇表,由于所涉及的学科门类众多,远未充分研究,所以本文拟在这一领域展开研究,研制出适度规模的语言学学术词汇表(Linguistic Academic Word List, LAWL)和语言学术语词汇表(Linguistic Terminological Word List, LTWL)。

本文将学术词汇表与术语词汇表研究拓展到语言学领域,对于了解语言学的知识基因图谱,解释英汉语言学的知识体系差异具有重要意义。在实用层面,本文的研究可以用于改进语言学教材和语言学词典,规范和优化教材与词典的释义用词和释义句型,降低教材难度,增加课堂讲解的用词规范和句型多样性、准确性。

另外,学术词汇表与术语词汇表的研制在学科定位上属于语言学研究,语言学学科在自己学科领域率先开展本学科的元语言研究,对于引领其他学科的类似研究不仅有方法论上的借鉴意义,而且在实践领域的具体操作上也可以为其他学科提供指引[1-2]。本文的研究在语料上选用的是英文语料,但是对于其他学科语际借用的隔阂较小,因为学术词汇表与术语词汇表属于概念层面,受特定语种的影响较小,而且科学无国界说的也是这个道理。

1 词汇表的研制历史

词汇表的研制历史,我们分四类来评述,即按照通用词汇表、通用学术词汇表、专门学科学术词汇表和专门学科术语词汇表的顺序来说。

1.1 通用词汇表

通用词汇表主要用于词典释义和教材编写。最早的通用词汇表是1928年Ogden开列的850个“基础英语”词汇,用于词典释义,1932年出版的《基础英语词典》[3]全部用这850个词汇来解释20 000个英语词汇。West[4]编制了2000个英语词汇的“通用词汇表”(General Service List,GSL),是一个被广泛应用的通用词汇表,《朗文当代英语词典》[5]就是采用这2000个基础词汇来解释了5.6万个词条。英语以外的语言也致力于研制通用词汇表。比如,法国学者Gougenheim[6]研制了包括1475个法语词汇的通用词汇表,《基础法语》课本没有超出这些词汇。

国内的通用词汇表研究始于张津和黄昌宁[7]的《从单语词典中获取定义原语方法的研究及现代汉语定义原语的获取》,是汉语通用词汇研究的第一篇文献。后来,安华林[8-9]、苏新春[10-11]等学者在通用词汇表研制方面取得了更大的成就,他们研制的通用词汇表数量都在3000左右。gzslib202204031249

1.2 通用学术词汇表

通用学术词汇表是词汇表研制的第二个阶段。二战结束后学术迅猛发展,学术文本的数量也空前增加,研制出基于学术英语(English for Academic Purposes, EAP)的通用学术词汇表成为当时的急切任务。从20世纪70年代开始,不同版本的通用学术词汇表相继问世,美国大学词汇表(American University List, AUL)[12]、大学词汇表(University Word List, UWL)[13]、学术词汇表(Academic Word List, AWL)[14]、学术词汇库(Academic Vocabulary List, AVL)[15]等都是通用学术词汇研究的重要成果。在这些词汇表中,以Coxhead[14]的AWL影响最大,自问世以来一直是英语教育领域主要的词汇参照表[15]。

国内的通用学术词汇研究成果不多,检索可见程齐凯等[16]的《领域无关学术文献词汇功能标准化数据集构建及分析》,所谓的“领域无关”是指“通用学术领域”,但是几位作者并没有致力于通用学术领域的词汇表制作。

1.3 专门学科学术词汇表

专门学科领域的学术词汇表研制,大多以通用学术词汇表为基础。比如,有学者[17]把AWL应用于应用语言学著作,或者应用于应用语言学的研究性论文[18-19],或中学的理科课本和大学英语课本[20-23],或医药与农业领域的研究性论文[24-25],他们的研究检验了AWL在各自领域的词汇覆盖率:在高年级的专业课本中占2.1%;在中学的理科课本中占5.98%;在农业领域的研究性论文中占9.06%;在医学领域的研究性论文中占10.7%;在应用语言学文本中占13.1%[17],或11.7%[19],或11.96%[18]。但是,上述学者都没有着力于研制各自领域的专门学科学术词汇表。

至于国内的专门学科学术词汇表的研制,知网项目负责人董振东等人[26]认为知网(Hownet)只关注“通用的知识”,“专门领域的知识只能留待专门领域的专家来研究和建设”,所以只关注通用词汇和通用学术词汇的归纳与应用,专门学科的学术词汇不在他们的关注之列。王世杰等[27]自建小型的中医英语语料库,总结了1000词的高频英译词汇,这是专门学科学术词汇表研制的有益尝试,对于中医领域的英汉翻译有一定的指导意义,但它不是中医领域的专门学科学术词汇表。

1.4 专门学科术语词汇表

专门学科的术语词汇表(glossary)与学术词汇表紧密关联,术语词汇表的大部分词汇同时属于学术词汇表,但是前者也包括部分的通用词汇和通用学术词汇,所以对于特定学科来说,术语词汇表与学术词汇表必须分开来研制。

在术语词汇表研制方面,国外学者偏重于分析术语的重要性和提炼方法,比如Heatley等 [28]对术语词汇表的重要性进行了专题研究,认为术语词汇表是制定科学标准、明确科学规范、描述科学方法的前提,Augenstein等[29]、Frantzi等[30]和Astrakhantsev[31]对术语表研制的语料方法、语境方法和语料对比方法等分别进行了探讨。

在国内,朱伟华[32]、郑述谱[33]、黄忠廉[34]和冯志伟[35]等对术语表的制订原则和方法进行了探讨。但是在实践层面,各学科的术语词汇表往往只是举例性的术语罗列,或者是在教材附录中把正文中出现过的术语做一种简单的再现,没有对一个整体学科的术语进行穷尽性的语料提炼和研制方法的总结。

从上面的回顾可以看出,专门学科的学术词汇表和术语词汇表的研制是国内外同行没有足够关注的领域,更没有建立起相对完整的专门学科学术词汇表和术语词汇表。所以,本文以语言学语域的学术词汇表和术语词汇表作为研究对象,既要探讨两种词汇表的研制方法与研制过程,也要提炼出相对完备的学术词汇表和术语词汇表,还可以弥补语言学作为词汇研究的学科母体在两类词汇表研制方面的缺陷。

2 学术词汇表和术语词汇表的研制过程

2.1 研究工具和研究方法的优势

我们使用的语料库检索软件是AntConc 3.5.8[36],它由日本早稻田大学的Laurence Anthony教授于2002年研制,具有词语检索、词频统计和词表生成等功能。

AntConc 3.5.8在词频统计和词汇表生成方面具有明显的优势,下面分别予以介绍。

先看在词频统计方面的优势。学习任何一门语言,不管是母语还是外语,掌握关键词汇都极为重要。在语料库产生之前,判断词汇的重要性主要依靠教师的经验和直觉。但是,任何一个语言使用者,他在词频、搭配等方面的经验和直觉都是不怎么可靠的[37],把英语作为外语来学习,中国英语教师和英语学习者更是如此。经过多年的研究, Nation[38]发现,有一小部分高频词,它们在口语和书面语材料中都占有很大比例,它们出现在语言运用的各個领域。因此,这些高频词往往是教学和学习的重点。所以,借助 AntConc的词条分析,可以非常有效地找出高频词,比如张四红等[39]运用AntConc的统计发现,在《大学英语》共6本书的课文文本中,虽然有110 974个形符(tokens),但是在去除汉语以后,不同的单词,即类符(types),只有10 841个,其中相当一部分单词只出现了1次,出现5次以上的只有2726个,这也验证了 Kennedy[40]96的研究成果的正确性,即英语中有 2000~3000 个高频词覆盖了各种文体的90%。

再看生成词表(Wordlist)方面AntConc的功能。生成词表功能对教学大纲的制定、课本内容的编排起着非常重要的作用。AntConc对比不同的语料库、不同文本即不同的语言群体的词汇使用状况提供可靠的语料依据。AntConc不但可以生成单独的词汇列表,还可以生成词块(cluster)列表。而且,由于计算机只能切分统计词块的频率,在此基础上还需要进行后期的语义分析,去除词块表中没有意义的部分。王春艳[41]的研究表明,把AntConc基于语料库 Brown生成的词表和 WordSmith的词表进行对比,两个词表前1000个中有 959个重叠词。把 959个重叠词在 Brown中出现的频次进行统计计算,两者相关值为 0.977, 结果表明两者在 0.01的水平上呈现显著相关。可见,AntConc在词汇表制作方面具有明显的优势。gzslib202204031249

2.2 语料准备与处理

为了研制语言学语域的学术词汇表和术语词汇表,我们设计了一个自建语料库,包括四本语言学著作:①Bussmann[42]的Routledge Dictionary of Language and Linguistics;②Kracht[43]的Introduction to Linguistics;③Saussure[44]的Course in General Linguistics;④胡壮麟[45]的《语言学教程》(第5版)。

我们首先将四本语言学著作进行扫描、文本转换和人工校对后制作成语言学学术语料库(Linguistic Academic Corpus, LAC)。通过AntConc的wordlist功能得到一个基于LAC的词频表,形符(token)数为567 327词,类符(type)为23 880个单词①。为了方便,我们把它们分别称为LWL-567327和LWL-23880,其中LWL是语言学学术词汇表(Linguistic Word List)的缩写。所有单词均标记频率、基本词形和词族情况,如表1。

在表1中,词汇(lemma)linguistic是基本形式,它有两种变体形式,一种是它自身,频次是1620,另一种是linguistics,频次是1315,两种变体形式的频次之和是linguistic的总频次,即2935次。

2.3 语言学学术词汇表(LAWL)的研制

语言学语域的学术词汇表(LAWL)必须排除通用词汇和通用学术词汇,我们选择了通用词汇表GSL(2284词)[4]和学术词汇AWL(570词)[14]作为停止词表(stop list),即可以把不符合要求的词汇加以排除的过滤词表。由于要归纳的是LAWL,所以针对日常文本的通用词汇表和针对科普类的跨学科领域的通用学术词汇是可以排除的“停止词”。

具体的操作方法是,将LWL-23880和词频数据导入excel文本,利用公式查找重复词汇,通过与GSL(2284词) [4]和AWL(570词)[14]进行对比,把两个词库作为停止词表进行共现过滤,发现在GSL和AWL中有2556个词汇出现在LWL-23880中,所以它们是被过滤词汇。我们选择词频最高的10个被过滤词汇作为例子,见表2。

在LWL-23880中淘汰2556个共现词之后,词汇数量仍然非常庞大(具体数量是21 324),所以必须进行二次淘汰。为了提高二次淘汰的效率,同时控制潜在学术词汇表和术语词汇表的规模,我们把词频边界确定为40,即只把词频高于或等于40的词汇保留下来成为潜在的学术词汇和术语词汇,被选中的词是838个,只占21 324个词的约3.92%。

我们确定词频边界的依据是:在56万余个形符(token)的语料中,把词频确定为40次,词频比例是十万分之七,我们认为这个比例可以遴选出比较充分和比较全面的学术词汇与术语词汇。

观察838个词,我们发现了较多的非词汇符号(如单一字母l、v、w、b等)、缩略词(如ed、vol等)、专有名词(如cambridge、 chomsky、john等),对其进行人工剔除,剩下的 469个词形成语言学语域的高频学术词汇表,即排除了通用词汇(GSL)、通用学术词汇(AWL)和各种伪词与专名之后的词表,在此暂不举例,文末附录1(204个)和附录2(265个)进行了部分呈现。

2.4 语言学术语词汇表(LTWL)的研制

上面说到,469个词分为两類,附录1是学术词汇表的一部分(204个),附录2是学术词汇表的另一部分(265个),同时也是语言学语域术语词汇表的一部分,但它并不是术语词汇表的全部,还有一部分术语词汇被GSL和AWL所构成的停止词表过滤了,为了体现语言学术语词汇表的完整性,我们在GSL和AWL中又找回了73个被过滤的术语词,见附录3,其中51个属于GSL,22个属于AWL。所以,语言学的术语词汇表是附录2的265个加上附录3的73个,总数为338个。

学术词汇表与术语词汇表的比较,可以表示为图1。图1中有两个圆,它们的交叉部分是学术词汇表和术语词汇表的共现部分,即附录2的265个词。大圆表示语言学语域的学术词汇(LAWL),总数是204+265,表示为附录1和附录2;小圆是语言学语域的术语词汇表(LTWL),总数是265+73,表示为附录2和附录3。

3 结语

语言学语域的学术词汇表和术语词汇表,是在通用词汇表、通用学术词汇表、专门学科学术词汇表和术语词汇表这四种词汇表先后出现的背景下在语言学语域的深化研究,不仅是对一个完整学科学术词汇表(包含469个词)的尝试性归纳,也总结了一个完整学科的术语词汇表(包含338个词),这种研究不仅是词汇表研制在语言学语域的新尝试,也弥补了语言学在学术词汇表和术语词汇表研制上的空缺。

注:本文3个完整附录见本刊网站:http://www.term.org.cn/CN/news/news235.shtml。

注释

① 在我们此前对同一批语料进行统计时,通过Collocate 1.0检索出来的LAC的形符数(token)为568 138词,类符数(type)为27 828词,与本研究中运用AntConc软件的统计结果存在一定出入,这是不同软件的分词(parse)与统计机制不同导致的,数据的出入对于最终结论的形成不造成太大影响。

② 该词表没有排除一词多义现象,这里的germans以及下一页的latins、greeks等词超越了单数形式的意义,但为了保持选词标准的一致性,我们没有排除这些复数形式。

参考文献

[1]刘宇红. 术语表研制的四个步骤[J]. 中国科技术语, 2021,23(2):11-19.gzslib202204031250

[2]刘宇红. 语言学语域的释义元语言研究[J]. 浙江外国语学院学报, 2010(2):25-32.

[3]WEBSTER M. Dictionary of Basic English[M]. Merriam Webster Inc,1932.

[4]WEST M. A general service list of English words[M]. London: Longman, Green & Co,1953.

[5]Longman Dictionary of Contemporary English[M]. Oxford University Press,1978.

[6]GOUGENHEIM G. Le franais élémentaire. étude sur une langue de base[J]. International Review of Education, 1955, 1(4):401-412.

[7]張津,黄昌宁.从单语词典中获取定义原语方法的研究及现代汉语定义原语的获取[R]. 提交给国家自然科学基金的研究报告,1996.

[8]安华林. 现代汉语释义基元词研究[M]. 北京:中国社会科学出版社,2005.

[9]安华林.汉语释义元语言理论与应用研究[M].上海:学林出版社,2009.

[10]苏新春. 元语言研究的三种理解及释义型元语言研究评述[J]. 江西师范大学学报(哲学社会科学版), 2003, 36(6):93-102.

[11]苏新春. 汉语释义元语言研究[M].上海:上海教育出版社. 2005.

[12]PRANINSKAS J. American University word list[M]. London: Longman,1972.

[13]XUE G,NATION I S P. A university word list[J]. Language Learning and Communication,1984, 3:215-229.

[14]COXHEAD A. A new academic word list[J]. TESOL Quart 2000, 34(2):213-238.

[15]GARDNER D,DAVIES M. A new academic vocabulary list[J]. Applied Linguistics,2013, 35: 1-24.

[16]程齐凯,李信,陆伟. 领域无关学术文献词汇功能标准化数据集构建及分析[J]. 情报科学, 2019,37(7): 41-47.

[17]CHUNG T M,NATION I S P. Technical vocabulary in specialized texts[J]. Read Foreign Lang (online), 2003, 15(2):103-116.

[18]KHANI R,TAZIK K. Towards the development of an academic word list for applied linguistics research articles[J]. RELC Journal, 2013, 44(2):209-232.

[19]VONGPUMIVITCH V,HUANG J,CHANG Y. Frequency analysis of the words in the Academic Word List (AWL) and non-AWL content words in applied linguistic research papers[J].English for Specific Purposes,2009,28(1):33-41.

[20]HSU W. College English textbooks for general purposes: a corpus-based analysis of lexical coverage. Electronic Journal of Foreign Language Teaching,2009,6(1):42-62.

[21]GREENE J. Academic vocabulary and formulaic language in middle school content area textbooks[D]. Unpublished doctoral dissertation. Atlanta: Georgia State University,2008.

[22]MATSUOKA W,HIRSH D. Vocabulary learning through reading: Does an ELT course book provide good opportunities?[J]. Read Foreign Language (online). 2010, 22(1): 56-70.

[23]MILLER D. ESL reading textbooks vs. university textbooks: Are we giving our students the input they may need?[J]. Journal of English for Academic Purposes. 2011, 10(1):32-46.

[24]CHEN Q, GE G C. A corpus-based lexical study on frequency and distribution of Coxheads AWL word families in medical research articles (RAs)[J]. English for Specific Purposes, 2007, 26(4):502-514.gzslib202204031250

[25]MARTNEZ I A,BECK S C,PANZA C B. Academic vocabulary in agriculture research articles: A corpus-based study[J]. English for Specific Purposes, 2009, 28(3):183-198.

[26]董振东, 董强, 郝长伶. 知网的理论发现[J]. 中文信息学报, 2007, 21(4):3-9.

[27]王世杰, 赵玉华, 武永胜,等. 基于语料库的医学英语基础词汇遴选及其教学[J]. 甘肃中医药大学学报, 2019, 29(3):86-91.

[28]HEATLEY A, NATION I S P,COXHEAD A. RANGE and FREQUENCY[CP]. https://www.victoria.ac.nz/lals/about/staff/paul-nation,2002.

[29]AUGENSTEIN I, MAYNARD D, CIRAVEGNA F. Relation Extraction from the Web Using Distant Supervision[J]. EKAW,2014, 8876: 26-41.

[30]FRANTZI K, ANANIADOU S,MIMA H. Automatic recognition of multi-word terms: the c-value/nc-value method [J]. International Journal on Digital Libraries,2000, 3(2): 115-130.

[31]ASTRAKHANTSEV N. ATR4S: Toolkit with State-of-the-art Automatic Terms Recognition Methods in Scala[J]. Language Resources & Evaluation, 2016(4):1-20.

[32]朱伟华. 谈谈术语的特性[J]. 外语教学与研究,1987(2):49-51.

[33]郑述谱.俄罗斯当代术语学[M]. 北京:商务印书馆,2005.

[34]黄忠廉. 我国外语界术语学研究综述[J]. 辞书研究, 2010(2):100-110.

[35]冯志伟. 语言学中一个不容忽视的学科: 术语学[J]. 山东外语教学,2012(6):31-39.

[36]ANTHONY L. AntConc (Version 3.5.8) [CP]. Tokyo: Waseda University, https://www.laurenceanthony.net/software,2019.

[37]HUNSTON S. Corpora in Applied Linguistics[J]. Journal of English Language Teaching, 2003, 57(4): 416-420.

[38]NATION I. Learning Vocabulary in Another Language[J]. Klett, 2001, 56(1):91-93.

[39]张四红, 江莉, 程玲,等. 基于AntConc的英语词汇教学研究:以《大学英语(精读)》课文文本为例[J]. 长江大学学报(社会科学版), 2011, 34(12):93-96.

[40]KENNEDY G. An Introduction to Corpus Linguistics[M]. Longman, 1998.

[41]王春艳. 免费绿色软件AntConc在外语教学和研究中的应用[J]. 外语电化教学, 2009(1): 45-48.

[42]BUSSMANN H. Routledge Dictionary of Language and Linguistics[M]. 北京:外语教学与研究出版社,2000.

[43]KRACHT M. Introduction to Linguistics[J/OL].(2008). https://www.pdfdrive.com/introduction-to-linguistics-e5989391.html.

[44]SAUSSURE F. Course in general linguistics[M]. Translated and annotated by HARRIS R. London: Duckworth,1916/1983.

[45]胡壮麟. 语言学教程[M]. 5版. 北京:北京大学出版社,2017.

作者简介:刘宇红(1966—),男,博士,2003 年毕业于复旦大学外文学院,获文学博士学位,同年破格晋升为教授。 现任南京师范大学外国语学院教授、博士生导师。 2005—2006 年在美国休斯敦 Rice University 访学。 主要研究方向涉及認知语言学、功能语言学、语言哲学、语义学、语用学、神经语言学,发表论文100余篇,出版专著15种。 通信方式:liuyuhong@njnu.edu.cn。