论高频医学词汇的筛选与医学英语教学

2011-10-10 09:32王连柱
中国医学教育技术 2011年2期
关键词:语料库英语词汇词汇

王连柱

(新乡医学院外语系,河南 新乡 453003)

论高频医学词汇的筛选与医学英语教学

王连柱

(新乡医学院外语系,河南 新乡 453003)

从医学专业词汇筛选的角度出发,采用定量和定性相结合的研究方法,借助语料库及统计手段,同时辅助学科专家辨别,介绍了科学筛选高频医学英语专业词汇的方法。指出高频医学词汇的筛选有助于分阶段、分层次进行教学;可以避免学生词汇学习的盲目性,优先学习最常用的词汇,从而提高学习效率。

高频;医学英语词汇;语料库;词汇筛选;教学

近年来,专门用途英语受到空前的重视。作为专门用途英语之一的医学英语,由于国际医学交流和合作的需要正愈加受到关注。许多医学院校为高年级学生开设了医学英语课程,其目的就是帮助医学生更好地掌握医学英语,适应未来国际医学交流的需要。在医学英语教学过程中,医学英语词汇是块难以攻克的硬骨头。医学英语词汇数量庞大、增长迅速,且多数来自希腊语和拉丁语。对于初学者而言,会因为词汇数量庞大、结构复杂而感到恐惧,从而觉得无从下手。对于教师而言,如何帮助学生战胜心理障碍,在有限的时间内掌握核心医学词汇,增强应用能力,成了值得反复思考和研究的问题。

该研究拟从词汇筛选的角度出发,借助语料库,利用专业词汇提取技术,努力寻找出医学生在医学英语的学习和使用中遇到的高频医学词汇。高频医学词汇的筛选将有助于教师针对性地进行医学词汇的教学,避免教学的盲目性,节约时间和精力。

1 文献综述

1.1 医学词汇界定

任何文本(包括医学英语文本)都是由词构成的。对于构成文本的词,按照Nation的说法,可以划分为4个层次(four levels),分别是高频词汇(high frequency words)、学术词汇(academic vocabulary)、技术词(technical vocabulary)和低频词汇(low frequency words)[1]。对于不同的文本,4个层次的词所占比重有所不同。当然,不是每个文本都包括4个层次的词。该研究基于Nation的层次划分,重点研究医学文本中第3个层次的词汇,即技术词汇。所谓技术词汇,指的是那些在本专业、学科领域中经常出现而在其他学科领域很少出现的词汇[1]。在医学领域,这些技术词汇通常被称为医学词汇、医学术语或医学单词。在该研究中这些术语通用,不加以区分。

Gylys and Wedding使用医学术语来指代医学领域的技术词汇,并把它定义为在医学领域为实现有效、精确交流,例如撰写诊断书和日志,而使用的专门术语[2]。维基百科(Wikipedia)把医学术语定义为“那些为更准确、科学地描述人体及相关组成、状况、进程而使用的词汇,通常用在医学和护理领域”。Yang总结了医学词汇的两个基本特征:“一是除了单音节词外,大多数医学词汇都是由词根和词缀组成;其二,医学词汇是一个开放的系统,有大量的低频词和新词”[3]。从总结的这两个基本特征中可以看出,医学词汇大都由词素构成,因此,掌握这些词素有助于学习医学词汇。

当谈到医学词汇时,我们会想到中医词汇。中医词汇属于医学词汇的一部分。在该研究中主要涉及的是西医词汇,而非中医词汇。在该研究中,医学词汇被定义为与西医有关的技术词汇。

1.2 医学英语词汇教学

在过去的几年里,研究者从不同角度探讨了医学词汇教学。有些研究者对医学词汇学习策略进行了研究:袁友芹[4]通过问卷调查和词汇测试,对比研究了非英语专业学生在基础英语和专业英语词汇学习中词汇策略的使用特点,以及词汇策略对词汇学习成绩的影响;Yang[3]通过调查的方法研究了学习者学习医学词汇使用的策略;丁雪光[5]对英语构词词素层及其记忆策略进行了分析和研究。有些研究者侧重研究了运用现代技术手段促进医学词汇的教学:王连柱[6]等探索了语料库及索引工具在医学英语词汇教学实践中的应用;武宇峰[7]设计了一个学习医学英语术语的在线课程模式,旨在帮助学习者提高医学英语术语的学习效果和效率。有些研究者还讨论了医学英语词汇的构成,通过构词分析来提高词汇教学和学习效果:薛俊梅[8]分析了医学词汇的构词特点和方法;刘春妹和李新利[9]则研究了运用构词分析法学习医学英语词汇效果,旨在找出一种简便而高效的词汇记忆方法,帮助学生在较短的时间内掌握更多的医学词汇,提高读、译、写能力。

通过文献回顾后,我们发现,在医学词汇研究方面,医学词汇的筛选,尤其是高频医学词汇筛选方面研究还比较少。高频医学词汇的筛选有助于教师更好地安排教学、编写教学大纲等。因此,该研究拟从高频医学英语词汇的筛选切题,通过筛选高频词促进医学词汇教学,提高教学的针对性。

1.3 专业词汇的提取与筛选

近几年,专业词汇的提取和筛选成为热门的研究话题。语言学家们尝试用不同方法提取和筛选专业词汇。Chung和Nation把这些方法归纳为两类:一是利用本学科专家的语感(the intuition of a subject expert);二是利用语料库对比的方法(a corpus-comparison approach),通过对比专业文本中和另一不同语料库文本中词出现的频率(comparing word frequencies in a technical text with those in a different corpus)。第一类包含3种方法,分别是利用四步等级评价(using four-step rating scale)、利用专业字典(using a technical dictionary)、利用文本提供的线索(using clues provided in the text)[10]。加上语料库对比的方法,总共4种方法。Chung和Nation利用解剖学文本对比分析了这4种方法的有效性[11]。通过对比他们发现,4种方法在有效性方面差别很大。利用四步等级评价可靠性最高,但是费时费力;利用文本提供的线索最不成功;利用专业字典比较成功,准确度约80%;利用语料库对比可靠性较高,容易操作,比较成功。如果在利用语料库方法自动提取的同时辅助专家辨别筛选,可以有效地权衡可靠性与可操作性,获得更高的准确度。

随着计算机技术和语料库语言学的发展,利用语料库对比的方法来提取专业词汇的研究越来越多。其中,在这个方面研究影响较大的是日本学者Chujo和Utiyama。他们在国际学术期刊System上撰文系统介绍了其研究成果。该研究基于BNC(british national corpus)语料库中730万词的商业与金融文本。结果表明,可以利用7种统计方法来提取不同层次的专业词汇(level-specific specialized vocabulary)[12]。余玄函数(cosine)和互补类似法(complementary similarity measure)可以提取初级商务英语词汇;对数似然函数(log-likelihood)、卡方检验(chi-square test)和带亚茨连续性校正的卡方检验(chi-square test with Yates correction)可以提取中级商务英语词汇;交互信息(mutual information)和麦克尼马尔检验(mcNemar's test)可以提取高级商务英语词汇。最后Chujo和Utiyama总结说,这些统计方法可以有效地提取不同层次的专业词汇,不同层次专业词汇的提取有助于更好地服务教学。

Scott把其中的两个统计方法,即对数似然函数和带亚茨连续性校正的卡方检验,植入其编写的语料库处理软件WordSmith Tools。通过对比观察语料库和参照语料库中词的出现频率,可以提取出出现频率异常高的主题词(key words which occur with“unusual frequency”[13])。Nelson 利用 WordSmith中的对数似然函数,提取了商务英语主题词[14]。

2 研究方法与过程

该研究利用WordSmith中的对数似然函数,提取医学专业词汇,然后辅助学科专家鉴别,根据出现的频率筛选出高频医学英语词汇。其研究基本步骤如下:

2.1 构建语料库

按照研究目的,参照语料库建库原则,构建了一个100万词的医学英语语料库。该语料库有1 155个文本构成,合计997 058词。文本来源于12套国内近十年出版的医学英语教科书(537个文本,656 043词)、9种国际知名医学杂志(360个文本,173 519词)、Medscape医学新闻报道(238个文本,157 876词)和医学对话(20个文本,9 620词)。对文本进行净化,保存为Unicode纯文本文件。

2.2 选择参照语料库

该研究选择英国学术英语笔语(BAWE:British Academic Written English)语料库为参照语料库。选择英国学术英语笔语语料库而非英国国家语料库(BNC)作为参照语料库的原因有两个:其一,该语料库的大小合适,含有670万词;其二,在进行词频对比时,可以有效排除学术词汇进入主题词表。

2.3 建立词表数据库

利用WordSmith的词表功能 (WordList)生成两个词表,即自建语料库词表和参照语料库词表。

2.4 建立主题词数据库

利用WordSmith中的主题词功能(KeyWord),选择对数似然函数,通过对比两个语料库生成的词表中词的频率,可以自动提取一个含有医学词汇及频率信息的主题词表。

2.5 去除通用词汇和学术词汇

利用Nation的RANGE软件,去除主题词表中的通用词汇,即 West通用词汇表[15](GSL:general service list)中的2 000个常用词(在RANGE中其实是1 998个词族,共计7 827个词。详细请参考王立非和梁茂成[16])和学术词汇,即Coxhead学术词汇表[17](AWL,academic word list)中的570 个词族(共计3 107个词)。

2.6 专家辨别

2.7 主题词归化还原

归化还原(lemmatization)指的是把带有屈折变化(inflected forms)的词进行还原。例如:“patients”,“aches,aching,ached”,经过归化还原后就分别变成了“patient”和“ache”两个词。

2.8 高频医学词汇筛选

对经过专家辨别和归化还原的主题词按照频率排序,筛选出高频医学词汇。

3 研究结果与讨论

3.1 高频医学词汇筛选

经过上述8个步骤,该研究最终筛选了频率在10次及以上的1 578个单词作为高频医学词汇。这1 578个经过归化还原的单词实际包括1 818个未经归化还原的单词。经过归化还原后,有些词如molecule和 molecules,infection 和 infections,都变成了一个单词,因此词的总数有所降低。1 578个经过归化还原的单词鉴于篇幅有限不能一一列出,图1是频率最高的前50个单词。

表1 频率最高的前50个单词(经归化还原)

表1中的频率指的是累计频率,即未经还原的词的频率累计之和。例如muscle的频率是1 660次,其中muscle本身出现了1 213次,muscles出现了447次,累计之和是1 660次。从列出的前50个高频词我们可以看出,最常用的医学词汇主要涉及人体器官、疾病以及治疗方面。

3.2 高频医学词汇覆盖率

1 578个高频医学词汇的覆盖率可以通过其出现的频率来计算。在含有997 058个词的语料库中,1 578个词(实际包括1 818个未经还原的词)的总频率数是75 211次,因此我们计算出筛选的高频医学词在自建医学英语语料库中的覆盖率为7.54%。

利用Nation的RANGE软件测算,1 578个高频医学词汇(实际包括1 818个未经还原的词)在整个自建医学英语语料库及教科书、期刊杂志、新闻报道和口语对话分库中的覆盖率分别是7.65%、8.43%、6.92%、5.46%和 1.45%。

同样,利用RNAGE软件测算了在其他语料库医学文本中的覆盖率。在交大科技英语(JDEST:jiao da english for science and technology)语料库医学文本中,1 578个高频医学词汇的覆盖率是7.75%。

3.3 高频医学词汇的词类分布

分析高频医学词汇的词类分布首先需要对自建医学英语语料库中的文本进行词性赋码。该研究中利用CLAWS自动赋码软件对文本进行词性赋码。经赋码后,每个词的后面自动添加了词性代码,例如句子“Cartilage is a more flexible material than bone.”经过赋码后就变成了“Cartilage_NN1 is_VBZ a_AT1 more_RGR flexible_JJ material_NN1 than_CSN bone_NN1._.”。每个单词后面的代码都代表着一类词,例如NN1代表单数普通名词,VBZ代表系动词is。

利用PowerGREP的搜索功能(Search),对经过CLAWS7赋码的医学英语语料库文本进行检索。批量输入“搜索词_S+”正则表达式,例如muscle_S+|infection_S+|molecule_S+,选择 Search,可以检索出全部搜索词的词性和频率。通过检索1 578个高频医学英语词汇(实际包括1 818个未经还原的词),并统计分析后发现,高频医学词汇中主要包括四类词,分别是名词、动词、形容词和副词,其中名词占2/3,名词和形容词合计占到93%,这就意味着每10个医学英语词汇中,名词和形容词合计占9词之多。在四类词中,副词数量最少,所占比重也最小。

3.4 高频医学词汇和词汇教学

医学英语教学长期以来一直没有全国统一的教学大纲,对具体词汇要求和教学内容没有可参考的量表,这给教师和学生带来了不少的迷惑和困难。有些学者制订出了一些医学英语词汇表,但是词表制订方法缺乏科学性和客观性。该研究采用定量和定性相结合的研究方法,借助语料库及统计方法,同时辅助专家辨认手段,按照科学的方法筛选出了高频医学英语词汇。筛选出的高频医学词汇可以按照频率分成若干个分词表,这样有助于分阶段、分层次进行教学。学生可以避免词汇学习中的盲目性,可以优先学习最常用的词汇,把有限的时间和精力放在高频医学词汇的学习上,从而提高学习效率。

高频医学英语词汇的筛选可以为教师的词汇教学和学生的词汇学习提供可供参考的量表。教师可以根据词表科学安排教学的先后顺序,把精力和时间用在合理的地方。对学生而言,可以避免学习的盲目性,循序渐进地推进词汇学习。对于编写和出版医学英语教材而言,教材中医学词汇的难易度和覆盖面可依据此量表来考量。对于医学英语课程大纲的编写,此量表可提供有效的参考。

[1]Nation P.Learning vocabulary in another language[M].Cambridge:Cambridge University Press,2001:11-12

[2]Gylys B A,Wedding M E.Medical Terminology:A System Approach[M].Philadelphia:F.A.Davis,1983

[3]Yang M N.Nursing pre-professionals'medical terminology learning strategies[J].Asian EFL J,2005,7(1):137-154

[4]袁友芹.医学生基础英语和专业英语词汇学习策略的对比研究[D].大连:辽宁师范大学,2004:I-II

[5]丁雪光.英语构词词素层分析及记忆策略[J].青海师范大学学报:哲学社会科学版,2006,(6):115-117

[6]王连柱,王兰英,张瑞君,等.语料库及检索工具在医学英语词汇教学实践中的应用研究[J].中国医学教育技术,2008,22(5):427-430

[7]武宇峰.英语医学术语在线学习课程设计[D].西安:第四军医大学,2006:IV-VI

[8]薛俊梅.医学英语术语的构词特点和方法[J].浙江中医药大学学报,2008,32(3),407-408

[9]刘春妹,李新利.医学英语词汇构词分析法教学效果研究[J].卫生职业教育,2010,28(1):75-77

[10]Chung T M.Nation P.Technical vocabulary in specialised texts[J].Reading in a Foreign Language,2003,15(2):103-116

[11]Chung T M.Nation P.Identifying technical vocabulary[J].System,2004,32(2):251-263

[12]Chujo K.Utiyama M.Selecting level-specific specialized vocabulary using statistical measures[J].System,2006,34(2):255-269

[13]Scott M.PC analysis of key words-and key key words[J].System,1997,25(2):233-245

[14]Nelson M.A corpus-based study of business English and business English teaching materials[D].University of Manchester,2000

[15]West M.A general service list of English Words[M].London:Longman,1953

[16]王立非,梁茂成.计算机辅助第二语言研究方法与应用[M].北京:外语教学与研究出版社,2007:45

[17]Coxhead A.A new academic word list[J].TESOL quarterly,2000,34(2):213-238

On selecting medical English words of high frequency for medical English teaching

Wang Lianzhu
(Foreign Languages Department,Xinxiang Medical College,Xinxiang 453003,China)

From the perspective of medical word selection and with both quantitative and qualitative analytical methods,we introduce the methods to select high-frequency medical English words scientifically with the help of corpus and statistical measure as well as the assistance of medical English experts.The selection of high-frequency words can help teachers arrange their teaching according to the difficulty and frequency of medical words.Students can avoid learning vocabulary blindly and give priority to the most frequently used words,thus improving learning efficiency.

high frequency;medical English word;corpus;word selection;teaching

G642.0

A

1004-5287(2011)02-0217-04

表中的词进行专家辨别,剔除非医学学科相关的词汇。

教育部人文社科规划基金项目资助(09YJA740095);2010年河南省社科联调研课题成果(SKL-2010-1376)

2010-09-21

王连柱(1981-),男,山东郓城人,讲师,主要研究方向:语料库语言学、英语词汇学。

猜你喜欢
语料库英语词汇词汇
本刊可直接用缩写的常用词汇
一些常用词汇可直接用缩写
《语料库翻译文体学》评介
本刊可直接用缩写的常用词汇
初中英语词汇教学初探
基于JAVAEE的维吾尔中介语语料库开发与实现
扩大英语词汇量的实践
语篇元功能的语料库支撑范式介入
来自人名的英语词汇
本刊一些常用词汇可直接用缩写