傅 顺,罗永胜
(广东医学院 外语教学部,广东 东莞 523808)
教学型医学英语语料库的界定及其建库原则
傅 顺,罗永胜
(广东医学院 外语教学部,广东 东莞 523808)
教学型医学英语语料库是用于医学英语教学及相关研究的专用语料库,可以根据不同的应用目的来收集,处理和存储语料,从而产生不同类型子库。建库的过程中应该考虑语料的真实性、代表性、适应性、共时性、分层性和不侵权性,以此来保证发挥其在医学英语教学中应有的作用。
医学英语;语料库;建库原则;定义;教学
语料库语言学是最近40年才发展起来的一门新兴学科,医学英语语料库建设和研究则是最近10年内才出现。教学型医学英语语料库属于专门用途语料库,尽管语料库语言学发展迅速,然而医学英语语料库的建设和应用研究在我国却才刚刚起步。在中国期刊网和万方数据上能够搜索到的医学英语语料库相关论文不到10篇,真正涉及到医学英语语料库及其应用研究才5篇。这些研究大多只停留在理论设想阶段,如闻永毅、樊新荣(2003),薛学彦(2004)提出了建立中医英语语料库的设想,张文清(2008)则提出了建立医学英语写作语料库的设想,王连柱(2009)探讨了医学英语语料库的建库原则。当然也有一些基于医学英语相关语料库的应用研究,如王京(2006)利用100万词次的医学研究论文语料库构建了医学学术词表,王连柱等(2008)探讨了医学英语语料库在医学英语词汇教学中的应用。这些研究虽然取得了一定的成果,但是还是处于摸索阶段,并没有对医学英语语料库的建设和应用提出系统的理论分析。随着医学英语(EMP,English for Medical Purpose)在我国的兴起,用于教学目的的医学英语语料库建设成为了一项迫切任务。本文主要探讨教学型医学英语的界定和建库原则。
从语源的角度来看,语料库(corpus,源于拉丁语,复数 corpora)意为“a human or animal body”(人或动物的躯体),后来发展为“a measurable whole”(可以测量的整体),现在主流意义为“a collection of written or spoken texts”(书面或口语文本的集合)。可见,通常意义上的语料库可以理解为“文本的集合”,也就是说只要把某一类型的文本集合在一起就可以称之为一个语料库。然而,现代语言学意义上的语料库并不是完全如此,而是指“按照一定的采样标准采集而来的,能够代表一种或者某语言的一种变体或文类的电子文集”(梁茂成等 2010)。从该定义来看,语料库至少应该包含有以下特征:首先语料库应该是一个电子文集,这就意味着语料库可以采用计算机技术来进行批量处理,不能用电脑软件来进行批量处理的纸版文集难以称之为语料库。其次,语料库必须有一定的代表性,不是随便收集一些电子文档堆砌在一起就可以说是语料库,而是要按照一定的抽样原则采集而来的有代表性的能够实现一定研究和应用目的的电子文档集合,否则应用价值就会大打折扣。最后,语料库所采集的文本应该为真实的自然文本,不能够是采集者编造的语料,自然真实性是语料库研究的一个根本属性,正是这一点决定了语料库语言学的实证性。概括来说,语料库就是自然文本构成的,能够用计算机软件处理的,有一定代表性的、电子文本资源库。因而,语料库通常以TXT文本形式储存于计算机存储器中。
不同的学者对语料库的分类有不同的看法,如杨惠中(2002)把语料库分为通用语料库、专用语料库、监控语料库、口语语料库、学生英语语料库、平行语料库等6种类型,何安平(2004)则把语料库分为原始语料库、附码语料库、平行语料库、学习者语料库和网格式语料库等5种。而梁茂成等(2010)在其合著的《语料库应用教程》中列出了通用语料库、专用语料库、共时语料库、历时语料库、口语语料库、笔语语料库、本族语语料库、学习者语料库、单语语料库、平行/双语语料库、多语语料库等12种语料库。可见目前还没一个学界所公认的语料库分类标准。为了准确地界定何为教学型医学英语语料库,有必要对语料库分类标准进行探讨。
任何事物的分类都是一个范畴化的过程,范畴化就是要找出事物的相似之处和不同之处,无论是寻找相似之处还是不同之处都必须有一个更高的范畴作为基础。语料库的分类也是如此。从语料库的建库目的和用途来看,可以分为通用语料库和专用语料库;从语料库语料的来源来看,可以分为本族语者语料库和学习者语料库;从语料库的处理方式来看可以分为人工标注语料库和自动标注语料库;从语料处理的程度来看,可以分为原始语料库和附码语料库;从语料存储的介质来看可以分为单机版语料库和网络语料库;从语料的语言构成来看,可以分为单语语料库,双语语料库和多语语料库;从语料存在的时空坐标来看,可以分为历时语料库和共时语料库;从语料库的状态来看可以分为静态闭合语料库和动态开放语料库。总而言之,语料库可以在自身的范畴之内,依照不同的标准进行分类,同一个语料库在不同的标准之下可以属于不同的语料库类型。本文主要依照以上标准来对教学型医学英语语料库进行界定。
教学型医学英语语料库具备语料库的基本特征,即代表性、真实性、集成性和可自动处理性。从其主要建库目的和用途来看,属于专用语料库,主要用于医学英语的教学活动,当然也可以用于医学英语教材的编写和医学英语词典编纂。从语料来源来看,主要是来自于英语本族语的医学相关文章和教材,属于本族语语料库。当然为了适应教学的需要,也可以将我国医学生的英语论文制作成子库用于分析二语习得者的医学英语掌握情况,从这一点来看,教学型医学英语语料库可以称之为混合英语语料库。从语料的处理方式来看,教学型医学英语语料库可以根据具体的需要采用软件自动标注和人工标注相结合的形式进行,以自动标注为主,人工标注为辅,因此可以称之为混合标注语料库。从语料处理程度来看,教学型医学英语语料库可以分成两部分,用于不同的研究和教学目的。一部分以原始语料的形式存储,可以命名为教学型医学英语原始语料库。另一部分以标注好的形式存储,称之为教学型医学英语附码语料库。从语料存储的介质来看,可以存储在电脑硬盘中,也可以刻录成光盘,也可以发布在教学网站上。从语料存在的时空坐标来看,教学型医学英语语料库收集语料一般是当代的医学英语,因而属于共时语料库。从语料库的状态来看,教学型医学英语语料库应该与时俱进,随时更新,以适应教学的需要,因此可以归属于动态语料库。此外,从语料的语言构成来看,主要由英语构成,属于单语语料库的范畴。然而为了特殊的教学需要,也可以收集中英两种语言相对应的语料,制作成双语平行语料库,比如用于医学英语翻译教学,就需要平行语料库。总之,教学型医学英语语料库,可以根据不同的标准来进行界定,也可以根据不同教学目的来划分子范畴。总而言之,教学型医学英语语料库就是用于医学英语教学及相关研究的专用语料库,可以根据不同的应用目的来收集,处理和存储语料,从而产生不同类型子库。
任何语料库在建库之前都应该考虑建库的原则。建库原则一般根据语料库的目的和语料库将要实现的功能以及其应用对象来确定。建库原则可以分为两种类型。一类是语料库建库的一般原则,另一类是专用语料库的特殊原则。一般原则是语料的真实性原则,代表性原则和采集语料时的不侵权原则。特殊原则根据语料库的具体建库目的而定(Kennedy,2000)。我们认为教学型医学英语语料库应该包括适应性原则,共时性原则和分层性原则,以利于在医学英语教学中的应用。
(1)真实性原则。语料库语言学是基于体验哲学的基础之上的,语料的真实性是保证基于语料库研究实证性的根本原则。为了让学生和教师接触到真实自然语言材料,原汁原味的医学英语文本是必要的前提。因此在收集语料时,务必要保证文章是真实自然的文本,最好是由本族语作者完成。
(2)代表性原则。语料库之所以能够受到广大语言研究者青睐,很大一部分原因是因为语料库具有很强的代表性,用大量的语言事实和数据来说明问题,因而具备较为强大的说服力。尽管教学型医学英语语料库的主要目的是用于医学英语教学,但是选取的语料也应该具备有一定的代表性,否则就不能反映医学英语的普遍规律,不能把典型医学英语语言特征展现出来,从而不能达到良好的教学效果。
(3)适应性原则。教学型医学英语语料库主要是为医学英语教学服务,因此所收集的语料应该适应教学的需要。过于深奥和浅显的文章都不适宜采集,应该采集难度适中,趣味性强,并且带有一定知识性的文章作为语料以适应医学英语教学和学习的需要。因此最好是医学科普类文章,以及医学通识教材和健康杂志上的文章。过于陈旧和前沿的医学研究论文要慎重考虑。
(4)共时性原则。出于交际的需要,我们所学习的英语基本上都是当代英语。医学英语教学也应该是建立在当代英语的基础之上,因此在选取语料时,时间跨度不能太大。时间跨度太大,一方面会造成语料收集的困难,另一方面无法保证语料的共时性,因而最好选取最近20年以内的文章作为语料。这样就不会给医学英语教学带来不必要的困惑。
(5)分层性原则。选取的语料,难度应该有一定的层级性。即不同难易程度的语料应该分别储存于不同的子库,这样有利于针对不同英语水平和医学教育层次的学生选取不同的语料。为了方便操作,可以尝试针对普通群众的科普类医学文献归为一类,基础的医学英语教材以及相应读物分为一类,医学权威杂志上的论文分为一类。前两类可以用于本科生教学。第三类可以用于研究生教学。
(6)不侵权原则。任何语料库在收集语料的过程中,都要考虑所收集的语料是否会侵犯到著作所有人的版权。因此当有可能侵犯版权的时候,语料采集者应该通过协商、购买等方式征得版权所有者的同意。这样可以避免出现一些不必要的麻烦。当然一般不用于商业用途的教学研究性语料库,可以不必要考虑这个问题。但是至少应该对版权所有者表示感谢。
语料库语言学已经成为语言学及其应用研究的主流,“让语料库说话”已经成为了学界广泛达成的共识,越来越多的语言学家和教育工作者认识到了语料库在各种语言研究的重要性。作为专门用途英语的重要分支医学英语,理应顺应时代潮流的发展,建立各种有特殊用途的医学英语语料库,并将它们应用于医学英语研究和教学中去。本文只是对教学型医学英语语料库的界定和原则进行一个粗略的探讨,希望能够抛砖引玉。我们相信在不久的将来,医学英语语料库及其应用研究也会成为医学英语研究的主流,并发展成为独立的医学语料库语言学,为医学教育的发展贡献自己特有的力量。
[1] Graeme Kennedy.An introduction to Corpus Linguistics[M].顾曰国导读,北京:外语教学与研究出版社,2000.
[2] 杨惠中.语料库语言学教程[M].上海:上海外语教育出版社,2002.
[3] 何安平.语料库语言学与英语教学[M].北京:外语教学与研究出版社,2004.
[4] 薛学彦.中医英语语料库建立的设想[J].广州中医药大学学报,2004(6):482-485.
[5] 闻永毅,樊新荣.中医英语语料库建设可行性探讨[J].上海中医药杂志,2003(4):45-46.
[6] 张文青.医学英语写作语料库建设的构想[J].吉林工程技术师范学院学报,2008(7):61-63.
[7] 王连柱.医学英语语料库的建库原则探析[J].新乡学院学报(社会科学版),2009(4):131-132.
[8] 王京.基于医学研究论文语料库的医学学术词表的构建[D].第四军医大学,2006.
[9] 王连柱,王兰英.语料库及检索工具在医学英语词汇教学实践中的应用研究[J].中国医学教育技术,2008(10):427-430.
[10] 梁茂成.语料库应用教程[M].北京;外语教学与研究出版社,2010.
Definition of Medical English Corpus for Teaching and the Principles for Building the Database
FU Shun,LUO Yong-sheng
(Foreign Languages Department,Guangdong Medical College,Dongguan 523808,China)
Medical English corpus for teaching purpose is a special corpus used for medical English teaching and related researches.Different types of branches can be produced by collection,process and storage of corpus according to various purposes.Authenticity,representation,adaptability,synchronicity,hierarchy and non-infringement should be considered in the process of building a database,in order to guarantee its due role in medical English teaching.
medical English;corpus;principles of building a database;definition;teaching
G642
A
1009-3907(2012)09-1164-03
2012-04-20
中华医学会医学教育研究立项课题(ZHYXJY1034);广东医学院高等教育教学成果项目(YJG201139211)
傅顺(1980-),女,湖南湘潭人,讲师,主要从事外国语言学及应用语言学研究;罗永胜(1979-),男,湖南邵阳人,讲师,博士研究生,主要从事语言与研究。
责任编辑:刘 琳