崔维霞 王均松
(1.西安外国语大学,陕西西安 710061; 2. 西北工业大学,陕西西安 710129)
专业领域技术性英文词汇识别的多方法对比
崔维霞1王均松2
(1.西安外国语大学,陕西西安 710061; 2. 西北工业大学,陕西西安 710129)
以航空英语为例,采用信息检索领域常用的准确率、召回率等指标对四种常用的专业技术词汇识别方法(使用专业词典、借助语境线索、分类排除法和主题词分析法)的识别有效性进行评估。结果显示,上述几种方法的平均识别率均不高,完全依靠某一种方法来识别专业技术词汇不可避免地存在不足或缺陷,建议开展多方法相结合的综合研究。
专业技术词汇,专门用途英语,识别方法
专业技术词汇(technical vocabulary),顾名思义,是指与特定学科或领域密切相关的专业用词。这类词汇具有显著的学科特异性,频繁出现在所属专业领域内,意义相对固定。近年来,随着科技的迅猛发展和全球科技信息交流需求的增长, 对科技领域内英语词汇使用的研究也得到极大的发展。然而,在以往的研究中,专业技术词汇的重要性往往被低估甚至是忽视。考克斯墨德(Coxhead)曾指出,专业技术词汇通常只构成学术性文章中约5%的行文文字[1]。但在钟和内申(Chung and Nation)的研究中却发现无论是在解剖学 (31.2%) 还是应用语言学文本中(20.6%),专业技术词汇所占的比例远远高于先前的估计[2]。此外,大多数词汇方面的研究都集中于高频词汇和学术性词汇,专业技术词汇方面的文献则乏陈可述,国内更是鲜有此类研究。由于缺乏统一的标准和科学有效的识别方法,人们对于该类词汇知之甚少。事实上,专业技术词汇无论是对于专门用途英语教学、专门用途英语教材设计还是专业外语词典编纂都具有极为重要的意义,应当引起广泛的关注。
从20世纪80年代开始,国外很多专家和学者就在专业技术词汇识别方面展开了积极的探索。目前,学界主流的识别方法有以下几种:使用专业词典[3-4];依赖文本中提供的语境线索[5-7];词汇分类法[1,8]和主题词分析法[9-10]。
识别专业技术词汇最常用的方法就是查阅专业词典。由于专业词典只收录专科性语词,包括专门术语和专有名词,因此可以看作是特定学科或专业的技术性词汇的集合。而判断某个词是否属于专业技术词汇,最直接的方法就是看该词是否出现在专业词典中,如果出现在该领域的专业词典中就被认定为专业技术词汇,否则为非专业技术词汇。但需要注意的是,有的词虽然出现在专业词典的词条位置,但却是某个多词短语不可分割的组成部分,因此不能被认定属于专业技术词汇。此外,各个专业领域都至少存在一本甚至是多本专业词典,但并不是每一本词典都能满足和适合当前研究的需要。由于面向的读者对象不同,收词立目的原则也各不相同。比如,有的专业词典的使用对象为本学科领域内能够使用外语的内行读者和专业翻译人员,因此只收录那些很专、很细的术语;而有的专业词典读者对象十分宽泛,从实用的角度出发,词典编纂者在收录专科词汇的同时,通常会酌收部分普通词汇。钟和内申(Chung and Nation)[11]曾指出,“最大的词典不一定是最好的选择,因为大的词典往往包括了很多非专业技术词汇”。所以词典的选择对于专业技术词汇识别准确率至关重要,在选择时应充分考虑其能否覆盖所研究领域的专业技术词汇,收词量大小是否合适,更新与否,以及是否存在英式英语或美式英语之偏好等等。
2.借助语境线索
在科技文本中,当专业技术词汇首次出现时,作者通常会利用各种语境线索对其进行标识。借助这些语境线索可以快速、准确地识别文本中的专业技术词汇。常见的语境线索可以分为以下几种:第一种是采取隐含下定义的方式,通常借用一些词或短语,如“referred to as”“known as”“namely”“be called”等引出专业技术词汇。例如:The design process starts by considering the forces that act on the aircraft,namely, lift, drag, thrust, and weight。第二种是借助于印刷格式上的线索,例如粗体、斜体和括号等标记。 如Propulsion,Takeoff, angle of attack (AOA)等。第三种则是利用图表或插图中的标签。在科技文本中,为了阐释某个概念或原理,通常会使用大量的图表或插图,其中的专业技术词汇或术语往往会有明确的标识。然而,在借助线索识别专业技术词汇的具体操作中仍然存在不少困难。首先,下定义的形式多种多样,某些形式上不很规范的定义很难识别。其次,印刷上的形式标记功能不仅仅局限于突显专业技术词汇,也就是说并非所有的粗体或斜体词汇都是专业技术词汇。此外,图表和插图中的标签文字包括了很多的功能词及其他,需要进行仔细的筛选和识别。
3.分类排除法
内申把英语词汇分为四类:高频词汇(high frequency words)、专业技术词汇(technical words)、学术性词汇(academic words)和低频词汇(low frequency words)。高频词汇指的是在所有文体中都频繁使用的基础核心词汇;专业技术词汇是指在专业文本或特定学科领域内使用的术语;学术性词汇介于高频词汇和专业技术性词汇之间,也称半技术性词汇(sub-technical words),这类词汇在文学性文体中出现的频率很低,但却频繁出现在各个领域的学术性文本中;而低频词泛指上述三类词汇以外的所有词汇,包括其他学科领域的专业技术词汇、专有名词、次高频词汇以及语言中使用频率很低的词语。内申对英语词汇的分类为利用词频分析软件Range进行专业技术词汇识别提供了理论基础,通过排除其他三类词汇就可以得到专业技术词汇。Range 是可用于分析文本中词汇深度和广度的计算机软件,该软件包含三级词汇底表,前两个词表包含2 000个词族,源自韦斯特(West)所编的《通用英语词表》[12](AGeneralServiceListofEnglishWords),即所谓的高频词。第三个词表包含570个词族,源自Coxhead的《学术英语词表》[1](AcademicWordList),即所谓的学术词汇。将以上三个词表作为基础词表,使用Range软件对专业文本进行词汇自动评估便可以得到筛选后的专业技术词汇。
4.主题词分析法
在统计主题词时采用卡方检验必须满足两个条件:首先,使用的观察语料库要足够大,只有样本空间足够大才可以为主题词提供充足的出现机会,从而最大程度减少低频事件概率对统计结果的影响。其次,进行主题词统计的前提是参照语料库(文本)在总量上要大于观察语料库(文本)。许家金曾引用托尼·柏柏尔·萨丁拾(Tony Berber-Sardinha)的观点认为参照语料库比观察语料库大5倍就可以满足需要,参照语料库需要达到一定的规模,才可以得到足够丰富的主题词[14]。此外,参照语料库的选择取决于研究目的,研究目的不同,语料库的选择也不同,但要排除其中与观察语料具有相同主题的文本。
黑米属于糯米类,是我国古老的珍贵稻种,属于药食同源稻米。黑米富含特有的营养与功能因子,具有调节人体生理功能的作用,素有“黑珍珠”和“世界米中之王”的美誉,是一种有很大开发潜力的黑色食品资源。
1.研究问题
本研究试图回答下列两个问题:(1)使用专业词典、借助语境线索、分类排除法以及主题词分析法在专业技术词汇识别方面各自有哪些优势和不足。(2)以上四种方法中,哪一种是最理想的识别方法。
2.语料来源及预处理
研究中使用的文本材料取自美国航空航天研究所教育系列丛书《飞行器引擎设计》(AIAAEducationSeries)第二版,第2章“Constraint Analysis”,共3 053词次。首先对所选语料进行预处理,清理其中不合规范的符号、格式以及拼写错误。然后对文本进行词形还原(lemmatization)处理,还原之后文本中所有的词被其原形所替代。在本研究中,词项①(lemma)被确定为词频统计单位。
3.研究方法
本研究采用定性与定量相结合的方法,以人工标注专业技术词汇的结果为标准,对以上四种常见的识别方法进行比较,并对其准确率和效度做出评估。为评价不同方法的专业技术词汇识别性能, 这里引入三个通用的测评指标,即准确率(Precision Rate)、召回率(Recall Rate)和F值(F-score)。准确率和召回率是广泛用于信息检索领域的两个度量值,用来评价统计结果的质量。其中准确率衡量的是识别方法的查准率;召回率衡量的是识别方法的查全率。准确率和召回率是相互制约的,一般情况下,准确率高、召回率就低,召回率高、准确率就低。为了能够综合地衡量各种方法的识别性能,避免仅比较准确率和召回率的片面性,本研究引入了二者的均值F值作为性能评价的重要指标。具体定义下:
4.数据统计
首先,采取人工标注的方法识别观察文本中的专业技术词汇,并将统计结果作为评估的参照标准。本研究借鉴钟和内申实验中使用四级检选量表(4-point scale)的做法[2],根据词汇的语境意义与航空领域的语义相关度,将词汇划分为相关性由弱到强的四个等级。其中,一级和二级词汇意义与该领域的相关性较弱,被认为是非专业技术词汇;而三级和四级词汇相关性较强被认为是专业技术词汇。通过筛选和识别,共获得专业技术词汇73个,其中包括与航空领域密切相关的三级词汇53个(aerodynam-ic,constraint,drag,etc.),和航空领域独有的四级词汇20个 (airfoil,afterburner,fuselage,etc.)。
至于使用专业词典,实验中采用了英国A&C Black 图书公司出版的《航空英语词典》(DictionaryofAviation)第二版,该词典收录了5 500多个词条,涵盖了航空领域各个学科门类中的通用技术词汇,而且定期更新,是航空专业科技人员使用和学习的常备工具书。经过与专业词典比对,共获取候选词汇359个,其中正确识别的专业技术词汇有59个,准确率为16.43%,召回率为80.82%,F值为27.31%。借助语境线索共识别85个候选词汇,包括26个带有定义标记的词汇,46个带有印刷标记的词汇以及13个出现在图表和插图中的标签词汇。其中正确识别的专业技术词汇有41个,识别准确率为48.24%,召回率为56.16%,F值为51.90%。在分类排除法中,使用词频分析软件Range对观察文本进行统计分析,结果显示,通过该方法共识别168个专业技术词汇,其中正确识别的专业技术词汇有46个,识别准确率为27.38%,召回率为63.01%,F值为38.17%。而主题词分析法以英国学术英语语料库(BAWE)[15]为参照语料库,使用wordsmith3.0的词表功能,分别创建航空英语词表和英国学术英语语料库词表,然后对两个词表进行对比,通过卡方检验共筛选出候选词汇178个。其中正确识别的专业的词汇有57个,准确率为32.02%,召回率为78.08%,F值为45.45%(详见表1)。
表1 识别方法评估
在以上几种方法中,使用专业词典识别专业技术词汇的召回率在几种方法中是最高的,达到了80.82%,也就是说通过这种方法可以最大限度地识别文本中的专业技术词汇,遗漏的情况比较少。但是这种方法的准确率却是几种方法中最低的,仅有16.43%,这就极大地影响了该方法识别率的平均值(27.31%),这主要是因为很多词典从使用者的角度出发将很多的跨领域技术词汇和功能词汇收录其中。此外,使用专业词典在实际操作中不可避免的一个问题就在于选用不同的专业词典,识别结果往往差别很大。因此,词典的选择对于研究结果影响非常大。
借助语境线索在专业技术词汇识别方面的准确率达到48.24%,远远高于其他几种方式,但是其召回率却比较低,仅有56.16%,尽管这种方法的平均准确率(51.90%)差强人意,但由于其遗漏的专业技术词汇较多,不能看作是一种理想的识别方法。此外,在具体的操作过程中,一方面很多语境线索由于印刷格式或形式上的问题难以识别;另一方面,根据不同类别线索识别的词汇往往出现重复,这就增加了筛选工作的难度,同时也在一定程度上影响了识别的效率。
相对于使用专业词典和借助语境线索,分类排除法操作简单,可行性强。研究人员只需在统计结果中排除高频词汇和学术性词汇,即可获得包含少量低频词汇的专业技术词汇。而且,在词汇分布软件Range的辅助下,可以对文本进行批量处理,很大程度上减轻了逐个判别专业技术词汇的负担。但是这种方法存在很大的局限性,由于部分高频词汇和学术词汇存在一词多义和一词多类的现象,在特定的专业领域里会具有特殊的含义,从而转变为该领域的专业技术词汇。例如load在一般的用法中意为“装载”,但在航空领域有其特殊的意义“负荷”。在等级量表中该词被评定为航空专业技术词汇,但在筛选过程中它作为高频词汇被排除在航空专业技术词汇之外,这就使得专业技术词汇的召回率较低(63.01%)。此外,筛选后得到的专业词表中还包括了低频词汇,尽管数量很少,但也在一定程度上降低了该方法的准确率(27.38%),因此该方法的平均识别率也偏低(38.17%)。
主题词分析法在专业技术词汇查全方面的性能仅次于使用专业词典,召回率高达78.08%,而在查准率方面则稍稍逊色,准确率为32.02%,F值为45.45%。而且该方法易于操作,在计算机软件wordsmith的辅助下可以同时处理上百个文本,处理速度远远超过了其他方法。目前,这种方法技术上还不够完善,准确率还有待提高。首先,基于词频对比的方法无法区分专业技术词汇与其搭配词,如constraint analysis在文本中反复出现,其中constraint是专业技术词汇,而analysis是非专业技术词汇。但由于analysis作为专业技术词汇的搭配词在文本中的复现频率超高,因此也被错误地归为专业技术词汇。其次,在科技文本中广泛存在的某些语言形式,如含连字符的词(Air-to-Air)、专有名词(MIG-31)以及具有固定意义的特殊符号(/)在识别的过程中往往被忽略或遗漏。
综合以上的讨论可以发现,几种方法的平均识别率都不高,而且各自存在明显的优势和不足,很难指出哪一种是最理想的识别方式。事实上,完全依靠某一种方法来识别专业技术词汇不可避免地存在不足或缺陷。在本研究中,平均值较高的两种方式分别是基于语言规则的借助语境线索和基于频率统计的主题词分析法。虽然借助语境线索平均识别率最高,但是该方法最大的缺陷在于其召回率非常低,而且采用人工识别的方式非常耗时,尤其是在文本量较大的情况下,效率低下。主题词分析的方法通过比较不同语料库间词频差异的方式识别专业技术词汇,大部分的工作可以通过计算机辅助的方法短时间内完成。它能够最大程度地减轻筛选负担,降低识别难度,提高识别效率,这标志着基于计算机辅助的方法在专业技术词汇识别及自动提取方面已经取得了重大突破和进步。但是,必须承认,纯粹基于统计的方法在专业技术词汇提取上效果并不理想,尤其是其准确率还不高,统计结果最终需要依赖专业人员根据学科知识和经验做进一步的判断。因此,在专业技术词汇识别中,建议将基于语言规则的借助语境线索法和基于统计的主题词分析法相结合,对语境线索中的语言规则进行抽象并应用于专业技术词汇的初步筛选,然后再进行词频对比,从而提高专业技术词汇识别的效率和准确率,这在很大程度上也为未来的研究提供了思路和可以借鉴的方法。
随着社会经济的快速发展和科学技术的不断进步, 人类社会对反映科技现状和发展动态的专业技术词汇需求剧增, 专业技术词汇识别有重要的理论价值和现实意义。本文首先对几种常见专业技术词汇识别方法的原理进行了介绍,然后分别使用这些方法对航空领域文本中的专业技术词汇进行识别,并利用信息检索领域常用的准确率、召回率等指标对其识别有效性进行评估。评估结果显示,上述几种方法的平均识别率均不高,完全依靠某一种方法来识别专业技术词汇不可避免地存在不足或缺陷,建议采取借助语境线索和主题词分析相结合的方式,在进行词频统计的基础上引入语言规则,从而改善和提高专业技术词汇识别的效率和准确率。此外,随着科学技术的进步,专业技术词汇的识别需要从原来主要以手工识别的方式转变为计算机辅助的自动识别,识别的对象也需要从单词扩展到多词短语。到目前为止,国内在专业技术词汇识别和提取方面的理论研究还不是很成熟,由于缺乏一个完整的评价系统,对实验结果无法做统一的评测,造成了很多重复性的工作,这很不利于学科的发展。所以,建立一个开放、完整的评价体系是当前亟须解决的一个问题。
注释
①词项是由一个基础词(base word)与它的词类相同的曲折形式 (inflected forms) 构成的一系列单词,例如动词access这个词项就由基础词access和它的曲折形式accesses、accessed、accessing构成[8]。
[1] Coxhead A. A new academic word list [J]. TESOL Quarterly, 2000, 34(2):213-238.
[2] Chung T M, Nation P. Technical vocabulary in specialized texts [J]. Reading in a Foreign Language, 2003, 15(2):103-116.
[3] Nation I S P Learning Vocabulary in Another Language [M].Cambridge: Cambridge University Press,2001.
[4] Oh J,Lee J,Lee K,et al. Japanese term extraction using dictionary hierarchy and a machine translation system [J]. Terminology, 2000(6): 287-311.
[5] Bramki D, Williams R. Lexical familiarization in economics text, and its pedagogic implications in reading comprehension [J]. Reading in a Foreign Language,1984(2): 169-181.
[6] Flowerdew J. Definitions in science lectures [J]. Applied Linguistics, 1992(13):202-221.
[7] Williams R. Lexical familiarization in content area textbooks [C]// Chapman, L. The Reader and the Text. London: Heinemann Educational Books Ltd, 1981:49-59.
[8] Kwary D A. A hybrid method for determining technical vocabulary [J]. System, 2011(39):175-185.
[9] Scott M. PC analysis of keywords and key keywords [J]. System 25,1997(2):233-245.
[10] Anthony L. AntConc: A Learner and Classroom Frien- dly, Multi-Platform Corpus Analysis Toolkit[C]//In proceedings of IWLeL 2004: An Interactive Workshop on Language e-Learning.Tokyo:2004.
[11] Chung T M,Nation P. Identifying technical vocabulary[J].System,2004(32):251-263.
[12] West M.General Service List of English Words[M].London: Longman,Green & Co.,1953.
[13] 李绍山.语言研究中的统计学[M]. 西安: 西安交通大学出版社,2001.
[14] 梁茂成,李文中,许家金.语料库应用教程[M].北京:外语教学与研究出版社,2010.
[15] Nesi H,Gardner S, Thompson P,et al. British Academic Written English Corpus (BAWE)[DB/OL],2010. http://wwwm.coventry.ac.uk/researchnet/BAWE/Pages/BAWE.aspx
动 态
第十二期“出版物规范应用科技名词培训研讨会”在济南举办
2014年6月15—20日,全国科学技术名词审定委员会与新闻出版总署教育培训中心在山东省济南市联合举办了第十二期“出版物规范应用科技名词培训研讨会”。来自全国各地55家科技期刊、图书出版单位的71名编辑参加了此次培训。培训研讨会在很大范围内宣传了规范科学技术名词在新闻出版行业中的意义,对科技名词规范工作进行了比较全面的介绍。
全国科技名词委发挥自身优势,多位专家授课老师结合出版专业实际,以丰富的科技名词审定工作经验,运用大量实例和资料,深入细致地介绍了科技名词规范工作及主要成果,使学员在提高编辑专业技能的同时,对科技名词规范工作的重要性有了深刻认识,对科技名词审定工作的方法与原则有了深入了解,对科技名词的实际应用有了更加全面的体会,尽力使学员成为规范使用科技名词的推广者。研讨会上还特意为学员们安排了科技名词实际应用测试环节,巩固学员们的学习成果。
为提高学员在日常工作查询应用规范名词的便利性,进一步增强学员自觉应用规范术语的可操作性与可能性,研讨会还专门为学员演示如何利用规范术语在线查询平台查询规范术语,指导学员如何利用软件与网络技术进行规范术语查询,并将授课讲师的课件上传至网络,以便学员进行下载,满足长期学习的需求。
(郭剑)
Multiple Methods for Identifying Professional/Technical Vocabularies
CUI Weixia WANG Junsong
In this study, five different methods have been used to select the professional/technical words in aeronautical text. The five methods are using rating scale, using clues provided by writers, using technical dictionaries, vocabulary classification and keyword analysis. The author compared the five methods in terms of accuracy, efficiency and practicality, and the evaluation results showed that keyword analysis is based on corpus comparison and considered to be an ideal method but it still has problems, such as failing to separate technical words from their collocates. A hybrid method was proposed for identifying professional/technical vocabulary.
technical vocabulary, English for special purpose, keyword analysis
2014-03-31
本文为陕西省社科基金“基于专业双语平行语料库的词典编纂研究”(13K111)、西安外国语大学科研基金项目“专门用途英语(ESP)主题词表的创建及应用研究”(11XWB01),以及西北工业大学中央高校基本科研项目(3102014RW0017)的阶段性研究成果
崔维霞 (1979—),女,西安外国语大学高职部讲师,研究方向为语料库语言学、专门用途英语教学。 通信方式:cuiweixia@xisu.edu.cn。
H083;N04
A
1673-8578(2014)04-0014-06
分析是语料库技术中研究文本内容和文本语言特征差异的重要手段。它既是一种文本层面词语运用的统计方法,也是一种通过词语分布概率观察文本的视角。主题词是指“频率显著高于或显著低于参照语料库中对应词频率的那些词汇”[9]。在科技英语中,技术性词汇在专业文本中的比例要远远高于其在普通文本中的频率。主题词分析即是通过将词汇在专业文本(语料库)和参照文本(语料库)中的频率进行对比,从而将其中差异显著的主题词提取出来。常用的主题词统计软件为wordsmith和antconc,而进行频数差异检验的最常用方法是卡方检验(chi-square或χ2)。卡方检验是“比较实际次数与期望次数之间是否有显著差异”的检验[13],属于非参数检验。在词汇频次差异研究方面,就是测定某词汇的频次观测值O与理论期望值E之间的差异,为此而构造的统计量称为χ2统计量,其计算公式如下: