自建小型语料库石油钻井词汇特征分析

2023-03-27 04:45王喜艳
现代商贸工业 2023年5期
关键词:词频语料语言学

王喜艳

摘 要:本文在遵循语料库建库的权威性、真实性、随机性、代表性的原则上,用Teleport ultra从美国专利商标局聚类抽样了156篇与之相关的文本,建成了一个小型石油钻井英语语料库,然后以COCA语料库为参照,借助Wordsmith分析了石油钻井英语的词汇密度、词长、词频,用直观的数据探讨了石油钻井英语的高频词、用词倾向等方面的特点,这对石油钻井英语词汇特点的认知具有重要的指导意义。

关键词:石油钻井英语;自建石油钻井英语语料库;Teleportultra;COCA语料库;Wordsmith

中图分类号:F74     文献标识码:A      doi:10.19311/j.cnki.16723198.2023.05.021

0 引言

对石油钻井英语词汇特征的把握有助于准确地进行翻译,从而为专业技术人员提供更加先进的钻井技术以及设备和管理经验等。本文由四章组成。第一章介绍了理论背景。第二章介绍了自建石油钻井英语语料库的具体操作。第三章对石油钻井英语的词汇特征分析和总结。第四章介绍了本研究的成果和意义。

1 理论背景

1.1 语料库

语料库源于拉丁词“corpus”,在1828年拜占庭帝国所编纂的民法法典Body of Civil Law中提到了“corpus”這个词,指的是关于法律法规的集合,到现在为止,语料库也一直沿用的这个集合的概念,语料库概念的源流大概分为四个阶段,第一阶段是表示文本的汇集。第二阶段表示作为研究材料的文本汇集。第三阶段表示作为语言学研究资料的文本汇集。20世纪四五十年代在美国结构主义语言学文献中,开始出现“corpus”单独使用表示语言研究素材库的含义。第四阶段表示作为语言学研究资料的电子文本汇集。20世纪60年代后,以布朗语料库为代表,逐渐确立了按一定取样方案采集、服务于语言研究目的的电子文本文库这一概念。现在对语料库的具有代表性的定义是,“语料库是指在随机采样的基础上收集的有代表性的真实语言材料的集合,是语言运用的样本(杨惠中,2002)。”

1.2 语料库语言学

语料库语言学最早源自20世纪初至五六十年代的美国结构主义,它的代表人物有Boas, Sapir和Bloomfileld,它的核心任务是基于真实语料的语言描写。语料库语言学也非常注重语境,最早以Firth为代表的伦敦学派提出了对语境考察的概念。之后在Malinowski和Firth的“语境语义观”的指导下,语料库语言学主张基于语料库,通过词语搭配、词类联接、语义倾向和评价特征,寻求对语义生成机制的解释。

1.3 基于语料库的词汇研究

基于语料库的词汇研究既深化了以往的研究,又拓宽了词汇研究的领域。本部分详述了基于语料库的词汇研究的各个方面,并根据研究内容将其分为三大类:词典编纂、关键词研究与形态学和构词法。

(1)词典编纂。正如Kennedy(1998)所说:“语料库在词汇描写方面最明显的作用是在词典编纂方面。”计算机技术的进步使基于语料库的词典学研究更进一步。词典编纂者可以利用计算机从现有的或自建的语料库中快速、详尽地获取某个词或短语在上下文中的用法和说明。

(2)关键词研究。通过语料库研究关键词可以用来分析词汇与文本主题之间的关系,也可以用来分析词与词之间的搭配。关键词一般指的是相较于参照语料库,某一特定文本语料库出现的高频词,其与文本的主题联系非常紧密。

(3)形态学和构词法。基于语料库的词汇研究也有助于研究词汇的形态学和构词法。有些词典可以为研究词汇形态或构词法提供一些信息,通过语料库来研究不同形态词汇的频率也很重要。

2 自建小型石油钻井英语语料库

2.1 语料库设计

(1)参照语料库。本文将美国当代英语语料库(COCA)作为参照语料库。从COCA官网对每种类型的语料随机抽样,共抽取16万字的语料作为参照语料,并进行了清洗和分词处理。

(2)自建语料库设计。设计语料库要考虑是否具有代表性、权威性、可及性等。本研究用Teleport ultra从美国专利商标局抽样156篇与石油钻井英语相关的专利文本,并对这些语料进行加工处理,自建语料库的规模定在了15万字左右。

2.2 语料收集

在USPTO输入oil drilling,完成检索后用Teleport Ultra抓取语料,抓取设置为仅抓取文本,原始语料为html格式。如图1所示。

2.3 语料加工处理

(1)语料预处理。

完成抓取后,需要将文本的html格式转换为txt格式,用textforever工具进行格式转换,如图2所示:

转换为txt格式后,用文本整理器对txt文本整理,如图3所示。

(2)语料分词。

将处理后的文本通过tree tagger进行分词,如图4所示。

3 石油钻井英语词汇特征分析

3.1 数据分析

(1)词汇长度。

一般来说,词汇越长,文本就越复杂,也就越正式。词汇长度通常可以用字母的数量与词汇的数量的比来计算。通过在wordlist中生成词表,自建的ODEC与COCA的平均词长和标准词长对比如下表1所示。

从表1可以看出, ODEC的平均词长和标准词长都要高于COCA。因此,ODEC的复杂程度要高于COCA。

(2)词汇密度。词汇密度可以用来判断文本的难易程度和文本的信息量。Halliday(1985)提出了词汇密度的计算公式,也就是TTR的值,TTR的计算公式如下:

TTR=(type/token)*100

Type指的是类符,是指在语料中不重复计算的形符数。Token指的是形符,是一个语言单位。类符与形符的比就是词汇密度。但用这种方法来计算长度不同的文本是不合理的,因此又引入了STTR,STTR可以用来比较不同长度的文本的词汇密度。通过wordsmith得出了ODEC和COCA的TTR和STTR,结果如下表2所示。

从以上表2可以看出,ODEC形符和类符的数量都低于COCA,但是TTR和STTR值都高于COCA。因此,自建的ODEC的词汇密度高于COCA。也就是說,石油钻井英语的文本是比通用英语要更为复杂,更难理解。

(3)词频。

词频表是做语料库研究的一个基本的数据分析手段。通常来说,出现频率最高的词大多数都是功能词。ODEC 与COCA词频对比如下表3所示。

从上表3可以看出,ODEC词频排名前15的都是功能词,COCA排名前15的大多数都是功能词,但是COCA还出现了诸如“I; he; you”的人称代词。因此可以得出结论,石油钻井英语注重客观表达,较少使用人称代词。

此外,应用wordsmith也做了ODEC和COCA的实词的词频对比。结果如下表4和表5所示。

从以上表4和5可以看出,ODEC的高频实词都是钻井,钻头,油井;井眼;修井;钻井液以及钻井工具组合,这些高频词由名词以及动名词组成,这表明名词在ODEC中扮演着重要的角色。而作为参照语料库的COCA的高频实词基本都是动词,因此通用语料库的动词比较常见。

4 结语

本文基于自建的小型石油钻井英语语料库,应用wordsmith研究石油钻井英语的词汇特征,分别从词汇长度、词汇密度和词频三方面对自建的语料库和参照的语料库进行了对比,得出了石油钻井英语通常词汇密度大、文本较为复杂、词长长、功能词较多、注重表达客观性、很少用人称代词以及多用名词的结论,本研究对石油钻井英语词汇的学习、写作以及翻译具有重要的指导意义。

参考文献

[1 ]Halliday.Spoken and Written Language [M ].Australia: Deakin University,1985.

[2 ]Kennedy.An Introduction to Corpus Linguistics [M ]. Foreign Language Teaching and Research Press,1998.

[3 ]梁茂成,李文中,许家金.语料库应用教程 [M ].外语教学与研究出版社,2010.

[4 ]王立非,梁茂成.wordsmith方法在外语教学研究中的应用 [J ].外语电化教学,2007.

[5 ]杨慧中.语言学导论 [M ].上海外语教育出版社,2002.

猜你喜欢
词频语料语言学
基于词频分析法的社区公园归属感营建要素研究
基于语料调查的“连……都(也)……”出现的语义背景分析
认知语言学与对外汉语教学
华语电影作为真实语料在翻译教学中的应用
词频,一部隐秘的历史
云存储中支持词频和用户喜好的密文模糊检索
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法
以关键词词频法透视《大学图书馆学报》学术研究特色
社会语言学名词