基于语料分析的英文纪录片的语言特征及主题词解读

2020-01-09 18:41
开封文化艺术职业学院学报 2020年10期
关键词:词表主题词语料

刘 洋

(苏州高博软件技术职业学院,江苏 苏州 215163)

BBC 自然类纪录片制作精良,堪称业界典范。学界对于BBC 英文纪录片的研究相对较少,主要集中在以下几个方面:叙事视角和叙事模式分析,中国题材类纪录片中的中国形象构建和中国话语分析,纪录片中的生态话语分析、字幕翻译研究等。本文利用语料库软件对所选的英文自然纪录片的词汇难度、易读度和主题词进行分析,从而挖掘纪录片的主题。通过语料库客观、定量地分析纪录片的语言特色和主题,为纪录片研究提供新的视角和 “更加客观全面的多维度解读”[1]。

一、词汇难易度分析

在《 荒野间谍》《 蓝色星球》《 生命》 三部BBC 经典的自然纪录片中,选取15 集解说词作为语料,对语料进行了清洗、分词,建立了小型纪录片语料库,并利用语料库软件Readability Analyzer 和Range 对语料进行分析。纪录片语料库形符54 781,类符6 195,平均词长4.38,平均句长11.4,标准化类符/ 形符比(STTR)为44.2。

标准化类符/ 形符比用于衡量文本词汇密度,也可以辅助说明文本的词汇难度。类符/ 形符比= 类符/形符×100%。标准化类符/形符比的计算方法是:计算每个文本每1 000 词的类符/ 形符比,将所得到的若干个类符/ 形符比进行均值处理[2]9。弗莱士易读度的范围是0~100,数值越高,文本越容易理解。纪录片语料库的弗莱士易读度为72.92,比较简单,相当于美国学校五六年级学生的阅读水平。

通过Range 软件进一步分析纪录片语料库的词汇难度。Range 自带三级词汇底表,其中,前两级词表源于West 的《通用英语词表》,第一级是最常用的1 000 个词族,第二级为次常用的1 000 个词族。第三个词表的570 个词族来源于Coxhead 的 “学术英语词表”。

三级词表中,“类符的三级及词表外词汇是更可靠的难度判别标准”[2]138,因此,可通过第三级学术词表和词表外词汇对整个文本进行词汇难度判别。纪录片语料库中,77.20% 的词汇属于最常用的一级词表,7.42% 的词汇属于次常见的二级词表,2.89% 属于第三级词表,12.49% 属于词表外词汇。可见,纪录片语料库中80% 以上都是常见的词汇,易读性较强,适合各个层次的读者。BBC 的自然纪录片被国内外大众广泛接受与其简单朴实的语言特色有明显的联系。

二、主题词表分析

主题词是 “通过全面对比所析出的A 语料库与B 语料库中显著不同的词汇”[3]64。在特定语料库中明显多用或少用的词汇可以有效解释话语的主题,对一定数量的主题词进行提取和分析,不仅能从总体上认识整个话语内容,而且能揭示其社会背景和文化内涵。

以Brown 语料库作为参照, 利用PowerConc 软件提取主题词表。排列在前15 位的主题词分别是:spy(关键值1 319.5)、they(750.6)、fish(694.7)、male(427.8)、but(426.1)、sea(373.6)、are(372.6)、their(372.0)、here(350.1)、female(341.5)、animal(331.6)、eggs(310.3)、just(300.4)、filming(282.1)、creatures(267.7)。

从主题词they、fish、their、female、animal 等大致可以看出自然类纪录片主要以动物为拍摄主角,而且多用第三人称代词指代动物。可见,纪录片是十分客观的,全知全能的第三人称叙述视角摆脱了时间和空间的限制,客观地呈现出一个不为人类所知的动物世界,展示了动物活动的全貌。而主题词sea也高频出现,体现出部分纪录片的拍摄地点是海洋,说明自然类纪录片较关注海洋及海洋生物。人类对海洋深处的世界知之甚少,纪录片的拍摄目的就是记录、解密不为人知的领域及其动植物,这正是《蓝色星球》拍摄的原因所在。

此外,but 的关键值为426.1,其作为连接词,常连接两个简单句,用于意义的转折,突出后半句。but的高频出现说明自然纪录片较多使用转折句,主要为了创设悬念,让观众感到意外,从而更加吸引观众。同时,简单句的并列也凸显了纪录片简单朴实、自然流畅的语言特色。

主题词表中关键值大于100 的词汇可分为四类:第一类是动物名称及其指代词,如they、their、animals、fish、shark、dolphins、octopus、coral、bird、dragons、monkeys、leopard、male、female、mother、young 等。这些动物均为纪录片的主角,如科莫多巨蜥、猎豹、鲨鱼、大猩猩、胡秃鹫,它们遍布世界各地,有海洋生物、陆地动物,还有飞禽;有成年的雄性、雌性,还有幼崽;有雌性和雄性的爱情,也有动物妈妈和宝宝的亲情。三部自然类纪录片呈现出的是自然界物种多样性这一主题。

第二类是生活环境与地点名词, 如forest、den、nest、sea、ocean、planet、ice 等。纪录片的拍摄组踏遍世界上的森林、海洋、冻原,沙漠,利用高科技的拍摄技术,记录了令人惊叹的缤纷美景、人类之前从未涉足的神秘世界及充满危机的极端环境;也记录了先进的人类社会给动物的生存环境带来的巨大变化、威胁和挑战。

第三类词汇是动物的行为词汇,如spy、behavior、mate、feed、friendship、hunting、prey、hide、survival 等。纪录片记录了动物生活的方方面面,如觅食、捕猎、交配、友情、亲情、爱情、危机、生存本领等。主题词中spy 一词的关键值最高,充分体现了《荒野间谍》的主题内容。spy 既可做动词,也可做名词。在《荒野间谍》中,spy 多是名词做定语,如spy creature、spy pup、spy egret、spy tortoise、spy dung ball 等,指代34 个安装了内置摄像器材的仿真电子动物或者物品,这些间谍动物潜入野生动物群体内部,近距离细致地观察人类以前从未拍摄到的野生动物的活动画面。纪录片中记录了猴群里的母猴轮流当保姆,照看捡回来的 “假猴宝宝”;猴群哀悼 “摔死的” 假猴宝宝;巨型非洲牛蛙挖渠引水拯救子女;两头雄性驼背鲸为一头雌鲸展开了激烈的战争;爬行动物如科莫多巨蜥等冷血动物凭借出色的捕食技巧、绝妙的伪装能力、坚韧的躯体和聪明的头脑,在其他动物无法涉足的恶劣环境中繁衍生存。

第四类是评价类的词汇, 如extraordinary、intelligent、perfect 等。 纪录片给予动物们高度评价,在《荒野间谍》开篇就提到 “The world is full of extraordinary animals.” 在 解 说 词 中,intelligent 前面常用修饰语the world’s most、highly、one of the most、supremely、extremely。可见,纪录片充分肯定了动物的智慧。动物绝妙的猎食技巧、求偶策略、亲情呵护、躲避危险等方面无不体现出绝顶的智慧、丰富的情感和面对挑战时强大的适应力。

结语

语料库辅助的研究方法在文学研究中逐渐被接受,并成为一种趋势。语料库使文本研究更客观。利用语料库软件分析英文纪录片的可读度和词汇难度可知,纪录片中的词汇较为简单,文本的可读性强,适合各个年龄段的观众观看。主题词可以帮助发现与文本主题相关的词语特征,并提供语篇层面词语的分布与文本主题的关系以及词语之间的关系[4]46-49。研究者利用PowerConc 提取纪录片的主题词,并对主题词进行聚类分析,再对纪录片的主题进行剖析。利用语料库分析方法能更加客观有效地对文本进行全面分析,为传统的文本研究提供了量化依据,也拓展了传统文本研究的视角。

猜你喜欢
词表主题词语料
面向分级阅读的分级词表研制*
基于归一化点向互信息的低资源平行语料过滤方法*
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奥会项目名称汉英对照词表
智能传感器的智慧战略,新技术创造新价值
濒危语言与汉语平行语料库动态构建技术研究
取消公文主题词的真正原因是什么?
国内外语用学实证研究比较:语料类型与收集方法
基于语料库的词表创建原则及方法研究
公文主题词消失的原因浅析
常用联绵词表