李文良,付海辰
(唐山学院a.外语系;b.计算机系,河北唐山 063000)
英语专业四级词汇自主学习语料库的设计和技术实现
李文良a,付海辰b
(唐山学院a.外语系;b.计算机系,河北唐山 063000)
主要从语料库的建设前提、语料库的设计和技术实现以及语料库的检索三个方面分析了英语专业四级词汇自主学习语料库的建设问题。
语料库;设计;技术实现;检索
随着计算机技术的发展,英语语料库在中国也得到了迅速的发展。语料库方法在词典编纂、语言研究和语言教学等方面得到了越来越多的应用。英语语料库在英语语言教学和研究方面有着十分重要的作用。它可以提供真实语料,提供数据的统计,根据数据验证现行的语言学习理论并能据此建立新的理论。英语专业四级词汇自主学习语料库通过语料库和语料库索引工具把语境共现、语料库的文本展现和网络互动进行有机结合,为外语学习者提供一种自然的语言学习环境,从而促进学习者对外语词汇的自主学习。适合学习者多样化的语料库的建立,还能改变单纯依靠教材进行外语学习的被动局面,解决了语言学习材料的真实性和多元化问题,适应立体化、网络化、个性化外语教学和学习的实际需要,使外语教学朝着个性化学习、不受时间和地点限制的学习、主动式学习的方向发展。利用语料库对英语专业学生进行四级词汇自主学习和研究,首先需要建立英语专业四级词汇自主学习语料库。本文主要针对语料库技术的发展和语料库建设问题中出现的关键问题进行逐一探讨。
语料库技术的发展大致经历了四个阶段。
第一阶段:人工采集语料阶段。语料靠人工阅读采集而来。在当时的技术条件下,研究者会花大量时间阅读书籍、报刊,搜集语料。但此种方法费时、费力,效率低,而且资料的质量无法保证。
第二阶段:计算机语料库的建立与 KW IC(上下文关键词)检索阶段。计算机语料库的建立和检索工具的开发,在语料库的规模、覆盖面、典型性上,都优于人工搜集。人们可以把更多精力投入到更有意义的语料库技术实现上。多种英语语料库检索工具得以开发,如WordSmith,Sara,TACT等。这些检索工具的一个共同特点是通过 KW IC形式,将被检索词置于上下文中,显示其用法。但通过 KW IC检索时,检索得到的语料行数不能太多,否则就难以观察。对语料的概括和小结仍存在一定缺陷。
第三阶段:Word Sketch Engine(简称WSE,词汇描述引擎)检索阶段。英国Brighton大学的 Kilgrarriff和 Tugwell等人开发的软件“Wo rd Sketch Engine”可较直观地显示词的常见搭配以及出现频率和显著度(salience)。用 WSE检索结果分三栏排列:第一栏显示被检索词的搭配或句法结构;第二栏为每一搭配或结构在英国国家语料库(British Na-tional Corpus)中的频数;第三栏则是搭配或结构的显著度。WSE检索工具已经商业化,进行词典的编纂,还辅助开发了英语义类词典。
第四阶段:FrameNet(框架网)检索阶段。此种检索继承了前两代检索工具的优点,而且对词义更敏感。
综上所述,各个阶段的语料库技术都有自身的特点。就目前我们建立英语专业四级词汇自主学习语料库而言,主要还是使用第二阶段的英语语料检索工具。
英语语料库研究的发展经历了三个阶段。运用语料库进行语言研究最早可以追溯到19世纪末,当时的研究手段还只停留在卡片制作和人工检索的阶段,其成果也仅用作编纂语法书或词典的参考;20世纪60年代至90年代是语料库语言学发展的第二个阶段,世界各地都开始建设自己的语料库并且开始跨国联合建立国际性的语料库,20世纪90年代中期是语料库语言学发展的第三个阶段。语料库语言学一般被认为是20世纪60年代初期发展起来的一门新兴的语言研究科学。我们目前是利用自己开发的英语专业四级词汇学习语料库进行四级词汇自主学习的研究。
2.1 语料库的建设前提
研究学生利用英语专业四级词汇学习语料库进行学习的前提,便是要建立四级词汇学习的语料库。语料库的建设主要包括两大方面:一是语料库文本,二是语料库检索软件。在具体选择语料库文本和语料库检索软件之前,需要明确几个问题:
(1)语料库研究的目的和设计。针对的主要是即将参加英语专业四级考试,需要通过大量语料来巩固、完善词汇学习的英语专业学生。在此基础上,根据学生利用语料库进行词汇学习的过程和结果,对词汇自主学习模式进行探讨。
(2)语料库的整体设计。英语专业四级是指英语专业的学生在大学阶段英语专业学习第四个学期所应达到的水平。所以语料库中的文本包括现行英语专业前四个学期的教材和专业四级阅读文章、网上相关四级词汇内容、各种英文电子期刊杂志等等。
(3)语料库文本的整理。语料来源于课本、辅导材料和电子文本,但要把这些材料应用到语料库,还需要做相应的加工和处理,我们把这个过程称作清洁。文本不清洁会导致在日后的使用和分析上的不准确。因此这一过程非常重要。
取样的平衡、设计容量、语料来源等都会对日后的研究产生一定的影响。在建库之后,我们可以借助语料库进行学习或者带着问题进行研究,并在此基础上进行数据统计和分析。整个工作流程见图1。
2.2 语料库的设计和技术实现
(1)建库所需工具和软件。在语料库建设前,要确保有一些好用的文本编辑器,如 EditPad、EditPlus等;建库所需文本扫描得到的图形文件,需要相应的识别软件,如 AB-BYYFineReader等;如果来源于网络,可能需要解压缩软件W in RAR,W inZIP,如果是CAJ或是PDF格式文件,则需要AdobeReader或是CAJViewer,还需要相应的转换软件把格式改为文本格式。
图1 流程图
(2)语料库的设计。语料库的设计首先包括语料的类型问题,以及确定各种语料所占的比例:对于英语专业四级词汇学习语料库来说,语料类型丰富,包括人文、地理、历史、科技、逻辑、新闻等多种类型。设计时可以大概有一比例,在语料库建成后可以再进行详细统计。对于语料的大小,由于此语料库语料来源有课本、考试和网络,所以语料长短会有差别,但按照《英语专业四级考试大纲》的要求,一般语料长度都应在500个单词以上。
语料库语料的获取方法问题:此语料库获取语料的主要渠道为英语专业所用教材、专业四级考试材料和网络。因为专业所用教材是按照《英语专业四级考试大纲》所要求的词汇进行编写,所以涉及到了大部分专业四级词汇。而《英语专业四级考试大纲》按照《高等学校英语专业教学大纲》要求编写而成,并且根据历年考试实际情况进行微调,所以试题存在代表性和平衡性。而从网络获取部分语料则是考虑到了英语的实时更新性和与时俱进性。语料是活的,是在不断更新和进步的。但网络获取我们主要选取了一些权威网站的语料,这些网站均为英、美主要报刊和杂志,以确保语料的真实性和有效性。
文本的整理和清洁:整理清洁文本的原因是由于通过键盘录入、扫描识别、网络下载或是PDF文件等方式得到的文本,在单词拼写、文字符号、空格段落和标点符号等方面都存在着一定的问题。如果文本不干净,会导致后期分析结果不准确。图2和图3通过文本片段说明这个问题。
图2 问题文本
在图2问题文本中,可以看到文本格式存在很多问题:单词间空格多余、有空段、出现硬回车、出现全角符号等。这样的文本在后期应用中存在诸多问题,通过文本清洁后如图3所示。
图3 清洁文本
由于建库需要大量文本,对于文本出现的格式问题,也可使用软件“文本整理器”进行批量整理,清洁文本。文本处理器的功能如图4所示。但仍有可能存在文本不清洁的问题。这时候则需要借助正则表达式进行进一步清理。
(1)在AntConc主界面File菜单中Open File中浏览并选定文本。如果需要选择某一文件夹下所有文本,则在File菜单中选择“Open Dir…”,浏览并选定文件夹。如图 5所示。
图5 操作页面一
图4 文本处理器的功能
文本的标注。语料库标注的深度,取决于语料库建设的设计目标和研究需求。语料库既可以不加任何标注,也可以添加多层次标注。标注信息的复杂程度决定了技术要求和研发成本的提高。目前的标注语言多采用Extensible Mark-up Language(简称XML)。此语言灵活度高、扩展性强、句法严谨。由于篇幅所限,标注问题另行撰文。
2.3 语料库的检索
语料库建设完成后。可以利用 AntConc进行简单检索。激活软件后,按以下步骤操作:
(2)点击AntConc主界面上方的Conco rdance选项,在检索项中输入需要检索的四级词汇。如图6所示。在检索项输入框上方的检索模式区域进行选择。如只想了解选定词的准确形式,就选择“wo rds”模式下检索;如想检索词缀则在“Regex”模式下能得到较为理想的结果。或者,可以利用通配符来满足多种检索需要。如需进行复杂检索,仍需使用正则表达式进行。
图6 操作页面二
语料库在外语教学和研究中发挥着越来越重要的作用。相应的对于语料库的设计、软件开发和应用也会得到促进和发展。这需要英语专业和计算机专业人员相结合,共同进行语料库开发和建设。
(责任编校:李聪明)
The Design and Techn ical Realization of TEM 4 Vocabulary Corpus Based on Autonomous Learn ing
LIWen-lianga,FU Hai-chenb
(a.Department of Foreign Languages Tangshan College,Tangshan 063000,China;b.Department of Computer Sciences Tangshan College,Tangshan 063000,China)
The paper analyzes the construction of TEM 4 vocabulary corpus from the perspectives of the p recondition,the design and technical realization and the searching based on autonomic learning.
corpus;design;technical realization;searching
H319.3
A
1672-349X(2010)05-0090-02
2010-08-20
河北省教育厅立项课题(SZ091120)
李文良(1962-),男,教授,硕士,主要从事英语语言文学教学与研究。