英语词汇研究之数据采集

2017-06-16 20:21李梦圆
中国教育技术装备 2017年8期
关键词:数据采集英语词汇

李梦圆

摘 要 英语词汇数据分析近年来发展较快,数据采集是词汇数据分析的基础工作。介绍利用英语词汇分析工具专用软件采集词汇数据,包括采集范畴、数据类型和相关性质。

关键词 英语词汇;英语词汇分析工具;数据采集

中图分类号:H319.3 文献标识码:B

文章编号:1671-489X(2017)08-0027-04

Abstract Recently there has been a fairly great rapid development in

the data analysis for the English vocabulary. The data collection serves as the basis for the vocabulary data analysis. The present paper

will give an introduction to the collection of vocabulary data, inclu-

ding the collection scope, the data kinds and the relative correspon-ding qualities by using the special software An Analysis Tool for the English Vocabulary.

Key words English vocabulary; an analysis tool for the English vocabulary; data collection

1 引言

英語语言研究中词汇研究占有重要位置。利用维普期刊资源整合服务平台[1]对国内1989—2016年期刊发表的文献进行关键词检索,英语研究类文献中词汇研究文献多达22 600篇。其中英语词汇数据研究文献1989—1998年仅为4篇,1999—2008年增至8篇,2009—2016年则达到25篇,显示出词汇数据分析研究领域发展很快。随着新技术不断地引入和更多研究人员的参与,未来英语词汇的数据研究必将成为新的热点,将在语言研究中发挥重要作用。英语词汇数据研究是基于对词汇特征数据的分析,往往材料本身词汇数量庞大、变化形式繁多,手工采集数据极其困难。本文简单介绍利用“英语词汇分析工具”软件采集英语文本中的词汇数据。

2 软件概貌

“英语词汇分析工具”软件是由南通大学李冬编制[2],软件可以在各类Windows操作平台安装、运行,操作界面简单友好(见图1、图2),帮助文件完整,一般不需专门学习就能操作使用。数据采集操作过程包括导入纯文本文件格式的英语文本材料、设置采集目标模式、运行程序完成数据采集和生成对应的数据文件。数据文件存放在指定的文件夹内,采用TXT纯文本文件格式,需要标色显示的数据文件则为HTML文件格式。

3 常用数据采集

英语词汇的数据研究依研究目标确定与其相关联的特征数据作为研究基础,采集数据,然后进行直观比较、数学分析,获得科学结论。“英语词汇分析工具”可以采集文本中下列词汇特征数据。

1)形符,又称词符、总词汇量,指材料中所有出现过的单词,包括重复出现的单词,它是观察材料篇幅大小的直观数据。

2)类符,又称词型,指材料中不重复出现的单词(仅字母排列形式不同,如look、looking、looked可看作三个类符),所以可看作不重复的形符,如在教材研究[3]和试卷研究[4]中形符、类符数据的统计。

3)词汇:以原型词为区分标准做统计,排除了如名词的单/复数、动词的时态、形容词的比较级等变化形式干扰。

4)词汇密度:衡量单位文章信息含量的尺度,反映语篇难易程度的数据[5]。计算采用类符/形符比值(英文缩写为TTR),计算公式:

TTR=(类符数/形符数)×100%

5)词汇覆盖率:用词汇做计数单位,以某个词汇表作为测量尺度,统计文章中词汇在词汇表中数量的占比,依此判断文章与词汇表的关系程度。词汇覆盖率有两种算法,其使用目的也不同。

①材料词汇覆盖率:用于教材可读性或难度的评估,即不同教学阶段选择适合的教学词汇表(如小学词汇表、初中词汇表、高中或大学词汇表)进行教材的词汇覆盖率测定,判断教材的适用性。计算公式:

材料词汇覆盖率=(材料中词汇表所包含词汇数/材料词汇数)×100%

②词表词汇覆盖率:用于试卷知识点的评估,即将词汇表中词汇作为知识点,测定考试试卷的词汇知识点覆盖率。计算公式:

词汇表词汇覆盖率=(材料中词汇表所包含词汇数/词汇表词汇数)×100%

词汇覆盖率测试操作是先将自己的教学词汇表导入软件,创建自定义词汇库文件(图3),然后进行材料的词汇覆盖率测定。

6)词频数据,指某一词汇在材料中出现的次数(又叫频数),对材料中的词汇做词频统计、计算重复率并按一定规则列出称词频表(图4),词频表可以方便地观察词汇使用状况。

7)词汇分级:按词汇的难度对应教学阶段进行词汇分级,如小学、初中、高中……形成系列分级词汇。对材料做词汇分级测定在教材编写和试卷分析中都有实用价值,可以窥视其词汇分布的细微变化(见图2)。

8)词汇表:把材料中词汇转换成原型,按首字母顺序列出,称词汇表。词汇表为研究者审核词汇提供了便利。

4 其他功能

“英语词汇分析工具”功能非常丰富,如自身知识库的修改完善、简易语料库的建设、联网交流等。此处仅介绍两个亦属于数据采集的功能,即人名地名搜索和新词汇的收集整理,尽管它们一般不用于数据分析。

人名地名采集 人名地名研究也是英语研究的一个专门领域,关键词搜索统计(1989年以来)国内期刊发表的人名研究方向的文献有142篇(翻译研究、语言应用研究和文化宗教研究),地名研究方向的文献有77篇。在长篇文学作品的研究中,快速人名搜索对研究人物之间的关系、人物行为性格和语言特点均有帮助。人名地名采集用“其它功能”(见图1),导入小说文本,进入“人名地名搜索工具”,有生成词汇表或文中标红显示两种处理模式供选择,图5是生成词汇表模式处理结果。

英语新词收集 新词的产生是社会发展的必然现象,在全球一体化、信息化发展大背景下,新词汇(如网络词汇、商务新词、科技新词等)正以前所未有的速度增加。关键词检索英语新词汇研究文献为520篇,英语新词汇对辞书编辑、翻译交流和英语教学都有显著影响。

在海量的材料中寻找新词汇非常困难,借助“英语词汇分析工具”生词库操作功能,可以大大方便该项工作。软件系统自带5万余条词汇的特征库,在分析识别材料的过程中遇到不包含在其内的词汇时,自动将其收纳入生词库中,而生词库操作功能是将收集的词汇进行滤除重复、按首字母排序、生成词汇表文本文件。因此,可以把生词库所收集的词汇看作疑似新词的初筛,为英语新词研究提供帮助。

5 结语

当今世界已进入大数据时代,科学技术飞速发展,信息量空前膨胀,英语数据挖掘和分析作为一种研究手段越来越受到研究者的关注[6-7]。英语词汇的数据分析离不开数据的采集,本文介绍利用专用计算机工具软件进行相关数据采集,希望给相关工作带来帮助。

参考文献

[1]重庆维普资讯有限公司.维普期刊资源整合服务平台[DB/OL].[2016-11-08].http://lib.cqvip.com/.

[2]李冬,黄锦茹,陸银根,等.英语词汇分析工具软件的功能设计[J].中国现代教育装备,2014(15):23-24.

[3]刘瑜,闫磊.海军英语教材词汇分布分析[J].亚太教育,2015(11):162.

[4]周加林.大学英语四级考试真题的词貌特征:基于2006年6月—2013年6月大学英语四级考试真题的统计与分析[J].大学英语教学与研究,2014(3):82-87.

[5]王芳,连天雪.基于语料库的商务英语与普通英语的词汇比较研究[J].大连理工大学学报:社会科学版,2013,

34(3):130-133.

[6]ZHU Z. Application of Data Mining Technology in the Infor-mation Technology of College English Teaching[J].Advance Journal of Food Science and Technology,2013(7):969-975.

[7]WANG Y, Tseng M H, LIAO H. Data mining for adaptive learning sequence in English language instruction[J].Expert Systems with Applications,2009(4):7681-7686.

猜你喜欢
数据采集英语词汇
初中英语词汇教学策略初探
CS5463在植栽用电子镇流器老化监控系统中的应用
大数据时代高校数据管理的思考
基于广播模式的数据实时采集与处理系统
通用Web表单数据采集系统的设计与实现
基于开源系统的综合业务数据采集系统的开发研究
高中英语词汇学习之我见
初中英语词汇教学初探
扩大英语词汇量的实践
来自人名的英语词汇