英语词汇分析工具软件的功能设计

2014-10-15 02:00黄锦茹陆银根李爱华邹明学
中国现代教育装备 2014年15期
关键词:词库词表数据文件

李 冬 黄锦茹 陆银根 李爱华 邹明学

1.南通大学 江苏南通 226019 2.南通广播电视大学 江苏南通 226006

英语词汇数据分析在教材编写、试卷分析、语言研究中有很高的应用价值,提升教材和教学质量。由于英语词汇变化形式繁多,词汇数量庞大,人工完成材料中的词汇原型转换、分类统计、类型计算等工作,最终形成有效数据,十分困难,成为开展词汇数据分析的瓶颈。为此,笔者根据英语词汇特点,设计了采集词汇分析基础数据的专用软件—英语词汇分析工具软件,下载地址:http://sjyj.ntu.edu.cn/test_page_en61.exe。

1 设计原则

1.1 平台通用性原则

目前,计算机操作平台90%以上为Windows系列,其中Windows7占49%以上,居首位。因此,笔者选择在Windows7环境下完成程序编制,并通过WindowsXP,WindowsVista,Windows7的32位版和64位版平台兼容性测试。

1.2 操作简便性原则

操作界面设计简单、易懂,无需培训就能使用,并在操作界面同步提供帮助信息,便于操作者理解、使用(如图1所示为部分操作界面)。

图1 部分操作界面

1.3 人性化原则

现在最常见的文件格式是纯文本和html,操作平台无需安装其他软件就可使用。以试卷或教材作为英语词汇分析对象,生成的数据文件格式均采用纯文本文件,需要标色的数据文件使用html格式。提供数据文件存放路径设置功能,生成的所有数据文件存放在用户指定的文件夹内,方便日后查阅。用户可以对词汇数据库的参数做简单改动,了解当前和最新版本,及时升级软件,可以通过操作界面直接进入软件论坛交流信息。

2 功能设计

2.1 总体结构

词汇分析数据的采集是将测试材料中单词在词汇特征数据库的支持下逐一转变成原型,按难度分级、归类排序,统计得到原始数据,然后进入指定的数据加工模块进行简单计算,最终得到要求的基础数据。程序包括数据库部分与各功能程序部分,结构如图2所示。

图2 英语词汇分析工具结构图

2.2 数据库

系统包含两个数据库,一个是词汇数据库,另一个是生词库。

2.2.1 词汇数据库

通用词汇处理程序在识别测试文档的单词时,通过检索词汇数据库中对应词汇的相关信息,对检索词进行分类标记、原型转换和排序。词汇数据库收集了5万余个英语单词的特征信息,包括每个单词的系统序列号、各种变化形式和分级,分级参照2007年版大学英语词汇表,分为中学词汇、一般要求词汇、较高要求词汇、更高要求词汇、超纲词汇和高级词汇6个等级。

2.2.2 生词库

在处理过程中,一旦遇到词汇数据库没有收载的词汇,系统自动将其收入生词库中,管理生词库的程序对生词库自动进行重复词滤除、按首字母重新排序等,为扩充词汇数据库或研究新词提供帮助。

2.3 通用词汇处理程序

该程序的功能包括:滤除与词汇数据无关的符号,如中文、标点符号、阿拉伯数字、回车符等,取词入临时数据库,单词识别转换和分级,然后按字母排序生成词汇表并统计词汇量。它是本系统的核心程序,其他功能模块均首先调用它完成基本操作。

2.4 各功能模块设计

2.4.1 词汇难度构成数据采集模块

该模块完成7个级别(注:指词库未收入词汇也单独作为一个级别)的分类统计,采集数据包括词汇量、每一级词汇量、所占百分比等,每一级词汇都按首字母顺序自动生成词表,生成包含上述信息的数据文件。可以设置重复统计或不重复统计两种采集方式。

2.4.2 词频数据采集模块

采集待测文本所含词汇的词频(出现次数)、重复率、单词量和总词量等数据,按词汇首字母顺序和词频顺序两种格式生成数据文件(如图2所示)。

2.4.3 常用数据采集及自建词库模块

采集数据包括总词量、单词量、基本词汇量、容词率[1]和基本词汇占比等数据,同时生成词表和数据文件。该模块的另一功能是生成自建词汇库文件,用户通常可以将教学词表作为待测文件,利用自建词汇库这种开放式功能,对不同教学阶段的材料进行词汇覆盖率测试。

2.4.4 自建词库对照数据采集模块

利用该模块,可以获得总词量、单词量、容词率等普通数据,还可以测试材料中的自建词汇库在库词汇量和词汇覆盖率两个重要数据,生成的词表对在库词会标红显示并生成数据文件。该模块还可将自建词汇库所包含的词汇在待测文件原文中用红色标出。

2.4.5 其他延伸功能模块

作为一款英语词汇分析软件,除数据采集功能外,还包括若干延伸功能模块,使得用途更广。主要有:(1)词汇数据库有限参数更改模块,可以修改词汇数据库中单词的级别。(2)词汇分级标色显示模块,将原文中的词汇按级别标色显示。(3)词汇固定搭配检索模块,检索并显示含有某一单词的句子(最多8条),帮助用户快速发现固定搭配句型。(4)生词整理模块,将生词库中的生词整理成词表文件以供研究。(5)简易语料库建设模块,设置8 000个单词作为简易语料库的基础词条,每个词汇设有双语解释、经典例句、词组、固定搭配、试题5个栏目,语料库完成后,数据可以打包、分享。

3 结束语

针对教材、试卷的词汇数据分析是英语教学数据评价研究的新领域,由于词汇数据采集困难,导致该领域研究文献很少。利用计算机信息处理技术,编制计算机辅助处理程序可高效快速地采集、加工数据,并且采集的数据稳定可靠、质量高。用英语词汇分析工具对1990~2010年的大学英语四级考试进行词汇数据分析,取得了令人满意的结果。

[1]李冬.20年大学英语四级考试词汇回顾性分析[J].考试周刊,2013(41):3-4.

猜你喜欢
词库词表数据文件
基于VOLT的藏汉双向机器翻译
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奥会项目名称汉英对照词表
一“吃”多用
输入法词库取证比较研究
近十年国内外专业学术词表建立文献综述*
基于表空间和数据文件探讨MIS中数据库架构设计
输入法词库乾坤大挪移
基于网络环境的社区协同办公问题探讨(二)
常用联绵词表
气象数据文件异机备份程序浅析