基于SQL模糊匹配技术的英语词汇学习小工具设计研究

2018-01-16 12:39周敏
中国信息技术教育 2018年1期

摘要:本研究建立在英语词汇数据库的基础上,利用数据库中SQL语句模糊匹配等编程技术,设计并初步制作了可以辅助英语词汇检索和学习的小工具,目前已有基础查词、词根、词缀(分为前缀和后缀)、汉语匹配、词组匹配5类共6个工具。在ICT理念指导下,充分借助信息技术手段来管理和利用海量词汇信息,可以提高英语词汇学习者的学习效率和减轻英语教师的教学工作负担。

关键词:SQL模糊匹配;英语词汇学习;小工具;教育软件设计开发

中图分类号:G434 文献标识码:A 论文编号:1674-2117(2018)01-0073-04

问题提出的背景

1.词汇学习过程中的实际需求

英语词汇的文本是由字母、数字等符号构成的,在学习和记忆时,可以根据词汇之间的相关关系进行聚类、共现。在实际词汇学习时,常遇到这些需求:将英语词汇中意思和“论证”有关的近义词都检索出来,放在一起进行对比学习;英语教师在备课时,会需要所有以“-or”或“-er”结尾的词汇;将所有以“-ious”为后缀的词检索出来,进行专题式学习、总结规律,从而帮助记忆,提升词汇量;等等。在这种情况下,我们就可以利用信息技术工具来极大地减少处理类似复杂、重复劳动的工作量。

2.利用信息技术辅助教学的可行性

在如今计算机硬件快速迭代、信息技术高速发展的时代,新技术、新应用的产生也给教育教学带来了新的机遇和挑战。通过信息技术,教师可以对信息进行高效的存储、管理和利用,也可以将文本、符号、声音、图形图像、动画、视频等丰富的多媒体元素设计和组织在教学内容的呈现上。

理论支撑

1.词汇语义学

词汇语义学是语言学中研究词汇意义的学科。语义以概念为基础,将词汇的语音、语法和释义符号三者有机整合。在学习内容的呈现上,词汇相关的结构和意义关系构建出了具有结构化、动态化、系统化特性的“语义场”(Semantic field),符合学习者学习和掌握词汇的感知及心理认知过程。[1]

在英语词汇学习策略的选择上,应用词汇语义学原理指导词汇的学习,将与词汇的意义和结构相近、相关的信息有规律地呈现在一起,可以提高语言学习过程中的词汇输入量,改善学习者对词汇的辨析和识记效果,对推动英语语言的学习具有积极的意义。[2]

2.ICT理念

ICT(Information and Communication Technology)即信息通信技术,维基百科将其定义为是对信息技术的延展,强调统一通信系统的作用,并对电信设备(有线和无线)、计算机、企业软件、中间件、存储和视听系统整合,使用户能够获取、传播和掌控信息。[3]在教学中运用信息通信技术可以构筑信息化的学习环境,传递信息化的学习资源,创设信息化的学习工具。信息通信技术可以为学生提供学习活动的支架或脚手架,使学习者能够进行比较复杂的学习活动,投入到高级的思维和问题解决活动中去。[4]

小工具的设计

1.软件设计的原则

小工具开发的基本理念是满足日常学习的实际需求,在进行构思设计时,笔者遵循了工具性软件的高效、实用和易交互等原则,弥补了现有词汇学习软件的不足或没有提供的功能。主要体现在为学习者节省了在搜集英语词汇相关信息时所耗费的大量时间,能够便捷快速地获取所需的学习内容,并且检索出的资料都是高度結构化的、有规律的信息。

2.功能结构设计

小工具的开发严格按照软件开发的规范,使用三层架构开发模型(如图1),围绕词汇信息数据库进行匹配查询,三层结构包括数据访问层(DAL,Data Access Layer)、业务逻辑层(BLL,Business Logic Layer)和UI层(UI,User Interface)。DAL层主要负责从数据库中对所需数据的底层检索,BLL层负责连接DAL层和UI层,进行数据处理和格式转换,UI层生成软件的操作界面,UI层是和用户交互的前台,完成用户特定的功能需求。下面详细说明UI层中每个工具的基本原理和用途。

①基础查词。通过对用户输入的某一单词的精确查询,得出该单词的相关解释信息,可以包括音标、朗读、级别、基础释义、详细解释、英文解释、相关词、近/反义词、词组搭配、行业解释、例句等丰富内容。若数据库中没有相关词条,先请用户检查拼写,同时可以给出与该单词拼写相近的备选结果。

②词根检索。按英语字母文本对单词的部分组成字母进行模糊匹配查询,得出一系列同根词,如查询“-ject-”,可以显示出abject、adjective、conjecture、deject、eject、inject、object等结果。

③词缀检索。英语词汇中词缀分为前缀和后缀,通过对单词左边组成字母的模糊匹配得出一组有相同前缀的词,如“anti-”“trans-”“pre-”等。后缀的操作类似,对单词右边组成字母的模糊匹配得出一组有相同后缀的词,如“-tion”“-ceed”“-ious”等。

④汉语匹配。按汉语关键词对单词的“中文解释”和“详细解释”字段进行模糊匹配查询,得出一组包含该关键词释义的词汇集合,如检索“论证”关键词,可以检索得出arguable(可论证的)、argue(辩论)、demonstrate(演示)、proof(证明)、reason(理论)、substantiate(理论)等。

⑤词组匹配。按英语关键词对整个数据表的“词组搭配”字段进行模糊匹配,获得一组具有该关键词的词汇集合。如检索“of”,即可获得所有包含介词of的词组搭配;又如检索“demonstrate”,即可获得该及物动词后面跟着的常用短语搭配。

3.数据库设计

依据上述英语词汇学习小工具的功能分析,笔者设计出了能基本满足开发需求的数据库,其中含有一个数据表,将其命名为Words,表的字段、属性等信息如下页表所示。笔者使用网页数据采集软件“火车头”从海词网(http://dict.cn)扒取了可供测试使用的词汇数据。小工具中的“基本查词”“词根”“词缀”工具主要是对WordText字段模糊查询,“汉语匹配”工具对MeanUsual和MeanDetail字段模糊查询,“词组匹配”工具主要是对PhraseMatch字段模糊查询。endprint

小工具的实现技术

1.开发环境和开发工具

小工具可以基于微软的.NET平台技术和Windows操作系统环境来实现,开发工具主要使用Visual Studio 2015、Microsoft Office Access 2010数据库、Notepad++源代码编辑器等。笔者采用了C#编程语言、ASP.NET的Web编程技术、ADO.NET数据访问技术,使用了IIS(Internet Information Service)提供网络服务,保证了软件开发的基本环境和服务支持。[5]

2.主要技术及关键代码

小工具选择的是基于B/S架构的Web软件设计,所以涉及的技术主要有两块,一个是在用户浏览器端(Browser端),另一个是在服务器端(Server端)。一次词汇检索的基本流程为:第一步,使用小工具的学习者在客户端通过网页浏览器在交互操作界面上按照特定的学习需求,向服务器发送服务请求;第二步,服务器端获取到客户端请求后,进行相应的程序处理,再响应客户端相应的信息;第三步,客户端浏览器重新加载服务器端响应信息,至此学习者即可利用所显示的信息,也可以重新检索。

(1)AJAX异步加载信息

AJAX(Asynchronous JavaScript and XML)的异步性优点是页面信息加载时无需刷新网页页面,在本研究开发的小工具中体现为学习者提交词汇检索请求后,客户端浏览器所显示的页面不用二次刷新,通过AJAX技术间接请求服务器另外一个提供服务的程序,来获得相应信息,再使用JavaScript的DOM(Document Object Model)技术加载显示在网页特定的位置。相比传统的通过form表单请求服务,使用AJAX的小工具响应速度更快,学习者的使用体验也更好。

(2)SQL语句模糊匹配

模糊匹配技术在海量结构化信息的检索、提取、利用等方面发挥着重要作用,基于数据库的SQL模糊匹配查询也是本研究制作英语词汇学习小工具的关键技术之一。为信息安全起见,服务器端在接受到用户的请求后,调用封装的功能函数对查询参数进行安全性检查,具体方法主要是使用C#编程语言提供的Regex正则表达式类库来匹配查询参数是否存在可能威胁数据库安全的特殊字符,相应的逻辑判断代码为:Regex.IsMatch(str, @"[-|;|,|\/|\(|\)|\[|\]|\}|\{|%|@|\*|!|\']")。

在“汉语匹配”工具中,为了更多地加载与查询关键词相匹配的词条,当与“基本释义”字段匹配的词条数小于10个时,就加上与“详细解释”字段匹配的词条,两者为或者关系,显示的信息即可更多。对应的SQL语句为:select * from Words where MeanUsual like'%"+ cnWord+"%'or MeanDetail like '%"+cnWord+"%'。

(3)移動端屏幕自适应

为了使小工具能够兼容不同终端的使用需求,适应移动端设备的显示,方便学习者借助手机浏览器或微信内嵌的浏览器使用,可以在网页源码的标签内部加入代码,这样可让页面不进行放缩,直接占满全屏。

3.基本实现效果(如图2)

其余类型的小工具具有类似的原形实现效果,当然从软件设计开发的角度看,该程序从界面设计、交互设计、并发性能提升、安全性保障等方面还有很大的改进空间。

小结

笔者对后续的探索研究还有如下的思考和启发:第一,内容开发。针对不同学龄段的学习者研发专门的词汇学习内容,构筑分级的词汇检索资源库。第二,可行性研究。为了研究的深入,后续工作可以从市场需求度、技术实现可行性、辅助教学的效果等方面进行综合性的调查、实验和论证。第三,迁移创新。依据小工具的设计思路,在汉语等符号语言词汇学习方面有着类似的规则,可以进行相关的迁移、整合与创新。

参考文献:

[1]李宗宏.词汇语义学和第二语言词汇习得的图式化研究[J].河西学院学报,2007,23(3):107-113.

[2]李宗宏.英语词汇习得策略[M].北京:北京大学出版社,2012.

[3]Wikipedia.Information and communication technology[EB/OL]. https://en.wikipedia.org/wiki/Information_and_communications_technology.

[4]杜华.基于ICT理念的小学数学教学策略研究[D].南京:南京师范大学,2005.

[5]Jason N.Garylord,Pranav Rastog;Todd Miranda,等.ASP.NET 4.5高级编程(第8版)(.NET开发经典名著)[M].北京:清华大学出版社, 2014.

作者简介:周敏,(1993.10—),现代教育技术专业在读研究生、软件设计师,主要研究信息技术支持教学、数据统计分析。endprint