黄笑菡
(湖州职业技术学院,浙江 湖州 313000)
研究任何一门语言都需要一种适当规模的语料库来帮助研究者分析总结,语料库的产生需要经过专业人士的科学收集、分类与标注,经过长时间的研究而成。语料库反映了语言的实际使用情况,能够帮助人们分析并研究语言系统的规律[1-3]。而SWECCL 就是一个典型的学习者语料库,SWECCL语料库全称为中国学生英语语料库,具有较全的学习工具与研究资料,将其应用在双向在线英语翻译辅助系统中有着重要意义[4]。
双向英语在线辅助翻译系统是针对专业用途英语学习设计的系统,ESP具有目标明确、针对性强、实用价值高的,能够满足不同学习者的不同需求,提高学习效果[5]。但是传统的ESP英语翻译辅助系统使用的多数为COCA语料库,COCA语料库中的词汇复杂度较高,使用系统翻译时出现的多数为非常见词汇,部分标记语频率分布失衡,对于学习者来说,学习ESP英语较为困难。人机交互技术(Human-Computer Interaction Techniques)是一种通过计算机输入、输出设备,以有效的方式实现人与计算机对话的技术,人通过输入设备给机器输入有关信息,回答问题及提示反应等。近些年人机交互技术已经是计算机用户界面设计中的重要内容之一。
基于此,设计基于人机交互的双向英语在线辅助翻译系统,用SWECCL 语料库代替原有的COCA 语料库,同时对系统的翻译功能进行改进,使得系统更能满足使用者的各种需求,提高学习者学习能力。
基于人机交互的双向英语在线辅助翻译系统采用的是B/S 三层体系架构,以此实现前端和后台处理层次分明的设计效果,遵循模块化设计,根据用户角色规划整个系统功能模块,遵循系统的实际需求,规划的具体模块如图1所示。
图1 英语在线辅助翻译系统模块图
按照图中的各个模块规划,设计在线英语辅助翻译系统页面、检索功能及数据库。
依据上述中的系统模块图,对图中的各个模块的页面和功能的实现进行详细设计。
为了提高系统的交互性,针对不同的使用者设置不同的权限,用户需通过后台登录才能登录至相应的界面。利用JSP技术,采用AJAX方式验证用户权限,在前端获取用户账号、密码及登录类型,点击登录后,通过AJAX 方式,后台进行验证,实现页面无刷新的用户登录。登录实现的流程图如图2所示。
图2 登录流程图
通过Spring 提供对Action 与DAO 的管理,Hibernate 提供对象、关系映射及数据管理。当数据库内存在该用户的账号和密码时,登录成功,页面跳转至系统首页index.jsp,否则返回至登录界面,重新获取用户登录信息。登录验证通过后,根据权限的不同跳转至不同的功能页面。若登录系统的用户为教师,则可执行上传资料、查询学生信息等操作;若登录为学生,则可进行英语资料的翻译和互动等[6]。以上均通过jsp技术实现,通过action控制用户行为,将用户行为的结果封装在DAO 中,对用户的行为及时响应,实现不同的功能操作。
系统的翻译功能以系统的主要功能为目标,通过用户手工输入词汇,与SWECCL语料库中的词汇进行相关计算,加权函数值计算翻译词项,确定翻译词汇与SWECCL语料库中词汇的相似性,最后显示系统页面中用户需要的信息。
假设用户手动输入的词汇为q,SWECCL 语料库中的词汇为p,则两者的相似度κ(q,p)计算公式的基本形式如下:
公式中,e表示词项,ε(e,p)表示e在p中的权重,ε(e,q)表示e在q中的权重。因词汇q已经确定,计算时可忽略其权重。定义e的权重为εe=log结合词项的加权函数值,带入到公式1中,得到公式2:
公式中,ε(si)e表示词项e对应节点的加权si值,表示词项的重要性。为了防止词项的重要性对相似度计算的影响,对si做log 处理,得到基于加权网络的信息翻译模型相似度计算基本公式:
通过上式计算出,用户手动输入词汇与SWECCL语料库中的词汇之间的相似度,将相似度较大的结果展示在系统页面中实现词汇翻译。翻译功能主要翻译的目标是SWECCL 语料库,将SWECCL 语料库应用在系统的数据中。
为提高翻译的高效性和准确性,对数据库进行设计。将SWECCL语料库引用到系统的数据库内,替换原有的英语学习资料库,基于原有的系统数据库进行修改和整理,提高数据库内对象分类的精度和各对象间的关联度,并以用户输入的信息作为源数据载入数据,完成数据库的迭代更新。在MOODLE的环境下,实现数据库的安装与设置[7]。
根据对系统内的类、对象和关联分析后,构建数据字典静态关联图,如图3所示。图中只给出了接口类,并且只表示了属性和数据类型。
图3 数据字典静态关联图
如图3所示,在数据字典静态关联下设计数据库。通过JDBC技术将系统与数据库相连[8]。在工程中导入对应的数据库的jar 包,用Class.forName()方法加载驱动程序,再用DriverMananger的getConnection()方法创建一个数据库连接,并在Hibernate 的主配置文件中,配置数据库的连接驱动、URL及登录数据库的用户名和密码,通过上述过程完成数据库与系统的连接。
将设计的数据库与英语在线翻译辅助系统相连,用户可在对各项数据进行翻译的同时,实现对数据库的更新。至此,完成基于人机交互的双向英语在线辅助翻译系统设计。
测试使用的计算机操作系统均为常见的Windows10,其相关配置为2G显卡,120G高速固态硬盘,Intel芯片主板B75,处理器为四核酷睿i5,3.7Ghz高频性能。
将构建的基于人机交互的双向英语在线辅助翻译系统作为主要测试系统,应用基于COCA 语料库的英语翻译辅助系统作为对照,使用以上计算机进行测试。
测试中选择4类标记语作为测试对象,分别为对比性标记语、阐发性标记语、推导性标记语和主题变化标记语,选择的具体词汇如表1所示。
表1 不同类型标记语
测试使用统计软件SPSS对数据进行统计分析,统计两个辅助系统中的话语标记语使用的总数量、使用标记语的种类以及每一类话语标记使用的频率分布。
通过SPSS统计软件统计的测试结果如表2所示。
表2 四类标记语在不同辅助系统中的频率分布
分别观察四种不同类型的标记语测试结果,在基于COCA的辅助系统中,其中对比性标记语测试结果显示,标记语in contrast 所占频率比最低,为1.3,But 所占频率比最高,为49.9;阐发性标记语测试结果显示,For another thing 所占频率最低,为0.01,Moreover 所占频率最高,为49.8;推导性标记语测试结果中显示,As a result 所占频率最低,为0.7,So 所占频率最高,为71.8;主题变化标记语测试结果中显示,标记语Incidentally所占比例最低,Anyway所占比例最高,为70.6。
在基于人机交互的辅助翻译系统中,测试结果显示,各个类型中的不同标记语的频率分布比较均匀,大多数处于15.0~35.0之间,没有出现差距较大的频率比。
为验证所提设计的有效性,对于两个系统输入相同翻译词汇200个,翻译结果如表3所示。
表3 翻译结果对比
从表3中可以看出,对比传统的基于COCA 的辅助系统,设计的优化系统的翻译表现出更高的翻译精度和效率,能够更加快速精准地在数据库中提取出与翻译词汇关联度较高的内容,并且检出结果所涉及的数据类别更加全面。这主要是因为所提方法对翻译词项进行了加权函数值计算,并实现了数据库内的信息关联度的构建与迭代更新。
综合以上数据分析可知,传统的基于COCA 的辅助系统中标记语频率分布不均匀,标记语的频率比差距较大,说明在该系统中存在标记语使用过度的情况,在使用过程中,标记语比较单一,缺少多样性。而基于人机交互的辅助系统中,各个类型的标记语频率分布比较均匀,具有较好的多样性,翻译效率和精度也优于传统系统,更适合学习者使用。
英语辅助系统设计的最大信息载体是专业词汇,不是普通词汇,当教师讲解专业术语时,利用具有针对性的语料库翻译能够更好地帮助学生加深对专业术语的理解。传统的基于COCA的翻译辅助系统存在部分标记语频率分布失衡的问题,引用SWECCL语料库有助于解决这一问题。根据对比结果可知,设计的教学辅助系统明显优于传统的教学辅助系统,SWECCL语料库中标注语频率分布均匀,翻译效率高且翻译精度准确,有助于学生的学习,避免了学生对语言学习思维模式的固化,使学习更加灵活,提高学习效率。