王晓茹
(咸阳师范学院 外国语学院,咸阳 712000)
移动信息技术的快速发展,使得在线教育方式发生了变化,越来越多的学习者倾向于随时随地的学习模式,这就要求移动端的学习软件要有更为强大的功能。随着智能技术性能的提升,准确的语音识别使得英语听说软件的研发成为可能,并可以根据深度学习模式为用户提供合理的课程推送。本文主要对英语听说自主学习软件的总体架构进行了介绍,并且对软件的需求分析进行了详细的说明。
移动学习在国内外已经得到了广泛的应用,欧盟为了提升国民的教育程度,研究推广了M-Learning系统,该系统能够为人们在任何地点任何时候提供所需要的学习内容,解决了落后地区以及贫困家庭的青年人接受教育的问题。国外相关研究机构对语音识别引擎有较为深入的研究,主要采用基于神经网络的语音识别手段提升了语音识别的准确率,推进了英语在线学习的普及。国内在线教育的发展主要集中于近几年,主要开发了一系列的手机App应用,如科大讯飞公司的识别引擎,是国内较领先的语音识别工具,并以此为基础,相关公司机构开发了大量的英语学习软件[1-5]。
在线英语听说学习软件的核心是语音识别引擎,此类引擎主要采用隐马尔科夫算法实现对数据的自学习,形成强大的模板库,根据用户的个性化输入形成特定的用户库,并能够按时地为用户推送更新的学习方案。本文基于语音识别引擎,基于B/S软件体系架构,利用开源软件的优势,将识别算法进行了集成,并对主要的功能需求进行了介绍。
英语听说自主学习软件的搭建采用基于B/S的体系架构,系统的体系架构图,如图1所示。
调用语音识别引擎通过Apache服务器为用户提供英语学习服务,其中数据库主要包括用户管理数据库、基础单词数据库以及语法数据库等,分别用于管理该系统用户信息(基本信息、学习信息、课程安排信息等)、基础单词信息(单词拼写、一词多义等信息)以及语法信息(常用的语法信息、关联信息等),通过在服务器端的运行语音识别引擎以及智能化处理中间件,对用户的英语语句按照语法规定进行判别准确性。
图1 系统架构图
Apache的工作原理采用的是用户使用URL来请求对应的资源,服务器端会根据用户请求按照程序相应的识别算法进行操作,并将所找到的资源返回给客户端,即为完成一次请求;随后等待下一次请求,由于Apache服务器可同时为数百万用户提供服务,因此在基于B/S架构的海量用户的系统中常用。
基线模型是一种类似于文献[6]描述的混合的基于隐马尔可夫的神经网络模型(Neural Network-Hidden Markov Model,NN-HMM)模型。NN计算给出每个输入特征向量的所有HMM状态的后验概率,NN输入是由多个连续帧的窗口内的所有语音特征向量组成的超级向量;该模型在不使用任何扬声器标签信息的情况下进行训练。NN训练目标是HMM状态标签,使用标准的反向传播程序来优化,将交叉熵用作目标函数的NN权重。如图2的右侧所示。
图2 基于语音代码的自适应识别混合NN-HMM模型
本系统的智能识别算法的优点是只需要为每个新的扬声器估计一个小的扬声器代码;当为每个扬声器选择一个小扬声器代码时,这种算法大大减少了每段扬声器代码所需的适应数据量。因此,基于每个扬声器只有几个话语,可以对混合NN-HMM模型进行非常快速的用户自适应。另一方面,如果每个扬声器有大量合适数据可用,则扬声器代码的大小可以增加以允许更好地表示每个扬声器;此外,使用所有数据来训练通用自适应NN。这样可以建立一个足够强大的大规模自适应神经网络来模拟不同特征空间之间的复杂变换函数。 这种方法明显优于其他用户自适应方法,它们为每个用户学习完全独立的变换,其中每个变换都需要线性化。
软件主要分为后台和前台部分,根据软件的实际需求设计后台及前台的功能模块。其中后台模块主要完成用户管理、数据管理以及系统运维等工作;前台模块主要为客户操作模块,包含用户登录、英语听说以及朋友圈等功能,功能组成结构,如图3所示[7-8]。
图3 系统功能模块组成图
2.3.1 后台功能介绍
(1)用户管理模块
该模块主要完成管理人员的操作响应,包括系统管理员的账号、密码、邮箱等信息。包含对管理员的基本管理,如增加、删除等。通过超级管理员角色进入系统后台,然后完成对以上功能的执行,而普通管理员只可完成一些常用基础数据的管理工作。
(2)数据管理模块
数据管理模块主要包含数据录入和数据下载两个主要功能。其中数据录入功能主要将系统所需基础数据进行录入,比如常用的单词、语法规则信息等,主要包含课本管理、文章管理以及语句管理等单元;数据下载模块是响应用户URL的请求,在Apache服务器上完成资源下载的分配,并将客户请求的信息返回。
(3)系统运维模块
系统运维模块主要是系统管理员完成对系统扩展、性能优化等工作,包含对系统前台及后台接口的维护,如语句接口定义,如表1所示。
表1 语句的接口详细参数
客户端可通过以上接口完成对所需数据的获取。
2.3.2 前台功能介绍
(1)用户登录模块
用户在输入用户名密码后,会向服务器发送响应的请求,请求消息可定义为
(2)英语听说模块
英语听说模块包含选取文本语句、播放原生语句、录音、播放语音等功能,用户根据自身需要选取不同的功能按钮,服务端根据用户的请求结合语音识别引擎完成用户响应。该模块作为软件的主要功能,占据了系统功能需求的80%。
(3)朋友圈模块
学习圈的建立对于学员学习主动性的提升有较大的影响,因此该软件设计了朋友圈模块,学员可每天将自己的学习经验、心得在好友圈里进行分享,并且支持与好友的在线聊天功能,聊天功能采用XMPP通信协议采用如下方式对报文进行封装。
from =Lily@sina.com/local.local to =Hanmm@sina.com/local.local type =“chat” xml:lang =“en”;
“你好,你今天英语第二课程学习状况如何”(消息内容)
消息采用XML结构化形式进行封装,在服务端接收到该XML信息后对其进行解析,并将信息内容发送到目的方。
系统运行后功能界面,如图4所示。
图4 系统运行界面
2.3.3 用户使用流程
用户使用流程,如图5所示。
图5 用户使用流程图
本文主要介绍了英语听说自主学习软件的总体架构,以及对关键的智能语音识别技术进行了简单的介绍,从系统后台功能以及系统前台功能介绍了软件的主要功能需求,并且各个功能的关键交互架构进行了简要说明。