基于语音情感识别的e-Learning教学探索

2009-02-01 05:23张石清

现代教育技术 2009年13期

关键词：语音

张石清

[摘要]为了解决目前e-Learning教学系统中的情感交流匮乏问题，提出一种新的基于语音情感识别技术的e-Learning系统模型。语音作为人类最重要的交流媒介之一，不仅携带着大量的文字符号信息，还包含了人类丰富的情感信息。利用语音情感识别技术获取和识别学习者的学习情感状态，从而实现e-Learning教学系统的智能化和人性化。本文对该系统的关键技术作了详细阐述。

[关键词]e-Learning；语音；情感识别

[中图分类号]G40—057

[文献标识码]A

[论文编号]1009—8097(2009)13—0224—02

引言

e-Learning也叫数字化学习，是通过因特网或其他数字化媒体进行学习与教学的活动。当前，随着信息技术的快速发展，e-Learning已经在教育、教学等领域得到了广泛应用，并产生了深刻影响。然而，在当前的e-Learning环境下，由于师生在物理空间上的分离，导致师生之间缺少必要的情感交流和反馈。而按照教育心理学的观点，一个真正人性化的教学系统，不仅应当是有智能的，而且还应当有情感的。因此，如何在e-Learning系统中测量出学习者学习时的认知和情感，构建具有情感交互能力的和谐学习系统，已经成为现代远程教育中一个新的热点研究课题。

近年来，以语音情感识别为核心的情感计算技术的研究发展，已经成功应用于人工智能、智能人机交互等领域。这使得在e-Learning系统中，也可以利用情感计算技术，跟踪学习者的情感状态，提供个性化服务，以及根据学习者情感体验的变化及时调整教学策略。为此，本文利用语音情感识别技术，以e-Learning应用为背景，设计一种基于语音情感识别技术的新型e-Learning教学系统。

一基于语音情感识别的e-Learning系统模型

师生情感交流是教学环节中的一项重要内容，它有助于学生消极情绪向积极情绪的迁移。在学习过程中，学习者的言语中不仅包含了文字符号信息，同时也包含了丰富的感情和情绪等信息。例如，当学习者对学习内容能够理解和接受时，往往情绪高涨，言语比较欢快；反之，情绪低落，言语比较低沉丧气。可见，学习者不同情感的表现是一种重要的教学反馈信息。利用这种反馈信息，我们可以有效调整教学策略，更好地服务自主学习。因此，在传统e-Learning系统的基础上，本文通过增加一个语音情感识别技术模块，设计出一种基于语音情感识别技术的智能化e-Learning系统模型，如图1所示。

该系统模型以语音情感识别技术为核心，及时捕捉和识别学习者的情感状态，并根据学习者特定的情感状态作出相应的情感激励或补偿策略。该模型主要有五部分组成：

●接口：除了传统e-Learning系统中的人机接口外，新增加一个情感语音输入接口模块，专门负责收集学习者的情感化的语音信息。

●语音情感信息处理算法模块：通过相关传感器，对收集到的情感化的语音信息提取能够区分不同情感类型的语音特征参数，然后利用模式识别分类器识别出学习者的整体情感状态，并作出适当的学习评价。

●评价模块；主要收集评价结果，然后转化为相应的评价参数，同时从学习模型中提取学习记录。

●教学策略：根据评价参数和学习者模型中的学习记录，及时调整教学策略，从课程资料库中选取适合学习者学习的资料提供给学习者，同时也作出相应的情感激励和补偿。

●学习者模型：主要记录和学习者相关的个人信息、学习背景信息，认知风格信息、情感信息等。

二语音情感识别技术的实现

语音情感识别就是对输入的学习者的情感化语音信号进行预处理(如降噪)后，分析和提取与学习者情感表达密切相关的语音特征参数，然后采用模式识别分类器分别进行训练和测试，最后输出学习者的情感类型，得到识别结果。一个简单的语音情感识别模型由如下五部分构成，如图2所示。其中模型中最重要的两个环节是，特征提取以及分类器的确定。

1语音情感特征参数的提取

提取何种有效的语音情感特征参数是语音情感识别技术研究中最关键的问题之一，情感特征的优劣直接影响到情感最终识别结果的好坏。心理学和韵律学的研究已经表明，语音信号中的情感主要通过语音中的韵律特征表现出来的。例如，当一个人发怒的时候，讲话的速率会变快，音量会变大，音调会变高，而一个人悲伤的时候讲话的语速会变慢，音量会变小，音调会变低，这些都是可以很直观的感受到的变化。目前，研究者进行语音情感识别的研究普遍采用了常见的基音频率(简称基频)、振幅、语速等韵律特征。原因是这些韵律特征能够反映说话人的部分情感信息，较大程度上能区分不同的情感，而且容易提取和使用。但是，近年来的研究表明语音信号中的音质特征也包含情感信息，体现了不同类型情感的发音方式的区别，如生气和高兴发音时由于喉咙的位置不同而引起的喘气和沙哑等方面的不同。本文提取的语音特征参数类型包含了韵律特征和音质特征。表1列出了这些提取的语音特征与四种常见的情感类型(生气、欢快、沮丧、厌恶)之间的关系。

2分类器的选择

语音情感识别本质上是一个模式识别问题。目前，各种模式识别方法，如人工神经网络、最近邻法和支持向量机等不同的单一分类器，都被应用于语音情感识别，取得了较好的识别效果。已有的研究表明，在不同单一分类器中，建立在统计学习理论中的结构风险最小化原则基础上的支持向量机能够取得最好的识别性能。另外，将不同性能的单一分类器构成组合分类器，也能够进一步提高语音情感识别的性能。

目前，随着计算机图像技术和多媒体技术的飞速发展，作为人类情感表达的其他方式，如人脸表情识别、人体运动姿态识别、手势识别等技术必将得到快速发展，并将在e-Learning系统中发挥重要作用。

三结束语

本文通过在传统e-Learning系统中增加语音情感识别技术模块，收集学习者的情感反馈信息，应用于教学策略的调整，为学习者提供个性化的学习环境，提出了一种基于语音情感识别技术的e-Learning教学系统模型。尽管将语音情感识别技术应用于e-Learning系统中，能在很大程度上弥补远程教育中的情感缺失，但是还存在很多方面的挑战，例如大规模的自然情感语音数据库的建设、噪声背景下的语音情感识别技术的顽健性问题等。