基于情感计算的数据挖掘课程教学案例设计

2017-11-06 04:19尹钟刘丽陈玮
计算机教育 2017年10期
关键词:数据挖掘

尹钟 刘丽 陈玮

摘 要:针对智能科学与技术专业数据挖掘课程中的知识难点,引入智能科学的重要问题——使机器理解人类情感,提出基于情感计算的数据挖掘课程教学案例。笔者利用伦敦玛丽女王大学研究者建立的情感识别数据集,由浅入深地设计了针对数据预处理、聚类分析、关联性分析、分类、回归分析知识点的5个课堂和上机实验教学案例;规划了一项基于脑电信号识别情绪状态的课程作业,培养学生的综合知识运用能力和团队协作能力。这些教学案例引导学生分析与人类情绪密切相关的认知数据,形象展示不同数据分析算法的功能特点,在提高教学效果的同时帮助学生了解智能人机交互技术的前沿动态。

关键词:数据挖掘;情感计算;智能科学技术

0 引 言

随着信息科学和计算机技术的进步,数据的存储规模和传输速度不断提高。为了使这些历史信息更好地为各行各业服务,数据挖掘(data mining)技术发挥了重要作用,其旨在发现隐藏在表层数据信息中的内在规律和知识。数据挖掘课程是智能科学与技术本科专业的特色课程之一。该课程指导学生在实践中理解机器学习原理,运用所学的统计学和模式识别算法分析数据,为学生从事相关工作或继续深造提供必要的知识基础[1]。

值得指出的是,数据挖掘课程中涉及的具体案例,多与该学科起源领域——商务、金融、顾客关系管理——密切相关[2],而工科专业学生对上述问题的重要性缺乏直观感受。因此,笔者期望通过智能人机交互技术中的前沿问题——情感计算(affective computing)[3]——设计基于智能、认知科学交叉的数据挖掘教学案例,帮助学生循序渐进地掌握不同数据挖掘方法的原理。

智能人机交互技术的研究重点之一是提高机器(计算机)理解人类意图的效率和精度。由于语言、表情形成的人类指令通常伴随着情绪信息,情感计算的目的是赋予机器理解此类人特有心理活动的能力。而数据挖掘技术通过分析来自人的认知状态数据,利用算法实现对人情感状态的评估。笔者在以往研究工作[4]的启发下,于数据挖掘课程教学中引入情感计算问题,将部分基础内容用以设计教学案例。通过以智能科学发展的前沿动态为背景,这些案例很好地调动了学生的学习积极性。

1 情感计算数据集概述

为了直观展示不同数据挖掘方法分析人类情绪信息的功能特点,笔者采用伦敦玛丽女王大学研究者建立的DEAP数据集作为设计教学案例的基础[5]。该数据集于互联网上公开可用,其收集了32名志愿者对40条音乐视频的情绪反馈,共计32×40=1 280条样例。为了便于学生理解,教学案例部分仅使用志愿者对视频的主观评价信息。其中,每名志愿者对每条视频分别给出 “觉醒(arousal)”和“效价(valence)”水平2个分数,分数值为1—9之间的实数。觉醒水平区分视频诱发冷静(1分)或兴奋(9分)的情绪,而效价水平则判别情绪的消极(1分)或积极(9分)程度。如图1所示,觉醒和效价水平可构成一个2维坐标平面,描述了喜悦、舒适、沮丧、愤怒4种不同情绪。

2 教学案例设计

以DEAP数据集为基础,笔者设计了3个课堂教学案例和2个上机实验案例(见表1)。这些案例不仅涵盖了数据挖掘问题的主要任务,同时能系统解析觉醒、效价数据的分布特性和潜在规律。

表1 基于情感计算的教学案例及对应数据挖掘任务案例序号 案例类型 案例内容 数据挖掘方法

1 课堂教学 觉醒、效价得分的标准化和归一化 数据预处理

2 课堂教学 情绪类别的无监督学习 聚类分析

3 课堂教学 不同志愿者觉醒、效价得分的相关性计算 关联性分析

4 上机实验 特定志愿者情绪类别判定 分类

5 上机实验 特定志愿者觉醒、效价得分估计 回归分析

2.1 课堂教学案例

课堂教学案例围绕数据预处理、聚类分析和关联性分析3个知识点进行设计。

案例1:觉醒、效价得分的标准化和归一化

该案例旨在向学生强调预处理是数据挖掘任务的首要环节。针对DEAP数据集,不同志愿者對相同音乐视频的主观评分存在个性化差异。为了消除上述差异,引导学生学习两项数据预处理方法:①0-1标准化;②最大—最小归一化。

方法①将每名志愿者的觉醒、效价得分线性映射至均值为0、标准差为1的两个数组,而方法②利用线性映射将数据规范至最小、最大值分别为0、1的两个数组。方法①、②的过程和结果可通过MATLAB软件在课堂上为学生演示。以方法①为例:先分别计算每名志愿者觉醒、效价评分的均值和标准差;再将得分数据减去均值后除以标准差即可获得标准化后的数据。接下来,使用“plot”指令在相同坐标平面上绘制标准化前、后的数据,向学生直观展示标准化对数据值域的影响。最后,向学生讲解MATLAB中标准化函数的参数设置和使用方法。

案例2:情绪类别的无监督学习

该案例先引导学生思考如何利用标准化后的评分数据,在缺乏先验知识的条件下获得每名志愿者评分对应的情感类型;继而向学生引入无监督学习方法的定义及相应的数据聚类算法。案例可基于经典聚类算法——K均值聚类——向学生展示评分数据的聚类流程和结果。

首先,先逐一分析算法的每个步骤,再由图2绘制1名志愿者对40条音乐视频评分的散点图和K均值聚类结果。依据此图分析聚类算法如何评价类内相似度与类间分散度,最后引入数据点隶属于特定聚类的判定条件。为了更好地展示案例中K均值聚类算法与情感计算问题的联系,引导学生观察发现图1中觉醒—效价平面上的4种情绪可分别与图2中的4个聚类一一对应。

案例3:不同志愿者觉醒、效价得分的相关性计算

不同志愿者对相同音乐视频评分的差异体现了情绪数据的个性化特质。本案例向学生提出疑问——志愿者们的个性是否存在相互关联?继而引入数据挖掘中关联性分析的概念和方法,并基于线性相关性系数讲解该知识点。endprint

首先,向学生讲解线性相关系数的计算公式。再以志愿者#1的效价数据为例,寻找与其评分值正相关度最高的另一位志愿者。课堂上,可逐一分配每名学生计算志愿者#1与另一位编号不重复志愿者数据的线性相关系数,汇总后可得志愿者#26与志愿者#1效价正相关性最高。最后,利用图3向学生可视化志愿者#1、#26效价评分的分布情况。学生可发现两组数据的变化趋势存在一定相似性,即这两位志愿者由相同音乐视频引发的情绪存在关联性。

2.2 上机实验案例

上机实验案例围绕分类、回归分析两个知识点设计,并利用MATLAB软件帮助学生深入理解经典有监督机器学习方法的机理,同时巩固前3个案例中的教学内容。

案例4:特定志愿者情绪类别判定

该案例需与课堂教学中讲解的有监督学习、分类、训练集、测试集、线性可分等概念紧密联系,引导学生使用开源工具箱实现分类器的训练、测试。以支持向量机方法为例,学生首先选择一名志愿者的评分数据,并依照课堂教学案例1中的内容对其标准化。下一步,学生利用案例2中的聚类算法和聚类解释方法,获得若干离散的情绪类别。从中选择“沮丧”“喜悦”情绪对应的数据样例构建训练集。接下来,指导学生设定合适的正则化参数和线性核函数,绘制如图4所示的喜悦—沮丧情绪分类器训练结果。此图形象展示了分类边界、分类面、支持向量3个重要概念。以此为例,学生依次引入“平和”“愤怒”情绪数据,设计不同的分类器,并利用另一名志愿者的评分数据测试分类器性能。

案例5:特定志愿者觉醒、效价得分估计

由于音乐视频按照固定时间顺序呈现,可将志愿者对每条视频的觉醒、效价评分看作两个时间序列。在此基础上,本案例引导学生先依据一名志愿者的评分数据建立回归模型,再利用另一志愿者的数据验证模型性能。案例3中志愿者#1、#26的评分数据相关性最高,可将其分别作为训练、测试集。图5中,笔者采用超限学习机方法对志愿者#1效价评分数据进行训练。该图引导学生发现模型输出与训练目标并非完全相同,从而帮助学生进一步深入理解过拟合、正则化、均方误差等回归建模问题中的重要概念。以此为例,学生可绘制超限学习机对志愿者#26效价、觉醒评分的估计结果作为实验报告内容。

3 课程作业题目设计

通过系统学习上述5个案例,学生可全面掌握关于数据预处理、聚类分析、关联性分析、分类、回归分析的相关概念和备选算法。为了进一步巩固学生对数据挖掘知识的综合运用能力,笔者基于DEAP数据集的生理数据部分设计了一项课程作业,作为评价学生平时成绩的依据。课程作业按每组2~3位学生于教学进程的最后2周内完成。

课程作业题目:基于脑电信号特征识别每条音乐视频诱发的情绪状态

志愿者在观看每条音乐视频的同时,其一分钟的脑电图信号被同步记录于DEAP数据集。课程作业要求学生依据相关脑电特征完成觉醒、效价水平的二类分类任务。为了保证课程作业进度,脑电特征提取环节由教师完成。学生在课程作业中需要完成的任务包括:

(1)脑电特征的预处理。采用0-1标准化或最大—最小归一化方法实现。

(2)目标情绪类别确定。通过K均值聚类分析觉醒、效价评分实现。

(3)特征选择。利用线性相关性系数确定与目标类别最相关的脑电特征。

(4)觉醒、效价水平二类分类。以选择的脑电特征为输入,以聚类获得的目标类别为输出,基于支持向量机方法设计分类器识别觉醒、效价的高、低两种状态。

该课程作业串行连接了不同数据挖掘知识点,小组中每名学生可分工完成其中的一个或多个子任务,培养综合知识运用能力和团队协作能力。

4 结 语

笔者通过引入情感计算问题补充完善了现有的教学案例类型,帮助智能专业学生更好地理解数据挖掘技术在人机交互等领域发挥的重要作用。通过利用开放的互联网数据库资源,笔者设计了5个由浅入深的课堂教学、上机实验案例和一项综合课堂作业。这些案例涵盖了数据挖掘的所有主要任务,循序渐进地引导学生掌握数据挖掘技术的知识结构,调动了学生的学习积极性和兴趣。在此基础上,笔者在课后指导学生参与相关创新训练项目,相关研究成果已在2017年举行的20届国际自动控制联合会世界大会上宣读。未来工作中,筆者期望结合自身研究特长,进一步引入前沿的人机交互问题于智能科学与技术专业相关课程的教学中,丰富教学案例,提高教学效果。

参考文献:

[1] 蒋盛益, 李霞, 郑琪. 研究性学习和研究性教学的实证研究: 以数据挖掘课程为例[J]. 计算机教育, 2014(24): 97-101.

[2] 谭征, 孙红霞, 王立宏, 等. 基于实例的本科数据挖掘课程教学探索[J]. 计算机教育, 2013(9): 67-70.

[3] Kim J, Andre E. Emotion recognition based on physiological changes in music listening[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2008(30):2067-2083.

[4] Yin Z, Zhao M, Wang Y, et al. Recognition of emotions using multimodal physiological signals and an ensemble deep learning model[J]. Computer Methods and Programs in Biomedicine, 2017(3): 93-110.

[5] Koelstra S, Muehl C, Soleymani M, et al. DEAP: A database for emotion analysis using physiological signals[J]. IEEE Transaction Affective Computing, 2012(3): 18-31.

(编辑:彭远红)endprint

猜你喜欢
数据挖掘
近十年国内教育数据挖掘领域的应用技术分析
数据挖掘技术在内河航道维护管理中的应用研究
数据挖掘技术在物流企业中的应用
数据挖掘过程模型及创新应用
数据挖掘综述
软件工程领域中的异常数据挖掘算法
基于R的医学大数据挖掘系统研究
电子政务中基于云计算模式的数据挖掘研究
数据挖掘创新应用
数据挖掘的系统构成与发展趋势