田 天 陈 刚
上海交通大学现代远程教育研究中心 上海 200030
E-learning指通过因特网或其他数字化内容进行学习与教学的活动[1],它充分利用现代信息技术提供的软硬件资源,实现了一种全新的学习方式,改变了传统教学中教师的作用和师生之间的关系,从而根本上改变了教学结构性质[2]。E-Learning具有个性化、集成化、系统化等特点,并在一定程度上体现了终身教育的需求。E-Learning有时更多的是指基于网络、多媒体的远程学习。近些年来,网络远程教育[3,4]正逐渐成为一种新型的教学方式,它作为信息技术与教育理念融合的一种全新教育模式,使人们在任何时间、任何地点,均能通过网络方式更加自由地进行学习。虽然网络教育并未发展成熟,但已经使学习者在一定程度上摆脱了传统教育的束缚。E-Learning学习模式受益群众普遍,并且具备高度自由性。
无论是传统教学活动还是新兴的网络远程教学、智能教学,学生的学习盲目性是普遍并长期存在的问题。学习盲目性体现在:学习内因不强,学习被动,无法激发兴趣,学习过程中或者学习结束后不能及时自我总结。学习盲目性和家庭、社会环境都有一定关系。同时,学习者也容易出现孤立、焦虑感。在传统教育模式中,教师对成绩较好学生的过分关注等因素,均可引起学生的不良情绪;而在E-Learning环境中,新颖的教学工具普遍缺乏情感、人文关怀,使学习者感受到在面对“机器”学习,而不是和“人”进行沟通学习,这是目前E-Learning学习中最大的问题之一。
E-Learning教学环境提供了更加丰富的功能和服务,包括完善的课堂教学与演示,丰富的教学资源等。E-Learning中的教室环境应该是一种智能教室。智能教室按照表现形式可分为两种:
第一种智能教室指的是一个纯虚拟的教室环境[5],来自不同地方的学生通过Internet同时登录到一个虚拟的教室中,使远程学习的学生感觉更像在传统教室中学习。
第二种智能教室是一个实体的标准自然教室(SNC)(如图1所示)。在这种新型教学模式中,教师可以灵活走动,也可以随意使用肢体语言和学生实时互动,完全与在传统教室一样。同时也能通过新的信息手段判断出学生是否专心听课等课堂表现问题。这种智能教室配备了多种教学辅助系统,如激光笔授课系统[6]、运动跟踪系统[7]、表情识别系统[8]等。
图1 标准自然教室
从本质上说,第一种形式的教室不能代表E-Learning教学模式的发展前景,因为虚拟教室只是一种通过Internet技术而实现的简单远程学习方式;第二种形式的教室提供了完整的实体学习环境,是一个真正意义上可供师生交互学习的硬件系统。笔者针对第二种形式的教室,以我校E-Learning标准自然教室为环境,研究并开发出一套基于注意力检测技术,包括人脸、人眼检测和表情识别的智能督导学习系统[9]。
智能导学系统(ITS)是现代远程教育面向智能化发展产生的概念,它借助人工智能技术,让计算机扮演教师的角色实施个别化教学,向不同需求、不同特征的学习者传授知识、提供指导。智能导学系统能够在学习者经过一个阶段的学习后提供及时的反馈,引导学习者正确进行下一阶段的学习。学习督导系统与智能导学系统不同,学习督导系统的任务是实时监督学生的学习状态并提供相关反馈,使学习者自身能够意识到自己的消极状态,如闭眼、低头、交头接耳等。督导系统比导学系统更加重视过程性,体现实时关怀,促进学习者的状态自我调整(如图2所示)。
图2 学习督导系统和智能导学系统
人脸检测的任务是从各种复杂背景中判断是否包含人脸区域,如果存在人脸区域则进一步得到人脸参数,如位置、尺寸、姿态等,在视频图像中一般以矩形框的形式对人脸区域标定。实时的人脸检测问题本身是一个极具挑战意义的课题。人脸特征差异性非常明显,再加上眼镜、发型和化妆等因素会遮盖某些人脸特征,使得人脸检测技术在准确度和精度上很难达到理想要求,同时视频采集过程中的噪声、环境光照等因素,都会不同程度地对人脸检测产生影响。
人眼睁开和闭合的状态是一种能够直接反映出学习状态的外观因素,通过视觉技术检测人眼的睁开和闭合状态与人脸检测方法相似。值得注意的是,虽然人眼信息反映人的精神状态直观明了,但也要区分短时间眨眼、闭眼思考等特殊状态,这些正常状态不能被判别为消极学习。
学习者脸部表情直接反映了学习情感、效率等一系列问题,只有试图让机器充分理解学习者脸部所传达的信息,才能在更高层次上体现出自然教室的智能和关怀式学习。生物学家达尔文所做的心理学实验表明,面部表情的含义并不随着种族、国家和性别的不同而不同,这也是表情研究的重要基础。表情特征提取是表情识别过程中最为关键的一步,决定了表情识别中采用的数学模型,同时直接影响了系统识别准确度、有效性、运行效率等。表情识别技术也是一种模式识别分类技术。表情特征的提取主要包括两大类,一类是根据静态图像进行人脸表情识别,另一类是根据视频流中的图像序列进行人脸表情识别,视频流的表情识别虽然也以静态图像为基础,但可以利用视频帧间连续性等特点进行表情识别。目前在计算机视觉技术中,基于几何特征模型、统计模型等的表情识别方法有比较广泛的使用。
图3 系统工作示意图
摄像头开启,系统启动后,由摄像头采集图像,并通过网络将图像传输给图像服务器,图像服务器开始进行人脸检测,得到学生人脸的位置,并将有关数据传输给摄像头,该过程是一个双向数据传输过程。摄像头接收到人脸位置数据后,逐一对每个学生人脸区域进行放大,再将放大后的人脸图像传输给图像服务器进行人眼检测和表情识别。摄像头控制模块的输入是检测到的人脸矩形集合,摄像头根据矩形区域位置进行转动并且聚焦。该过程中,摄像头对整个自然教室全景图以及单个人脸大图分别进行采集。图像服务器获取到完整的人脸数据后,开始进行学生注意力检测,并统计学生总人数以及消极状态、积极状态的人数。
人脸与人眼的漏检是一种常见现象。针对这一问题,由于在很短的时间间隔内,学生的相对位置是固定的,因此可将连续多帧的人脸检测结果合并,克服某些帧的漏检问题。人脸与人眼检测的误检可利用PTZ摄像头的缩放旋转功能来消除。对于表情识别模块,由于表情识别计算存在识别准确度和实时性之间的矛盾,即高识别准确度意味着复杂的计算模型和计算时间的增加。在我们的SNC中,并不需要严格的实时性,人脸表情识别只要满足准实时性即可,因此可在一定周期内(如1分钟)给出SNC中的表情计算结果。
系统摄像头采用索尼(SONY)网络摄像头SNCRZ25P。该摄像头可通过TCP/IP协议的局域网或者互联网进行人工控制,同时可以安装摄像头自带的IP Setup Program程序给摄像头分配一个局域网IP地址或者公网IP地址及访问端口号,通过该IP地址和端口号可在浏览器打开配置页面进行摄像头配置,或者在程序中通过API命令访问。采集图像对教室全景的覆盖能力和图像质量将是系统的关键环节,摄像头的旋转缩放功能是我们在部署智能教室环境中考虑的重要因素。该SNC-RZ25P摄像头左右转动范围可达340°,上下转动范围达120°,并具有18倍光学变焦镜头。
图4 硬件实物和架构图
对于反馈设备,我们部署物理振动椅(如图4所示),对处于负面学习状态的学习者提供振动反馈。振动尽可能人性化设计,避免噪音过大影响周围学生的学习,同时振动程度适中,只是提供提醒作用,不会引起学习者的不适。振动信号的接收采用无线信号技术。无线技术不仅部署简单,而且不会对教室环境布局产生影响,使用方便。系统使用接收无线信号的继电器开关作为反馈系统的控制器。继电器开关控制插座的电源开关,当继电器接收开启命令的无线信号后,插座导通电流,反馈系统开始响应。
除了实时视频区域显示视频图像和人脸检测结果外,系统可直接操控摄像头和振动椅的开启和关闭。积极、中性、消极三种表情状态以图形方式显示,并在系统下方提供注意力检测的信息栏,以文字显示系统状态、学生注意力等详细信息(如图5所示)。
图5 系统运行界面图
根据实验统计,在489次人脸检测过程中,人脸漏检次数为29次,漏检率不到6%。人脸的误检次数为13次,不到3%。而在统计的200次人眼检测过程中,人眼的漏检次数为22次,漏检率11%。误检次数8次,误检率4%。在一次完整的表情识别过程中,统计出114次积极状态、52次中性状态和68次消极状态,共计234次表情状态。其中表情识别系统积极状态检测出121次,中性状态检测出34次,消极状态检测出79次。中性状态误差相对较高。
在我校E-Learning自然教室中部署督导系统后,我们选取2组学生进行为期2周的对比实验,每组选用60名学生,学生每天被安排进行一节大约40分钟的学习。在两组学生中,第一组学生在通常的E-Learning环境中学习,而第二组学生被安排在安装有学习督导系统的智能教室中学习。每天课程结束后我们立即进行考核,并在2周结束后根据10次考核记录统计出每个人的最后成绩(如图6所示)。
图6 成绩分布对比图
配置督导系统后,学生学习成绩总体情况有了较为明显的提高,且成绩分布也比较集中。虽然实验结果是根据较短时间内学生的学习情况绘制,但该结果仍能表明基于注意力检测和表情识别学习督导系统的有效性和帮助学习者改善学习效率的初步意义。
系统探索并实践了人脸检测、人眼检测、表情识别、PTZ摄像头控制和教室无限反馈技术。通过研究人脸检测算法和PTZ摄像头控制技术,实现了自然教室中学生脸部位置的定位和人脸区域的放大;通过人眼检测技术,系统可检测学生的双眼是否闭着;在此基础上,结合面部表情分析识别的结果,对学生的学习状态加以判断,并对处于消极学习状态的学生提供及时的反馈。学生的学习状态分为正面、中性、负面3种。在我们的SNC使用环境中,表情分析结果准确性还有一定的提升空间,计算速度也有待优化。
[1]William H.Graves,The new challenges of E-Learning[J].Ubiquity,2001,1(43):50-54.
[2]上海市教科院智力开发研究所.美国教育部教育技术白皮书[EB/OL].http://www.doc88.com/p-538793830398.html.
[3]Keegan D.Foundations of distance education[M].Routledge,1996.
[4]祝智庭,王陆.网络教育应用教程[M].北京:北京师范大学出版社,2004.
[5]Shi Y,Xie W,Xu G,et al.The smart classroom:merging technologies for seamless tele-education[J].IEEE Pervasive Computing,2003,2(2):47-55.
[6]Olsen Jr D R,Nielsen T.Laser pointer interaction[C]//Proceedings of the SIGCHI conference on Human factors in computing systems.ACM,2001.
[7]Di C,Gang Z,Juhong X.A new system for interactive demonstration in distance education—The research and design of the smart classroom based on blending reality[C]//Granular Computing,2008.GrC 2008.IEEE International Conference.IEEE,2008:121-124.
[8]Viola P,Jones M J.Robust real-time face detection[J].International journal of computer vision,2004,57 (2):137-154.
[9]荆永君,钟绍春,程晓春.基于Internet的智能导学系统设计[J].中国教育网络,2005(1):44-47.