黄 斌,杨馨宇,吕 梅
(西华师范大学 教育学院,四川 南充 637009)
教育App 是随着移动网络技术的深入发展与移动智能终端的迅速普及而设计开发的一种新型移动学习资源。近些年,教育App 如雨后春笋般地涌现,数量已超过7 万,在苹果App 商店中仅次于游戏App 排名第二[1]。但在繁荣景象背后,教育App 市场良莠不齐、同质化现象严重等问题也日益凸显。此外,教育App 不仅数量众多,而且种类复杂。其中,平台类教育App(如百度传课、淘宝教育和腾讯课堂)因开发难度大、出现时间晚,故发展尚不成熟。
由新浪教育和尼尔森调查公司共同发布的《2014中国教育App 行业发展及用户行为研究报告》显示,用户对平台类教育App 使用稳定性相对较差、使用黏性相对较低、满意度不高[2]。如何保障教育App 质量,并为用户提供合理的选择依据,从而提高用户使用的稳定性、黏性和满意度,成为当下亟需解决的问题。
教育App 的评价可以优化其设计与开发,达到更好的应用效果。目前对教育App 的评价通常采用四种方法,即分析式评价、指标体系评价、观察和实验[3]。这四种方法各具特点,可以得到不同形式和详细程度的评价结果。其中,指标体系评价是评价人员根据一套特定的指标体系对教育App 各个方面的特征进行打分,最后结合得分确定质量等级的一种量化评价方法,其操作便捷,结果直观、明确。
本研究基于平台类教育App 在科学性、教育性、艺术性和技术性上的要求,从用户体验的视角出发,构建了评价指标体系,旨在为学习者选择和利用教育App 提供指导和帮助。
用户体验(User Experience,简称UE 或UX)最早由美国的唐纳德·诺曼(Donald Norman)在20 世纪90 年代提出。他认为用户体验是人的大脑反应的三个层次,即本能层、行为层和反思层的综合体现。如今使用最广泛的是国际标准化组织(ISO 9241-210)2010 年的定义,即用户体验是人们对于使用或期望使用的产品、系统及服务的认知印象和回应[4]。该定义指出用户体验是用户在一个产品、系统及服务使用之前、使用期间和使用之后的全部感受,包括情感、信仰、喜好、认知印象、生理和心理反应、行为和成就等各个方面。
研究人员从不同领域对用户体验的要素进行总结与提炼,构建了诸多理论模型。影响较大的有以下几种:贝恩特·施密特(Bernd H.Schmitt)将用户体验分为感官体验、情感体验、思考体验、行为体验和关联体验五大体系[5];罗伯特·鲁宾诺夫(Robert Rubinoff)认为品牌、可用性、功能性和内容是量化用户体验的四项因素[6];哈桑扎尔(Hassenzahl)等把用户体验的要素概括为实用性(操作性)与娱乐性(识别性、刺激性和暗示性)两个层面[7];惠特尼·奎瑟贝利(Whitney Quesenbery)提出5E 模型,认为在对用户体验进行评价时应从有效、效率、吸引、容错和易学五个维度进行[8];杰西·詹姆斯·加勒特(Jesse James Garrett)将用户体验在宏观层次上分为战略层、范围层、结构层、框架层和表现层[9];彼得·莫维尔(Peter Morville)提出蜂窝模型,此模型以价值为核心,由有用、可用、合意、可寻、可及和可靠构成[10]。
当前,用户体验在教育中的应用非常薄弱,基于用户体验对教育App 进行评价研究的文献更是寥寥无几,且主要集中于对英语单词类App 的评价。例如:赵学铭等选取“内容有效性”“界面设计质量”和“用户使用体验”为评价要素对英语单词类App 进行对比研究[11];喻帅英提出移动学习App 的可用性综合评价方法,通过实验测试比较了英语单词类App 之间的可用性差异[12];张熠等从“愉悦性”“可靠性”“可用性”“有用性”“交互性”五个方面设计移动学习App 评价指标体系,并以英语单词类App“百词斩”为例进行了评价分析[13]。
综上所述,考虑到平台类教育App 的现状,从用户体验的视角构建其评价指标体系,既有利于平台类教育App 质量的提高,又有利于学习者的有效选择,这对于平台类教育App 的应用和推广具有重要意义。
在文献分析的基础上,结合平台类教育App 的特点,初步拟订各项评价指标,采用“背对背”函询(专家之间不相互讨论)的方式,广泛征求专家的意见,继而对指标进行筛选,再利用层次分析法计算各项指标的权重,形成平台类教育App 评价指标体系。
德尔菲法(Delphi Method)又称专家函询法,20 世纪40 年代由赫尔默(Helmer)和戈登(Gordon)提出。1946 年,美国兰德公司为避免集体讨论可能存在的负面影响(屈从权威或盲目服从多数的缺陷),首次使用德尔菲法进行定性预测。德尔菲法通过非面对面的互动来整合专家的意见,从而为科学决策提供参考。这种方法具有匿名性、反馈性、统计性等特点,目前已经普遍运用于评价指标的确定。
(1)函询过程
本研究开展两轮专家函询。第一轮向专家提供平台类教育App 评价研究的背景、目的及初拟的评价指标。一方面是请专家对各项指标的认同程度打分并提出修改意见;另一方面是请专家对判断依据的影响程度和对函询内容的熟悉程度进行自我评价。第一轮结束后,汇总分析数据,根据统计结果与修改意见,制定第二轮函询表,表中包含了第一轮函询的统计结果以供专家参考,同时请专家对筛选后的各项指标的认同程度再次打分。两轮专家函询后,专家意见趋于一致且较为可靠,从而确定了平台类教育App 的评价指标。
(2)数据分析
将专家函询的数据录入Excel 2010,计算专家的积极系数、专家的权威程度以及各项指标的均数、满分频率和变异系数;使用SPSS 22.0 计算专家意见的协调系数并进行显著性检验(χ2检验)。
专家的权威程度(Cr)由专家的判断依据(Cα)和专家对函询内容的熟悉程度(Cs)两个因素决定,Cr=专家通常以“实践经验”(按影响程度的大中小,赋值0.5、0.4、0.3)、“理论分析”(按影响程度的大中小,赋值0.3、0.2、0.1)、“参考国内外资料或向同行了解”(0.1)、“直观感觉”(0.1)作为判断依据,0.6≤Cα≤1。本研究把专家对函询内容的熟悉程度划分为“非常熟悉”“熟悉”“一般”“不熟悉”“非常不熟悉”五个等级,并依次赋值1、0.75、0.5、0.25、0。经过统计,专家权威程度的平均值为0.78(0.72≤Cr<0.86),这说明专家的权威程度较高,函询的结果具有较高的参考价值。
专家意见的集中程度从各项指标的均数(Mj)、满分频率(Kj)和变异系数(Vj)三个方面反映。表示给j 指标打分的专家人数;Cij表示i 专家对j 指标打分的分值),Kj=mj’/mj(mj’表示给j 指标打满分的专家人数),Mj和Kj越大,对应的指标的重要性就越高。Vj=δj/Mj(δj表示j 指标的标准差),Vj越小,专家对j 指标的协调性就越好。本研究采用五点式李克特量表,请专家对指标的认同程度打分,即完全同意(5)、同意(4)、一般(3)、不同意(2)、完全不同意(1)。两轮专家函询后,各项指标的均数大于3.5,满分频率大于0.2,变异系数小于0.2,这说明专家意见的集中程度较高,意见趋于一致。
专家意见的协调系数(W)反映所有专家对全部指标的协调程度。0≤W≤1,W 越大,表示协调程度越高(协调系数一般在0.5 的范围波动,误差控制较好[14])。本研究第一轮专家函询的协调系数为W第1轮=0.596(df=35,χ2=583.790,P<0.05),第二轮专家函询的协调系数比第一轮略有提高,W第2轮=0.607(df=34,χ2=577.628,P<0.05)。两轮协调系数的χ2检验的P 值均小于0.05,这说明协调系数经检验后存在显著的一致性,即在95%的置信度下,专家意见的协调性好,结果可以接受。
(3)指标说明
本研究采用界值法筛选指标。具体做法是:“M界值=M平均数-M标准差”得分高于界值的入选;“K界值=K平均数-K标准差”得分高于界值的入选;“V界值=V平均数+V标准差”得分低于界值的入选。在以上衡量尺度中(均数、满分频率和变异系数),三个界值均不合要求的指标被剔除;一个或两个界值不合要求的,遵循科学性、全面性和可行性等原则,经讨论后再取舍。
根据函询的结果,并充分考虑专家的意见,对初拟的评价指标予以调整:一级指标方面,将“可用性”改为“教育性”,“愉悦性”改为“易用性”;二级指标方面,剔除“学习选择”和“品牌”,增加“用户手册”;三级指标方面,将“学习方式”归入“课程服务”,“学习时间”归入“学习管理”,剔除“产品口碑”和“品牌基础”,增加“完整性”,最终确定平台类教育App 的评价指标:包括4 个一级指标、14 个二级指标和35 个三级指标,如图1 所示。
①教育性
包括课程资源、课程服务两个二级指标,主要从课程资源与服务角度,判断App 是否为学习者提供所需的优质资源和全面服务。
课程资源由权威性、丰富性、更新速度3 个三级指标构成。权威性指授课教师知名度高、影响力大,课程资源来源明确;丰富性指课程门类齐全,涉及不同学段、学科;更新速度指课程资源更新及时。
图1 通过德尔菲法确定的评价指标
课程服务由课程提醒、学习方式、过程记录、课程推送、免费/付费5 个三级指标构成。课程提醒指通过电子邮件或电话、短信等,向学习者适时发送课程通知;学习方式指提供多种方式(如直播课程、录播课程、“直播+录播”课程)让学习者自行选择;过程记录指能够记录学习者的学习时长、学习进度和学习检测等;课程推送指根据大数据的用户行为分析系统,向学习者精准推送他们可能感兴趣的课程;免费/付费指免费课程或付费课程的提示明确,收费符合大众消费水平。
②功能性
包括交流共享、评价反馈、学习管理3 个二级指标,主要从学习活动与管理角度,判断App 是否为学习者提供完整的学习活动和个性的学习管理。
交流共享由互动交流、实时答疑、资源共享3 个三级指标构成。互动交流指允许学习者之间发起对话,就讨论主题可以点赞或互评;实时答疑指教师可以在线实时解答学生疑惑;资源共享指支持资源上传和下载,以促进资源再生与流通。
评价反馈由学习检测、奖励机制、内容评价3 个三级指标构成。学习检测指对学习者学习结果的测试,使他们掌握自身的学习情况;奖励机制指拥有恰当的激励措施,从而提高学习者外在的学习动力;内容评价指允许对课程与教学进行评价,以推动课程与教学的再设计。
学习管理由学习时间、课程选择、课程管理3 个三级指标构成。学习时间指提供课程学习计划,方便学习者自主安排学习时间;课程选择指提供科学的课程分类和全面的课程信息,易于检索课程并利于学习者有效决策;课程管理指能够轻松实现课程添加、删除、归类等操作。
③易用性
包括界面、导航、交互、媒体、广告、用户手册6 个二级指标,主要从视觉审美与科学设计角度,判断App 是否满足学习者学习体验的情感需求。
界面由布局合理、色调一致、图形意象3 个三级指标构成。布局合理指界面简约、引导性强,符合学习者的使用习惯;色调一致指色系搭配和明暗层次适当;图形意象指图标表意明确,构图可点触元素直观可见、容易触发。
导航由易识性、易寻性两个三级指标构成。易识性指导航容易识别,链接部分能够显示出已浏览和未浏览的区别;易寻性指使用空间导航替代层级导航,任何位置都可以轻松返回。
交互由准确性、及时性两个三级指标构成。准确性指操作能得到准确的反馈;及时性指操作能得到及时的反馈。
媒体由形式多样、使用恰当两个三级指标构成。形式多样指使用多种媒体展现内容,避免形式单一、枯燥;使用恰当指针对不同内容合理选择媒体,达到最优的呈现效果。
广告由广告宣传1 个三级指标构成。广告宣传指App 不携带垃圾广告。
用户手册由完整性1 个三级指标构成。完整性指向学习者提供详细的App 产品说明和使用指南。
④可靠性
包括安全稳定、隐私保护、配置要求3 个二级指标,主要从安全与适用角度,判断App 是否满足学习者学习体验的技术需求。
安全稳定由链接安全、运行稳定两个三级指标构成。链接安全指链接没有病毒,不会受到恶意攻击。运行稳定指App 的操作流畅,没有链接中断或错误等技术故障。
隐私保护由身份鉴别、信息保密两个三级指标构成。身份鉴别指具有账号绑定功能(如通过输入手机验证码才能登录);信息保密指对学习者信息保密,不会泄露个人隐私。
配置要求由内存占用、可扩展性、兼容性3 个三级指标构成。内存占用指占用内存较小,不会影响设备的正常运行;可扩展性指支持多终端浏览,适应移动化、碎片化的学习需求;兼容性指能够和其他常用App 同机安装、使用。
层次分析法(AHP)是美国运筹学家、匹兹堡大学萨蒂(T.L.Saaty)教授在20 世纪70 年代提出的一种定性和定量相结合的多准则决策方法。运用层次分析法计算指标权重,大体分为3 个步骤:首先,分析系统中各元素之间的关系,建立层次结构;其次,对同一层次的各元素关于上一层次中某一准则的重要性进行两两比较,构造判断矩阵;最后,由判断矩阵计算被比较元素对于该准则的相对权重。
(1)建立层次结构
将通过德尔菲法确定的评价指标视为一个层次分析的结构模型。在这个结构模型下,复杂问题(平台类教育App 评价指标体系)被分解为若干元素(各项指标)。这些元素按其属性形成不同层次(各级指标)。同一层次的元素作为准则对下一层次的某些元素起支配作用,同时它又受上一层次元素的支配。
(2)构造判断矩阵
以上一级指标作为判断准则,对下一级指标按照Saaty1-9 标度进行两两比较(1 表示同样重要;3 表示前者比后者稍微重要;5 表示前者比后者明显重要;7 表示前者比后者强烈重要;9 表示前者比后者极端重要;2、4、6、8 表示上述相邻判断的中间值;若元素i 与元素j的重要性之比为aij,那么元素j 与元素i 的重要性之比为aji=1/aij),构造判断矩阵[15]:
A=(aij)n×n,且aij>0,aji=1/aij
(3)计算相对权重
将A 的各个列向量采用几何平均,然后归一化,得到权重向量[15]:
为确保判断矩阵的可靠程度,需要对判断矩阵的一致性进行检验[15]。其一,计算矩阵的最大特征根λmax,,(Aw)i表示向量Aw 的第i 个分量;其二,计算一致性指标;其三,计算一致性比例,R.I.表示平均随机一致性指标,其值可以通过查表确定。当C.R.=0 时,具有完全一致性,当C.R.<0.1 时,具有满意一致性,当C.R.≥0.1时,不满足一致性要求,需要对判断矩阵进行调整。
本研究采用分层抽样的方法,从参与德尔菲法的28 名专家中,选取14 名专家(教育技术学研究生导师7人、教育软件公司技术人员4 人、现代课程与教学论学者3 人)填写《平台类教育App 评价指标权重的调查问卷》。经过计算,所有判断矩阵的C.R.均小于0.1,各项指标的权重如表1 所示。
模糊综合评价法(FCE)是我国著名学者汪培庄教授在20 世纪80 年代提出的以模糊数学为基础,应用模糊关系合成的原理,将一些边界不清、不易定量的因素定量化,从多个因素对被评价事物隶属等级状况进行综合性评价的一种方法。本研究以上述平台类教育App 评价指标体系为依据,对“中国大学MOOC”和“网易公开课”进行多级模糊综合评价。
多级模糊综合评价一般需要经过以下步骤:
表1 平台类教育App 评价指标体系
第二步,对每一个ui进行单级模糊综合评价。设ui中各因素的模糊权向量为的单因素评价结果为Ri(pi行,m 列),则一级评价模型为Ai°Ri=(bi1,bi2,…,bim)≜Bi,i=1,2,…,s。
第三步,将ui(i=1,2,…,s)看作一个综合因素,用Bi作为它的单因素评价结果,可得隶属关系矩阵:
设综合因素ui的模糊权向量为A=(a1,a2,…,as),则二级评价模型为A°R=(b1,b2,…,bm)≜B。如果第一步划分中ui(i=1,2,…,s)仍较多,那么可继续划分得到三级或更高级的评价模型。
本研究面向全国高校教师和在读本科生、研究生大量发放《“中国大学MOOC”和“网易公开课”用户体验的调查问卷》,回收有效问卷(接受调查的师生均使用过中国大学MOOC 和网易公开课,且对这两款平台类教育App 有一定程度的了解)共计190 份。
(1)评价结果
因素论域U={u1,u2,u3,u4}={教育性,功能性,易用性,可靠性},评语等级论域V={v1,v2,v3,v4,v5}={好,较好,一般,较差,差}。接受调查的师生依据自身的体验情况对各因素的具体条目按V 中的五个等级进行评判。参照多级模糊综合评价的步骤,最终建立“中国大学MOOC”和“网易公开课”的三级评价模型,并采用(·,⊕)算子,求出模糊综合评价结果向量。
(2)相关讨论
给V 中的五个等级依次赋以分值100、85、70、55、40,采用模糊向量单值化,得出一级指标和二级指标的得分(详见表2 和表3)。从一级指标的得分来看,虽然中国大学MOOC 和网易公开课在教育性、易用性、可靠性上不分伯仲,但是在功能性上,中国大学MOOC 要明显优于网易公开课。
中国大学MOOC 是由网易携手高教社联合推出的中文MOOC 平台,依靠先进的技术,为国家精品开放课程的转化与深入建设提供了强大的助力与支持,以公益的方式把优质的高等教育资源向用户开放,致力于打造一个“没有围墙的大学”;而网易公开课的口号是“让知识分享成为习惯”,主要为用户提供哈佛、牛津等顶级高校以及可汗学院、TED 等组织机构的教育视频、图文信息,内容涵盖人文、社科、自然、工程、生活等多个领域,搭建了一个全球普适教育资源的共享平台。总之,中国大学MOOC 力图通过建立全面的大学课程体系,帮助用户(主要是高校师生和职场人士)实现可以随时随地学习名校课程的愿望;而网易公开课除了包括国内与国际的名校课程外,还包括精品付费课程、演讲等内容,其用户更加广泛,甚至可以是所有的学习爱好者。所以,基于不同的产品定位和目标用户,中国大学MOOC 和网易公开课在功能上存在较大差异,这集中体现在交流共享、评价反馈、学习管理三个二级指标的得分上。
表2 一级指标的得分
表3 二级指标的得分
①交流共享
中国大学MOOC 的课程都设有“讨论”模块,分为“综合讨论区”“老师答疑区”和“课堂交流区”,讨论的内容紧密围绕课程的学习,师生参与度较高,回复质量较好;而网易公开课设有一个独立的“社区”模块,用户可以自由发起话题,内容不限,话题可以按时间或热度排序,用户参与度较低,回复质量参差不齐,整体效果较差。
②评价反馈
中国大学MOOC 的课程都配有学习检测,包括作业和测验(考试)等考核方式,因此能很好地督促用户学习,起到巩固知识、强化技能的作用。另外,用户可以对课程与教学进行评价;而网易公开课虽然在课程中设有“评论”功能,但由于缺少科学有效的考核机制,用户无法对学习结果进行检测。
③学习管理
中国大学MOOC 设有“学习计划”功能,用户可以通过定制计划,获得专属学习日历;与此相应的是网易公开课推出的体系化学习任务——“我的一万分钟”功能,方便用户自主安排学习时间,但涉及课程数量很少、门类不全。此外,中国大学MOOC 的课程都设有“公告”模块,提供详细的课程信息;而网易公开课因为缺乏课程通知、课程大纲等,所以不利于用户筛选课程。
基于以上讨论,不难看出中国大学MOOC 和网易公开课这两款平台类教育App 都有清晰的产品定位和目标用户。中国大学MOOC 旨在打破大学之间的资源壁垒,让更多的人有机会接触到名校、名师的精彩课程,通过与教师或同伴的在线交流、讨论,具备认知存在、教学存在和社会存在,为现代个性化教育提供新的可能。网易公开课尽管缺乏师生互动,具有单向传播的缺点,但这与其自身定位相契合,网易公开课的定位一直不是系统教学和专业培训,而是开拓眼界、培养兴趣,展示国内外优秀公开课,它更像是一个引路人,将用户带到入口处,给用户某一领域的整体认识,却无法满足深度学习的需求。
《2019 中国在线教育行业市场前瞻分析报告》指出,“2015-2018 年上半年,在线教育用户保持较高增速,手机在线教育用户占在线教育用户的比重不断上升。2018 年上半年,在线教育用户已经达到1.72 亿人,手机在线教育用户已经达到1.42 亿人,手机在线教育用户占在线教育用户的比重超过80%”。可见,教育App 拥有庞大的用户群,市场前景不容小觑。平台类教育App 作为在线教育和移动学习结合的产物,要想打出自己的天地,需要有明确的产品定位和目标用户,差异化才能摆脱淤泥的困扰,踏足向上的阶梯。
本研究构建的评价指标体系以满足用户个性化的学习需求为根本原则,在文献分析的基础上,综合运用德尔菲法、层次分析法和模糊综合评价法,阐释了平台类教育App 在教育性、功能性、易用性和可靠性上的量化评价过程与结果,一方面为用户的选择提供依据,另一方面为App 的优化提供建议。
但由于平台类教育App 中课程的分类繁多(如音频课程和视频课程、国内课程和国际课程、纪录片和演讲等),无法对其有一个统一的评价标准,因此如果用户在以学习内容为导向选择App 时,还应该结合大众口碑或具体的课程信息进行选择。