郑隆威 冯园园 顾小清
[摘 要] 学习成果(Learning Outcome)描述了期望学习者在完成课程后所习得的知识、技能和能力。众多研究呼吁课程管理者需要依照布鲁姆分类学制定学习成果,从而使学习成果在认知维度上是“可测量的”,但很少有研究关注学习成果的描述与所测量的结果之间是否匹配。本文试图借助学习分析方法对这一问题进行探究。本文利用自然语言处理方法测试动词、情境信息等能否有效地标示学习成果的认知类型。研究发现,动词依然是布鲁姆分类学中最关键的特征,当该特征与学习内容、情境信息结合时,能够更准确地标示学习成果的认知类型。此外,本文讨论了学习成果在布鲁姆分类学中存在的不明确性,发现这种不明确性能够带来更多的上下文信息,从而更全面地辅助学习成果的制定。
[关键词] 学习分析; 学习成果; 布鲁姆分类学; 自然语言处理; 词向量
[中图分类号] G434 [文献标志码] A
[作者简介] 郑隆威(1989—),男,回族,江苏扬州人。博士研究生,主要从事学习分析与教育数据挖掘研究。E-mail:lwzheng@dec.ecnu.edu.cn。
一、引 言
学习分析(Learning Analytics)在理解学习需求和预测学习表现中的作用已被广泛认同。学习分析同样能够支持课程的开发和教学的设计[1],比如具体到为教学目标的设计提供支持。在教学实践中,教学的目标常常体现为规定出一系列要完成的学习成果(learning outcome)。对学习成果的规定(以下简称学习成果)指的是学生在完成一个特定的学习经历之后,通过课程学习所掌握的特定知识、技能和能力。学习成果常常以陈述的方式规定学习者完成课程时所表现出的能力[2],以便让学习者能够更精确、更全面地预测到参与学习所带来的成就,并根据学习成果的规定制定相应的学习策略[3]。学习成果另外一个关键作用是作为教师设计课程活动和评价方式的依据[4]。学习成果大多以陈述性的文本形式出现,但是由于其承载着对学习目标的规定,需要具有对目标达成度的测量能力[4]。布鲁姆分类学(Bloom's Taxonomy)为“测量”学习成果提供了认知层面的“量尺”。經过修订的布鲁姆分类学以6种动词描述学习成果[5]:记忆(Remembering)、理解(Understanding)、应用(Applying)、分析(Analyzing)、评价(Evaluating)和创造(Creating)。伴随着布鲁姆分类学的是描述6种认知类型的动词词汇表,它们是各认知类型在语言表达中的投射,学习成果撰写者可以根据相应的认知期望从词汇表中选择更准确的表达方式。在改进版的布鲁姆分类学中,也包含一个用于描述学习内容的知识维度。与认知维度类似,知识维度描述了不同层级的知识类型[5-6]:事实性知识(Factual)、概念性知识(Conceptual)、程序性知识(Procedural)、原则性知识(Principles)和元认知知识(Metacognitive)。众多学习成果分类法的存在,都体现出学习成果不仅仅需要关注动作,还需要考虑动作之外的情境信息[4]。
但是,操作型动作、学习内容以及其他情境信息对制定学习成果的影响究竟有怎样的差异,目前还没有研究给出明确的结论。此外,如前文所述,作为认知
维度的“标尺”,布鲁姆分类学能否促使学习成果的区分度增强,使学习成果文本更易于“测量”,还有待进一步研究。我们发现,该领域的研究普遍试图通过提出措辞规则、词汇字典、分类方法等形式的指南来帮助人们制定学习成果,却很少对其提出的倡议进行验证。本文试图从学习分析的角度对这一问题进行探究。我们收集了真实课程中的学习成果数据以及由专家标记的认知类型,提出以下研究问题:
(1)动词是否是区分学习成果的认知领域的有效特征?
(2)学习成果的情境信息(如学习内容、制定背景)是否是区分学习成果的认知领域的有效特征?
(3)基于以上两个问题的研究结果,探究如何利用布鲁姆分类法辅助教育工作者制定更有效的学习成果。
为了探究以上研究问题,本文将利用自然语言处理(Natural Language Processing,NLP)技术和机器学习技术进行数据分析。本研究将利用当前NLP领域中应用较为广泛的词向量(Word Embeddings)技术生成学习成果的文本特征,并通过构建机器学习分类器对不同的特征进行测试,同时,利用词移距离技术对文本的区分度进行测量。
二、研究方法
(一)数据
本研究从澳大利亚某大学的课程数据库中收集了13189个学习成果,这些学习成果的文本数据将作为本研究的语料来源。其中,8115个学习成果来自本科生课程,5074个学习成果来自研究生课程。这些学习成果由该校各个学科中的专家针对具体课程进行制定,专家们对该校开设的每一门课程都会制定1~10个学习成果(平均为4.12个)。在课程管理部门的引导下,学科专家还根据布鲁姆分类法对每一个学习成果的认知类型进行了标记,标记方法采纳了2001年修订版的布鲁姆分类学,从低阶认知到高阶认知类型分别为:“记忆”“理解”“应用”“分析”“评价”和“创造”。但需要指出的是,专家在制定学习成果时,并未被要求严格遵循布鲁姆分类学的用词。图1展示了所有学习成果在6种布鲁姆认知类型上的分布,从中可以看出,处于相对低阶的“记忆”(144个,占总体1.1%)和“理解”(1207个,占总体9.2%)的学习成果相对较少,大部分学习成果被标记为相对高阶的认知类型。其中,本科生课程的学习成果被标记为“应用”的频率最高(1996个,占本科目标的24.6%),研究生课程的学习成果被标记为“创造”(1598个,占研究生总体31.3%)和“评价”(1533个,占研究生目标的30.2%)的频率最高。从认知类型的分布可以看出,学科专家对不同学习阶段的成果期望存在明显差异,相对而言,本科生课程更加面向应用层面,而研究生课程则更关注学生的高阶认知能力。
布鲁姆分类中的分布
(二)利用词性标注获得词汇语料
由于本研究将文本语料作为研究资料,因此,本研究需要将非结构化的学习成果文本数据转化为计算机可识别的结构化的数据。这一结构化的流程使用了自然语言处理中常见的技术:分词(Token)、n元组模型(n-Grams)、词干提取(Word Stemming)、停顿词清洗等。为了探究本文的研究问题之一——布鲁姆词汇表有效性,本研究还利用词性标注(Parts of Speech Tagging)技术对所有学习成果的文本进行了词性标注,从而得到所有单词的词性(例如动词、名词和形容词)。例如,学习成果 “Analyze the Business Data.(分析商业数据)”会被标注为“Analyze(分析,及物动词)| the(停顿词)|Business(商业,名词)|Data(数据,名词)|(标点)”,我们将“Analyze(分析)”归入动词类别,将“Business(商业)”和“Data(数据)”归入名词类别,停顿词和标点被清洗。本研究采用Stanford Log-linear Part-Of-Speech Tagger工具[7]来对所有文本中的单词进行词性标注。
(三)利用词向量技术获取学习成果特征
本文使用词向量技术(Word Embedding)将文本转化为表征语义的特征向量。在词向量法出现之前,较为常见的NLP方法是词袋模型(Bag-of-words Model)、包括扩展自该模型的n元组模型(n-Gram Model)和词频—逆文档频率(Term Frequency-inverse Document Frequency,TF-IDF)技术,这些方法将文本以基于词频的编码来表示,但由于每个文档出现的单词通常只是整个词袋中单词总量很小的一个子集,这就使得特征向量较为稀疏(Sparse)。这种稀疏使得单
个词语的特征向量所携带的信息有限,从而难以有效地表征单词语义。
词向量技术可以有效地解决文本的语义表征问题。近年来,词向量已经成为NLP中广泛采用的特征处理技术,这一技术突破始于Mikolov与其同事提出的一种利用非监督学习实现的詞向量方法——Word2vec[8]。Mikolov和他的同事提出,可以通过训练一个三层的神经网络模型来实现高维空间嵌入单个词语,它将每个单个词语从稀疏的编码映射到一个高维的向量空间,从而利用每个词语的上下文信息作为词语的特征向量。这样的处理方式也使得词向量能够表征单个词语的语义信息,由于相似的单词的上下文信息是相近的,因此,相近的词语在高维空间中的位置也是相近的。
由于词向量继承了向量的特性,这允许我们能够像向量运算一样操作文本信息。例如,在词向量空间中,(中国)-(北京)≈(澳大利亚)-(堪培拉),在这个案例中,由于“北京”和“堪培拉”分别作为“中国”和“澳大利亚”的首都,它们在词向量空间上具有相似的距离,因此,可以通过向量运算的方法实现。本研究将试图利用词向量来表征学习成果中的文本信息,我们将学习成果中的每一个单词转化为单个词向量,通过特定的运算后将结果向量视为学习成果文本在高维空间中的映射结果。这一思路如图2所示:首先,将学习成果文本中特定的词语转化为对应的词向量;随后,对词向量进行运算(图2中直接进行了累加);最后,将词向量的运算结果进行标准化(图2中采用了均值法),以作为学习成果的向量。
词向量可以通过训练语料库获得,或者直接使用已训练好的词向量字典。笔者通过比对这两种方法后发现,由于语料量有限,基于本文数据的词向量质量略低于开源的词向量字典,因此,本文采用了谷歌公司发布的词向量字典word2vec-GoogleNews。该字典训练自英文新闻文本数据,具有300个维度,包含300万个英文词汇。由于本研究的学习成果部分文本中存在大量未收录在字典中的低频词,无法准确地表达语义,因此,这些学习成果未被纳入最终的分析数据。最终,本研究保留了13003个学习成果作为分析数据。
(四)利用WMD算法测量词移距离
词向量的另一个优势是能够测量不同文本之间的距离。由于基于词袋模型的文本向量通常存在正交性(Orthogonality),难以测量两个句子之间的差异,例如图3所示,“Discuss the financial questions(讨论财经问题)”和“Communicate the economic issues(交流经济学问题)”是两个非常相似的句子,但由于两者并不共享关键的单词,因此,难以测量其间的相似度。Kusner等基于词向量的特性,提出了一种能够测量两个句子之间距离的技术——词移距离(Word Movers Distance,简称WMD)[9],从而能够从一定程度上展现出两个句子在语义层面上的非相似度(Dissimilarity)。具体来说,WMD派生自“地动距离(Earth Mover's Distance)”方法,从而将文本之间的距离计算转化为一种运输问题的最优化求解,最终通过搜寻一个累积移动代价最低的移动方式来计算文档距离。如图3所示,虽然两个句子没有一个非停顿单词是相同的,但是通过WMD算法,每个单词会分别寻找到语义上最短的移动路径:动词“Discuss(分析)”寻找到了“Communicate(交流)”,“Financial(财务的)”寻找到了“Economic(经济学的)”,“Questions(问题)”寻找到了“Issues(问题)”。最终,将所有移动路径的累积作为距离结果。
习成果1的动词“Discuss(讨论)”与学习成果3的动词“Collaborate(合作)”“Communicate(沟通)”之间具有类似的含义,因此,词距仅有1.01;但是它们与学习成果2的动词“Develop(开发)”“Align(结合)”的含义相差较远,因此,两者之间词移距离就分别为1.32和1.27。
(五)基于自然语言处理的分类器
本研究将利用机器学习来探究不同类型的特征对布鲁姆类型的区分能力。首先,在文本预处理和词向量基础上,我们分别基于不同的分类方法或输入不同的数据构建了6种不同的分类器;随后,以正确率作为分类器表现指标,比较分类器对布鲁姆认知类型的分类能力,从而探究不同类型的语料信息对标记认知类型的作用;最后,根据分类器的表现结果,结合词移距离方法,深入探究文本之外的情境信息对于认知类型的影响。
1. 分类器1:动词词汇表查找法
分类器1是作为参照的基线分类器(Baseline),该分类器模拟了人工鉴别布鲁姆认知类型的“常规”方法,即在没有机器学习的帮助下,通过查表、匹配动词词汇来确定认知类型。首先,该分类器会提取每一个学习成果文本中所有被标记出的动词单词;随后,分类器分别将每个单词与Stanny整理的词汇表[4]中的词汇进行比对,由于Stanny的词汇表中存在一个词汇具有多个认知类型的情况,因此,该分类器还会利用Stanny词汇表中词汇在各类型中的记录的频次作为评判依据;最终,通过比较每一个类型中累计的频次,选择频次总数最高的类型作为分类的结果。
2. 分类器2:n-元组词袋模型法
分类器2是另一个作为参照的基线分类器,该分类器代表了传统的自然语言处理方法,与分类器1不同的是,分类器2会考虑所有文本,而不是仅仅考虑动词文本。该分类器基于词袋模型,将学习成果文本以数值特征向量的形式进行表示,并利用n-元组模型对文档进行分割(n={1,2,3})以获得特征,最后选择了前3000个频率最高的特征。此外,学习成果中的动词、名词、形容词和副词的频率也作为训练数据输入机器学习模型。
3. 分类器3:平均词向量法
分类器3采用了最“朴素”的平均词向量法来获取学习成果的特征向量,该分类器将学习成果中的所有文本信息融合到一个词向量当中,用单个的词向量代表该学习成果在高维空间中的位置。首先,该分类器将每一个学习成果中所有非停顿词进行提取;随后,从词向量字典中获得所有词的词向量;最后,对所有词向量进行均值处理,从而将一个由300个维度构成的训练数据输入机器学习模型。
4. 分类器4:动词平均词向量法
分类器4与分类器3处理相似,唯一不同的是分类器4只提取动词文本而忽略其他词性的文本,最终的训练数据依然是一个由300个维度构成的特征向量,但该向量仅仅包含学习成果文档中的动词文本信息。
5. 分类器5:名词平均词向量法
分类器5与分类器4处理相似,唯一不同的是分类器5将只提取名词文本而忽略其他词性的文本。
6. 分类器6:动、名词平均词向量法
分类器6综合了分类器4和5的设置,该分类器分别提取了动词文本和名词文本的平均词向量,随后再将两者进行求平均值。分类器6试图通过两种文本的词向量来构造信息更完整的学习成果,排除了其他词性文本对于词向量的干扰。
本研究分别利用逻辑回归(Logistic Regression)、支持向量机(Support Vector Machine)和随机森林(Random Forest)对以上分类器进行了训练,在每次训练过程中,采用了5折交叉验证(Cross-validation)的方式来测试模型的预测能力。需要指出的是,本研究并未对任何一个模型进行超参数寻优或特征筛选。
三、分析结果
(一)词性标注结果
我们从所有文本中共获得了7902个单词,这些单词的词性信息将用于构造部分分类器的特征。表1展示了词性标注结果中,各认知类型中的高频动词(前8个)以及在相应层级中的覆盖率。此外,我们还将高频词与Stanny[4]整理的词汇表进行了比对,并将比对结果在表中标示出来。
从表1中可以看出,相邻认知类型之间的关系较为密切,例如,“记忆”与“理解”之间有6个共同的高频动词,“评价”和“创作”之间有5个共同的高频动词,“理解”与“应用”“分析”和“评价”之间有4个共同的高频动词。对比Stanny的元分析结果,本文的数据中有很多高频动词与Stanny词汇表差异较大,例如,Stanny词汇表中属于“应用”的“Explain(解释)”“Interpret(说明)”和“Demonstrate(展示)”,在本文的数据中反而在“分析”中较为频繁,同样的现象也包括在“评价”中出现较为频繁的“Analyze(分析)”和“Develop(开发)”。
在“创造”中,可以发现动词的运用较为多样化,排名最高的“Evaluate(评价)”的覆盖率仅为15%。我们还可以发现,一些单词在多个类型中出现的频率都很高,例如,“Apply(应用)”出现在所有类型高频单词中,“Use(使用)”出现在5个类型中,可能的解释是,这些动词会以作为引导句子的首个单词在语料中被使用到。例如:“Apply key theoretical concepts to understandings of place(运用关键的理论概念来理解地点)”,但这一学习成果的重点并不在于“Apply(运用)”,而在“Concepts(概念)”和“Understandings(理解)”,因此,該学习成果被专家标记为“理解”而非“应用”。相似的问题还包括“记忆”中的单词“Include(包含)”,这些词所承载的含义较为有限,其频率可能无法代表它在相应认知类型中的重要性。
(二)基于自然语言处理布鲁姆学习成果分类器结果
表2描述了6个分类器对布鲁姆认知类型的表现性能。结果显示,传统的查表法正确率较低,仅有38.19%的学习成果被正确分类,而14.05%(N=1827)的学习成果文本由于无法在Stanny的词汇表中找到任何一个匹配的动词,而无法被分类,在去除了这些无法识别的文本后,其正确率也只能提升到44.39%,这说明人工收集的词汇表对布鲁姆分类学的支持是较为有限的。分类器2体现了传统的NLP方法在认知分类中的表现,它的正确率已经能够达到50%以上。分类器3采用了整个学习成果的均值词向量作为输入数据,其在采用支持向量机中的表现最好,正确率达到52.23%,但相较于分类器2,分类器3的表现提升较为微弱,仅仅提升了约1%。分类器4采用了学习成果中动词的均值词向量作为输入数据,它的正确率是分类器1-6中最高的,在使用支持向量机进行训练时,其准确度达到了58.79%,并且在使用逻辑回归模型和随机森林模型时,其准确度也在57%以上,相较于同样使用动词作为特征的分类器1,分类器4的准确度提高了14.40%,相较于使用了全部文本的词向量作为训练数据的分类器3,分类器4的准确率提高了6.56%。分类器5仅采用了学习成果中名词的均值词向量作为数据来源,结果发现,该分类器表现不佳,正确率仅有30.23%。分类器6的训练数据在动词词向量均值的基础上,还增加了名词词向量均值,尽管增加了向量中的信息,但结果却明显弱于仅关注动词的分类器4,其最高准确度为53.18%,比分类器4降低了5.61%。
(tuning)步骤的前提下,将词向量作为识别认知分类的特征要优于动词查表法和基于词袋模型的NLP技术。此外,动词似乎依然是用于鉴别布鲁姆认知类型的最有效的特征,在增加名词词向量之后,反而会降低分类器的预测能力。为了探索这一问题,我们试图利用词移距离技术对同词性文本之间的距离,以推测导致模型能力下降的原因。
通过计算词移距离,我们发现,即使在相同的课程内,学习成果中名词词向量间的差异(dn=1.48)通常要高于动词词向量的差异(dv=1.02),这可能是导致模型“过拟合(Overfitting)”的原因之一。相较于复用较为频繁的动词,代表学习内容的名词之间存在更大差异。为了平衡这一差异,我们创建了分类器7,该分类器采用动、名词加权平均词向量法,将对差异较大的名词词向量进行惩罚:在合成文档的词向量之前,我们首先计算了每个学科中所有名词之间的词移距离,将词移距离均值作为该名词的“特殊度”,这一“特殊度”将转化为名词词向量的权重。其原理是,当某一名词在该学科领域中很特殊时,它与其他名词的距离就会较远,该距离将会对其在词向量运算时降低其权重,从而对其进行惩罚。结果显示,分类器7在验证过程中得到了高于分类器4的准确度,达到了60.96%(增加了2.17%),这说明,当以一种合适的方式提供教学内容信息后,该分类器能够从代表教学内容的名词中获得更多有效的信息用于对认知类型的分类。
(三)情境信息对布鲁姆学习成果分类器的影响
本节将探索教学情境的差异性对认知领域分类的影响。本研究的数据中存在两种潜在的情境差异:一种是学习阶段的差异,学习成果的受众包括本科生和研究生两种类型;另一种是学科的差异,不同学科在目标行为的期望和学习内容上可能是存在差异的。为了验证这两种差异的存在,我们利用词移距离技术对不同类型的学习成果之间的动词进行了测距。在学习阶段差异方面,我们对同一个学科中的本科生与研究生的学习成果进行测距,并对同一个学科中各学段内部的学习成果进行测距。在学科差异方面使用了类似的方法,我们对同一个学段中的不同学科的学习成果进行测距,并对同一个学段中各学科内部的学习成果进行测距。
表3展示了学习成果在不同教学情境下的词移距离的均值。可以看出,在所有认知类型中,不同学段间的动词词距均值皆大于相同学段内部的动词词距均值,其中,“记忆”层级(0.91和0.70)和“分析”层级(0.96和0.88)最为明显,这说明针对不同学段的学习者,专家会采用不同的词汇来描述学习成果。同样的结果也出现在学科的差异中,在所有认知类型中,以学科进行分组的组间词距同样都大于组内的词距,其中,“记忆”(0.95和0.73)、“理解”(0.99和0.90)和“创作”(1.15和1.08)的差异最为明显,这说明,在同一个认知类型中,不同的学科具有不同的行为目标。综上所述,学习情境的差异性会影响学习成果的制定,如果不考虑情境因素,认知类型标记结果是一种偏离数据(bias data),可能会影响分类结果的正确率。
基于以上分析,我们将学习阶段特征和学科特征依次添加到分类器7的输入数据当中重新进行训练,结果如表4所示。对比分类器7,在分别增加了学习阶段和学科的特征后,模型的正确率都得到了一定的提升,分类器7的正确率从60.96%增加到了62.09%,这说明,在提供了更多情境信息后,分类器能够“学习”到学习阶段或学科的差异。
四、讨 论
(一)情境信息在布鲁姆分类中的作用
本文用自然语言处理方法测试了计算机能否根据相关的文本特征来界定学习成果的认知分类,研究结果显示,相较于代表整体上下文信息的平均詞向量和代表学习内容信息的名词词向量,代表操作型信息的动词词向量能更好地帮助机器界定学习成果的认知类型。不过,当我们针对词向量技术的特性对词向量特征进行适当调整后,在操作型信息和学习内容信
息的协同作用下,计算机可以更准确地界定学习成果的认知类型。
为了探究学习内容信息对于提升分类能力的作用,我们研究了在分类器4中分类错误,而在分类器7中被更正的学习成果。我们发现,一些高频的名词具有指示认知类型的能力,当使用分类器7后,包含这些名词的学习成果更有可能被正确分类。例如:某一个学习成果被描述为“Develop understanding of the concepts of electronic devices and circuits(理解电子设备和电路概念)”,在课程系统中,它被标记为“理解”,但由于词性解析器识别出该句子的动词是“Develop(开发)”,在分类器4中被划分为“创造”,而分类器7除了考虑动词,还会考虑“Understanding(理解)”和“Concepts(概念)”等高频名词,从而对其进行了正确的分类。我们统计了在分类器7中分类被更正的样本,与上述案例类似的还包括含有“Research(研究)”“Practice(实践)”和“Report(报告)”等相关名词的学习成果,这一类单词往往都是英文中同时具有动词和名词的含义,或者是以动名词的形式存在于句子中(如“Understanding(理解)”和“Applying(应用)”),当它们作为操作型行为时,就具有一定的辨析能力,而作为学习内容时,同样能够具有指示认知类型的能力,从而帮助分类器提升分类准确度。
除了来自文本本身的学习内容信息,本研究还在数据中加入了学习阶段和学科两个特征,以提供更多的情境信息。结果显示,在考虑情境因素之后,一些原本被错误分类的学习成果得以更正。例如:“Explain causes and consequences of Takeovers(解释收购的原因和后果)”被专家标记为“分析”,但在分类器7中被错误地划分为“理解”。在加入学习阶段和学科信息之后,该学习成果增加了“研究生”和“商学”两个特征,根据逻辑回归模型的训练结果可以发现,这两个特征的系数在“理解”类型上呈现负值,而在“分析”类型上呈现正值,这说明分类器“学习”到“研究生”和“商学”两种特征更倾向于高阶认知类型,因此,在“理解”和“分析”两个层次上存在着“位移(Shift)”,此消彼长之后,分类器计算出该学习成果在“分析”上的概率最大,最终使其得到了正确的分类。相似的情况,也存在于其他情境特征中。例如,“本科”特征在“记忆”和“理解”以及“应用”上的系数高于“研究生”特征的系数,此外,“计算机学科”特征在“创造”的系数就远高于其他学科。
但是,作为本研究中表现最优的分类器,依然仅有约六成的准确率,我们探究了分类错误的学习成果,从中发现,在多个认知类型重复出现的动词词汇可能导致分类的错误。例如:“Identify(识别)”在6个类型中的分布较为均衡5%(N=37)、25%(N=180)、16%(N=116)、20%(N=144)、17%(N=120)和16%(N=115),分类器7将大部分仅有“Identify”一个动词的学习成果识别为“理解”。例如:“Identify key issues in gender theory(确定性别理论中的关键问题)”和“Identify the key features of classical test theory and modern measurement theory(识别经典测试理论和现代测量理论的关键特征)”分别被专家标记为“记忆”和“分析”,虽然这两个学习成果在动词和名词上都很相似,但前者指的是事实知识的掌握,后者是对不同对象的比较分析。然而,计算机无法解析这一深层语义,这两者都被错误地识别为“理解”层次。类似的深层语义问题也出现在包含“Explain(解释)”“Examine(调查)”和“Apply(应用)”等词汇的学习成果中。
Stanny在研究中提出,动词查表法的最大挑战是语言存在灵活性,最显著的问题是上下文情境的改变会改变词语的意思[4],在一个特定的上下文情境中,单一的动词的确可以具有一个明确的意义,但是脱离这个情景之后,这一动词就可能丧失了其原有的特性,其不确定性被暴露出来。其他研究者包括Paul[10]和Adelman[11]也提出了相似的问题,这些研究者都强调,上下文信息需要在布鲁姆分类学中更多地被考虑到。本研究使用自然语言处理法来增强这些上下文信息,在提供更多的学习内容信息之后,确实能使一些表达不够明确的学习成果的分类结果得到修正。但是,学习成果文本中的深层语义以及英文语言的不明确性(Ambiguity)的问题依然未被有效地解决,潜在的解决方向是训练更复杂的词向量模型,从而使词向量能够表征更复杂的语义,并且在数据中提供更多情境特征,但这一类问题属于NLP的技术性领域,已经超出了本文的研究范畴。
(二)布鲁姆分类法在学习成果中的区分度
在本研究中,导致认知类型分类器表现不佳的另一个原因是数据本身存在一定的偏差。除了学习阶段和学科造成的偏差以外,领域专家在撰写学习成果时,并没有严格地按照布鲁姆分类学进行措辞,从而使不同认知类型之间的区分度较低。一个最典型的现象就是单个学习成果中融合了多个子学习成果,同时,这些子学习成果又可能属于多个不同的认知领域,而专家只能从中选择一个他认为最贴切的认知类型标记整个学习成果。根据对词性标记结果的统计,13003个学习成果中,平均每个学习成果包含2.24个
动词短语,只有约30%的学习成果仅有一个明确的动词。此外,我们发现,随着认知阶段的提高,动词短语的个数会逐层增加,6个认知类型的平均动词短语个数分别为1.78、1.94、2.12、2.20、2.30和2.44个,这说明越高阶的学习成果往往越复杂,专家需要整合更多的操作型信息来满足描述复杂性的需要。
针对这一问题,我们利用词移距离技术对各课程中所有学习成果之间的动词词距进行测量,再根据比较的认知类型进行分组。图5为各认知类型之间的动词词距矩阵,矩阵中每一格代表两个类型之间的动词平均词距,位于对角轴上的每一格代表相同类型的学习成果之间的動词平均词距,背景颜色越深的格子代表词距越远。当仅考虑不同类型之间的词距时,词距均值为1.05。
可以从图5中看出,同一认知类型内的动词平均词距是很接近的,都小于0.90。其中,由于“记忆”和“理解”的样本较少、用词更加相似,其动词平均词距较小,分别为0.23和0.56。“评价”和“创造”的样本较多、用词更加多样化,其动词平均词距较大,分别为0.84和0.83。很显然,不同认知类型之间的词距要明显大于内部的词距,词距越大代表描述学习成果的措辞区分度越高,我们可以看出,“记忆”和“理解”之间的词距为0.97,小于平均词距,这说明学习成果制定者对这两者的认识较为接近,与表1的高频词统计结果相同。相较于其他5个认知类型,“分析”的区分度最低,它与“记忆”“理解”“应用”和“评价”之间的词距分别为0.95、0.98、1.00和1.03,皆小于认知类型间的平均词距。一方面,这说明学习成果制定者对“分析”类学习成果的描述存在较多更低阶的子学习成果,相对于展示课程的基础性知识,教育者可能更倾向于向学习者展现课程的高阶学习内容;另一方面,“分析”认知类型学习成果可能需要依赖于对低阶认知类型的描述。例如,某一被专家标记为“分析”的学习成果被描述为“identify, interpret and analyze standard and common clauses in business contracts and apply them to business scenarios(识别、说明和分析业务合同中的标准和通用条款,并将其应用于业务场景)”,其中,“Identify(识别)”“Interpret(说明)”和“Apply(应用)”都是低于“分析”认知类型的词汇,它们的存在都是为了提供“Analyze(分析)”的前置和后继操作型信息,从而为学生提供一个更完整的上下文,如果删去这些额外的信息,尽管使其更加明确地指向“分析”认知,但也会丧失有意义的操作型信息。
学习成果制定者被要求需要提供明确且具体的行为[4],用清晰且没有术语的语言为学习者描述可观测的行为和学习成果[11]。但基于真实数据的实际观察,单个学习成果的“跨域”现象虽然增加了学习成果在一个认知领域的不明确性,但是它能够将与其联系最密切的学习内容整合在一起,从而为学习者提供更多具有逻辑性的上下文信息。同时,教学是否需要在事实性知识和高阶知识之间做出清晰的划分依然具有争论,Agarwal在其研究中发现,单纯的基础知识学习无法提升高阶认知能力,但混合了低阶和高阶的学习内容反而能够更好地提升学生的高阶认知能力[12]。
(三) “學习分析”时代如何更有效地利用布鲁姆分类学
基于上述论述,我们认为学习成果的制定需要在理论和实际需求之间找到一个平衡点。学习成果的质量有必要从实际情境出发,而不是仅仅通过认知类型的明确程度来判断。由于布鲁姆分类学产生的初衷就是简化认知领域,但如果再进一步强制每个学习成果匹配单一的认知类型,就可能使其丧失一些有效的信息,例如上述的多重学习成果的案例,但如果为其标记多个认知领域的标签,可能更利于学习者理解学习成果的上下文。利用人工完成这项任务可能过于烦琐,但在当今的“大数据”时代,NLP技术已日新月异,它可以作为启发式工具来辅助课程制定者提升学习成果的质量,例如本文利用的词向量技术。
学习分析领域的研究者Andrew Gibson和其同事已经利用NLP技术帮助人们通过反思性写作(Reflective Writing)开发学习者的元认知[13]。在他们开发的平台中,系统利用NLP技术从学习者的文字中自动识别出潜意识的隐含元认知(Non-Conscious Implicit Metacognition),并通过高亮、标注和统计的方式将元认知信息直观地展现给学习者,使其产生反思性学习。我们认为可以采用类似的方式辅助专家撰写
辅助专家完成符合其期望的学习成果
利用本文所训练的最优分类器(逻辑回归版本),我们可以为输入的学习成果以及情境信息(学习阶段和学科)进行认知领域的概率预测,同时,通过词向量技术,将所有与各认知类型最相近的关键词标示出来。该界面原型如图6所示,当专家输入学习成果文本后,该学习成果被分类器划分到“应用”类型,同时,也提供了所有认知类型的概率分布,从而将分类结果的不确定性直观地体现出来,一些关键字被标记出所指向的可能性最大的认知领域。专家可以根据反馈的图示来修改文本,这为专家制定学习成果提供了一个可选择的空间:既可以选择撰写认知类型明确的学习成果,也可以根据需要通过调整措辞来得到高低阶混合的学习成果。最终,学习成果符合专家对认知领域分布的要求。而对于学习者来说,从学习成果中得到的信息不再是单一的认知类型标签,而是认知领域的概率分布,从而提供更完整的信息。此外,从技术角度来说,这样处理的另一个优势是降低了维护词汇表的成本,将维护词向量作为替代,管理者可以不断地收集语料来促使词向量表征更准确、更复杂的语义,同时,根据反思性写作工具的使用记录不断提升分类器的准确度。
五、结论与展望
随着学习分析研究的深入,对学习成果的研究得益于最新的学习分析方法。本文利用学习分析技术中的NLP技术对一万多个学习成果进行了分析,研究发现:在利用机器学习进行识别学习成果认知类型的任务中,动词依然是关键的特征;除了代表操作型行为的动词之外,学习成果中的学习内容也蕴含着认知层面的信息,当作为名词加入之后,计算机能够更准确地识别出学习成果的认知类型;学习成果制定者在为不同背景的学习者制定学习成果时存在差异,这种差异不仅仅存在于认知类型的分布上,还表现为在同一类型的认知领域中,不同学段或不同学科的学习者被寄予不一样的期望。这说明单一的布鲁姆动词词汇表难以覆盖多样的教学情境,如果选择继续以提供词汇表的方式辅助专家制定学习成果,我们需要考虑词汇表的阶段性和领域性。学习成果制定的要求之一是提供明确的信息,但本研究发现,大量单个学习成果会同时混合多个认知领域信息,这种现象在“分析”认知类型中最显著,属于高阶认知的“分析”类型会融入低阶认知的信息。这些额外的信息虽然增加了辨析认知类型的不确定性,但也提供了更多的上下文信息。本文提出,利用基于NLP的反思性写作可以辅助专家制定符合其认知期望的学习成果,这为专家在认知类型的明确性和信息充分性之间提供了一个可选择的空间,因为“学习成果的制定并不存在绝对正确的方法[2,4]”。此外,本文在数据分析中使用了词向量技术,这种技术简洁且高效,尤其提供了词汇的语义信息,从而帮助我们在学习分析研究中迅速建立具有语义特征的文本数据。
本文存在一定的局限性:首先,本文的数据存在偏差,由于专家们对布鲁姆分类学的认识程度和观点不一,部分学习成果的认知类型存在被错误标记的情况,在未来的研究中有待进一步更正;其次,本文只分析了名词在认知分类中的作用,缺乏对其他词性的考虑(如形容词和副词),这些语料可能也蕴藏着认知层面的信息;最后,本文的分类器的表现还较弱,在实际应用中,我们需要进一步对其进行特征筛选和模型调谐,或使用其他机器学习模型以提高其分类能力。在未来的研究中,我们将实现学习成果的反思性写作工具,并对其实际效果进行测试,此外,我们还将收集中文学习成果进行相关的研究。
[3] VAN ROSSUM E J,SCHENK S M. The relationship between learning conception,study strategy and learning outcome[J]. British journal of educational psychology,1984,54(1):73-83.
[4] STANNY C J. Reevaluating bloom's taxonomy:what measurable verbs can and cannot say about student learning[J]. Education sciences,2016,6(4):1-12.
[5] KRATHWOHL D R. A revision of bloom's taxonomy:an overview[J]. Theory into practice,2002,41(4):212-218.
[6] CLARK,D.R. Bloom's taxonomy of learning domains[EB/OL].(2015-01-12)[2018-09-28]. http://www.nwlink.com/~donclark/hrd/bloom.html.
[7] TOUTANOVA K,KLEIN D,MANNING C D,et al. Feature-rich part-of-speech tagging with a cyclic dependency network [EB/OL]. (2003-06-01)[2018-09-28]. https://aclanthology.info/pdf/N/N03/N03-1033.pdf
[8] MIKOLOV T,CORRADO G,CHEN K,et al. Efficient estimation of word representations in vector space [EB/OL].(2013-09-07) [2018-09-28]. https://arxiv.org/pdf/1301.3781.pdf.
[9] KUSNER M J,SUN Y,KOLKIN N I,et al. From word embeddings to document distances [EB/OL].[2018-01-28]. http://proceedings.mlr.press/v37/kusnerb15.pdf.
[10] PAUL R. Critical thinking:how to prepare students for a rapidly changing world[M]. Santa Rosa:foundation for critical thinking, 1995:519-526.
[11] ADELMAN C. To Imagine a Verb:the language and syntax of learning outcomes statements[EB/OL].(2015-02-10)[2018-9-28]. http://learningoutcomesassessment.org/documents/OccasionalPaper24.pdf.
[12] AGARWAL P K. Retrieval practice & Bloom's taxonomy:do students need fact knowledge before higher order learning?[EB/OL]. (2018-03-07)[2018-09-28]. http://pdf.poojaagarwal.com/Agarwal_2018_JEdPsych.pdf
[13] GIBSON A,KITTO K,BRUZA P. Towards the discovery of learner metacognition from reflective writing[J]. Journal of learning analytics,2016,3(2):22-36.
[14] GOSLING D,MOON J. How to use learning outcomes and assessment criteria[M]. London:SEEC,2002.