高桂平
摘 要:文本分类是数据挖掘方法,在话语分析上的应用较少见。本文提出用机器学习方法将课堂话语分类,从功能上分为:课堂组织话语、教学内容呈现话语、交互类型话语、评价反馈话语等,通过分类,构建课堂话语语料库。为提高其分类准确率,本文先提取教学内容主题词,再用贝叶斯分类器对课堂话语进行自动分类。
关键词:数字化课堂 话语行为 主题词提取 文本分类
中图分类号:G642 文献标识码:A 文章编号:1674-2117(2014)08-0066-02
1 话语行为分类理论
美国教育家弗兰德斯(Ned. Flanders)对不同年级、不同学科课堂教学的大量现场观察,提出传统课堂教学师生言语行为互动分析系统FIAS。将课堂师生言语行为总结为教师行为、学生行为、寂静三大类,细分为10小类。[1]数字化课堂引进了数字化教学设备。顾小清等在弗兰德斯课堂话语行为三大类的基础上增加了技术这一类,[2]如下表第三列所示的13种课堂言语行为。通过对这13种课堂言语行为产生的话语分析,建立分类集表项,如表所示,课堂话语行为分为四类,课堂组织话语、教学内容呈现话语、交互类型话语、评价反馈类型话语[3-4],由于作用功能的不同,每种类型话语表述在语义方面呈现不同的特点。下表中的特征词汇举例展示了各类型话语常见特征词汇。由于话语功能不同,每种类型话语的表述在语义上具有其独有的特点。
目前对课堂话语分类是人工进行的,自动分类方法尚未应用于课堂话语行为分类。文本分类技术是在预先给定的类别标记集合下,根据文本内容用机器学习方法为文本指派预先定义的类别标记。[5]结合课堂话语特点,本文提出数字化课堂话语自动分类方法。
2 建立分类模型
课堂话语分类过程包括训练和分类。处理训练文本,首先基于初始语料库(即课堂实录视频转化过来的文本文档)过滤教学内容主题词,将剩余部分作为教学内容呈现话语,其他话语按其功能分类,建立训练语料库。再通过特征提取、权重计算完成训练过程,得到分类模型。对测试文本的处理,首先进行文本预处理,如分词、去停用词,再提取课堂主题词,分类。如右图所示:
2.1 教学内容主题词提取
课堂教学内容主题词表示为完成教学目标实施教学的授课内容。为提高分类准确率,本文采用(1)式TF×IDF算法[6]过滤课堂内容主题词,预处理后计算教学实录文档中各词的文档查询词频(TF)和倒排文档频率(IDF)。
公式(1)中,P表示字数,D表示文档,F(P,D)中的P表示在D中出现次数,S(D)中的D表示字数;D(P)中的P表示出现文档数量;N表示文档总数。例如,计算《雷雨》这篇课文的主题词,将特征词权重降序排列,分别是:雨、天空、彩虹、蜘蛛、树、闪电、蝉、大风、垂、雷声、太阳、景色、天空、闷热、乌云等。过滤主题词人工判断句子类别,构建话语类型语料库。
2.2 分类过程
特征提取采用信息增益方法,分类采用朴素贝叶斯分类算法[7],该方法简单高效,通过先验条件概率去估计后验条件概率,前提是满足特征间独立性假设。已知某个课堂话语文本集D={d1,d2,…,dn},文本构成特征集是W={W1,W2,…,Wm}。计算权值后,用VSM表示课堂的每一句话语V(di)=(val(Wi1),val(Wi2),…,val(Wim)),类别C={C1,C2,…,C4},C1:课堂组织话语、C2:教学内容呈现话语、C3:交互类型话语、C4:评价反馈话语。根据贝叶斯公式(2)、(3):
P(ci):类先验概率,有训练集估计,P(wi|ci)用最大似然法估计,ni表示ci类所有文本中特征向量wi的出现次数,|W|表示ci类所有文本出现的特征总数。依次代入d1,d2,…,dn可计算其的最大P(ci|dk)值,将该话语归为相应Ci类。
3 实验过程与分析
课堂语料库来自中小学课堂90个优秀教学录像。训练集制作过程为选取优秀教学视频;将课堂教学视频转化为TXT文件,提取出教学内容主题词;过滤教学内容主题词,将txt文件转化成XML文档;解析xml文件,将每个训练样本每种课堂话语种类解析出来并写入到相应训练集语料库中,形成分类训练集。
测试课堂共206句话语。实验性能数据为:课堂组织、内容呈现、交互类型、评价反馈的准确率分别为84.8%、95.0%、51.0%、74.0%;召回率分别为52.0%、61.4%、100%、89.5%;F1测试值分别为64.5%、74.6%、67.5%、81.0%。整体分类各项性能指标还不是很高,有待改进;课堂组织话语查全率较低;交互类型话语查准率较低。导致此类问题原因:①教学内容呈现话语涉及的内容面很广,内容主题词过滤不够精确;②训练库中语料不能满足朴素贝叶斯分类器各类之间完全独立性的假设,而只可能让其间独立性最大;③语料库规模不够大。
4 结语
本文通过对90个上课实录的分析和处理,构建了一个课堂话语类型语料库。用朴素贝叶斯分类方法,实现了将课堂话语自动分类。实现课堂话语自动分类给课堂话语分析带来了便利。该方法与人工分类方法相比有明显优势。人工分类方法费时费力、难以保证一致性和准确性(40%左右的准确率),难以避免专家差异。自动方法快速、准确率相对高,样本源于真实文本,可信度高。语料库构建是一个很重要的问题,贝叶斯分类原理重要假设是组成文本的字词在确定文本类别作用上相互独立。因此在建构语料库时应尽量保证不同类型话语的语义正交。进一步要做的工作是:扩展语料库,根据课堂话语的特殊性和规律性,在分类过程中加入一些统计规则,使分类效果更佳。
(华中师范大学教育信息技术学院,湖北 武汉 430079)
参考文献:
[1] Flanders,N.Analyzing teacher behavior[M].MA: Addison- Wesley,1970,(107).
[2]顾小清,王炜.支持教师专业发展的课堂分析技术新探索[J].中国电化教育,2004(7):18-21.
[3]王成菲.中学英语课堂中教师话语重复的研究[C].广西师范大学,2008.
[4]Sato.Classroom Foreigner Talk Discourse: Forms and Function of TeachersQuestion[A].Classroom-oriented Research in Second Language Acquisition,1983.
[5]苏金树,张博峰.基于机器学习的文本分类技术研究进展[C].软件学报,2006,9,(17):1848-1859.
[6]王园,龚尚福.基于二次TF× IDF的互信息文本特征选择算法研究[J].计算机应用与软件,2011(04).
[7]李祥,周波.一种基于朴素贝叶斯分类的性能预测方法[J].计算机应用与软件,2011(01).endprint
摘 要:文本分类是数据挖掘方法,在话语分析上的应用较少见。本文提出用机器学习方法将课堂话语分类,从功能上分为:课堂组织话语、教学内容呈现话语、交互类型话语、评价反馈话语等,通过分类,构建课堂话语语料库。为提高其分类准确率,本文先提取教学内容主题词,再用贝叶斯分类器对课堂话语进行自动分类。
关键词:数字化课堂 话语行为 主题词提取 文本分类
中图分类号:G642 文献标识码:A 文章编号:1674-2117(2014)08-0066-02
1 话语行为分类理论
美国教育家弗兰德斯(Ned. Flanders)对不同年级、不同学科课堂教学的大量现场观察,提出传统课堂教学师生言语行为互动分析系统FIAS。将课堂师生言语行为总结为教师行为、学生行为、寂静三大类,细分为10小类。[1]数字化课堂引进了数字化教学设备。顾小清等在弗兰德斯课堂话语行为三大类的基础上增加了技术这一类,[2]如下表第三列所示的13种课堂言语行为。通过对这13种课堂言语行为产生的话语分析,建立分类集表项,如表所示,课堂话语行为分为四类,课堂组织话语、教学内容呈现话语、交互类型话语、评价反馈类型话语[3-4],由于作用功能的不同,每种类型话语表述在语义方面呈现不同的特点。下表中的特征词汇举例展示了各类型话语常见特征词汇。由于话语功能不同,每种类型话语的表述在语义上具有其独有的特点。
目前对课堂话语分类是人工进行的,自动分类方法尚未应用于课堂话语行为分类。文本分类技术是在预先给定的类别标记集合下,根据文本内容用机器学习方法为文本指派预先定义的类别标记。[5]结合课堂话语特点,本文提出数字化课堂话语自动分类方法。
2 建立分类模型
课堂话语分类过程包括训练和分类。处理训练文本,首先基于初始语料库(即课堂实录视频转化过来的文本文档)过滤教学内容主题词,将剩余部分作为教学内容呈现话语,其他话语按其功能分类,建立训练语料库。再通过特征提取、权重计算完成训练过程,得到分类模型。对测试文本的处理,首先进行文本预处理,如分词、去停用词,再提取课堂主题词,分类。如右图所示:
2.1 教学内容主题词提取
课堂教学内容主题词表示为完成教学目标实施教学的授课内容。为提高分类准确率,本文采用(1)式TF×IDF算法[6]过滤课堂内容主题词,预处理后计算教学实录文档中各词的文档查询词频(TF)和倒排文档频率(IDF)。
公式(1)中,P表示字数,D表示文档,F(P,D)中的P表示在D中出现次数,S(D)中的D表示字数;D(P)中的P表示出现文档数量;N表示文档总数。例如,计算《雷雨》这篇课文的主题词,将特征词权重降序排列,分别是:雨、天空、彩虹、蜘蛛、树、闪电、蝉、大风、垂、雷声、太阳、景色、天空、闷热、乌云等。过滤主题词人工判断句子类别,构建话语类型语料库。
2.2 分类过程
特征提取采用信息增益方法,分类采用朴素贝叶斯分类算法[7],该方法简单高效,通过先验条件概率去估计后验条件概率,前提是满足特征间独立性假设。已知某个课堂话语文本集D={d1,d2,…,dn},文本构成特征集是W={W1,W2,…,Wm}。计算权值后,用VSM表示课堂的每一句话语V(di)=(val(Wi1),val(Wi2),…,val(Wim)),类别C={C1,C2,…,C4},C1:课堂组织话语、C2:教学内容呈现话语、C3:交互类型话语、C4:评价反馈话语。根据贝叶斯公式(2)、(3):
P(ci):类先验概率,有训练集估计,P(wi|ci)用最大似然法估计,ni表示ci类所有文本中特征向量wi的出现次数,|W|表示ci类所有文本出现的特征总数。依次代入d1,d2,…,dn可计算其的最大P(ci|dk)值,将该话语归为相应Ci类。
3 实验过程与分析
课堂语料库来自中小学课堂90个优秀教学录像。训练集制作过程为选取优秀教学视频;将课堂教学视频转化为TXT文件,提取出教学内容主题词;过滤教学内容主题词,将txt文件转化成XML文档;解析xml文件,将每个训练样本每种课堂话语种类解析出来并写入到相应训练集语料库中,形成分类训练集。
测试课堂共206句话语。实验性能数据为:课堂组织、内容呈现、交互类型、评价反馈的准确率分别为84.8%、95.0%、51.0%、74.0%;召回率分别为52.0%、61.4%、100%、89.5%;F1测试值分别为64.5%、74.6%、67.5%、81.0%。整体分类各项性能指标还不是很高,有待改进;课堂组织话语查全率较低;交互类型话语查准率较低。导致此类问题原因:①教学内容呈现话语涉及的内容面很广,内容主题词过滤不够精确;②训练库中语料不能满足朴素贝叶斯分类器各类之间完全独立性的假设,而只可能让其间独立性最大;③语料库规模不够大。
4 结语
本文通过对90个上课实录的分析和处理,构建了一个课堂话语类型语料库。用朴素贝叶斯分类方法,实现了将课堂话语自动分类。实现课堂话语自动分类给课堂话语分析带来了便利。该方法与人工分类方法相比有明显优势。人工分类方法费时费力、难以保证一致性和准确性(40%左右的准确率),难以避免专家差异。自动方法快速、准确率相对高,样本源于真实文本,可信度高。语料库构建是一个很重要的问题,贝叶斯分类原理重要假设是组成文本的字词在确定文本类别作用上相互独立。因此在建构语料库时应尽量保证不同类型话语的语义正交。进一步要做的工作是:扩展语料库,根据课堂话语的特殊性和规律性,在分类过程中加入一些统计规则,使分类效果更佳。
(华中师范大学教育信息技术学院,湖北 武汉 430079)
参考文献:
[1] Flanders,N.Analyzing teacher behavior[M].MA: Addison- Wesley,1970,(107).
[2]顾小清,王炜.支持教师专业发展的课堂分析技术新探索[J].中国电化教育,2004(7):18-21.
[3]王成菲.中学英语课堂中教师话语重复的研究[C].广西师范大学,2008.
[4]Sato.Classroom Foreigner Talk Discourse: Forms and Function of TeachersQuestion[A].Classroom-oriented Research in Second Language Acquisition,1983.
[5]苏金树,张博峰.基于机器学习的文本分类技术研究进展[C].软件学报,2006,9,(17):1848-1859.
[6]王园,龚尚福.基于二次TF× IDF的互信息文本特征选择算法研究[J].计算机应用与软件,2011(04).
[7]李祥,周波.一种基于朴素贝叶斯分类的性能预测方法[J].计算机应用与软件,2011(01).endprint
摘 要:文本分类是数据挖掘方法,在话语分析上的应用较少见。本文提出用机器学习方法将课堂话语分类,从功能上分为:课堂组织话语、教学内容呈现话语、交互类型话语、评价反馈话语等,通过分类,构建课堂话语语料库。为提高其分类准确率,本文先提取教学内容主题词,再用贝叶斯分类器对课堂话语进行自动分类。
关键词:数字化课堂 话语行为 主题词提取 文本分类
中图分类号:G642 文献标识码:A 文章编号:1674-2117(2014)08-0066-02
1 话语行为分类理论
美国教育家弗兰德斯(Ned. Flanders)对不同年级、不同学科课堂教学的大量现场观察,提出传统课堂教学师生言语行为互动分析系统FIAS。将课堂师生言语行为总结为教师行为、学生行为、寂静三大类,细分为10小类。[1]数字化课堂引进了数字化教学设备。顾小清等在弗兰德斯课堂话语行为三大类的基础上增加了技术这一类,[2]如下表第三列所示的13种课堂言语行为。通过对这13种课堂言语行为产生的话语分析,建立分类集表项,如表所示,课堂话语行为分为四类,课堂组织话语、教学内容呈现话语、交互类型话语、评价反馈类型话语[3-4],由于作用功能的不同,每种类型话语表述在语义方面呈现不同的特点。下表中的特征词汇举例展示了各类型话语常见特征词汇。由于话语功能不同,每种类型话语的表述在语义上具有其独有的特点。
目前对课堂话语分类是人工进行的,自动分类方法尚未应用于课堂话语行为分类。文本分类技术是在预先给定的类别标记集合下,根据文本内容用机器学习方法为文本指派预先定义的类别标记。[5]结合课堂话语特点,本文提出数字化课堂话语自动分类方法。
2 建立分类模型
课堂话语分类过程包括训练和分类。处理训练文本,首先基于初始语料库(即课堂实录视频转化过来的文本文档)过滤教学内容主题词,将剩余部分作为教学内容呈现话语,其他话语按其功能分类,建立训练语料库。再通过特征提取、权重计算完成训练过程,得到分类模型。对测试文本的处理,首先进行文本预处理,如分词、去停用词,再提取课堂主题词,分类。如右图所示:
2.1 教学内容主题词提取
课堂教学内容主题词表示为完成教学目标实施教学的授课内容。为提高分类准确率,本文采用(1)式TF×IDF算法[6]过滤课堂内容主题词,预处理后计算教学实录文档中各词的文档查询词频(TF)和倒排文档频率(IDF)。
公式(1)中,P表示字数,D表示文档,F(P,D)中的P表示在D中出现次数,S(D)中的D表示字数;D(P)中的P表示出现文档数量;N表示文档总数。例如,计算《雷雨》这篇课文的主题词,将特征词权重降序排列,分别是:雨、天空、彩虹、蜘蛛、树、闪电、蝉、大风、垂、雷声、太阳、景色、天空、闷热、乌云等。过滤主题词人工判断句子类别,构建话语类型语料库。
2.2 分类过程
特征提取采用信息增益方法,分类采用朴素贝叶斯分类算法[7],该方法简单高效,通过先验条件概率去估计后验条件概率,前提是满足特征间独立性假设。已知某个课堂话语文本集D={d1,d2,…,dn},文本构成特征集是W={W1,W2,…,Wm}。计算权值后,用VSM表示课堂的每一句话语V(di)=(val(Wi1),val(Wi2),…,val(Wim)),类别C={C1,C2,…,C4},C1:课堂组织话语、C2:教学内容呈现话语、C3:交互类型话语、C4:评价反馈话语。根据贝叶斯公式(2)、(3):
P(ci):类先验概率,有训练集估计,P(wi|ci)用最大似然法估计,ni表示ci类所有文本中特征向量wi的出现次数,|W|表示ci类所有文本出现的特征总数。依次代入d1,d2,…,dn可计算其的最大P(ci|dk)值,将该话语归为相应Ci类。
3 实验过程与分析
课堂语料库来自中小学课堂90个优秀教学录像。训练集制作过程为选取优秀教学视频;将课堂教学视频转化为TXT文件,提取出教学内容主题词;过滤教学内容主题词,将txt文件转化成XML文档;解析xml文件,将每个训练样本每种课堂话语种类解析出来并写入到相应训练集语料库中,形成分类训练集。
测试课堂共206句话语。实验性能数据为:课堂组织、内容呈现、交互类型、评价反馈的准确率分别为84.8%、95.0%、51.0%、74.0%;召回率分别为52.0%、61.4%、100%、89.5%;F1测试值分别为64.5%、74.6%、67.5%、81.0%。整体分类各项性能指标还不是很高,有待改进;课堂组织话语查全率较低;交互类型话语查准率较低。导致此类问题原因:①教学内容呈现话语涉及的内容面很广,内容主题词过滤不够精确;②训练库中语料不能满足朴素贝叶斯分类器各类之间完全独立性的假设,而只可能让其间独立性最大;③语料库规模不够大。
4 结语
本文通过对90个上课实录的分析和处理,构建了一个课堂话语类型语料库。用朴素贝叶斯分类方法,实现了将课堂话语自动分类。实现课堂话语自动分类给课堂话语分析带来了便利。该方法与人工分类方法相比有明显优势。人工分类方法费时费力、难以保证一致性和准确性(40%左右的准确率),难以避免专家差异。自动方法快速、准确率相对高,样本源于真实文本,可信度高。语料库构建是一个很重要的问题,贝叶斯分类原理重要假设是组成文本的字词在确定文本类别作用上相互独立。因此在建构语料库时应尽量保证不同类型话语的语义正交。进一步要做的工作是:扩展语料库,根据课堂话语的特殊性和规律性,在分类过程中加入一些统计规则,使分类效果更佳。
(华中师范大学教育信息技术学院,湖北 武汉 430079)
参考文献:
[1] Flanders,N.Analyzing teacher behavior[M].MA: Addison- Wesley,1970,(107).
[2]顾小清,王炜.支持教师专业发展的课堂分析技术新探索[J].中国电化教育,2004(7):18-21.
[3]王成菲.中学英语课堂中教师话语重复的研究[C].广西师范大学,2008.
[4]Sato.Classroom Foreigner Talk Discourse: Forms and Function of TeachersQuestion[A].Classroom-oriented Research in Second Language Acquisition,1983.
[5]苏金树,张博峰.基于机器学习的文本分类技术研究进展[C].软件学报,2006,9,(17):1848-1859.
[6]王园,龚尚福.基于二次TF× IDF的互信息文本特征选择算法研究[J].计算机应用与软件,2011(04).
[7]李祥,周波.一种基于朴素贝叶斯分类的性能预测方法[J].计算机应用与软件,2011(01).endprint