基于LDA模型的教育技术学研究主题挖掘及演化趋势分析

2023-06-25 20:59:50陶胜阳许新华余亚烽叶伊陈苏娜
现代信息科技 2023年6期
关键词:教育技术学

陶胜阳 许新华 余亚烽 叶伊 陈苏娜

摘  要:利用LDA模型对教育技术学领域核心期刊进行主题挖掘和演化趋势分析。结果显示:在2012—2021年间,教育技术学领域共有26个研究主题,其中有在线学习等8个热点主题;在线学习等10个主题呈上升趋势,远程教育等5个主题呈下降趋势,智慧教室、教学模式等11个主题演化趋势较为曲折。由此可见,将LDA模型引入到教育技术学领域中进行主题挖掘是行之有效的,希望能对后续研究者提供帮助和借鉴。

关键词:教育技术学;LDA模型;主题挖掘;演化趋势

中图分类号:TP391 文献标识码:A 文章编号:2096-4706(2023)06-0176-06

Topic Mining and Evolution Trend Analysis of Educational Technology Research Based on LDA Model

TAO Shengyang, XU Xinhua, YU Yafeng, YE Yi, CHEN Suna

(School of Computer and Information Engineering, Hubei Normal University, Huangshi  435002, China)

Abstract: The topic mining and evolution trend analysis of core journals in the field of educational technology are carried out by using LDA model. The results show that from 2012 to 2021, there were 26 research topics in the field of educational technology, including 8 hot topics such as online learning. Ten themes such as online learning showed an upward trend, five themes such as distance education showed a downward trend, eleven themes such as smart classroom and teaching mode showed a tortuous evolution trend. It can be seen that it is effective to introduce the LDA model into the field of educational technology for topic mining, and it is hoped to provide help and reference for subsequent researchers.

Keywords: educational technology; LDA model; topic mining; evolution trend

0  引  言

2018年《教育信息化2.0行动计划》的印发,标志着我国将全面推进教育信息化事业建设,开启智能教育时代。在此背景下,我国教育技术学蓬勃发展,开设教育技术学专业的院校数量以及教育技术学专业的学生数量不断增加,教育技术学的研究内容越来越广泛,研究成果也越来越多。

期刊文献是研究成果的重要载体,尤其是核心期刊文献[1]。核心期刊文獻是某个领域的研究精华,既代表着文献本身的研究主题和质量,也可以反映出该领域研究的热点以及发展趋势,具有较高的学术价值。近年来,国内学者纷纷采用文献计量法[2]、关键词共现[3]、共词分析法[4]、因子分析法[5]、内容分析法[6]、关键词共现分析[7]等方法对教育技术学研究热点主题和趋势进行分析。这些传统的方法一般是利用关键词作为核心数据进行主题挖掘,由于关键词的“共生现象”以及没有涉及文本的语义信息,所产出的研究结果往往存在全面性不足、研究层次不够深入的现象[8]。LDA主题模型能够对文本数据进行语义层面的分析和研究,得到比传统方法更加细致的主题信息。它将整个文档集看作是主题的概率分布,把每个主题看作是词语的概率分布,降低了维度以及解决问题的难度,已经广泛应用于文本分类、信息检索、情感分析、话题挖掘等领域。LDA主题模型由文档层、主题层、词语层三层贝叶斯结构组成,如图1所示。

因此,本文将在前人研究的基础上,利用LDA模型对近十年教育技术学领域的中文核心期刊进行主题挖掘和演化趋势分析,揭示研究的热点及主题在时间维度上的发展变化过程,以厘清教育技术学的发展脉络、学术热点以及研究趋势,帮助教育技术学专业的研究人员了解已有的研究基础、明确当前的研究热点,为其确定研究方向、研究内容和研究课题提供一定的参考。

1  关键技术

1.1  LDA模型

2003年,Blei等人[9]在PLSI主题模型的基础上提出了LDA主题模型。2004年,Griffiths等人[10]又对该模型进行了改进,如图2所示。

图2中,节点表示随机变量,箭头表示概率依存关系,矩形表示对里面的内容进行迭代[8]。LDA模型图中所使用的字符含义如表1所示。

LDA模型生成文档的流程如下所示:

(1)α随机生成文档对应主题的多项式分布θ。

(2)θ随机生成一个主题z。

(3)β随机生成主题对应词语的多项式分布φ。

(4)综合主题z和主题对词语分布情况φ生成词语w。

(5)如此循环,生成一个文档,包含M个词语。

(6)最终生成K个主题下的N篇文档。

1.2  主题演化趋势分析

主题演化趋势分析是指在主题模型中引入文本语料的时间信息,研究主题在时间维度上演化的动态性、发展性以及差异性。根据引入时间方式的不同,目前有三种不同的基于LDA模型的主题演化趋势分析方法:第一种方法是Joint方法;第二种方法是后离散分析;第三种是先离散分析法[11]。下面依次对上述三种方法进行阐述。

(1)Joint方法是将文本及其时间信息作为实验数据来进行主题建模,探究主题在时间上的演化趋势。Topic Over Time(简称TOT)模型是这种方法的代表模型[12]。

(2)后离散分析法是对整个文本数据进行建模,得到主题分布之后,确定LDA模型的参数,读取文本的时间信息并划分时间窗口,将主题离散到各个时间窗口上,再根据主题强度进行主题演化趋势分析。主题强度是判断主题是否热门的关键性指标,主题强度计算公式为:

(1)

表示主题k在时间窗口t上的主题强度,Dt表示时间窗口t上的文档数目, 表示文档d中主题k的后验概率分布。通过公式计算出主题k在不同时间窗口t上的主题强度,并依次画出各个主题随时间演化的折线图,即可分析主题在时间上的演化趋势。

另一关键性指标是主题阈值,在计算出各个主题的主题强度之后,我们需要设定一个主题阈值来选取热门主题进行分析,高于主题强度阈值的主题即可被确定为热点主题[13]。主题阈值的计算公式为:

(2)

K表示主题数目,D表示文档的个数,T表示主题强度阈值,其他符号含义与式(1)相同。

(3)先离散分析是先将文本数据离散到各个时间窗口上,再分别对各个时间窗口上的文本进行LDA主题建模,由于存在主题不对齐的问题,所以要利用主题相似度等方法,对各时间窗口上的主题进行关联对齐,进而实现主题在时间上的演化。

2  实验过程

本文采用LDA模型对教育技术学领域的期刊文献进行主题挖掘及演化趋势研究,研究流程如图3所示。

2.1  数据采集及预处理

本文以中国知网数据库为数据来源,以教育技术学领域的八种核心期刊为研究对象,期刊来源如图4所示,抽取上述期刊于2012—2021年间刊载的文献共12 847篇,剔除会议通知、摘要缺失等无关文献后,得到12 240篇。

关鹏等[12]发现利用摘要构建语料库进行LDA主题建模时,其生成的结果比关键词更具代表性。因此,提取文献的时间、摘要作为LDA模型的实验语料,如表2所示,并以年为单位划分为10个时间窗口并存档,如表3所示。

jieba分词工具是目前研究人员应用较为广泛的一种Python中文分词组件,并且支持自定义词典以及过滤停用词。因此,本文采用jieba分词工具对实验语料进行分词和去除停用词,获得所需语料库。

2.2  LDA建模

采用Python中的Scikit-learn库进行主题建模,采用主题困惑度[14]来确定最佳主题数目,主题困惑度是衡量主题模型好坏的指标,主题困惑度越低,模型泛化能力越好。主题困惑度计算代码如图5所示,代码运行结果如图6所示。由图6可知,当主题数目为26时,主题困惑度较小,且逐渐趋向稳定,因此可设定最优主题数目K=26。LDA模型运行后会输出两个分布文件,分别是文档-主题分布和主题-主题词分布,生成文档-主题分布的代码如图7所示,生成主题-主题词分布的代码如图8所示。根据模型生成的主題-主题词分布文件,取每个主题下前10个主题词作为主题的代表词,并结合专业知识对每个主题的内容进行标注,结果如表4所示。

2.3  热点主题识别

通过第二章中的式(1)和式(2),我们可以计算出这26个主题在整个文本集上面的主题强度及主题阈值,具体的结果如图9所示。

其中,Topic 1、Topic 6、Topic 8、Topic 9、Topic 11、Topic 16、Topic 20、Topic 24均高于主题强度阈值,被确定为热点主题,即在线学习、教育人工智能、教师教育体系、在线教育、教学设计、协作学习、网络学习、高等教育课程体系。

2.4  主题演化趋势分析

基于LDA模型的主题演化主要有三种方法,根据研究内容,本文选取后离散分析对主题进行演化趋势分析,将26个主题分散到10个时间窗口上面,根据模型生成的文档-主题概率分布计算主题各个时间窗口上的主题强度,并用python画出主题强度随时间演化的折线图,如图10所示。

由于主题数较多,在同一个图里面呈现出来显得比较混乱,难以发现各个主题的演化趋势,故根据主题演化曲线图,将具有相同演化趋势的主题进行分组,把26个主题分为4组,分别为上升型、下降型和曲折型,并依次画图进行阐述。

2.4.1  上升型

图11展示了近十年间呈上升趋势的主题,主要有在线学习、慕课、教育人工智能、计算思维、在线教育、教学设计、协作学习、教学评价、教师专业发展、教育信息化。

2.4.2  下降型

图12展示了近十年间呈下降趋势的主题,主要有远程教育、信息化教学、网络学习、多媒体学习以及智慧学习环境。

2.4.3  曲折型

图13展示了近十年间呈曲折趋势的主题,主要有泛在学习、终身学习、智慧教室、教育游戏、个性化教学、知识建构、高等教育课程体系、教学模式、教师教育体系、翻转课堂以及教育公平。

3  结  论

本文采用LDA主题模型,对教育技术学领域2012—2021年间的核心期刊文献进行主题挖掘和演化趋势分析,得到了教育技术学领域2012—2021年间的26个研究主题,如在线学习、泛在学习、慕课等;通过设定主题阈值来进行热点主题识别,确定了在线学习、教育人工智能、教师教育体系、在线教育、教学设计、协作学习、网络学习、高等教育课程体系为教育技术学领域10年来的热点主题;在主题演化趋势分析上,运用后离散分析法,对26个研究主题进行演化趋势分析,确定了上升型、下降型和曲折型3种演化趋势。其中,上升型主题有在线学习、慕课、教育人工智能、计算思维、在线教育、教学设计、协作学习、教学评价、教师专业发展和教育信息化,下降型主题有远程教育、信息化教学、网络学习、多媒体教学以及智慧学习环境,曲折型主题有泛在学习、终身学习、智慧教室、教育游戏、个性化教学、知识建构、高等教育课程体系、教学模式、教师教育体系、翻转课堂以及教育公平。

本研究将文本挖掘中的LDA主题模型引入到教育技术学领域中,对核心期刊进行主题挖掘,属于应用创新;研究结果证明,这种方法对于教育技术学领域内研究的主题分析是有效的,希望能对后续研究者提供一些借鉴和建议。

参考文献:

[1] 谭春辉,熊梦媛.基于LDA模型的国内外数据挖掘研究热点主题演化对比分析 [J].情报科学,2021,39(4):174-185.

[2] 黄琼珍.2000—2013年教育信息资源研究的热点领域和前沿主题分析——基于八种教育技术学期刊刊载文献关键词共词分析视角 [J].电化教育研究,2014,35(8):17-24.

[3] 刘胜男,张细呈,徐晓雄.近五年我国教育技术领域研究热点及趋势——基于国内八种教育技术类核心期刊的文献分析 [J].宁波大学学报:教育科学版,2016,38(1):73-77.

[4] 赵呈领,阮玉娇,梁云真.21世纪以来我国教育技术学研究的热点和趋势 [J].现代教育技术,2017,27(3):49-55.

[5] 陈巧云,李艺.中国教育技术学三十年研究热点与趋势——基于共词分析和文献计量方法 [J].开放教育研究,2013,19(5):87-95.

[6] 杨丽霞.我国教育技术学研究生学位论文的研究方向与研究热点 [J].现代教育技术,2007(9):41-45+58.

[7] 田林,武滨,陈婵.国际教育技术近十年研究热点和趋势分析——基于共词分析法 [J].现代教育技术,2018,28(2):26-32.

[8] 吳查科,王树义.基于LDA的国内图书馆学研究主题发现及演化研究 [J].新世纪图书馆,2019(7):90-96.

[9] BLEI D M,NG A Y,JORDAN M I. Latent dirichlet allocation [J].The Journal of Machine Learning Research,2003,3:993–1022.

[10] GRIFFITHS T L,STEYVERS M. Finding scientific topics [J].Proc Natl Acad Sci U S A,2004:5228-5235.

[11] 单斌,李芳.基于LDA话题演化研究方法综述 [J].中文信息学报,2010,24(6):43-49+68.

[12] 关鹏,王曰芬,傅柱.不同语料下基于LDA主题模型的科学文献主题抽取效果分析[J].图书情报工作,2016,60(2):112-121.

[13] WANG X,MCCALLUM A. Topic over time:Anon-mark-ov continuous-time model of topical trends [C]/Proceedings of the 12th ACMSIGKDD International Conference on Knowledge Discovery and Data Mining.Philadelphia:ACM,2006:424-433.

[14] ARUN R,SURESH V,MADHAVAN C E V,et al. On finding the natural number of topics with latent dirichlet allocation:some observations [C]//PAKDD'10:Proceedings of the 14th Pacific-Asia conference on Advances in Knowledge Discovery and Data Mining.Hyderabad:Springer-Verlag,2010:391-402.

作者简介:陶胜阳(1998—),男,汉族,湖北黄冈人,硕士研究生,研究方向:教育大数据;许新华(1968—),男,汉族,湖北孝感人,教授,研究方向:教育大数据、学习/教学模式研究、课程与教学论、计算机科学与技术;余亚烽(1995—),女,汉族,湖北黄石人,硕士研究生,研究方向:教育大数据;叶伊(1997—),女,汉族,湖北武汉人,硕士研究生,研究方向:教育大数据;陈苏娜(1999—),女,汉族,湖北十堰人,硕士研究生,研究方向:教育大数据。

收稿日期:2022-11-05

基金项目:湖北师范大学2022年度研究生科研创新项目(20220550)

猜你喜欢
教育技术学
教育技术学专业在偏远地区的发展现状及对策研究
未来英才(2016年11期)2017-02-17 15:01:06
地方本科院校教育技术学专业毕业生就业情况调查研究
网络平台支持《教育技术学》公共课实验教学模式构建
教育技术学本科生就业问题调查研究
成才之路(2016年28期)2016-10-31 18:19:34
基于教育技术学的教学APP现状及其发展
教育技术学视野下的未来课堂研究
考试周刊(2016年74期)2016-10-08 18:19:20
国内教育技术学核心网站测定实证研究
南国农先生电化教育理论中系统思想研究
教育技术学历史研究方法与学科发展的多视角分析
提高大学生就业能力的工科院校教育技术学专业人才培养模式研究
求知导刊(2016年6期)2016-04-06 01:27:36