基于文本挖掘的高等教材内容分析方法研究

2021-05-21 12:39李菲路阳马强
中国教育信息化·高教职教 2021年3期
关键词:文本挖掘内容分析

李菲 路阳 马强

摘   要:随着教育信息化的迅速发展,以及高等教材具有的专业性、开放性、公开性等特性,高校课程教材的种类和数量不断增加。由此带来了诸如同一学科课程教材内容相互交叉、重叠、低水平重复等现象日益突显,以及个性化教材编制缺少有效参考等问题。文章基于文本挖掘技术对高等教材内容进行分析,即借助统计方法识别教材中的术语之后,使用自然语言处理技术对文本内容进行分词处理,进而统计并截取出高频词汇,构建“高频词—课程教材”矩阵,对高频词汇在同一学科课程教材知识内容中的分布情况进行聚类分析,挖掘出课程教材某一知识点研究中的热点。最后实现知识点的量化,以期帮助课程教材编制人员筛选、评价教材,为个性化课程教材编制提供辅助。

关键词:内容分析;文本挖掘;术语识别;层次聚类;热点分析

中图分类号:G434 文献标志码:A 文章编号:1673-8454(2021)05-0054-07

一、研究背景

在教育信息化的推进过程中,高等教育的教学资源越来越多[1]。通过检索《读秀》数据库中书籍名为《教育心理学》的图书,分别采用“精确匹配”的方式搜索到4332本图书和采用“模糊匹配”的方式共搜索到20235本。分析每年《教育心理学》教材的出版数量,发现课程教材每年的出版增长量基本呈现平稳趋势。

传统的教材分析方式主要依据教材评价指标体系及专家评议,针对不同学科类别,从多个方面对课程教材进行专家评分,通过专家评分得到教材的量化结果[2]。这种教材评价方式具有使用简单、直观性强的特点,但其评价体系设计复杂、繁琐、主观性强,在灵活性、准确性和客观性上尚存在欠缺[3]。

随着高等课程教材数量的不断增长,采用传统的课程教材评价方式,显然存在任务量大、耗时费力等问题。文本挖掘借助于数据挖掘、自然语言处理、AI、机器学习等技术,意在挖掘半结构化、非结构化文本材料中隐含的规则、规律、模式、约束等能够帮助人们做出决策的有用知识的技术[4-6]。近年来,一些研究者对文本挖掘领域研究不断深入。例如:李尚昊、朝乐门通过检索知网中有关“文本挖掘”和“信息分析”的期刊、学位与会议论文,从期刊来源、学位论文来源及所属专业、基金来源等多角度进行分析,并将期刊和论文中的关键词进行统计和聚类分析,得出文本挖掘在中文信息分析应用中的三方面研究,包括文本挖掘基本理论和方法研究、在Web中文信息处理中的研究、结合具体领域的研究[7]。施萱轩等人通过将文本挖掘技术应用到电力行业中,结合文本挖掘的流程,提取出电力部门反馈信息中的关键词,并对投诉信息进行情感分析[8],从而为客户提供了更好的服务。程志、黄荣怀在文本挖掘定义、过程和实现途径分析研究的基础上,重点探讨了文本挖掘在教育中的应用,归纳出文本挖掘在学生检索信息(有效性和高效性)、个性化服务、教学文档资料管理、信息保护和安全(垃圾邮件过滤)等方面发挥的重要作用[9]。

基于教材存在的问题和文本挖掘相关研究、应用领域的深入,笔者提出一种借助于文本挖掘技术的高等教材内容分析方法。通过学校图书馆和教育教材相关网站下载1995—2015年间的《教育心理学》高等课程教材24本,随机抽取课程教材中的某一知识点文本内容为实验样本。该方法首先对数据化后的文本内容进一步加工处理,统计出文本内容中的词频,构建“高频词—课程教材”矩阵,然后采用凝聚层次聚类算法按照高频词在同一门课程教材知识内容中的分布情况划分类簇,并评价聚类效果,最后挖掘出《教育心理学》课程教材中学习动机知识点研究的三个方面和三十个知识点主题。从而为高等课程教材内容分析提供一种新的思路和方法。

二、数据来源和文本挖掘方法

DIKW金字塔(DIKW Pyramind)模型解释了数据(Data)与信息(Information)、知识(Knowledge)、智慧(Wisdom)之间的区别和联系,如图1所示。从“数据”到“智慧”,不但是人们认识程度的提升过程,而且也是“从认识部分到理解整体、从描述过去(或现在)到预测未来”的过程[10]。

数据:是用来记录现实世界中的事物所使用的数字、文字、视频等多种形式的符号。

信息:通常被认为是对事物状態和特征的描述,数据处于不同环境或场景之下具有不同的含义。

知识:人们从数据、信息中发现的,在数据或信息中存在的共性规律、认识、经验与常识等。依据知识能否清晰表述和有效转移,可将其分为显性知识(Explicit knowledge)和隐性知识(Tacit Knowledge)[11]。

智慧:与人类头脑相关的,在头脑中形成的感知、理解、记忆、迁移、文化等超出知识的多种能力。

相比于数据库中结构明确、存储规范的数据形式,文本由于其不存在或难以发现统一结构,也无法按照预先定义好的结构(一般是数据库直接存储)进行文本数据的捕获、存储、计算和管理等特性,所以归属于非结构化数据[12]。

为了对非结构化文本数据进行挖掘和分析,从而进一步帮助管理者做出决策。本文设计了一种基于文本挖掘的高等课程教材内容分析方法,融入数据科学的思想,实现文本挖掘过程,具体过程如图2所示。数据来源为校图书馆数据库中的《教育心理学》电子书籍,采用文字识别和转换工具,完成对课程教材(pdz、pdf、caj格式文本)的统一格式转化和存储。为了进一步保证数据的准确性,笔者对转化后的文本内容进行了逐一校对。随机从校对后的《教育心理学》教材中抽取学习动机知识点[13]文本内容作为实验样本(共1.26MB),进行文本内容知识的挖掘。

数据化:本质是从现实世界中采集信息,并对采集到的信息进行计量和记录之后,形成原始数据,即零次数据。在课程教材中,人们将头脑中的知识、认识,借助于语言、文字等工具,形成可以实际存储、传播的物质载体,其过程完成的是将一种抽象的事物借助载体进行数据化的过程。

数据加工与数据整齐化:两者本质上都是将低层次数据向高层次数据进行转化的过程,包括解决数据中存在的问题。具体包括:对数据质量存在缺陷的脏数据[14]进行“清洗”,形成干净数据;数据形态不符合计算要求的乱数据进行“整齐化”,形成整齐数据。在文本挖掘领域中,计算机无法直接对文本内容进行处理,需要对原始数据进行一定的加工处理,进一步将数据转化成“整齐数据”(Tidy Data),满足层次聚类分析算法所需要的数据框或向量的格式要求。

探索性分析(Exploratory Data Analysis,EDA):是在尽可能少的先验知识指导下进行的数据探索,通过可视化或其他分析方式挖掘隐含在数据中的知识,通过不断地试误和纠正,最终达到对数据理解的目的。

三、实验过程与分析

文本是将头脑中的知识进行数据化的一种方式。通过分析文本内容,可以更好地帮助理解和掌握知识。此外,词语是组成文本内容的最基本单位[15],需要在数据加工阶段,将文本内容进行分词处理,以达到文本内容量化和文本数据转化的目的,从而为自动化挖掘文本内容提供合适的基础数据。

1.术语识别

不同领域中存在着不同的术语。南京理工大学的周浪[16]对专业术语(规范的领域专有词语)的结构进行了统计分析,发现领域专业术语的70%往往都是由2个或3个词(单字是单字词)组合而成,因此专业术语以复合词(多是4~6个字组成的词语)形式出现的概率较大。

而在计算机语言学模型中,常以内聚性作为组合词语的一项标准。其理论基础依据如下假设:若某个词条x与另一个词条y同时出现的概率越高,与两者之外的其他词条z、m等同时出现的概率越低,则词条x与词条y组成复合词的几率就越高。其中,互信息[17]可以衡量两个事物之间的相关性,其值越大,说明两事物之间结合越紧密,内聚性越高,反之,结合越疏松,内聚性越小。因此,互信息能够较好地反映词语之间的联合强度。

为了挖掘文本内容中的术语,笔者计算单字词S1,S2的互信息,并用互信息值衡量两者之间凝结的程度,计算方法如公式(1)所示。

其中,p(S1,S2)是单字词S1,S2在给定文本数据中同时出现的概率,采用 进行计算,f(S1,S2)代表词S1,S2在一起同时出现的频次,F表示总的词数。p(S1)和p(S2)表示字符串S1和S2单独在文本中出现的概率,即 和 ,f(S1),f(S2)指的是S1,S2出现在文本数据中各自的频次。

互信息能够判断词语之间的紧密程度,却无法判定聚合程度大的字词一定是专有词语或新词,需要一个能够衡量候选词语与上下文之间依赖程度的参考——耦合性。信息熵是信息论中衡量信息不确定性的重要方法,可以用于衡量候选组成词与其上下文信息之间的不确定性大小,熵值越大,不确定性越大,说明候选组成词越独立于所处的上下文环境,成为专有词语和新词的可能性就越高。公式(2)是左信息熵的计算公式。

其中S表示候选专有组成词,l是候选词左边邻接的单字词集合,且a∈l,p(a)表示词a在集合l中出现的频率,使用p(a)= ,f(a)表示词语a出现的次数,∑a∈lf(a)表示候选组成词的左边邻近单字词的总个数。公式(3)是右信息熵的计算公式。

其中,S表示候选专有组成词, r是候选词右边邻接的单字词集合,且a∈r,p(a)表示词a在集合r中出现的频率,使用p(a)= ,f(a)表示词语a出现的次数,∑a∈rf(a)表示候选组成词右边邻近单字词的总个数。

笔者将“学习动机”知识点文本内容作为原始语料进行存储,形成语料库。并在实验中,按照最长词为6个汉字的形式,互信息阈值为4、信息熵阈值为0.001、最低单字词频为2进行候选组成词的识别时效果较好。表1是候选组成词统计中,词频大于13的结果。

然后,对候选组成词按照词频降序、信息熵值升序和互信息值降序的综合排序方式进行排序,去除其中由数字、字母组成的无意义词语,并排除组织、机构、人员等名称,筛选出有关学习动机知识文本内容的术语。抽取结果如表 2所示。

2.数据加工与处理

笔者将识别出的术语加入到《教育大辞典》中,将其编纂成用户自定义词典,用来指导汉语词法分析系统 ICTCLAS对原始语料的分词过程。具体实現流程如图3所示。

通过分析文本中重要的属性——关键词,可以衡量研究领域中的重点和热点[18]。文章为了强调某一主题或内容,关键内容一般会在文本内容中反复出现。因此,笔者对组成文本内容的基本单元——词语,进行出现频次的统计,筛选出频次较高的词汇,可以发现文本内容中的关键词,帮助进一步把握文章主旨。

为了有效地统计出高频词汇,笔者在分词结果上进行去除停用词的预处理[19]。所谓停用词就是一些虚词、叹词、标点符号等,去掉它们,对整个句子的意思几乎不造成影响[20]。如“中”“了”“的”“仅仅”,以及逗号、句号、分号等都是停用词。

对预处理后的词语,取频次大于13的词语,即高频词汇,按照频次信息降序排列,结果如表3所示。

为了进一步观察高频词汇的分布情况,生成了高频词汇散点分布图,如图4所示。

从图4可以看出,频次较高的高频词出现在密集区外围,并且比较分散,而较多的高频词聚集在频次较低的地方。因此可知,在《教育心理学》课程教材中,关于学习动机知识点的核心关键词是“学生、学习、学习动机、动机、行为、需要、兴趣”,剩余较多的关键词频次信息基本相同或相近。这也从侧面说明,在同一知识点核心内容或基础内容的描述上具有一致性,并且同一知识点的描述遵从多样性原则,符合高等教材的个性化、专业性、针对性编写要求。

通过分析高频词汇,可以更好地把握同一领域内的关键内容,找到公认的知识点。为了进一步挖掘文本内容中隐含的主题,可以通过对所有高频词汇做进一步处理,统计高频词汇在课程教材中的出现情况,形成“高频词—课程教材”矩阵,采用无监督聚类的方式挖掘学习动机知识点文本内容中隐含的主题。

为了提高聚类结果的收敛速度和精度,对“高频词—课程教材”矩阵进行归一化处理。即采用离差标准化,对原始数据线性变换,使数值落在[0,1]区间,计算方法如公式(4)所示。

其中,xij表示的是高频词i在文档j中出现的频次,统计出文档j中词频最高的高频词和出现频次最少的高频词,分别作为公式4中的max(yj)和 min(yj),从而得到归一化后的矩阵,如表4所示。

3.层次凝聚聚类分析

为了分析《教育心理学》学习动机知识点文本内容中隐含的主题,使用gCLUTO软件对归一化后的“高频词—课程教材”矩阵进行聚类分析。采用的聚类方法是层次凝聚聚类算法,可视化结果如图5所示。其中横坐标代表《教育心理学》中包含学习动机知识点的教材,纵轴代表进行聚类的高频词汇。

其中,相似度的衡量采用计算余弦夹角值的方法,假定待比较高频词汇的特征向量 =(wi1,wi2,wi3,…,win)和 =(wj1,wj2,wj3,…,wjn)。其相似度度量方法如公式(5)所示。

sim(  , )为两向量的相似值,cosθ是两向量之间的余弦夹角值,wiK,wjK表示为高频词i和高频词j在第K个教材中分别对应的权值[21]信息(归一化后的值)。

在可视化聚类结果中,带有深浅颜色的小方格代表矩阵原始数据的值。白色代表逼近0,颜色的深浅代表词汇出现频次的高低。同一类簇的行列聚在一起,黑色的水平线隔开不同类别,右侧对应的行聚类代表同一类的高频词汇,聚集到一起的高频词汇说明之间的距离短,围绕着同一个主题聚集的可能性较高。最底层的列聚类表示的是对应课程教材的聚类。

为了验证聚类结果的合理性、有效性,将层次凝聚聚类的结果,通过计算其类内相似度和类间相似度的值来评价聚类的效果。其中,相似度还是使用余弦夹角值,计算出类簇类内相似度ISim、类内相似度均值ISdev、类间相似度ESim和类间相似度均值ESdev。聚类评价结果如表 5所示。

当类内相似度的值越高,说明两者之间的距离越短,两者围绕同一主题的可能性越高。类间相似度的值越低,說明类簇之间距离越远,区分度越高,两者归属不同主题的可能性越高。

通过对实验样本中的高频词汇进行层次聚类分析,去除掉聚类结果中高频词汇里的形容词和副词,保留名词、动词之后,分析该领域的研究热点,归纳出以下三个方面热点,共30个主题。

(1)有关学习动机领域专家理论、思想的介绍

分析聚类结果可知,围绕领域专家核心理论的介绍主要分为两个方面:一方面是学习动机知识点研究中主要的领域专家观点和理论概述;另一方面是同一现象下,对领域专家各自观点和理论的比较。从两个方面对相关理论和观点进行归纳分析,得到相关理论或专家阐述观点9个,分别是:弗洛伊德的本能论、驱力论、层次论;阿特金森的先天无关理论、潜能理论、失调论和强化论;麦克里兰的成就动机理论;奥苏贝尔的动机理论;赫洛克效应;耶基斯—多德森定律;卡芬顿价值论;马斯洛人本主义;桑代克准备律等。

(2)有关学习动机知识点的实验(案例)分析

分析聚类结果可知,主要包含7个相关实验。包括:奖赏与效能实验、榜样作用、课堂教学与年龄特征、学生的课外阅读和活动、有关动机作用选定控制组和表扬组、研究者的诱因实验、奖励与惩罚等。

(3)有关学习动机知识点的相关概念定义和理解

在《教育心理学》课程教材上,学习动机知识点包含多个概念。由聚类结果分析,约有14个相关概念。包括:动机和好奇心、强化物、自我概念、教学方法、刺激物、近景性、成就动机、学习动机、内驱力、行为主义和人本主义、内源性、效能感、动机等。

四、结语

本文提出一种基于文本挖掘的课程教材内容分析方法,为课程教材内容分析提供了一种自动化的统计分析方法。该方法可以为课程教材专家、教师或学习者提供一种量化的评价方式,帮助其分析课程教材内容中的核心知识点,把握课程教材内容主题,从而进一步为课程教材的建设提供指导。

参考文献:

[1]教高[2001]1号.教育部关于印发《关于“十五”期间普通高等教育教材建设与改革的意见》的通知[Z].

[2]佚名.普通高等教育本科教材评价指标体系及专家评议表[EB/OL].http://www.doc88.com/p-3337505848859.html.

[3]李辉.高等职业教育教材建设与评价体系研究[D].咸阳:西北农林科技大学,2007.

[4]Feldman R.&Dagan,I,Knowledge discovery in textual databases(KDT).In proceedings of the First International Conference on Knowledge Discovery and Data Mining(KDD-95), Montreal,Canada, August 20-21,AAAI Press.112-117,1995.

[5]Feldman R. eds. Poreeedings of the Sixteenth International Joint Conference on Artificial Intelligence(IJCAI-99)Works on Text Mining: Foundations, Techniques and APPlications.1999.

[6]Shehata S, Karray F, Kamel M. A Concept –Based Model for Enhancing Text Categorization[C].Proc. 13th Intl Conf. knowledge Discovery and Data Mining (KDD07).2007:629-637.

[7]李尚昊,朝乐门.文本挖掘在中文信息分析中的应用研究述评[J].情报科学,2016(8):153-159.

[8]施萱轩,姜红红,梁浩等.文本挖掘技术研究及其在电力行业的应用[J].机电信息,2017(30):14-19.

[9]程志,黄荣怀.文本挖掘及其教育应用[J].现代远距离教育,2008(2):71-73.

[10]朝乐门.数据科学理论与实践[M].北京:清华大学出版社,2017:2.

[11]周城雄.隐性知识与显性知识的概念辨析[J].情报理论与实践,2004(2):127-129.

[12]顾云锋,吴钟鸣,管兆昶等.基于教育大数据的学习分析研究综述[J].中国教育信息化,2018(7):5-10.

[13]Haijian C ,Dongmei H,Yonghui D,et al.Design of Automatic Extraction Algorithm of Knowledge Points for MOOCs[J].Computational Intelligence &Neuroence,2015:2.

[14]劉丽敏等.大数据采集与预处理技术[M].长沙:中南大学出版社,2018.12.

[15]李浩.词语相似度计算及其在问答系统中的应用研究[D].郑州:郑州大学,2017.

[16]周浪.中文术语抽取若干问题研究[D].南京:南京理工大学,2010.

[17]Patrick Pantel,Dekang Lin. A Statistical Corpus-Based Term Extractor[J].Stroulia E, Matwin S. lecture notes in artificial intelligence. London,2001:36-46.

[18]谭章禄,彭胜男,王兆刚.基于聚类分析的国内文本挖掘热点与趋势研究[J].情报学报,2019,38(6):578-585.

[19]Bienkowski,M.,Feng,M.,Means,B.Enhancing Teaching and Learning through Educational Data Mining and Learning Analytics:An Issue Brief[R].Washington, D.C.:U.S. Department of Education, Office of Educational Technology,2012.

[20]李臻贤.中文问答系统知识库的自动构建问题研究[D].济南:山东财经大学,2015.

[21]Salton G,Buckley C.Term--weighting approaches in automatic retrieva[J].Information Processing Management,1988,24(5):513-523.

(编辑:王晓明)

猜你喜欢
文本挖掘内容分析
改革开放以来幼师学前心理学教材发展演变历程
2016年《中国日报》“两会”数据新闻报道研究
慧眼识璞玉,妙手炼浑金