基于LDA的工科科研主题识别与可视化研究

2020-09-21 06:51陆阳琪
江苏科技信息 2020年22期
关键词:工程学院科研成果工科

陆阳琪

(南京工程学院图书馆,江苏南京 211167)

0 引言

为了推动工程教育改革的创新,2017 年教育部正式启动了“新工科”计划,并就新工科的内涵特征、发展路径、建设指南等方面的内容形成了新工科建设的“三部曲”——复旦共识、天大行动和北京指南。在新工科不断发展建设的背景下,高校图书馆作为学校教学和科研服务的保障支撑部门要积极应对,以满足高校新工科建设的要求。本文尝试以南京工程学院工科类科研文献为数据源,利用隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)模型提取研究主题,帮助科研人员快速了解研究领域的热点主题,为图书馆助力高校科研工作,完善精准知识服务探索新的路径。

1 相关研究

从科研成果中挖掘研究热点和主题一直都是图书情报领域的重要研究方向,研究者们利用各种方法和工具对此进行研究,主要有共词分析法、词频分析法、共被引分析法、内容分析法、社会网络、LDA 模型等。赵蓉英等[1]利用CiteSpaceⅡ对文献进行共引分析和聚类分析,揭示了文献计量学的研究热点和发展趋势。李亚员[2]利用研究文献的高频关键词进行共词分析,梳理了我国慕课研究现状与热点。柯平等[3]利用社会网络分析方法,借助UCINET 等工具对国外信息管理相关文献的关键词进行统计和聚类分析,挖掘研究热点。李永忠等[4]利用LDA 模型抽样获得电子政务相关文献的主题,总结分析了目前国内电子商务研究的热点。吴查科等[5]利用LDA 方法建立了国内图书馆学研究的主题模型,挖掘图书馆学领域主题及其演变情况。

对于高校图书馆而言,如何从海量动态的文献数据中精准获取信息,帮助科研人员了解研究领域的发展趋势和前沿热点,找出创新突破点已成为高校图书馆精准知识服务面临的一项挑战[6]。LDA 是在机器学习和自然语言处理等领域用来在一系列文档中发现抽象主题的一种统计模型,它可以将文档集中每篇文档的主题按照概率分布的形式给出。LDA 在文本主题识别、文本分类以及文本相似度计算等方面有着良好的效果,因此广泛被研究者们应用到各学科领域,如计算机领域、图书情报学领域、经济学领域等等[7-9]。但LDA模型目前在高校图书馆服务方面的实践探索还较少,因此,本文利用LDA 模型分析了南京工程学院近10 年工科科研成果的研究热点,探索高校图书馆利用数据科学技术更好地服务科研的可能性。

2 研究方法

本文以中国知网期刊全文数据库收录的文献为数据来源,以作者单位=“南京工程学院”为检索表达式,匹配方式为“模糊”,并将文献发表时间限定为2010—2019 年,共检索到8 783 条结果。本研究主要基于工科类科研成果,因此进一步将作者单位限定在电力工程学院、机械工程学院、材料科学与工程学院、能源与动力工程学院等工科院系。同时,人工核查剔除字段不全和不相关的文献,得到有效数据4 437条。本文提取4 437 条篇目数据中的摘要字段,建立语料库。检索时间为2020年5月19日。

在自然语言处理工程中,文本预处理通常包括分词、文本清洗、标准化、特征提取等步骤。对于中文分词,jieba 分词是目前最常用的分词系统,本文利用Python 程序安装jieba 库,对每篇文献的摘要字段进行分词处理,文献摘要中可能会包含一些常见的、与主题无关的词语和特殊符号,因此需要进行停用词和特殊符号处理,接着利用scikit-learn 向量化工具CounterVectorizer 对文本特征进行处理,以上文本处理完成后即可获得LDA主题建模的训练样本。

文本预处理完成后,利用python的sklearn库来实现南京工程学院近10年工科科研成果的LDA主题建模。构建LDA模型首先需要确定一个合适的主题数量,本文选用困惑度(Perplexity)指标作为确定最佳主题数量的参考指标,经过计算发现当主题数为15时,困惑度最小,因此确定主题数为15。

3 结果与分析

根据LDA 模型的初步训练结果,获得15 个主题的词项分布和4 437篇文献的主题分布。主题词项分布如表1 所示,由于篇幅所限,每个主题展示10 个与主题相关的高频词。本文对15个主题的概率词项进行推理,对每个主题名称进行命名,例如从主题14中的“模拟、有限元、分布、数值、计算”推理出该主题关于“数值分析”,说明LDA模型的提取效果较好。

根据文献主题分布结果,对每篇文档的主题概率排序,选择每篇文档的最大概率进行主题归类,每篇文档都被赋予最能代表该文档的主题词,表2 为每个主题对应的文献篇数的统计及占比情况,从表中可以看出“教育教学”“系统设计”和“检测算法”是占比前三位的主题词,表明在南京工程学院工科专业中高等教育与教学以及自动化系统和算法的应用较为普遍。

为了更好地解释研究主题,更直观地了解研究主题如何相互关联,本文利用pyLDAvis 库创建了生成LDA模型的交互式可视化结果,如图1所示。LDA的可视化结果包括两个部分,左侧展示了主题模型的完整视图,圆圈的大小代表了每个研究主题的文献数量,并按照文献数量的递减顺序对研究主题进行排序,图1 中的研究主题1 即为“教育教学”。圆心之间的距离表示研究主题之间的相互关系,即两个圆心间的距离越近,两个研究主题间的相关性越高,例如数值分析在机器人算法代码研究中有一定应用,因此,主题10“机器人”和主题14“数值分析”的圆圈就有重叠。右侧展示的是左侧突出显示的研究主题中出现的前30 个最相关单词的直方图,比如左侧选中研究主题1“教育教学”,右侧展示的是与“教育教学”最相关的前30 个词语,如教学、学生、学习、本科、工程等。

LDA 的可视化结果还可以用来探索主题词之间的关系,具体来说,当右侧的单词“传感器”突出显示时,左侧显示了它在各个研究主题中分布的情况,如图2所示。“传感器”一词可以在主题2“系统设计”、主题5“镁合金”和主题10“机器人”中找到。

利用LDA 建模方法,本文确定了南京工程学院工科学科近10 年CNKI 收录的中文期刊论文共15 个研究主题。研究发现,不同的工科学科,存在一些共性研究主题,比如高等教育、数据挖掘等。另外一些研究主题之间有着鲜明的学科特性,比如电力系统、数控机床、继电保护、复合材料等等。实验表明,LDA建模结果有助于快速了解教师的研究需求,高校图书馆馆员可以利用数据科学技术更好地为广大读者服务。本文重点关注工科学科的研究需求,但LDA建模方法也可以应用到解决其他学科的教学科研需求甚至是分析图书馆馆藏数据、用户数据等方面的问题上。

表1 南京工程学院近10年工科科研成果主题分布

表2 主题文献数量及占比统计

4 结语

本文利用LDA 模型分析南京工程学院近10 年CNKI 收录的工科科研成果的研究热点,初步探索了图书馆利用数据和数据科学技术服务科研的可能性,未来数据科学技术的应用还可以延伸到馆藏管理、参考咨询和教学决策等。

本研究还存在一些局限。首先,利用中国知网期刊全文数据库来提取教师的科研成果,数量可能会偏少,因为对于理工类学科来说,教师可能还有一些成果被SCI、EI 等收录;其次,由于学科交融越来越多,一些重叠主题解释起来比较困难。后续研究可以进一步深入探索基于LDA的图书馆知识服务。

图1 研究主题可视化结果

图2 “传感器”在多个研究主题上的分布情况

猜你喜欢
工程学院科研成果工科
福建工程学院
中粮工科机械技术(无锡)有限公司
科研成果转化
福建工程学院
新工科下创新型人才培养的探索
新工科背景下项目推动式教学模式的探索
中职“产学研创”一体化工科类课程的研究与实践
中国科研成果震撼全球
福建工程学院
福建工程学院