基于知识图谱的课程思政素材库构建

2022-07-14 12:56汤宇轩申彦明王宇新张绍武
软件导刊 2022年7期
关键词:素材库章节图谱

汤宇轩,齐 恒,申彦明,王宇新,张绍武

(大连理工大学计算机科学与技术学院,辽宁大连 116024)

0 引言

“培养什么人、怎样培养人以及为谁培养人是教育的根本问题,立德树人成效是检验高校一切工作的根本标准”,人才培养中思想建设是第一位。2016 年,习近平总书记在工作会议中指出:高校立身之本在于立德树人。只有培养出一流人才的高校,才能够成为世界一流大学。教育部印发的《高等学校课程思政建设指导纲要》提到人才培养中思想建设的重要性,以及课程思政在思想建设中所起的重要作用,明确指出:“建设高水平人才培养体系,必须要在专业的课程内容当中融入思想政治教育体系,必须要全面、全方位地提高人才培养能力,专业知识和思想政治知识兼顾,从而培养出爱党爱国、能为社会、为人民服务的人才。”在设计课程思政内容的过程中,要让思政内容自然而然地融入课程各方面,从而激发学生的学习兴趣,引导学生深入思考。

思政建设对于计算机专业相关课程而言必不可少。信息时代,计算机及信息化相关技术已成为公认的“双刃剑”,一方面能服务于大众,另一方面也能对社会产生不良影响。如果在培养计算机专业人才时,缺少思政教育和正确价值观引导,极有可能给社会和个人带来危害。因此,在传授相关技能和知识的同时,引入相应的思政内容极其必要。

在设计课程思政内容时,任课教师往往需要根据课程性质针对性进行设计。计算机课程属于工学专业课程,在进行课程思政内容设计时,需要将马克思主义方法和科学精神培养结合起来,提高学生正确认识问题、分析问题和解决问题的能力,同时还要强化学生的工程伦理教育,激发学生科技报国的家国情怀和使命担当。在设计课程思政内容的过程中,经常需用到章节相关资料,包括相关的新闻、人物,或者相关课程的课程思政设计实例等。比如:一位计算机系统结构教师可能会想获得一些有关神威·太湖之光的新闻,从而激发学生的自豪感,或者是一些华为被美国制裁的新闻,让学生们认识到芯片技术对计算机乃至对中国科技发展的重要性。搜集资料这一过程十分耗时耗力,目前可供教师查阅素材的知识库还很少,大多情况下需要从互联网中自行查找、筛选和整合相关素材和参考资料,如果能有一个素材库支撑课程思政内容设计,将为教师开展课程思政建设提供很大帮助。

素材库可以基于不同种类的数据库构建。知识图谱作为一种有着良好多源异构数据整合能力的数据库,是素材库构建的较好选择。知识图谱是基于有向图的数据结构,由节点和边构成的语义网络,也是以图的形式表现客观世界中的实体(概念)及其之间关系的知识库,其概念于2012 年被Google 提出,之后为人工智能领域注入了新的活力。由于异质图可以很好地对客观世界中种类繁多的事物和关系建模,因此知识图谱备受相关研究者的青睐,并且已经被用于支持诸如智能问答、搜索引擎等一系列知识驱动型的任务。目前,比较有代表性的知识图谱包括Google 知识图谱、YAGO、NELL、搜狗搜立方、百度知心,以及复旦大学开发的zhishi.me等。知识图谱在特定领域也有其应用,比如以天眼查为代表的企业知识图谱可以建模企业和企业、企业和人物之间的关系,医药知识图谱可以建模药品和病症之间的关联,诸如此类。鉴于此,本文提出一种基于知识图谱的课程思政素材库构建方案,并在此方案基础上构建一个计算机课程思政素材库。

1 相关研究

1.1 课程思政建设

近年来,国家对高等院校的思想政治建设越来越重视,并指出要将思政内容有机地融入课堂。同时,教育者逐渐认识到课程思政的重要性,相关研究与探索也层出不穷,从不同的维度对课程思政展开了思考与实践。高德毅等从宏观层面对课程思政内容进行解读,阐明了高校课程思政建设理念和思路,以及思政内容在不同类型课程中的定位和作用。张大良阐述了课程思政在当今时代的重要作用和深远意义,同时对课程思政建设提出了自己的见解。除宏观层面外,教育者还针对各学科和课程,给出课程思政建设方案。文秋芳针对大学外语相关课程教学中的不同维度,给出一些关键策略和教学方法。代丹丹等针对Python 程序设计课程中的思政建设以及师范生的特点,采用不同的技术手段,将爱国主义教育、法制教育等思政内容融入课堂。

1.2 基于知识图谱的素材库构建

由于异构图对知识的强大表示能力,知识图谱已经成为素材库构建的热门方案之一,很多领域都在尝试使用知识图谱构建领域素材库和知识库。朱鹏等提出课程知识图谱的构建方案,将课程中出现的概念、内容融入图谱之中,并且实现了基于该素材库的搜索应用。任东亮等提出抗疫相关的舆情知识图谱构建方案,并基于此方案进行抗疫意见领袖热点话题检测与分析。韩普等提出医疗知识图谱构建框架,并基于多种数据源构建出医疗知识图谱。

通过上述分析可以看出,课程思政建设正在全面开展,但目前还缺乏可用的大型素材库。知识图谱技术在构建知识库、素材库及搜索引擎方面有着极大优势,但尚无该技术与课程思政相结合的研究。本文创新性地提出基于知识图谱的课程思政素材库构建方案,并尝试依照此方案构建出相应的素材库,以进一步推动课程思政建设进程。

2 课程思政素材库设计方案

本文所提出的素材库构建方案包含应用层、计算层和存储层3 个模块,其中计算层中的爬虫模块需要与外部数据源进行对接。总体结构如图1所示。

课程思政素材库的数据源包括新闻网站、课程网站等,不同数据源的数据通常有着不同的形式和获取方法,素材库可以将各模块整合,从而支撑其上层应用。

Fig.1 Structure of material database图1 素材库结构

计算层是素材库架构的核心部分,包含数据收集、处理及信息抽取功能。同时,还可以充当应用层和存储层数据交换的通道,负责应用层到存储层再到应用层这一过程中的数据形式转换和过程控制。

存储层负责存储数据,并为上层应用提供数据支撑。本文素材库是基于知识图谱结构而构建,因此选用图数据库以实现数据持久化。对于不适合放到图数据库的大型文本而言,可使用外部文件或外链的形式存储数据。

应用层负责素材库具体应用(比如搜索引擎)的实现,是最能直观展现素材库功能的部分。就课程思政素材库而言,最常见的功能可能就是搜索引擎,教师可以通过搜索自己任教的课程以搜索与课程相关的素材和参考资料。除搜索引擎,图谱可视化也可以作为应用层功能之一。

3 课程思政素材库构建

3.1 本体设计

本体设计指数据库中数据类型和数据关系的设计,在知识图谱中表现为实体和关系类型的设计。由于课程思政知识图谱的本体规模较小,因此可以依靠人工设计完成。本文构建素材库本体结构如图2所示。

Fig.2 Ontology of material database图2 素材库本体设计

本文素材库主要包含7 种实体:课程、大章节、小章节、新闻、人物与企业、思政论文以及思政课程设计的例子。

课程是课程思政素材库中的核心实体,无论是课程思政内容设计,还是学生上课时的思政教育,都是围绕课程进行。课程通常有课程—大章节—小章节三级结构,因此从课程相应介绍中可以提取出课程的大章节和小章节。在设计课程思政内容时,课程是主题和核心,但思政内容与当堂课的大小章节相关,因此大小章节在素材库本体设计中非常必要。

新闻、人物和企业实体是知识库的主体,在知识库的实体中占绝大部分比例。这些实体可以为思政教育提供素材,比如天河一号、神威·太湖之光相关新闻,姚期智的经历和获得图灵奖的故事,美国制裁华为和字节跳动的事件,都可以作为课程思政的具体内容。

课程思政论文和课程思政设计是知识库的补充,可以作为教师设计课程思政内容的指引和参考。二者的区别在于课程思政设计多为方法论,而思政论文更有助于加深教师对课程思政的理解。

素材库还设计了实体间的关系。目前,素材库中大致可以分为5 种关系:课程与课程之间的先修课关系、课程与思政论文/思政指引之间的关系、课程/大章节/小章节与新闻的关系、课程/大章节/小章节与人物和企业之间的关系,以及课程与大章节、大章节与小章节之间的关系。

3.2 信息获取

信息获取是对本体设计中各实体或关系类型的实例化,首先获取各类实体,然后获取实体间的各种关系。在本文素材库中,其过程如图3所示。

Fig.3 Construction process of curriculum ideology and policies knowledge graph图3 课程思政知识图谱构建流程

3.2.1 实体获取方法

(1)课程实体获取。从中国大学MOOC 网站按学科分类获取200 多门计算机专业相关的课程及其相关信息。MOOC 上的课程由不同的学校开设,因此存在着重复现象,需要去重,方法分为两种:手动筛选或文本聚类。手动筛选是人为地挑选出最合适的课程;文本聚类是使用课程的标题、简介等信息进行课程信息聚类,先使用分词工具进行分词(比如python 的jieba 分词库),然后将词语变成词向量(比如使用one-hot 编码或一些模型的预训练向量),最后使用聚类算法(比如K-means算法)对课程进行聚类,最后从每个簇中选取一门合适的课程即可(比如选取课程名最短的课程,或者选取簇中所有课程名字符串的交集,等等)。前者效果更好,但是只适用于小规模的数据,由于中国大学MOOC 网站上的计算机相关课程总量不多,因此在实际构建素材库时采用的是这种方法;依照课程文本聚类去重的方法效果稍次,但是可以扩展到大规模数据。去重后素材库获取了60 门不同的课程,获取课程后,素材库从每一门课程的课程目录中抽取出了课程的大章节和小章节信息。虽然部分大章节和小章节的标题没有实际意义(比如章节可能仅仅是“01”、“02”、“第n 讲”之类的表示顺序的标识),但是它可以表示出课程的结构,也有相应的价值,因此本文选择了保留。大章节和小章节的获取方法如下:由于每一门课程的大章节形式固定(比如“第n 讲”、“第n 周”等),因此当首次匹配到大章节时,就可以通过正则匹配的方法确定这门课程大章节的形式,然后沿着课程目录依次往下遍历,遍历到不同形式的文本便是小标题,反之则是大标题,从而确定大小标题以及它们之间的关系。

(2)素材获取。从新华网、人民网、中国政府网等10余个网站上,通过HTML 解析等爬虫技术获取新闻数据。本文使用两种方法获取新闻素材:第一种方法是通过关键词定向检索新闻,比如以“人工智能”为关键词在新闻网站上搜索,其结果必然大都与“人工智能”课程有关,进而可以收纳到素材库中,但是这种方法的缺点在于关键词需要通过人工定义,工作量大;第二种方法是通过处理后的课程章节名称进行搜索,比如说将小章节、大章节和课程名拼接,作为一次搜索的3 个关键词进行搜索,其结果相对于第一种方法而言比较杂乱,只有小部分符合思政素材库的要求。这主要由以下原因造成:在计算机相关课程中,专业知识居多,与现实事件相关的新闻很少,进而导致思政内容较少,比如C++课程中的“类”“模板”等几乎没有相关内容,但是这种方法可以保证素材覆盖到绝大部分章节。获取新闻时,可以先在第一次爬取的过程中将搜索结果中所有新闻的标题、链接等信息记录下来,再在第二次爬取中获取新闻具体内容。

(3)课程思政论文和设计实例获取。从知网、新华思政网上获取计算机课程的思政设计论文和实例,同样可以基于HTML 解析和用户操作模拟的爬虫技术实现。从知网上获取论文也可以用关键词搜索的方法,由于论文大多都有其相应的关键词,而且计算机相关思政论文的关键词大多包含“计算机”“互联网”等字样,因此只用关键词搜索便可以获取到绝大部分论文内容,由于论文数量相比新闻而言更少,因此使用章节名称拼接的方法很难搜索到论文。从新华思政网站上获取思政内容设计则比较简单,只需按照网站课程分类,选取计算机类课程以获取即可。

(4)课程相关人物和企业数据获取。从百度百科上获取与课程相关的人物和企业信息,这些信息可以作为背景知识引入课堂。获取方法有以下两种:一是关键词定向获取,比如通过“图灵奖”关键词,获取所有获得过图灵奖的科学家相关信息,其优点在于获取的人物信息对课程思政素材库有价值,但也有其缺点:人工定义关键词费时费力,且网络上缺少相关关键词的信息或者相关人物数据库,比如百度百科没有收纳“IEEE 计算机先驱奖”的名录;二是通过课程名称和章节获取,与获取新闻类似,可以通过课程、大章节和小章节的名称在百度百科进行搜索。但与获取新闻不同的是,搜索章节名获取的通常是专业名词、书籍等词条,此时需要在相应词条的作者、发明人等信息中获取其姓名,然后在百度百科中二次搜索。这种做法的优点是获取的人物和企业信息较多,而且能覆盖的小章节更多,缺点是噪声多,比如有些重复的人名会产生义项,在百度百科上搜索章节名可能并不会获取到素材库想要的信息。

3.2.2 关系抽取方法

(1)获取实体后需进行关系的抽取。课程—大章节、大章节—小章节两种关系在抽取实体时就可以直接构成联系,在遍历课程目录时,将遍历到的小章节与当前的大章节构成联系即可。一些课程信息中包含了先修课程之间的文本信息,需要用命名实体识别(NER)技术抽取,然后与当前已有的课程对应并构成联系。识别课程方法有以下两种:①使用人工定义关键词的方法在文本中抽取。这种方法准确率高,但是想要得到较高的召回率费时费力,只在小样本数据集上可行;②使用深度学习的方法。由于素材库的课程数据相对太少,因此可以选择带有预训练模型的NER 模型以引入外部知识。在实际构建中,本文选取BERT+CRF 的NER 模型,采用关键词定义的方法,先标定一部分数据,然后送入模型中进行训练和识别。经统计,这种模型对课程名称的识别可达到75%~80%的精确率和召回率,在小样本的情况下可以接受。识别出文本中的课程名后,可以按照判断识别出来的字符串与课程名称之间相似度的方法进行实体链接,进而产生课程与课程之间的联系。

(2)获取课程、大章节和小章节与新闻实体之间的关系。上文提到两种获取新闻的方法:关键词获取和章节名称获取。其中,关键词获取的新闻可以通过字符串匹配和课程名称、大章节和小章节的名称匹配进行关联,而根据章节名称获取的新闻则可以直接与关键词中的实体进行关联。

(3)课程与人物、企业之间的关联。上文提到两种获取人物的方法:关键词获取和章节名称获取。其中,关键词获取的新闻可以通过字符串匹配与课程名称、大章节和小章节的名称匹配进行关联,而根据章节名称获取的人物可以直接进行关联。

(4)课程思政论文和实例。论文可以通过其关键词中的课程建立联系,实例则直接与其课程建立联系即可。最终素材库获得的数据规模如表1所示。

4 素材库内容分析

为了检验素材库中思政素材的完整性,确保教师可以从知识库中获取相应的素材,本文针对大学计算机基础课程,依照文献[18]给出的课程思政设计方案测试库中素材的覆盖性。

Table 1 Scale of material database表1 素材库规模

文献[18]围绕章节给出的方案大体如下:围绕“数据在计算机中的表示”一节,引导学生进行哲学思维教育;围绕“计算机硬件系统”引出美国制约华为事件,进而引出芯片技术的重要性,以激发学生的爱国意识;针对“计算机软件系统”,引用习近平总书记有关于网络强国的讲话进行思政教育;围绕“操作系统”,倪光南院士的话说明其重要性;针对“办公软件”一节,讲述一些自主研发的办公软件以增强民族自豪感;围绕“数据管理与信息处理”,讲述国产软件WPS 在该领域的发展;围绕“计算机网络”,讲述网络安全对国家安全的重要性;围绕“多媒体技术基础”,让学生认识到融合媒体发展的重要性。

针对以上课程思政设计方案,本文素材库可以提供以下素材作支撑。“数据在计算机中的表示”没有提及素材;“计算机硬件系统”一节,素材库可以提供“‘高通急了’,美国封杀华为‘害人害己’”、“华为芯片断供‘卡脖子’倒逼攻坚”、“芯片断供 华为寻路‘满天星光’”之类的华为、芯片、美方制裁相关新闻;“计算机软件系统”一节,素材库可以提供“向着网络强国新时代昂首迈进”、“奋力谱写网络强国建设新篇章”、“青平:推进网络强国建设,习总书记这样说”等新闻和访谈;“操作系统”一节,素材库中暂时没有倪光南院士对操作系统重要性的评价,但有关于操作系统的其他新闻;“办公软件”一节,素材库可以提供很多国产办公软件相关新闻,比如“头条系内部办公软件在国内及海外分别上线,争夺办公场景”、“迎接1024 程序员节办公软件上线‘程序员友好’功能”等;“数据管理与信息处理”提及的WPS Office 在素材库中暂时没有相关新闻,但素材库中有关于数据管理和信息处理的其他新闻;针对“计算机网络”中提及的网络安全,素材库可以提供“加强网络意识形态建设维护网络政治生态安全”、“掌握新发展阶段切实维护国家网络安全的密钥”等材料;针对“多媒体技术基础”一节,素材库可以提供“新基建浪潮奔涌,人工智能·多媒体信息识别技术大赛逐鹿厦门”、“遵义汇川区上海路街道多媒体消防教育新体验”之类的新闻。

综上,对于大部分思政内容,素材库都可以提供相应的素材;对于少部分无法提供指定素材的思政设计,素材库也可以提供相关素材。这说明本文所构建的素材库有其合理性与覆盖性。

5 结语

综上所述,本文提出了一种基于知识图谱的课程思政素材库的构建方案,并基于该方案构建了面向大学计算机基础课程的课程思政素材库,从而验证了方案的可行性与有效性。在本文所提出的方案中,已针对不同类型的数据分别设计了数据获取、实体识别和关系抽取的方法,但尚未进一步完善搜索、问答等内容。由于基于知识图谱构建搜索引擎及问答系统属于领域常规操作,今后可迁移一套成熟方案继续完善素材库。此外,互联网中的思政素材除文本数据,还有大量的图片、视频等数据。如何将这些信息进一步融入图谱,设计并完成多模态知识图谱,构建全方位的课程思政素材知识库,则是后续研究的重点。

猜你喜欢
素材库章节图谱
缤纷“鱼”素材库
绘一张成长图谱
高中数学章节易错点提前干预的策略研究
素养之下,美在引言——《“推理与证明”章节引言》一节比赛课的实录
补肾强身片UPLC指纹图谱
黄廖本《现代汉语》词汇章节中的几个问题
八仙过海,各显神通
杂草图谱