基于中文分词算法和众包协同的高校课程思政资源共享与互助系统

2023-09-25 17:13:26童颖佳

现代计算机 2023年14期

张露，童颖佳，马华

（湖南师范大学信息科学与工程学院，长沙 410081）

0 引言

自2014 年“课程思政”这一理念提出并在上海的部分高校进行试验，取得了较好的成效。习近平总书记不断强调学校作为立德树人的地方，要牢牢抓住思想政治教育工作。2020 年，教育部印发《高等学校课程思政建设指导纲要》［1］，高校思政课改革创新，各高校开始逐步探索课程思政模式。由此诞生的思政教育资源互联网平台，为教师提供了一些优质课程思政示范课及其配套资源，协助教师完成专业课和思政教育的有机融合。然而，目前已有平台仍存在如资源分类粒度大、数量有限、搜索困难等问题。

近年来，学者们对课程思政资源的共享和利用进行了研究，但尚缺乏面向高校课程的思政资源的共享与互助平台的系统性研究。例如，汤宇轩等［2］提出一种基于知识图谱的课程思政素材库的构建方案，对课程思政领域进行本体设计、命名实体识别、关系抽取等方法的研究，构建了面向大学生计算机基础课程的课程思政素材库。朱丽等［3］阐述了大数据平台商建立课程教学资源推荐系统的设计、框架及其应用，表示在大数据平台的基础上，课程教学资源推荐系统的建设得到推进。龙丹等［4］以CNKI 数据库中刊载的课程思政的相关文献为数据来源，对我国高校课程思政研究的趋势、热点、问题进行调查分析。汪路金等［5］从继续教育思政教学出发，指出思政类网络课程资源的重要性，并提出建设策略。

针对此现状，我们引入TF-IDF（term frequencyinverse document frequency）中文分词算法和众包协同机制，挖掘和整合网络上现有的课程思政教育资源，联结多方平台和参与者以提供一个高校课程思政教育资源共享和互助的全新系统，构建了一个可动态扩充的智慧型课程思政资源库，即“智慧思政文库”。

1 系统建设思路

1.1 爬取资源

国内已有一些课程思政教育资源平台，例如，新华思政（xhsz.news.cn）等。非专业教育学习平台上也散布有许多有借鉴意义和使用价值的课程思政资源，例如，知乎、微博等。面对目前互联网上众多的课程思政资源，我们使用Python 开发数据爬虫，用Scrapy 框架对不同的网站进行爬虫定制，对它们进行爬取，并分割保存为JSON 格式数据。这些初始的资源数据被处理后存入MySQL数据库。

1.2 预处理数据

对JSON 格式数据进行初步的处理加工。首先，以本校的院系专业划分以及课程开设为标准，建立基本的学科大类、专业、课程的树形结构分类。其后，利用TF-IDF 算法从爬取的资源当中提取出关键词，根据关键词判断资源所属类别，从而对资源进行分类。最终，将处理过的数据存入本地数据库，供平台后续使用。

1.3 功能开发

使用Spring Boot框架和Vue进行平台的总体设计和开发。主要的模块包括协同互助模块、课程思政模块、讨论区模块、资源检索模块、登录注册模块、个人中心模块等。通过引入众包协同机制，平台允许用户自主上传资源和资源互助，以进一步扩充资源库。通过用户的自主上传，资源库得以不断扩充，而资源协同互助的创新功能，为教师和创作者的各取所需提供了交流和协作的渠道。

2 资源库建设及动态化构建

2.1 资源爬虫设计

本文从新华思政网站、CNKI、知乎、微博等爬取若干课程思政相关的各类资源，如课件、教学视频、教案等，作为资源库的一部分，并为之后的标签提取提供基础的数据支持，使用基于Python 语言的Scrapy 爬虫框架，针对不同网页开发定制个性化爬虫程序。对爬虫抓取的原始Web 页面进行页面处理，通过去掉Web 页面中的大量噪声数据，将Web 页面转化为纯净统一的文本格式和元数据格式。

对初步处理得到的文本格式和元数据格式的数据进行进一步的加工，利用TF-IDF 算法提取数据中的关键词，根据关键词判断资源所属类别，从而对资源进行分类，包括资源所包含的思政元素、所属课程、知识点等标签，将分类后的数据导入数据库中，作为资源库初始数据。

2.2 基于TF-IDF算法的中文关键词抽取

本文使用一种改进的TF-IDF 算法［6］提取关键词。首先，计算类别间离散度，类别间离散度越高，词语的类别区分能力越强。计算公式如公式（1）所示。

之后，计算类别内信息熵，类别内信息熵越高，词汇的类别区分能力越强。使用公式（2）和（3）计算。

类别间离散度或类别内信息熵越高，类别区分能力越强。因此，引入公式（4）表示特征项对类别Ci的区分能力，即类别判别：

最终得到TF-IDF 的计算公式如公式（5）所示。

其中：wij为特征项t对类别Ci的权重；tfij为特征项tj的词频；CD(tj,Ci)为特征项t对类别Ci的类别判别，可由公式（1）～（4）计算。在改进的TF-IDF 算法中，用类别识别CD(tj,Ci)代替逆文档频率IDF，从而弥补了传统TF-IDF 算法没有考虑特征项的类别内和类别间分布的缺陷。

2.3 基于众包协同机制的资源库扩充与资源互助

一方面，利于设定好的爬虫程序，定时对目标平台进行资源爬取，根据内容发布时间，过滤掉已经爬取过的内容，处理存入资源库中。另一方面，设置“协同互助”模块，用户通过该模块所创作的个性化资源，经用户同意，也将录入资源库并公开展示。同时，用户也可以通过个人中心自主上传资源。以上两方面构成了资源库动态扩展的数据来源，使得资源库能够得到智能自主扩充。

平台所设置的“协同互助”模块显示已经发布的用户需求列表。教师可以发布相关需求，设定所需资源信息；创作者可以搜索感兴趣的需求申请承接。当需求有承接申请，教师可自主选定需求的最终承接者。由此产生的需求订单，平台将跟踪需求的完成状态，并以进度条的形式展示给相关用户。创作者可以是有闲暇时间且有相关创作技能的非教师用户、普通教师用户等，此机制将各类用户聚合在一起，共同完成资源的最终产出。另外，平台利用Java-WebSocket 框架，实现了“私信交流”功能，使得教师与创作者能在系统中进行实时交流，教师可随时提出修改意见，协助成品的不断完善，便于需求的更好完成。

3 智慧思政文库系统的开发

3.1 基于Spring Boot和Vue的总体开发

3.1.1 基于Spring Boot框架的后端设计

（1）建立实体层，其中课程类包括id、名称、简介、一级学科、二级学科、目录、选课人数等属性；资源类包括id、类型、简介、上传时间、名称、链接、标签、来源、收藏量、下载量、所属章节等属性。

（2）建立数据访问层，封装对数据库的访问，CourseDao.java 和ResourceDao.java 用于对数据库中的课程信息表和资源信息表进行增删改查操作。

（3）建立Spring Boot 配置文件，设置Spring Boot 配置文件中的数据库连接参数和访问端口信息等。

（4）建立业务层，存放业务逻辑处理，提供控制器层调用的方法。

（5）建立控制器层，接收前端传过来的参数进行业务操作，并返回对应的数据。

3.1.2 基于前后端分离的系统框架设计

（1）使用Vue 框架编写前端页面，使用Axios向后端发送HTTP请求。

（2）后端控制器层从HTTP 请求中获取信息，提取参数，将其分发给业务层处理不同的服务。

（3）业务层调用数据访问层对数据库进行访问，并将其处理成JSON格式返回给控制器层。

（4）控制器层将数据返回给前端页面，前端根据不同的数据所在的位置进行页面的局部刷新。

3.2 系统组成及主要功能模块

基于上述设计，“智慧思政文库”系统包含了协同互助模块、课程思政模块、讨论区模块、资源检索模块、登录模块、注册模块和个人中心模块。系统的功能模块结构如图1所示。首页的界面设计如图2所示。课程资源的浏览界面设计如图3所示。

图1 系统功能模块

图2 首页设计界面

图3 课程资源浏览的设计界面

3.2.1 协同互助模块

在系统提供的第三方技术保障之下，教师基于自己或者其他用户上传的教学思路在此发布互助需求，创作者对于资源创作提供技术支持。教师可根据需求复杂度设置创作者人数及其分工。教师与创作者紧密合作，共同参与到资源的开发过程，教师提供资源设计理念和想法，创作者依据教师提出的需求制作出满足要求的资源。在整个过程中，创作者和教师在私聊区域进行资源内容开发的深入交流，在交流过程中逐步完善个性化资源的制作。制作完成后，教师对制作出的成品进行验收，结束整个互助流程。同时，平台将追踪资源互助完成进度，推动创作流程的顺利进行，促进生成更多优质资源。

3.2.2 课程思政模块

系统将资源所属课程根据学科大类进行分类，用户点击对应课程可查看相关的资源，资源类型分为课件、教案、思路、视频、论文。同时平台内的用户也可以进行资源上传操作，实现资源共享，用户上传的资源若评分较高，可以提升平台内的信誉值。

3.2.3 讨论区模块

该模块功能是发布问题以及回答问题，其中问题分为普通问题以及付费问题，付费问题用于激励平台内用户输出更为专业的解答，用户可以在个人中心修改付费问答的基本信息，以及选择最优回答给予酬金。

3.2.4 资源检索模块

检索的内容包括平台内的资源、需求、问题以及回答，根据用户在平台内资源的浏览记录、资源评分、创作记录等信息，分析用户潜在的资源浏览偏好，使用混合推荐算法对数据库中检索资源进行过滤及排序。

3.2.5 登录模块

用户提交登录信息后，向Spring Boot 控制器层发送登录验证请求，访问数据库获取持久化对象，当对象密码校验正确时，用户成功登录系统，以便系统对用户提供资源协同互助的支持及个性化的资源推荐。

3.2.6 注册模块

用户提交注册信息后，向Spring Boot 的控制器层发送注册请求，为用户生成持久化对象存储于数据库中。其中注册信息包括用户名、密码、所在专业、感兴趣的思政元素及课程等，以解决用户初始登录系统资源推荐冷启动问题。

3.2.7 个人中心模块

该模块用于公开展示用户的个人信息，包括用户名、所在院校、所在专业、自我介绍、兴趣爱好等，并提供用户的资源访问入口，包括互助情况、讨论情况、所发布的资源等。对用户本人开放资源制作进度追踪，确保双方能在指定时间完成资源制作。

4 结语

本文开发的基于中文分词算法和众包协同的高校思政教育资源共享和互助系统，使用了Python爬虫、Spring Boot和Vue技术，基于Scrapy爬虫采集互联网上的课程思政资源，利用TF-IDF 改进算法提取关键词并将其关联到知识点，通过用户的资源协同互助实现资源库的动态扩充，该系统借鉴了众包和协同思想，使用界面简洁清晰，可为从事教学改革的高校教师和从事资源开发的专业技术人员搭建合作共赢的平台。可为广大教师提供课程思政教学的辅助支持，具有良好的应用价值。未来研究中，我们拟引入知识图谱技术对资源所包含的思政元素及知识点间的关联关系建模，进一步提高用户资源搜索的满意度和效率。