基于FCM聚类算法的学生动态评估方法研究

2020-11-09 02:06明,吴
安阳师范学院学报 2020年5期
关键词:爬虫聚类动态

李 明,吴 迪

(1.安徽汽车职业技术学院,安徽 合肥 230000;2.安徽江淮汽车股份有限公司,安徽 合肥 230000)

大学生是祖国的未来,大学生的健康成长关系到祖国未来的繁荣昌盛。全面、准确、客观了解大学生的行为动态是开展大学生教育工作的关键,高校辅导员要结合大学生的行为动态来具有针对性地开展思想政治教育,才能更好地引导大学生树立正确的人生观、世界观和价值观。目前大部分辅导员对大学生的思想政治教育主要是以课堂教育为主,不能够很好地了解大学生的思想及行为动态,特别是在当前的网络时代背景下,大学生具有思想活跃、好奇心强、内心脆弱敏感等特点,这对高校辅导员的工作提出了更高的要求,大学辅导员的工作面临巨大的挑战[1]。聚类分析是将物理或者抽象对象的集合分组为多个类的过程,在计算机科学、社会人文科学、教育学等领域具有十分广泛的应用。为了大学辅导员全面、及时了解大学生的行为动态,从而更加具有针对性地开展思想政治教育工作,采用网络爬虫来获取大学生微博及微博评论的内容,同时提取关键词,在此基础上采用FCM聚类算法获得大学生的行为动态,从而在大学生的思想动态和微博及微博评论之间建立关系。

1 大学生行为动态评估建模

了解大学生的行为动态可以借助于大学生的QQ空间说说、微博等发布的内容,通过大学生微博发布的内容以及对微博的评价内容来了解大学生的思想动态。建立大学生行为动态评估模型主要包括两个部分:第一部分是采用网络爬虫的手段来获取大学生微博和微博评论数据,如大学生的学生社团微博、学校的官方微博、各个学院的官方微博、各个班级的微博以及大学生个人的微博等等,同时对抓取的微博数据提取关键词[2];第二部分是采用FCM聚类算法来进行聚类分析,通过聚类分析的结果掌握在某一段时间内大学生的行为动态[3]。聚类分析将抓取的关键词分为若干类别,同时通过对大学生所关心话题类型的分析,高校辅导员就可以更为准确、快速掌握大学生的近期思想动态。建立的基于聚类分析算法的大学生行为动态评估模型流程如图1所示。

由图1可见,大学生行为动态评估模型包括三步:首先是采用网络爬虫计算机程序对大学生微博及评论的抓取,所抓取的大学生微博及评论应该具有典型性,同时要覆盖绝大部分的内容和信息,这样才能确保评估结果的准确性、客观性,否则评估的结果就不能够作为高校辅导员开展大学生思想政治教育的参考。其次是对所抓取微博及评论内容的解析,从而获得相应的关键词。最后是采用FCM聚类算法来进行聚类分析,通过聚类分析来了解当前一段时间内大学生的关注热点,为大学辅导员开展大学生思想政治教育工作提供参考。

2 FCM聚类算法

设n个样本数据x={x1,x2,…,xn},中心点集合为{v1,v2,…,vc},C为聚类的类别数,U为分类矩阵,μik为样本xi对于类Ak的隶属度,则目标函数Jb为[5]:

(1)

(2)

(3)

公式(1)(2)(3)中,m为样本特征数;i=1,2,…,n;δik为样本xi与第k个样本中心的欧式距离;b为加权参数。样本xi对于类Ak的隶属度为:

(4)

令Ik={i|2≤c

(5)

FCM聚类过程就是反复调整聚类中心使得目标函数最小的过程。

3 大学生行为动态评估实例分析

3.1 爬虫抓取微博及评论

为了更好地了解安徽省高校大学生2020年1月到2020年6月的思想行为动态,采用URL链接与网络爬虫抓取了某高校内部的官方微博、社团微博、各个院系的微博以及各个班级的微博,对部分的关键词进行了抓取[6]。本次采用URL链接与网络爬虫所抓取的关键词有公务员考试、思想政治教育、就业、研究生入学考试、考研、985高校等。

3.2 大学生行为动态评估结果分析

采用所建立的大学生行为动态评估模型可以更好地掌握该高校大学生在2020年1月到2020年6月这6个月时间段的动态,从而更好地帮助大学生克服心理上的困难,对大学生实施更加具有针对性的思想政治教育,使得大学生树立正确的人生观、世界观和价值观。采用URL链接与网络爬虫来抓取某高校内部的各种微博,提取所抓取的关键词,同时采用词云图的方式将关键词显示出来,结果如图2所示。

图2 词云图

由图2可知,在2020年1月到2020年6月这段时间,出现频率比较高的关键词是疫情、防控、组织、社会、捐赠等,这反映了这段时间某高校的大学生对新型冠状病毒和疫情防控给予了广泛的关注,是这段时间关注的热点问题。采用词云图的方式只能在宏观上给予展示,不能够查看在这一段时间内某高校的大学生所关注的热点话题。采用FCM对获取的数据进行聚类分析,结果如图3所示。

图3 聚类分析结果

由图3可见,排在前几位的词汇分别是疫情、组织、捐赠、社会、协会、肺炎、物资和口罩等,说明这段时间该高校的大学生对新型冠状病毒疫情的发展、防控、捐赠与组织等内容给予了广泛的关注。由此可见,该阶段大学生重点关注的是新型冠状病毒疫情,从一个侧面反映了大学生关心国家大事、热爱生命、思想积极向上。作为该高校的辅导员在开展思想政治教育工作的过程中不能够刻意地回避新型冠状病毒疫情较为严重的问题,而是应该采取科学引导的方式来引导大学生正确认识新型冠状病毒疫情,积极做好宣传和科学防护,引导大学生正确看待和分析当前热点问题,为大学生提供具有针对性的思想政治疏导。

4 结论

为及时掌握大学生的思想行为动态状况,本研究建立了基于FCM聚类分析算法的大学生行为动态评估模型。运用网络爬虫技术抓取大学生的微博及评论内容,提取微博及评论的关键词,通过FCM聚类分析和词云宏观展示大学生的关注热点,对及时了解和掌握大学生的思想行为动态具有重要意义,为大学思政工作者提供了科学分析大学生思想动态的新方法。然而,大学生思想行为活动较为活跃和复杂,本研究主要通过网络动态内容了解大学生的思想行为动态,可能内容全面性不够,后续将从更多方面了解和掌握大学生的思想行为动态。

猜你喜欢
爬虫聚类动态
利用网络爬虫技术验证房地产灰犀牛之说
国内动态
一种傅里叶域海量数据高速谱聚类方法
国内动态
国内动态
基于Python的网络爬虫和反爬虫技术研究
目前互联网中的网络爬虫的原理和影响
动态
面向WSN的聚类头选举与维护协议的研究综述
大数据背景下校园舆情的爬虫应用研究