基于机器学习算法的校园网学生上网行为评估方法研究*

2021-11-25 10:44隋继学
科技创新与应用 2021年33期
关键词:分类学生

李 骞,王 硕,隋继学

(河南牧业经济学院 能源与智能工程学院,河南 郑州450011)

1 背景介绍

大学生逐渐成为网络社会的主体,在各高校进行校园信息化建设的过程中,信息化基础设施不断在完善。以河南牧业经济学院三个校区为例,无线、有线网络已基本实现教室、宿舍、校园全覆盖,为学生在校上网提供了便利,学生每日通过校园网上网、聊天、学习、游戏、购物已经成为日常生活中不可或缺的一部分。

学生上网行为评估分析主要指的是通过在校园网出口或校园网不同节点采集网络流量,识别上网日志及流量信息中的网络行为轨迹(包括专业网页浏览、游戏娱乐等),利用智能数据分析方法,对网络资源利用情况和学生上网行为进行评估和分析。随着可视化技术、数据采集技术的提升,进行学生上网行为评估是现代化校园了解学生日常轨迹的一种真实而重要的方式,也为进一步研究学生校园行为活动提供了新的思路和方法。但是,随着校园网速度的加快,网络应用复杂度增加,加密网络和未知网络的更新也给校园网学生上网行为的数据采集与分析带来了新的挑战。

因此,本文从学生网络流量数据与日志分析入手,提出了一种基于网络爬虫框架的校园网网络流量数据获取模型,利用机器学习算法来获得理想的数据处理优化模型,比较了基于网络流量数据的梯度增强决策树(Gradient Boosting Decision Tree,GBDT)和随机森林(Random Forests,RF)两种方法,对学生上网数据进行各个角度的详细分析。最后,基于学生上网行为数据分析,从多个方面对高校网络监控和学生教育管理给出对策和建议,为老师们研究分析在校学生学习、生活特征提供了新技术、新方法,同时大数据分析技术也必将促进当前高校信息化建设。

2 相关原理工作介绍

传统学生沟通在实行过程中具有效率低的致命缺点,并且也很难挖掘到学生提供信息所蕴含的潜在信息及真实的生活学习情况。网络数据与学生的生活息息相关,可以被用于分析学生的行为模式。传统教育理念普遍认为学生上网时长和上网内容会对学生学业和日常生活造成影响,但是却很难建立学生上网行为与学业之间的模型,因而无法进行相关研究。

2.2 两组患者手术后情况比较 观察组手术后下床活动时间、手术后肛门排气时间及患者手术后12 h疼痛评分明显优于对照组,差异有统计学意义(P<0.05),两组患者住院费用及手术后住院时间相比,差异无统计学意义(P>0.05)。见表3。

对于学生上网行为分析,主要的难点和研究点集中在:数据流量采集技术、流量准确识别、上网行为分析模型建立三方面。针对数据流量采集技术,根据实现方法可以分为硬件和软件两种类型,硬件实现虽准确度高但是需要购买专门的设备,不适用于研究;软件可以根据实际需求进行开发和部署,灵活性较高。针对流量识别技术,主要集中在TCP端口、深度包检测(DIP)和机器学习。其中,TCP端口识别不适应动态变化,DIP技术不能应用于加密网络和未知网络,而机器学习不受端口、数据包、加密等复杂动态网络情况的限制[1],对学生上网情况的分析具有一定的实用价值,也将成为今后高校教育教学研究的一项重要内容[2-3]。

国内外许多学者基于大学生的上网数据进行了分析。例如Miao[4]等人提出了一种区分大学生不同年级的方法,利用校园WiFi数据捕捉学生的行为特征,利用这些特征,采用机器学习聚类算法对不同年级的学生进行聚类;Kamal Bunkar[5]等人建立了一个系统,允许学生预测正在学习课程的最终成绩,他们尝试在机器学习中应用一些算法,特别是分类,通过评估学生数据来研究可能影响学生表现的主要属性,从而帮助提高高等教育的质量;Tripti[6]等人使用不同的分类算法,根据学生的社会数据、学术数据和各种情感技能建立预测模型,将C4.5和随机树两种算法应用到学生的记录中,发现随机树具有较高的精度。

此模块主要对考试类别进行管理、对考试科目进行设置、对科目课程进行设置等。根据考试的性质划分类别,在科目考试时,考试只有一个科目,每名候选人对考试科目来讲,是一个考试的基本单元,当然一个科目可以包含一个或几门课程。每一个考试分期可设置不同的考试科目和考试时间,但新增一个考试分期时系统自动默认上一个分期的设置。科目包含科目编号和科目名称,同类型的科目编号在不同分期应设置一致,这样能适应跨分期的科目合格统计与对比,以及科目题库的重用。

由于每次迭代的训练集和测试集都不相同,对于上网数据进行分类需要通过N次迭代得到训练模型,获得更可靠的结果。每次迭代均从SQL中提取数据集,将数据集随机分为训练集和测试集,对数据集进行规范化处理。在所有迭代结束后,将最优模型参数保存到SQL中,训练模型流程如图3。

(1)数据获取和预处理阶段。利用网络爬虫获取上网数据,按照数据处理形式,对记录进行转换,写入数据仓库,可采用SQL语句或批量加载,这一部分是为下一步统计准备有用的数据。

3 基于机器学习的学生上网行为分析方法

学生上网数据行为分析过程可以分为以下两个步骤。

(3)凝灰熔岩、凝灰岩铜铁矿石。该矿石中矿石矿物为磁铁矿、针铁矿、黄铁矿、黄铜矿、孔雀石等,脉石矿物为晶屑、玻屑等,矿石主要为细粒结构、他形晶粒结构,星点浸染状构造。

付军科认为,ERAS不仅仅是一项技术,更多的是一种理念的更新,其核心就是围绕患者围手术期的加速康复采取一系列优化措施。“这和国家讲的时刻为患者利益考虑,让患者获得优质医疗服务的理念是高度契合的。”付军科说,本着这样的核心理念,以患者为中心,想办法预防一些并发症的发生,就会自然启动ERAS的各个程序,伴随而来的便是医疗质量的提升及对精细化医疗管理的践行。

(2)基于机器学习的模型建立和分析阶段。利用机器学习建立上网数据与行为的模型,这是整个行为分析的关键部分。需要通过从不同角度对学生上网行为进行统计和分析,帮助教育者掌握学生上网需求,发掘出隐含规律,实现对学生上网情况的全面把握。

3.1 基于网络爬虫的上网数据获取

为了获取尽量多的学生网络流量数据,本文采用了一个由模拟登录浏览器和从网页下载数据组成的网络爬虫(Spider)。由于学生在登录浏览器时,需输入用户ID、密码以及验证码,其中验证码是一幅数字和字母的图像。因此,在设计中提出了一个基于Keras的卷积神经网络进行验证码自动识别。网络爬虫的框架如图1所示,Web爬虫得到的数据集示例如表1和表2所示,每天的日志数据量约4万条,包括的核心字段有用户账号、用户名称、登录时间、使用时长、IP地址、使用流量、行为详情等,表2给出经过处理后的数据集。

表1 学生上网数据集展示

图1 网络爬虫框架

3.2 基于机器学习的学生网络行为分类模型

学生网络行为可以根据不同的需求对行为进行分类。本研究将网络行为分为网络学习,网络娱乐两个部分,然后通过上网时间等数据对学生上网行为进行综合分析,并进行标记。处理后的数据集将保存到SQL中,如表2。Label为1代表上网行为好,Label为0代表上网行为不良,需进行预警。

表2 处理后的数据集

此外,网上学习的网络行为由两部分组成,专业课学习以及课外学习。判断依据为对专业课的关键词搜索以及相应的视频观看情况。研究根据学生上网浏览信息条数数据和观看时间进行程度等级划分,建立相应的数学模型。网上娱乐的网络行为分为社交、购物、娱乐视频、游戏、其他五种类型,并且在此类页面中停留过长时间。由于时长较难判断,所以主要是通过浏览条数来进行娱乐行为判断。然后将代表程度等级的结果来代替建立相应的数学模型。

上网时间是对学生上网行为的一个综合评价指标,因为时间的长短可以反映学生对于网络的使用情况,适当地使用网络有利于学生的学习和娱乐,而过度沉迷则不利于生活和学习。所以上网时间的选取一般是分时段、分时长来判断学生对网络的利用情况和分配情况,图2给出了网络行为分类的结构。

实验中采用了梯度增强决策树和随机森林两种方法,以便增加判断结果的可信度。采用方法程序运行时间如图5所示,梯度增强决策树算法花费的时间更少。对于每个算法,我们使用相同的参数集进行多次实验。模型的精度和曲线下面积(AUC)是每次迭代的评价标准,精度和模型AUC值越高,质量越好。图6、图7中水平轴表示算法运行的迭代次数,垂直轴表示算法的精度值和AUC。从性能图来看,随机森林(RF)算法的平均精度和平均AUC较高,即使稍高一点,梯度增强决策树(GBDT)的结果也更稳定。根据算法性能的准确性、AUC和运行时间综合考虑,梯度增强决策树是对学生网络行为分类的较好选择。

图2 网络行为分类结构图

为了对比结果,本文采用梯度增强决策树和随机森林算法两种方法对数据进行训练,梯度增强决策树(GBDT)是集成学习boosting的代表方法,随机森林(RF)是集成学习bagging的代表方法[7-9]。GBDT的主要思路是基于梯度增强和决策树的,思想是训练多个弱分类器获得一个强分类器,得到更好的分类结果[10]。利用损失函数的负梯度拟合,可以用GBDT求解一些分类问题;随机森林[11]是它从原始训练样本集中随机抽取n个样本,生成一个新的训练样本集,新的训练样本集用于训练分类和回归树(classification and regression tree,CART)。根据这一策略,我们可以生成M分类和回归树,形成一个随机森林。新数据的分类结果取决于每个弱学习者,最后一个分类是所有弱学习者投票最多的分类。

从流量数据中我们可以得到,学生每天产生100万条日志信息,可以具体定位到每个用户的上网行为轨迹,其核心字段有IP地址、终端类型、记录时间、行为详情。我们从中可以总结出一些学生上网行为的特点与规律:

战争年代早已远去,和平时期的军队没有经历过战场,没有经受过战火洗礼的军队,很难在突然发生的战争中发挥应有的实力。而全息投影则很好地解决了这个问题,利用全息投影模拟战场环境,为军事行动提供高空间感的仿真环境支持。这在陆军方面或许作用不是非常显著,但是在海空军中用来模拟飞机飞行,舰队行驶,不仅训练了参战人员的实际操作能力,还节省了使用真实装备进行演练的经费,减少了设备的损耗。

图3 训练模型流程

4 学生上网行为分析与结论

4.1 网络数据分析方法性能

在本文的实验部分中,我们利用网络爬虫获取学生的网络流量数据,并基于这些数据训练分类器,其中计费系统每天产生近4万条登录日志,包括的核心字段有用户账号、用户名称、登录时间、使用时长、IP地址、使用流量等。我们希望通过对用户行为进行分析与分类,这些分类器能够正确地对新样本进行分类,并及时发现学生上网过程中的需要及时注意的行为。

为了更直观地理解分类结果,我们提取了每个记录的一些特性,包括登录时间、注销时间和网络流量数据。这些特征以三维形式显示,不同类别的点具有不同的颜色。灰点代表学生上网过程中存在坏记录,需要辅导员和老师特别关注,黑点代表上网习惯的好记录,可以作为学生上网质量的评价标准。同时,图4中显示出学生上网行为的百分比。

图4 分类出学生上网行为的好与坏及百分比

如今的化妆品市场,增速已经趋于缓慢,我国化妆品市场正在从增量市场向存量市场转变,化妆品市场已经基本饱和,未来市场的增长将主要依赖于消费升级。老品牌升级换代进军高端似乎是必然的选择。

图5 GBDT与RF算法运行时间比较

图6 随机森林AUC曲线与精度分析

图7 梯度增强决策树AUC曲线与精度分析

4.2 学生上网行为分析结果

政策一:6月25日,财政部、税务总局和科技部三部门下发了《关于企业委托境外研究开发费用税前加计扣除有关政策问题的通知》,《通知》对有关税收优惠政策进行了明确。

综上所述,个人网络流量数据是评价学生网络习惯的重要指标。为了评估学生的在线习惯,本文通过对学生网络数据中提取的大量网络行为数据训练分类器,建立数学模型。新输入的数据被已经训练的分类器分类为正或负行为(即上网行为良好或者上网行为预警),最后为便于理解学生的上网习惯进行可视化数据处理,以期从微观的角度来探索网络行为与学生学业之间的关联关系。

(1)平均上网时间长,且较为集中。通过IP地址的统计,学生上网的时间主要集中在18:00以后以及课间。由于学生在校期间自由支配时间比较充裕,几乎每个学生都有手机,并且大部分学生都配有手提电脑,上网几乎是学生们的核心活动。

(2)上网形式比较单一,以移动接入形式为主。使用移动客户端的上网频率远高于使用PC端。在上网数据中,其中通过无线Portal接入人数最多,达到5000人次。其中,使用频率最高的是手机视频软件,其次是社交软件、网页访问、购物软件、应用程序,其中也包含对旅游、新闻、教育资源的访问。

《基础教育课程改革纲要(试行)》指出:“大力推进多媒体网络技术在教学过程中的普遍应用,促进网络技术与学科课程的整合,逐步实现教学内容的呈现方式、学生的学习方式、教师的教学方式和师生互动方式的变革,充分发挥网络技术的优势,为学生的学习和发展提供丰富多彩的教育环境和有力的学习工具。”有效地运用现代网络技术,可以使数学课堂的教学形式更加生动、形象,同时在运用网络技术的过程中,揭示数学知识的形成与发展,从而使数学的教学收到事半功倍的效果。

(3)上网缺少目的性,以娱乐为主。根据对网络日志的分析,我们发现学生在上网的过程中注意力分散,自控力差,并且没有集中在进行学习和研究上。其中以视频类为目的的占25.38%;18.51%为搜索引擎及导航类地址;大约40%的为在线聊天类、网购类、知识学习类等,网络为学生生活提供便捷和多种交流方式,大约有20%的学生基本没有通过网络进行知识汲取。

(3)上网辨识度低。大学生的好奇心比较强,他们对新事物充满新鲜感,在尝试中损害了自身利益。在样本中,大部分学生的上网行为都符合正常人的行为习惯,但是部分学生在下课时间浏览过赌博性质的网站、黄色网站、借贷网站等,但是不排除是浏览器恶意插件导致的,所以通过对比IP及其关联账号,可以定位这部分学生个人信息,及时反馈给学工管理处,时刻观察学生的生活情况,并且督促该部分学生改善上网习惯。

4.3 针对学生上网行为分析的建议

针对分析结果,在高校的教育工作者进行教育和管理的同时,本文也提出了一些建议:

(1)需要不断加强对学生网络管理的力度,学生的自控力普遍较差,学生沉迷网络环境是不可逆转的未来趋势,会对教育质量以及学生的学业造成影响。必须高度重视网络内容管理,营造良好网络环境,通过对学生网络行为分类及预警,减少学生不良网络行为的发生。同时,还要重视来自各个领域的反馈信息,争取提前进行预先疏导,从最大程度上提高大学生的网络免疫能力。

(2)学校及院系需要定期开展具有吸引力的文体活动,丰富在校学生的课余时间,一方面为学生提供展示自我的平台,另一方面对于学生依赖网络有较强的分散效果。既可以使学生愉悦身心,也可以使校园内文化氛围更加浓厚,杜绝不良网络环境对学生的影响。

(3)利用网络平台,正面宣传网络用途,多鼓励学生上网学习,做到劳逸结合。首先在网上开展丰富多彩网络学习活动,如网络知识讲座、网络知识竞赛等。引导学生进行有效地网络学习,获取专业养料。再次,促进网络教育与传统教育相结合,可以借助班会或集中教育时间来宣传相关网络知识,组建网络心理健康教育中心,定期开展系列活动。实行线上+线下的形式,一方面进行面对面交流,另一方面有老师在网络上进行辅导,满足不同学生的需求。

5 结论

本文主要以学生网络流量数据对学生上网行为进行分类与分析,并给出相应的分析结果和建议。在实现方法上,我们构建了一个网络爬虫框架获取学生上网数据集。然后对数据集进行处理,通过两种方法梯度提升决策树和随机森林对分类模型进行训练。最后,对这些分类模型进行比较,使分类结果可视化,挖掘出学生的上网习惯。通过对实验结果的分析及可视化便于学生查看在线记录,从而对学生管理提出相应的教学管理对策,该方法可为高效解决类似问题提供一种新的办法,有利于培养良好的在线习惯,辅助高校教育教学管理。

猜你喜欢
分类学生
分类算一算
垃圾分类的困惑你有吗
快把我哥带走
《李学生》定档8月28日
赶不走的学生
按需分类
教你一招:数的分类
说说分类那些事
学生写话
给塑料分分类吧