戴 斌 杨赛男
(湖南环境生物职业技术学院,湖南 衡阳 421005)
在信息化时代,随着各行业对大数据技术的依赖逐渐加深,技术也迎来了新一轮的转型,整体朝着多元化的趋势发展,传统的教学模式也受到了影响。各大高校目前不能很好地适应这种环境,其课堂效率也是根据高校自身的信息化水平决定的。因此该文明确了目前现有算法的缺陷,并进行优化,对高校学生第二课堂学习行为数据提取进行研究。详细介绍了前期数据整理中的数据来源以及整理过程中所用到的格式变换,并在此基础上调整数据,使其更符合算法的要求[1-2]。从而得出一种基于多维正态分布的前馈分类特征提取方法,该方法能够更详细、精确地提取数据,及时补充缺失数据并进行高维映射,为了提取高校学生第二课堂学习行为的数据,高维特征采用前馈自适应调参这种形式来完成验证,并证实了该方法的有效性。
1.1.1 学生信息采集
由于当前的高校数据化程度与时俱进,因此,学生各科成绩均已列入高校云数据系统中。需要对该数据库进行分析,收集学生的第二课堂成绩信息,主要的收集方式是通过云端采集以及离线部署,数据收集完成后会形成专属于每个学生第二课堂学科成绩的Excel 表,然后通过自定义C++程序自动读取.xlsx 文件进行处理,同时将学生分为不同类别,包括有关第二课堂成绩的信息:x(各科目成绩)、z(各科目成绩学分)、加权平均分、平均分以及成绩方差等多个变量,见表1。
表1 学生成绩信息采集表
表1 为学生原始成绩数据,根据该数据可以计算学生平均分,如公式(1)所示。
式中:A为平均分;x1~xn为成绩;n为学生总人数。
计算学生的加权平均分,如公式(2)所示。
式中:x1~xn为成绩;z1~zn为学分;E为加权平均分。
最终计算出学生的成绩方差,如公式(3)所示。
式中:xi为成绩;S为通过情况;A为平均分。
1.1.2 学生行为信息采集
当前高校的信息化建设中,最早开始应用也最普及的技术是一卡通。其不仅能够作为学生的ID 身份,还能集校园中的各种功能于一体,且可以地用于该研究的系统中,可以从学校的现有数据库中提取学生的真实信息,以每学年作为阶段性考量单位,以每月作为时间考量单位,将这两项指标作为评估学生的月图书馆借阅数和学生资料查询次数。再划分一种以时间线为衡量方式的程序,记录学生在第二课堂的出勤次数,为获取学生去校内图书馆的信息以及校园网浏览的信息,采用C++程序读取学校的数据库,从而提取真实的数据。在学生类中细分出三项指标,分别为扩展图书馆月平均借阅量c、学生月资料查询次数d以及学生出勤次数e。见表2。
表2 学生行为信息采集表
1.1.3 学生其他信息采集
如果要精准化采集学生的其他信息,那么系统以bool值来定义学生第二课堂的通过情况,状态划分形式为二位二进制,通过情况共分为2 种:未通过为00;通过为01。为计算学生第二课堂通过情况的成员变量,将继续提取数据库中的真实信息,并通过C++程序进一步扩展学生类。见表3。
表3 学生其他信息采集表
1.1.4 源数据模型
从以上3 种采集形式可以看出,将学生进行抽象处理,划分为学生类,并将其进行扩展,在其中加入成员变量后,得到最终数据,见表4。在数据集里,该数据矩阵是形成最早的一项,如果需要完成网络训练数据集或预处理数据集,那么该源数据矩阵是其中的基础。
表4 源数据汇总表
该数据矩阵的大小为9×N,矩阵是最终模型的源输入数据,每个矩阵=每个学生源数据。表4 中,x为成绩;z为学分;c为扩展图书馆月平均借阅量;d为学生月资料查询次数;e为学生出勤次数;S为通过情况;A为平均分;E为加权平均分;D为方差。
综上所述,尽管每个源数据矩阵均为9×N,但属性大小都不固定,以加权平均分为例,其数据大小为1×1,此时需要结合学生的平时成绩与学分这两项维度,通过RBF 核函数进行映射,最终在高维空间确认是否与学生的两项维度相符。如果学生的成绩数据不够完整,RBF 核也可以采用映射的方式,将N维补齐,以保证最终数据矩阵的完整,大小仍为9×N。
根据针对x'=Xi,(i=1,2,...,n)每行学生信息向量,每行y'=Li,(i=1,2,...,n)学生信息数据向量对应的标签如公式(4)所示。
式中:x和y为原始数据的样本点;k(x',y')为RBF 核函数的输出,它是学生信息向量x'和y'之间的相似度或距离度量;φ(x')和φ(y')为通过RBF 核函数映射后的学生信息向量(x'和y')在高维特征空间中的表示;e为自然对数的底数,即欧拉数(Euler's Number);α为RBF 核函数的一个参数,用于调节映射后数据在高维空间中的分布。较大的α值会使映射后的数据分布更集中,而较小的α值会使数据分布更分散。
公式(4)代表的方法就像上文提到的映射法,能够具体映射到N维空间,其中α所代表的含义为Gamma 值(RBF核参数),能够计算高维空间中的个体元素,如公式(5)所示。
在该反馈方式的基础上,为了能得到全局最优解(各个参数),需要最优调整多维正态分布参数,调整方法为迭代算法。基于反馈的参数调整流程,如图1 所示。
图1 基于反馈的参数调整流程
阈值参数调整(正态分布):平均阈值(正态分布)μ,该值非常重要,不仅能影响网格训练细化程度,还能决定最终结果的精准度,要使阈值参数能够更接近最优值,可以尝试梯度下降迭代法,该方法通过对比计算机的2 种值(一个值与原先值)的结果,来观察最终呈现的效果是否为显性,结果是显性,就尝试预估方向(增量),结果不是显性,就尝试反方向(增量)。为得到最优值,需要进行不断迭代选择[3]。根据导数性质可知:正数函数为单调递增;负数函数为单调递减。如果要判断函数是否平稳,须明确导数值是否为0,为0 函数处于平稳状态。对fx关于x求导得到fx',可以看出,最开始的迭代次数为1 000,得到了μ值,而极值是在3.725 4 处达到的,当后续迭代次数持续增加到16 000 时,μ值发生了变化,在7.931 7 处时陷入了僵值。为了改变状态,采取二分尝试方法,取8 500 的中值(1 000~16 000),经过迭代后可以发现μ值所能达到理论最优阶段是在4.372 1 处,于是进一步改变迭代次数,分别取10 500 次与6 500 次,当增加迭代次数时,发现μ值出现了融合状态,而在减少迭代次数后处于欠融合的状态,此时继续采用二分尝试方法,取9 500 次的中值(8 500~10 500),μ通过迭代后最终值为4.762 9,继续改变迭代次数,分别取9 500~10 500 和8 500~9 500 的中值。根据上述方法反复尝试,最终得出全局理论最优值μ为4.6738,确定了μ为阈值参数(正态分布),见表5。
表5 阈值参数变动表
学生信息矩阵(归一化后)计算如公式(6)所示。
公式(6)为归一化处理法,将其运用到矩阵K中,y为学生信息矩阵K(待归一化);x为学生信息矩阵(归一化后);μ为平均值;Mmax为所有元素中最大值向量;Mmin为所有元素中最小值向量。
主要采用PCA 主成分法以及卡方检验等方法对文本大数据进行特征提取,但这两种方法只能运用于单一类的数据,无法精准有效地提取学生数据这类多元化的信息类别,所以最终结果不够具有科学性[4]。
为验证该方法的准确性,该文将某高校2018—2020 届学生作为试验分析对象,提取成绩、考勤次数、通过率、和月图书馆借阅数以及学生资料查询次等数据,获取了20 512 个名学生信息。最终选取2018—2020 届毕业生作为训练建模对象,测试对象为2021 届毕业生。其中顺利通过考试的学生为1,没有顺利通过考试的学生为0。为验证其模型精准度,提取2021 届的5301 名的毕业生数据,将顺利通过考试的学生划为正类,没有顺利通过考试的学生划为负类。
定义TP:正类—正类数,FN:正类—负类数,FP:负类—正类数,TN:负类—负类数。
为了使最终结果更具科学性,试验采取多次测试并得出结果:当四种人数(895、1785、3864、5301)作为测试集时,最高能达到98.17%的准确度和94.21%的稳定度,并且平均误检率与正、负召回率也都较稳定,分别是1.83%、99.12%和76.33%。具体数据见表6 ~表8。
表6 系统各项指标对照表
表7 各类算法预测准确率对照表
表8 各类算法预测负召回率对照表
由此可见,LSTM 网络与支持向量机和随机森林这类传统的学生学习行为数据提取算法相比,准确度更高,误检率更稳定,主要体现在4 个人数测试中。与其他相对冷门的算法相比,LSTM 网络的可塑性更强,扩展范围也更广,因此证明该算法在高校学生第二课堂学习行为数据提取方面具有很好的效果。
该文在多维正态分布的基础上,对某高校学生第二课堂学习行为数据提取进行研究,采取学生的常规数据信息:成绩、考勤次数和通过率,将这3 项数据作为数据源,进一步验证数据的准确性,并运用深度学习优化算法,构建了基于LSTM 优化算法的高校学生第二课堂学习行为数据提取系统,补充了月图书馆借阅数和学生资料查询次数等指标作为数据,通过学生行为数据分布进行区分,将应届毕业生的考试通过数据作为测试案例,试验结果证明该算法在高校学生学习行为数据提取方面具有很好的效果,对各高校具有非常重要的参考价值。