基于朴素贝叶斯算法的高等学校贫困生识别方法

2019-06-19 01:07褚蕾蕾孟利霞夏光峰刘年生陈岩

中国科技纵横 2019年8期

褚蕾蕾孟利霞夏光峰刘年生陈岩

摘要：近年来，高等学校的贫困生认定工作已经成为高校工作中的重要组成部分。如何确保贫困生认定工作的准确性，已经成为促进高等学校教育的公平公正性以及确保大学生身心健康发展的重要条件。本文研究了一种基于朴素贝叶斯算法的高等学校贫困生识别方法算法，通过家庭情况调查表搜集高校所有学生的家庭情况数据，提取其中关键指标，再采用朴素贝叶斯算法进行贫困生的认定。采用实际算例进行分析，其结果表明了本文提出方法的有效性。

关键词：高等学校;贫困生;贫困认定;朴素贝叶斯

中图分类号：TP391.1 文献标识码：A 文章编号：1671-2064（2019）08-0054-02

0 引言

近年来，在高等教育越来越普及的情况下，一种典型的大学生群体越来越受到国家和政府的关注，即高等学校中的贫困生群体。如何保证高等学校中贫困生认定工作的准确性，是关乎高等教育公平公正，贫困生能否顺利的完成学业的关键问题。然而，现阶段的贫困生认定仍然存在以下问题。

1 现阶段的贫困生认定资助工作存在的问题

1.1 资助工作缺乏客观认定标准

目前的资助判定主要依靠纸质材料证明以及通过主观评价等方式来认定贫困生，这种方法存在着标准模糊，材料容易作假等缺陷，极其容易发生资助不精确的现象，典型的表现在于：（1）自身是非贫困生的被判别为贫困生;（2）自身为贫困生的被判别为非贫困生;（3）有些贫困生因为性格、自尊心、或是信息不流通等因素，没有参加贫困生的申请，导致了最应该被资助的同学没有被资助[1]。

1.2 资助工作缺乏后续跟踪机制

学生资助终止于贷款的发放，这样仅仅在贫困生的认定方面进行了工作，但是没有对学生拿到资助贷款后的行为进行采样，没有对资助金的使用和学生的具体表现进行跟踪分析，从而导致了资金的使用无法监督，也无法确保资助金是否体现了它的价值。

1.3 资助工作缺乏校用评价体系

现阶段偶有报道有学生拿到资助金后大肆挥霍的情况，相反，对于一些真正需要资助的贫困生却由于各种问题不能获得资助。如何来评定资助工作的好坏，保证资助工作向良性方面发展，也是当前的资助方法需要解决的问题。

近年来，机器学习理论的发展为贫困生的认定工作提供了一种基于事实数据的新思路。已成为新的研究热点。本文采用机器学习中的朴素贝叶斯算法对高等学校的贫困生进行认定。首先通过问卷调查采集高校学生的家庭情况数据，再抽取其中关键特征，以建档立卡学生的数据作为标签，使用朴素贝叶斯算法进行贫困生的预测。采用实际算例进行算法论证，其结果表明了本文方法的有效性和实用性。

2 朴素贝叶斯算法

本文采用朴素贝叶斯算法对贫困生进行认定。朴素贝叶斯中的朴素一词的来源就是假设各特征之间相互独立。这一假设使得朴素贝叶斯算法变得简单，但有时会牺牲一定的分类准确率。朴素表示特征条件独立;贝叶斯表示该方法基于贝叶斯定理。和决策树模型相比，朴素贝叶斯分类器发源于古典数学理论，模型所需估计的参数很少，对缺失数据不太敏感，算法也比较简单。理论上，朴素贝叶斯分类器模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此，这是因为朴素贝叶斯分类器模型假设属性之间相互独立，这个假设在实际应用中往往是不成立的，这给朴素贝叶斯分类器模型的正确分类带来了一定影响。朴素贝叶斯属于监督学习的生成模型，实现简单，没有迭代，并有坚实的数学理论（即贝叶斯定理）作为支撑[2]。

整个朴素贝叶斯分类分为三个阶段：（1）准备工作阶段，这个阶段的任务是为朴素贝叶斯分类做必要的准备，主要工作是根据具体情况确定特征属性，并对每个特征属性进行适当划分，然后由人工对一部分待分类项进行分类，形成训练样本集合。这一阶段的输入是所有待分类数据，输出是特征属性和训练样本。这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的阶段，其质量对整个过程将有重要影响，分类器的质量很大程度上由特征属性、特征属性划分及训练样本质量决定。（2）分类器训练阶段，这个阶段的任务就是生成分类器，主要工作是计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计，并将结果记录。其输入是特征属性和训练样本，输出是分类器。这一阶段是机械性阶段，根据前面讨论的公式可以由程序自动计算完成。（3）应用阶段。这个阶段的任务是使用分类器对待分类项进行分类，其输入是分类器和待分类项，输出是待分类项与类别的映射关系。这一阶段也是机械性阶段，由程序完成。

朴素贝叶斯算法如下所示，输入为训练数据D={（x1，y1），（x2，y2），（xn; yn）}， xi=（x（1）i， x（2）i…x（n）i ）T，x（j）i是第i个样本的第j个特征，y为x对应的分类标签，ck表示类别。输出为新输入x的分类。具体步骤为：

3 基于家庭经济调查的贫困生指标发展现状

一般采取基于家庭经济调查的贫困生指标数据进行朴素贝叶斯的学习。所谓家庭经济调查法是指各种不通指标的调查方法来确认家庭或个人是否有能力支付学生的教育费用，以此确认家庭或个人是否属于贷款资助的目标。国外家庭经济调查主要以收入和能力两条途径来考察其经济负担能力。几乎所有的收入状况调查方案不仅以收入作为前提条件，还考虑了其它一些参考指标，如职业类型，住房类型及居住地域，家庭汽车，家庭规模，子女的年龄、性别、种族等。其中，美国是以家庭收入作为贫困生认定的唯一标准，原因在于其完善的收入查证和收入税征收体系可以有效通报和监督居民的非劳动所得;德国采用“家庭经济调查”的基本依据是学生必须提供父母个人所得税的支付税单;日本将居民收入、资产指标与各种分类指标相结合，用以确定学生的家庭经济状况;菲律宾将收入和资产通报、一系列的分类指标与严格的收入和资产查证相结合，在贫困生认定上共同发挥作用。在发展中国家，非洲的乌干达主要依靠代理变量，如父亲的职业层级和拥有的交通工具等来衡量其家庭收入;尼日利亚助学贷款委员会使用一种四要素财产检测法，即通过父母职业、收入、家庭人口数和正在接受教育的子女数目来衡量家庭经济状况。在一些拉丁美洲国家，“家庭经济调查”十分严格，内容相当详细。在秘鲁，申请贷学金的学生甚至要家长接受面谈，内容涉及家庭财产及父母的收入能力，如房产、汽车和土地，父母的工作、雇主和工资收入[3]。

4 算例分析

以某学校为例，采集该校新进校学生的家庭情况数据共一万条。主要数据指标为：（1）父母职业;（2）家庭成员构成;（3）家庭是否存在患有重大疾病的成员;（4）父母中任意一方是否为残障人员;（5）是否为单亲家庭;（6）家庭是否负债;（7）近两年是否遭遇重大自然灾害等。

使用第2章所述的算法輸入数据，并使用建档立卡的学生数据和已知较富裕家庭的学生数据作为标签进行训练。训练完成后，选取除建档立卡以外的学生数据进行预测，分别预测其为贫困生的概率以及非贫困生的概率，选择概率较高的类别作为最终预测。同时，对这400名同学的家庭进行摸查，以确认真实情况。使用本文方法与随机森林以及支持向量机进行比较，检测精度如表1所示。正确率为被检测出的贫困生占实际贫困生的比例;误测率为实际的贫困生被检测为非贫困生的比例。可以看出，朴素贝叶斯算法较其他方法检测准确度更高[4]。

5 结语

本文研究了一种基于朴素贝叶斯算法的高等学校贫困生认定算法，通过采集学生的家庭背景数据，提取其中关键指标，再采用朴素贝叶斯算法对其中的贫困生进行预测，从而辨识出真正的贫困生。采用实际算例进行分析，其结果表明了本文提出方法的有效性。

参考文献

[1] 唐颖，李明江.数据挖掘在高校贫困生消费信息管理中的应用研究[J].湖南商学院学报，2011，18（6）：45-49.

[2] 李明君.基于数据挖掘的贫困助学金认定方法研究[D].华中师范大学，2017.

[3] 李珊娜.基于校园一卡通平台的数据挖掘应用研究[J].铁路计算机应用，2010，19（6）：55-58.

[4] 费小丹，董新科，张晖.基于校园一卡通消费数据的高校贫困生分析[J].电脑知识与技术，2014（20）：4934-4936.