高校学生信用评分系统关键技术研究

2019-01-09 03:12:36段光强杨春明张晖

中国教育网络 2018年11期

文/段光强杨春明张晖

随着人民生活水平不断提高，社会生活方式呈现多样化，人们的价值观受到了严重的冲击，社会上制假贩假现象日益突出，出现了一定程度上的信用危机。这种现象逐渐蔓延到社会的各个角落，其中信用危机在高校也有不同程度的反映，使得我国高校大学生诚信教育遭到严峻挑战。因此，深入研究高校学生的信用评价体系，建立科学的高校学生信用评分系统也愈显其重要性，对于学校的发展、学生个人的成长乃至对整个社会的推动和促进都有着重要的意义。

目前，个人信用评分模型主要是运用在放贷机构评估贷款人是否违约，为是否贷款提供预测，减少放贷机构的不良贷款带来的损失，增加正确放贷带来的利益。经过几十年的发展，从最早的Fisher（1936）提出将总体按照不同的特征成分划分成不同的组的方法，到20世纪60年代信用卡的出现和快速发展，也影响个人信用评分模型的快速发展[1]。现在大多数学者使用基于统计和机器学习的方法构建信用评分模型，20世纪90年代以来，常见的模型有线性判别分析、逻辑斯蒂回归、决策树、朴素贝叶斯、神经网络、支持向量机、随机森林、提升树等[2]。近几年信用评分模型发展趋势和热点是组合型信用评分模型，将多种信用评价模型串行组合、并行组合或者通过bagging或者boosting等算法产生多个训练集，使用不稳定分类算法在数据集上建立模型，最终将结果适当的组合在一起。实验结果表明，组合模型能够有效的提高信用评分模型的精确性和稳定性[3]。

在个人信用评分中少有把高校学生当作受评价人群，王勤[4]提出了一套基于遗传算法和神经网络的高校大学生个人信用评价模型，通过调查表方式收集到的数据，数据的准确性和完整性有待提高和完善。为收集到高校学生真实、多方位、全面的信用数据，通过和西南科技大学信推办合作，收集到了近四年学生的基本信息、在校信息、缴纳学费、成绩、奖学金、勤工助学、缴纳贷款、违纪情况、一卡通消费记录、图书馆借阅和进出等多方面信息，同时采集集学生在贴吧微博等发表的言论信息作为补充。力争收集到学生的全面信用数据，使信用评分模型更加准确。

系统架构

高校信用评分系统的主要由三部分组成，数据采集与融合系统、信用评分系统、信用业务系统。

数据采集与融合系统主要完成信用数据的采集、存储、实体链接、冲突解决、深度知识发现。整体流程为：（1）从不同数据源（教务处、学工部、财务处、图书馆、一卡通、公寓中心、贴吧和微博等）采集到不同格式的数据；（2）将采集到的数据以Key-value键值对形式存储在分布式MongoDB数据库；（3）以学号作为学生实体唯一标识符，将同一学号的所有数据链接在一起，并删除重复的属性值；（4）解决第三步中存在同一属性具有多种不同的值或者多种名称的冲突问题；（5）结合先验知识，通过推演、关联分析等方法发现隐藏的深度知识。

信用评分系统主要将数据采集与融合系统得到的数据通过信用评分模型计算出每个学生的信用评分，并将评分结果存储在MySQL数据库中。

信用业务系统主要提供信用评分的展示和可视化功能。对学生用户主要提供登录、信用自查、守信记录和失信记录的展示、信用报告生成、提交信用佐证、信用问卷调查、信用小测试等功能。对辅导员等学生管理者提供信用查询、信用预警（通过设置阈值，信用评分低于阈值的学生将高亮显示）、信用佐证审核、信用调查问卷添加等。

高校信用评分系统的系统架构如图1所示，系统会随新数据的到来或者设置的固定时间节点，实时更新信用评分，保证信用频分的准确性和实时性。

图1 系统架构图

信用评分系统关键技术解决方案

基于D-S证据理论的数据融合与冲突

数据冲突是在多源数据融合过程中，不同数据源对同一属性具有多种不同值的情况。“数据融合”最早出现在军事上，将战场上的多种传感器采集到的数据处理、融合，得到有用的战场信息。随着工业的飞速发展，工业系统的复杂化和智能化，数据融合得到飞速发展[5]。数据融合根据融合层次分数据层、特征层和决策层[6]。为实现大数据融合，各领域出现了多种融合方法，但普遍采用3V(海量、高速、类型多样)特征下的集成方式，其需要的关键技术包括本体对齐技术、实体链接技术、冲突解决和关系推演等[7][8]。在高校信用数据融合过程中主要问题就是冲突解决。

在现有的冲突解决研究中，传统方法有基于贝叶斯模型、D-S证据理论和模糊集理论，近几年提出了基于图模型的方法[9]。虽然这些方法都在一定程度上增加了知识的确定性，减少了错误知识，提升了知识的置信度和可靠性，但很多数据或知识是随时间变化而变化，由于更新时间不一致、人为因素或者非人为因素，从不同的部门获取到的数据可能存在冲突和不一致的情况，上一个时间段正确的数据，下一个时刻就可能变成错误的[10]。例如在高校学生信用数据中，学生S从专业a转到专业b，教务处系统的信息已更新学生S的专业为b，但学工等其他系统学生S的专业信息仍然为a。现有的知识冲突解决方法缺乏对时间维度的考虑，无法适应随时间动态变化的知识冲突问题。因此提出一种添加了时间信任函数mt()的D-S证据模型。

D-S证据理论的基本原理：

设Θ是一个识别框架，基本概率分配：Basic Probability Assignment，简称BPA。在识别框架Θ上的BPA是一个2Θ→[0,1]的函数m，称为mass函数。并且满足：

其中，使得m(A)>0的A称为焦元(Focal elements)。信任函数Bel(A)定义为：

故Bel(A)为A的信任程度，Pl(A)表示对A的非假的信任度[9]，对于∀ A ⊆Θ，识别框架Θ上的有限个mass函数m1, m2, ..., mn的Dempster合成规则为：

其中K为归一化常数：

令tA为焦元A在一个数据源当前最近一次的更新时间节点，由于不同的数据源可能产生多个tA，选取其中离当前时间最近的tA1作为TA2，令时间信任函数mt()满足，当TA1≥TA2：

故改进后的合成规则为：

其中Kt仍然为归一化常数：

其实合成规则的本质并没有变化，修改后的合成规则相当于添加了一个时间数据源，把时间这一因素加入到合成规则中，以适应随时间变化而变化的数据。以学生S转专业为例，如表1所示，其中Belt()为添加了时间信任函数的信任度。

表1 证据结果

由表1 可知两次得到的结果完全相反，传统DS推断出来学生S专业为a，添加时间因素的DS推断出学生S的专业为b，故增加时间信任函数mt()后，提升了对随时间变化的数据融合的准确率。

基于层次分析与最近有效原则的信用评分模型

近两年信用评分的研究热点是针对信用评分原始数据的类别不平衡问题，即由于前期的筛选导致“好”客户的数量多于“坏”客户的数量，收集到的信用数据中“好”客户和“坏”客户分布就与原始数据空间分布不一致。陈启伟[2]等人提出从“好”客户（大类）中随机采样多份与全部“坏”客户（小类）等量的样本，分别与全部小类构成训练子集，然后用提升树模型训练，再把不同的数据集产生结果的均值作为最终结果。邵良杉[12]等人提出一种改进过采样算法解决类别不平衡问题。然而高校信用数据其不存在收集到的数据类别不平衡问题，因为能收集到所有学生的信用原始数据，所以这些模型具有的参考价值并不大。

1.模型选择

虽然在个人贷款方面的信用评估算法模型已经很多，然而针对大学生这一特殊群体的评价模型寥寥无几。经调研发现，信用评分模型顶层都是按比例分配不同权重到受评人的各个方面，以收集到芝麻信用、卡友、FICO（美国个人消费信用评估公司）的信用评分占比为例，如表2所示。

参考上面三种评分比例，以及信用也是动态变化和高校学生学期学年等特性，提出层次分析模型+“最近最有效”[4]原则的综合评价方法。

2.层次分析模型

表2 信用评分结构

图2 评分维度及影响因素

层次分析法(The analytic hierarchy process)简称AHP，是上世纪70年代由美国运筹学家托马斯·塞蒂（T.L.satty）正式提出。它是一种定性和定量相结合的、系统化、层次化的分析方法[13]。根据递阶层次结构定义，本文建立了一种高校学生信用评分模型为3层：最高层目标层O，中间层是维度层D（含五个维度，分别为信用历史、行为偏好、学习状况、身份特征、社交信息），最下层是影响因素F（含26种影响因素）。图2 是信用评分的五个维度，以及其下层影响因素。

令学生当前学年信用评分为T，行为偏好T1、社交信息T2、学习状况T3、身份特征T4、信用历史T5。综合芝麻信用、卡友、FICO的信用评分占比，以及高校学生特点，五个维度的占比如下：

评分过程主要分3个步骤：（1）对每一个维度的所有影响因素的重要性两两比较，构造两两比较判别矩阵；（2）计算被比较的因素在对于该维度的相对权重；（3）对矩阵进行一致性证明，如果不符合，则重新构造判别矩阵[13]。最终根据每个影响因素的相对权重和每个维度的权重，计算出学生当前学年的信用评分。

3.最近最有效原则

“最近最有效”是指在信用评价中，不能完全忽略一个人的过去，也不能将其过去表现与现在表现等同视之[14]，故当前学年信用评分所占权重应该更大。令i为学生的年级，为学生第i学年的信用评分(若不满一学年，仍然看做一学年)，学生信用最终评为为S。当i=1时，即大学学生S=N1，当i>1时：

当前学年的评分占总评分的60%，前一年的总评分占40%。这样既重视学生当前信用状况，也考虑了学生以前的信用情况，实现更全面的评估学生的信用状况。

评估结果分析

由于收集到的数据都是未标注数据，且评分系统才开始运行，也无法通过时间检验，得到评分模型准确率[15]。为了检验信用评分模型的准确率，将有违纪作弊、未按时缴纳学费、贷款等严重失信记录的同学标记为类别a；将未违纪且获得学业奖学金、国家励志奖学金等较权威的正面评价记录标记为类别c，按时缴纳学费、助学贷款、按时归还图书等守信记录超过30条的也标记为类别c。其余同学则标记为类别b。由统计结果发现，在收集到的3万多学生中，属于类别a的只有276例，属于类别c的共有1438例，其余均为类别b。本系统的信用评分所属区间如表3所示。

表3 信用评分区间

信用评分小于550的为类别a，评分属于550到699区间的为类别b，评分大于或等于700的为类别c。通过标记类别与评分模型得到的类别比较结果如表4所示。

表4 评估结果

结果表明评分模型对类别a效果最差，其次是类别b。经过查看原始数据发现，在类别a错误判断的63个人中，多数为是大三大四学生，其中多数人是在大一的时候未及时缴纳学费等原因，导致被标记为类别a，由于模型最近最有效原则，导致其评分并不属于a类。在b类判断错误的人群中，大部分是误判断为类别c，虽然判断错误，主要原因是未获得学业奖、国家励志奖等并不能判定其信用不是极好的，也可能是30条守信记录设置太高，学费和助学贷款正常情况下一年才一至两条记录，基本要到图书馆按时归还图书20多次，有一部分同学喜欢在自习室和寝室学习，并不喜欢在图书馆学习和借书。综上，由于标记的准则上存在一定的问题，按实际情况准确率应该高于87.51%。

本文研究并实现了高校学生信用评分系统，解决了高校学生信用评分系统基本空白的现状。针对高校信用数据融合中，数据冲突问题提出了增加时间信任函数的DS证据理论，根据高校学生这特定群体提出了“最近最有效原则”+层次分析的评分模型。为大学生的诚信教育、助学贷款和奖学金评定等提供了重要的参考价值。