谢莉莉 翟志刚
摘 要:大数据在高校精准资助工作中的应用价值是巨大的,但在实际的使用中,仍然面临着现实、道德与技术的多重困境。为解决出现的难题,可从获取资源数据、分析数据、判断数据、数据安全等技术角度开展工作,推动高校精准资助工作的高质量发展。
关键词:精准资助;大数据;困境;技术诉求
中图分类号:G647 文献标志码:A 文章编号:1673-8454(2019)07-0001-05
社会公平的基石是教育公平。近10多年,我国的学生资助政策进一步完善,高校建立起一整套“奖助贷补减免”的资助政策体系,使“不让一个学生因家庭经济困难而失学”的承诺成为可能。在基本实现家庭经济困难学生资助全覆盖的同时,如何在资助工作中实现对象精准、需求精准、形式精准和效能精准成为高校学生资助工作运行机制中亟待解决的问题。
习近平总书记曾多次强调:扶贫工作要在精准扶贫、精准脱贫上下更大工夫。教育部在2015年召开的全国教育工作会议上明确提出“要提高国家资助政策的精准度,依托国家教育管理信息系统建设平台,确保国家学生资助、奖补等优惠政策真正落实到每一个需要帮扶的学生身上”。显然,高校的学生资助工作是国家整体精准扶贫工作不可或缺的一部分。随着信息通信及互联网技术的普及,大数据在教育领域的运用受到越来越多研究者的关注。通过大数据技术的运用,可以实现精准识别资助对象、精准判定资助需求和资助形式,以及精准控制资助效能的作用。[1]当前,大数据在高校精准资助工作中的应用尚处于起步和探索阶段,需要我们不断探索和积极应对使用过程中存在的各种难题,为提高精准资助工作的实效性奠定基础。
大数据与人们生活的方方面面紧密相连,对大数据的挖掘研究可以为高校精准资助工作提供便利条件。
第一,大数据时代浪潮推动了高校数字化教学管理环境的变革,为精准资助工作数据的搜集提供了有力保障。大数据是以容量大(Volume)、类型多(Variety)、存取速度快(Velocity)、应用价值高(Value)为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,并从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态。美国作为世界科技强国,提出“通过收集、处理庞大而复杂的数据信息,从中获得知识和洞见,提升能力,加快科学、工程领域的创新步伐”。[2]我国的大数据研究也从2013年起呈现爆发式增长趋势。高校利用其自身的技术环境,通过信息数据的交流及共享为大数据的技术运用奠定基础,掀起利用大数据促进教育改革创新发展的热潮。
第二,高校“智慧校园”的建设使大数据的搜集和挖掘成为可能,使精准资助工作支撑有了数据的依托。智慧校园“利用‘互联网+的思维方式和新一代信息技术手段,把学校各类信息化系统和资源整合为一个有机的整体,构建具有高度感知能力、协同能力和服务能力的新型信息化校园环境,深入融合渗透到教育教学的全过程”。[3]各高校启动的智慧校园建设,比如校园一卡通的使用,通过其身份认证、学费收缴、成绩查询、生活消费、图书借阅、门禁管理等功能的智能化运用所记录的海量数据,来挖掘出学生在经济困难程度、学习生活需求、兴趣爱好等方面相关数据,与精准资助要求相结合,构建模型,预测方法,为工作开展提供决策支持。
第三,高校信息服务平台的整合和数据共享的搭建,更有利于落实精准资助工作的汇聚共享与不同层级目标群体的定位。随着高校学生教育管理改革的不断推进,学生各项事务办理被逐步整合为一个统一服务平台。在这个平台中关于学生个人学习生活等一切方面的数据都被存贮、交换、共享和在线分析。这些数据客观、真实且全面反映了家庭经济困难学生的面貌和行为表现,通过数据关联分析可以基本掌握其行为特征,为高校精准资助提供一个崭新的认知高度。
那么,大数据在高校精准资助工作中的价值体现,笔者认为可以从三个方面进行考察。
一是优化资助体系,强化精准资助实现力度。资助方对资助对象信息的获取是实现精准资助工作的基础。精准资助要求,“找准资助对象,通过差别化的资助形式,提升资助目的与资助对象需求之间的契合度,最大程度发挥资助的效能”。[4]大数据作为考察学生家庭经济困难的显性表征,能够如实记录下学生学习生活信息,通过精准分析和科学预测,有助于精准资助目标的实现。
首先,大数据改变了过去学生信息采集的模型构建来源。过去学生按照资助方要求填写的表格,街道、社区办事处,及民政部门等出具的家庭收入证明材料不足以使高校在高强度的信息甄别方面能够精准锁定资助对象。大数据平台可以全方面、多层次地对学生群体信息进行收集、整合和互联互通。如校园“一卡通”的实现和校园学生事务中心在线平台的使用可以对海量数据进行挖掘分析,从而实现资助对象的精准化。其次,高校目前建立的“奖助贷补减免”的资助体系是在各自分散状态下独立进行管理的。不同级别、来源、性质的资助项目都是采取各自申请、审批、发放、监管的运行机制。在实际操作中,为了兼顾全局利益,资助资源是按照家庭经济困难学生人数比例进行切割的,这种自上而下而不是以学生个人需求为导向的分配方式会导致资助需求的不均衡性。大数据平台有效对接学生管理系统、资助系统、教务系统、财务系统等子系统,对有效信息进行读取识别,以资助对象需求为导向进行有区别的奖励性或补偿性资助。
二是提升资助效能,促进资助育人目标的实现。与社会上的扶贫工作相比,高校的资助工作不是单纯的扶贫和救济,其最终目标和任务是育人。[5]对于家庭经济困难学生来说,实现个人经济保障固然重要,但在自身需求满足之后,其个人的情感需求、尊重需求及自我实现的需求就显得不可取代。大数据平台通过对家庭经济困难学生的学习成绩、个人兴趣、实践能力、技能素养、就业志向等相关信息分析,使资助工作由粗放走向精准,为其有的放矢地对学生个人提供思想的引領、学习的帮扶和能力的拓展提供精准服务。
首先,利用大数据关注学生思想道德需求。通过大数据平台,对家庭经济困难学生的事实数据和行为数据行进搜集整理,针对诚信教育,励志、感恩教育的现状在学生中开展有针对性的校园文化活动,提升资助工作的育人功能,建立公平公正、积极向上的校园资助文化。其次,利用大数据关注家庭经济困难学生的学习状况。针对双困学生的现实困境,分析具体原因,采取具体举措,以促进学生的成长成才。最后,利用大数据帮助家庭经济困难大学生发现自己的兴趣特长,并辅之以线下对学生个人素质的拓展、能力的培养,从而为学生今后个人发展提供强大的动力支持。这种以生为本的评判标准,可以真正促进精准资助工作所能达到的最优效果,也是其自身价值的最大体现。
三是拓宽参与式资助,打造资助监管模式。大数据获取、存贮及分析的方便快捷化,使其成为人们进行决策支持的重要参考方面,这有助于拓宽参与精准资助工作的方式,从而形成协调发展的监管体系。首先,利用大数据公平公正的阳光操作,不断发展资助社团建设,充分发挥家庭经济困难学生的力量,使其参与到精准资助工作中来,成为学校与广大经济困难学生之间沟通的橋梁。其次,基于大数据分析做出的决策提升了资助的监管水平。一方面,动态化的监测使资助工作者能从多维度、海量化的数据中发现问题,从而进行预警和预控;另一方面,可以根据即时和关联数据反馈,精准监督资助工作开展情况,不断优化和改进工作决策水平。
大数据时代的出现对社会各个领域都产生了深刻的影响。高校资助工作领域,随着精准资助工作要求的提出,使资助工作者比以往更希望通过大数据的搜集来解决工作中面临的一系列棘手问题,从而推动精准资助工作的顺利开展。但是,纵观目前大数据在高校精准资助工作中的应用,仍然面临着现实、道德与技术的多重困境。
1.海量数据与资源相关性的困境
“大数据的明显特征是数据的社会化。从互联网到移动互联网再到物联网,人类以及各类物理实体的实时联网已经而且还将继续产生难以估量的数据。”[6]网上数据海量出现,为精准资助工作提供强大的支持,但是准确定位哪些数据是跟资助对象相关的并不容易,高校精准资助工作在应用大数据的过程中面临着海量数据共享、融合和分析的困境,即首先需要解决海量数据与数据资源相关性的问题。
近些年来高校信息化建设步伐加快,资助工作体系不断完善发展,纳入学生资助工作的数据范畴越来越广泛,学生资助工作的数据样本空间越来越大。比如,资助工作信息系统中随着历年来工作的开展,历史数据越来越多;随着高校信息系统的完善,诸如食堂消费记录、学生卡等学生行为的记录数据越来越丰富;随着微博、微信等社交软件的快速发展,学生发布在社交媒体上的文字、图片、视频,各类交易平台数据、位置数据等大量个人信息数据也海量出现。从这些海量数据中准确关联资助对象,或者说如何准确获取海量数据与研究客体之间的相关性对实现精准资助至关重要。
2.数据多样性与资源共享化的困境
找到与资助对象关联或者相关的数据后,如何处理这些数据、利用这些数据是面临的第二个问题。从网上获取的海量数据以各种形式存在,有结构化数据,有半结构化数据,还有大量非结构化数据,要把这些数据都处理成可以直接处理并对精准资助判断提供依据的数据需要一个过程,需要新的数据处理技术。
当今时代,数据的海量化和碎片化特征越来越明显。一方面,数据的形态千差万别,包括结构化数据、半结构化数据和非结构化数据。现代互联网应用呈现出非结构化数据大幅增长的特点,至2012年末,非结构化数据占有比例已达到整个数据量的75%以上,其处理技术完全不同于传统的数据库和数据仓库技术。另一方面,数据的来源各不相同。有机器产生的数据、人创造的数据、行为产生的数据及分享集中的数据等多方面。这些数据散落在高校、政府、企业各个系统的不同功能模块中。这些数据存储在不同的服务器上,导致数据之间标准不统一、功能不匹配,使各系统之间数据难以整合、衔接。因此,资助工作者亟需掌握有效的数据共享技术使海量的结构化、半结构化和非结构化数据兼容,深入分析数据,挖掘数据内涵,把握事物的内在规律。
3.数据关联性与准确性之间的困境
根据这些有关联的、经过融合以后能处理的数据,怎么准确定位资助对象是第三个需要面对的问题。假设一个班级所有学生都申请了某项资助基金,根据相关分析和数据融合技术已经获得跟资助对象有关的所有数据,但是这些学生哪些应该获得资助,哪些不应该获得资助;获得资助的学生应该获得那种程度的资助,还需要进一步的认定,需要新的数据挖掘来解决这类问题。数据挖掘技术可以通过数据抽取、清洗等技术手段来计算数据之间的相似性,但是大数据环境下传统的数据挖掘技术、数据仓库技术不再完全适用,需要研究新的数据挖掘技术来准确匹配资助对象的相似度。
4.数据应用性和数据安全性的困境
网络安全和信息化建设是一体两翼的两个方面,缺一不可,学生资助领域因为涉及个人信息、网络安全,尤其要重视数据安全,特别是个人信息数据的隐私保护。对于高校精准资助工作来说,大数据虽然在确立资助对象精准、形式精准等方面存在着各种优点,能够给人们提供海量数据,帮助决策者提高洞察力,帮助资助工作者对受助群体进行精准定位。但风险与优势是并存的,高校在获取信息的同时,个人信息被窃取的可能性也在增加,使个人隐私被侵害的可能性增大,这也是必须要避免的问题。
为解决上述困境,从技术角度,可以考虑从以下四个方面开展工作:
1.充分利用数据相关性研究技术获取资源数据
大数据研究中,“相关关系”和“因果关系”一直存在争论,但无论争论结果如何,大数据的相关性关系分析能对我们进行某项决策提供支持,数据之间的相关性分析也可以帮助人们更快更高效地发现事物之间的联系,有效地发现与度量相关关系仍具有重要研究价值,可以说,大数据相关分析已经成为大数据分析与挖掘的核心科学问题与关键应用技术。[7]
纳入分析的范围可以重点考虑文本数据,因为在众多数据类型中,文本数据是存储和交换信息最自然的方式,尤其值得关注和研究。[8]文本数据挖掘是数据挖掘中的一个分支,又称文本知识发现,是指从大量文本数据中抽取隐含的、前所未知的、潜在有用的、可理解的模式和知识的过程。[9]大数据时代,网上大量出现非结构化数据,人们处理和接触最多的就是文本数据这种非结构化数据形式,充分利用文本主题挖掘与关联搜索等技术,进行基于关键词的查询扩展,提高文本数据挖掘与相关性搜索的准确性。基本原理是首先通过文本解析提取、文本预处理和文本索引等手段对文本信息进行预处理,然后通过主题发现模型构建、模型参数计算等步骤建立基于潜在语义关系的主题发现模型,最后实现文本的主题关联搜索。
在具体的分析方法上,可以使用目前比较通用的一些定义和分析理论。用X,Y代表两个随机变量,首先分析一维变量,定义(x1,x2,……,xn)(y1,y2,……,yn)为X,Y的取值,n为样本空间大小。当X,Y均为一维变量时,可以视作样本的两个特征变量,则(x1,y1)(x2,y2)……(xn,yn)是n個样本在X,Y上的取值。进一步定义,X=(X1, X2,……,Xp),Y=(Y1, Y2,……,Yq)是p维、q维的随机向量,X1,X2,……,Xp和Y1,Y2,……,Yq分别是X和Y的特征值。定义E1为不知道X值预测Y值时产生的误差,E2为知道X值预测Y值时产生的误差,则:
PRE=(E1-E2)/E1
PRE值越大则表示X和Y的相关性越大,研究数据之间的相关性定量为研究PRE值的大小,这是一种适用于任何类型数据的相关系数。
以此为基础,可以进一步研究定类变量、定序变量之间的相关系数,得出相关系数层次图,再进一步扩展到多变量相关系数,最后研究基于矩阵计算、基于距离的相关系数等,从而通过对相关系数的研究获取数据之间相关性的定量分析和准确判断。
2.通过利用数据融合技术获取分析数据
大数据的一个重要特征即数据类型繁多。现代互联网环境除传统数据格式,还出现了大量视频、图像等非结构化数据,其处理技术完全不同于传统的数据库和数据仓库技术。通过各种手段获取了与研究样本关联的相关性数据以后,如何通过技术手段把这些数据变成能统一处理和分析的数据是要解决的第二个问题,有效的手段之一是数据融合技术。
大数据融合技术不同于传统数据库或数据仓库研究领域的数据抽取、集成、清洗技术,数据融合技术需要用动态的方式分析处理不同数据来源不同数据结构的数据,并将其转化为统一可识别处理的知识资源,形成知识库。知识库作为知识组织管理的一种特殊的数据库,是知识存储和计算的重要组织形式。[10] 高校精准资助研究领域中的知识库,代表着能直接对是否资助对象进行判断的数据资源,数据融合也就可以视为:如何从海量异构数据中,通过数据融合技术,获得能直接进行处理判断依据的数据资源知识库,整个过程可以称之为知识融合。
知识融合技术可分为知识评估和知识扩充,知识评估主要解决,在知识获取基础上从不同数据源获取的各种各样知识之间的冲突和不一致性,并从中找到真实的数据,可以考虑目前较成熟的几种知识评估方法,包括基于贝叶斯估计的知识评估方法、基于D-S证据理论的知识评估方法、基于模糊集理论的知识评估方法和基于图模型的知识评估方法。知识扩充是在知识评估基础上,将从不同信息源获取并验证为正确的知识更新到知识库中,与知识库中已有的知识进行关联与合并,从而扩充知识库,达到知识融合的目的。目前较成熟的方法包括实体扩充、关系扩充和分类扩充等。图1提供了常用的知识融合技术。
3.通过数据挖掘得出判断数据
通过上述步骤,获得与资助对象相关的数据,并且通过数据融合技术处理不同数据源的数据以后,下一步要解决的就是如何判断哪些对象应该进入资助名单,进入资助名单的资助对象都应该处于什么位置。大数据研究领域解决此类问题最自然而然的方法是数据挖掘,数据挖掘技术可以通过数据抽取、清洗后利用分类、聚类等手段准确匹配主体和客体,目前数据挖掘技术已经比较成熟。考虑到目前使用最广泛的访问控制技术是基于角色访问控制策略和模型(RBAC,Role-Based Access Control),可以通过研究基于角色的数据挖掘技术来获得通用的技术手段,也就是角色挖掘技术(Role Mining),即从已有的用户权限分配中挖出角色集合并实施用户角色分配和权限角色分配。
绝大部分的角色挖掘方法都是从无到有地进行构建,所有角色都是新挖掘出来的,而没有考虑事先已经存在的角色集合,这并不适用目前高校精准资助工作现状。而且现存的从已有角色集合的方法中提出的相似度定义均不满足交换律,可以采用的技术之一是最小扰动混合角色挖掘方法(HybridMiner)。[11]这种最小扰动混合角色挖掘方法虽然复杂度和效率并不是最好的,但是准确率却是最高的,考虑到目前硬件产品成本的下降,采用该方法是一个值得考虑的方案。
定义最小扰动混合角色挖掘:给定用户集合U,权限集合P,用户权限指派UPA以及已有角色集合DROLES;找出一个角色集合ROLES,并据此得到用户角色指派UA,权限角色指派PA以及角色继承关系RH,并得到新角色系统状态RC=
其中UPA?哿USERS×PERMS,即用户权限分配;UA?哿USERS×ROLES,即用户角色分配;PA?哿ROLES×PERMS即权限角色分配;RH?哿ROLES×ROLES,即角色继承。RC=
4.注意保障数据安全
大数据时代的到来会引发对大数据的盲目崇拜,随着对数据规模无止境的需求,会忽略对象隐私性的保护问题,因此除了在法律法规、政策制度上加强建设,还应该在技术上加以避免。
数据隐私的研究范围跟传统信息安全有所差异,传统信息安全研究的主要是信息及信息系统免受未经授权的访问也就是读操作,同样免受未经授权的修改也就是写操作,三个关键维度为数据的机密性、完整性和可用性,主要技术包括身份认证、访问控制、审计和密码学等。而数据隐私主要指个人等客体(也可能是组织)不愿意被外部获取自己有关的信息,主要涉及信息安全中的机密性,数据隐私自身研究的维度主要是数据的模糊性、隐私性和可用性,主要技术包括模糊化、匿名化和差分隐私等。
大数据带来的隐私风险包括前文步骤中数据收集带来的风险、输入融合带来的风险以及数据分析带来的风险等,针对复杂的隐私风险来源,应建立综合性的隐私管理框架,应至少包含隐私主动监控体系、隐私主动评估体系、隐私主动管理技术体系、问题系统体系以及法律法规体系等5部分,从而为实现大数据隐私管理提供技术支持。[12] 关键的技术可以采用匿名化技术、数据加密技术、差分隐私技术、隐私信息检索技术和问责系统等。
匿名化技术主要指隐藏或模糊数据以及数据源。加密技术即对数据进行加密,如果所有信息处理过程的所有数据都进行加密,则可以彻底解决大数据中的隐私保护问题,但密文域上高效的大数据处理新模式仍旧是现在研究的难点。无论匿名化技术还是加密技术,都是针对外部发起的攻击进行响应,面对新出现的攻击时则需要重新制定保护方法,解决方式可以通过研究差分隐私技术来缓解。另外从应用角度,在数据被查询时可采用隐私信息检索技术来大大降低隐私泄露的风险。最后还应该完善问责系统,记录用户数据的访问记录、修改记录等,问责系统不同于传统审计方式,工作流经过的途径都有可能要问责。
高校精准资助工作任重道远,在当前大数据的新时代,高校精准资助工作也面临着新矛盾,通过大数据研究领域中的成熟技术,在精准资助领域加以应用,通过相关性分析、数据融合、数据挖掘精确匹配,同时保护个人数据隐私,最后实现高校学生精准资助工作的高质量发展。
[1]吴朝文,代劲,孙延楠.大数据环境下高校贫困生精准资助模式初探[J].黑龙江高教研究,2016(12):41-44.
[2]Big Data Research and Development Initiative[DB/OL].[2012-03-29].http://www.whitehouse.gov/sites/default/files/microsites/ostp/big_data_press_release_final_2.pdf.
[3][4]張远航.论高校家庭经济困难学生的“精准资助”[J].思想理论教育,2016(1):108-111.
[5]张福友.关于普通高校学生精准资助工作的理路[J].黑龙江高教研究,2015(11):78-80.
[6]郭晓科主编.大数据[M].北京:清华大学出版社,2013:21.
[7]梁吉业,冯晨娇,宋鹏.大数据相关分析综述[J].计算机学报,2016(1):1-18.
[8]朱卫星,徐伟光,何红悦,李雯.文本数据主题挖掘与关联搜索研究[J].计算机科学,2017(s2):411-413,456.
[9]FELDMAN R,DAGAN I. KDT-Knowledge Discovery in Textual Database[C].Proceedings of the 1st Annual Conference on Knowledge Discovery and DataMining,1995:112-117.
[10]文君.知识库系统原理及其应用[M].上海:复旦大学出版社,1995:58.
[11]翟志刚,王建东,曹子宁等.最小扰动混合角色挖掘方法研究[J].计算机研究与发展,2013(5):951-960.
[12]孟小峰,张啸剑.大数据隐私管理[J].计算机研究与发展,2015(2):265-281.
(编辑:王天鹏)