王 雪
(浙江广播电视大学,浙江 杭州310012)
党的十九大提出了“办好继续教育,加快建设学习型社会,大力提高国民素质”[1]的战略要求,十九届四中全会指出“构建服务全民终身学习的教育体系”[2],《国家中长期教育改革和发展规划纲要(2010-2020 年)》明确提出,“建立学习成果认证体系,建立‘学分银行’制度”[3],学分银行是在终身学习理念下,为打通各级各类教育之间的壁垒,实现教育的横向沟通和纵向衔接,通过对学历教育、非学历教育产生的学习成果进行记录,并实现积累、转换的机制,为社会提供开放多样教育机会而建立的“立交桥”。建立起科学合理的各级各类学习成果认证、积累与转换的学分银行机制,这一机制的建设是促进全民终身学习的有力“抓手”,也是推进终身教育体系建设和人才培养“立交桥”搭建的重要途径和发展趋势[4]。而终身学习的学习成果通过“学分银行”进行转换,其对社会的显性价值是促进社会个体学历的提升,其隐形价值则是促进个体整体素质的提升,从而提高个体的生活满意度、生活质量,进而推动整个社会的发展与进步[5]。
自国家中长期教育改革和发展规划纲要发布以来,部分开放大学(广播电视大学)纷纷借鉴国外“学分银行”模式建设终身教育学分银行信息化平台。学分银行信息化平台是与学习者发生交互关系的窗口,学习成果的认证、积累、转换均需依托学分银行信息化平台完成,因此存储在学分银行信息化平台中的数据质量显得尤为重要。在现有的学分银行信息化平台中,平台往往只是功能性的增加[6],而无法确保学分银行信息化平台中录入数据的准确性与实时性,即在保质保量完成基础数据存入的同时,对存入数据进行深入挖掘,加强分析研判,及时、全面、系统、准确地反映成果及存在问题。在“互联网+”背景下,利用信息技术切实保障学分银行信息化平台存储数据的质量,切实为主管部门研判形势、科学决策等提供依据和参考,已成为学分银行理论研究者及实践探索者迫切需要研究和解决的问题。
在国外,通过信息技术构建的学分银行信息化平台已成熟使用。美国设立了校级学分银行,向学生提供多种学习记录的评估和成绩单服务;加拿大建立了开放学习部网站,学生校外课程项目通过学分银行机制将学分转入,从而免修相应内容的课程;韩国学分银行系统通过信息中心和在线服务,可以获得标准化课程和教学大纲,从而获得学位;英国构建资历框架信息系统,规范了信息技术和学习记录服务,为个人建立学习账户和存储个人学习记录;日本终身学习系统构建校级学分互认合作,应用于电视、广播、网络教学的远程教育机构。
在国内,各省市依托开放大学或广播电视大学搭建学分银行信息化平台,并存入相关数据。上海建立的学分银行业务覆盖普通高校、高职院校和成人高校及自学考试机构,截至2018年9月,上海市终身教育学分银行信息化平台实名开户学习者超过87万人,存入学习成果信息成绩信息6200 多万条[7]。浙江的学分银行覆盖了高等教育、社区教育、网络教育在内的学习成果存储认证体系,截至2018 年12月,浙江省终身教育学分银行信息化平台开户数共有650万余人,存储个人学习成果数累计2600多万条[8]。江苏的学分银行以各类学习者为服务对象,以学分管理为服务内容,建立标准体系,促进各类高等学历教育的互通,学历教育与非学历教育的衔接,截至2019年9月,江苏省终身教育学分银行信息化平台开户人数共计63 万余人,存储个人学习成果数117万多条,实现了学习成果的积累和转换[9]。
当前,各地学分银行信息化平台普遍存在学习成果的类型及来源异常复杂,数目更不计其数等问题。正如前文所述,浙江、上海等省市学分银行信息化平台开户的人数均以百万计,存储个人学习成果数更是以千万计,数据来源的复杂与广泛,导致在某种程度上存在一定的数据质量问题,保证数据质量成为当务之急。然而海量的数据,难以通过全人工处理来保障,在“互联网+”背景下,通过信息技术为主,人工抽样为辅来提升数据质量成为切实可行的方法,笔者认为可以采取以下几种方式进行。首先,利用智能与人工相结合的方式进行数据清洗,以去除冗余数据,筛选错误数据;其次,利用联网查询进行数据校验;最后,利用区块链技术进行分布式存储。
由于数据来源广泛,部分学分银行存储数据甚至有基本的格式错误,比如缺乏身份证信息,或是姓名信息存在明显错误等。针对这些数据问题,可以采取以下方式对于数据进行清洗。
1.通过开发数据接口统一数据格式
由于学分银行面向的是所在区域全部学习者,存储在学分银行的数据可能来源于不同的教育机构,然而,由于不同的教育机构信息系统各自为政,数据模型不尽相同[10],各教育机构信息系统存储数据的格式和字段千差万别。通过开发学分银行信息化平台数据接口,将数据转换为统一的格式,这样既可以实现数据的统一存储与查询,也为我们后续对于数据校验及清洗提供了基础。
2.通过制定规则进行数据校验及清洗
由于数据存在多种属性,可以利用数据的多种属性制定规则,并将规则使用在学分银行信息化平台中,以进行数据的校验和清洗。第一,需要判断数据是否完整,如果数据缺失了关键性的信息,比如说学生姓名或是身份证号码,可以认为数据是无效的。第二,需要判断数据格式是否有误。比如可以对于身份证信息进行位数检测,通过将身份证位数设置为18或15位,使用身份证编码规则,自动找出不合理的身份证位数数据,筛选出不符合编码规则的身份证数据。第三,需要判断数据值是否正确,可以通过检测是否超过固定阈值,是否存在拼写错误、属性错误、来源错误等判断数据的准确性。第四,需要判断数据类型是否合理,比如存储为数字类型的姓名,即可判断为异常数据。此外,数据还需要避免多值冲突,大多数情况下,每个字段存储的应该是单个值,若存储多值则造成矛盾,存在多值冲突的数据也可判断为异常数据。
3.通过制定规则整合重复数据
由于数据来源不同,同一个学生的数据可能通过不同的来源存储到学分银行,这就需要我们对于数据进行整合。通过制定规则判断相同数据,并将相同的数据进行合并。由于学分银行中的数据量大,所以在判断重复项时,可以采取排序和合并的方式进行。即先将学分银行中的数据按照一定规则进行排序,然后比较临近的记录,如果是一个用户的记录,就可以将记录进行合并,从而对重复数据进行整合。
4.通过算法筛选异常值与人工抽样核查相结合
在数据清洗过程中,可以先通过算法制定规则(策略)筛选出异常值。然后,对于筛选出的异常值,使用人工进行抽样进行核查。比如程序是通过百分制判断数据的异常,但是如果分数是十分制,50 其实是个异常数据。这时可以利用算法对于可能的异常数据进行推荐,可以通过均值与方差判断异常数据,比如说十分制的成绩数据中,相对于方差,50 其实远远偏离了分数的均值,可以通过算法确定其可能是个异常数据,然后通过人工检测的方式判断数据是否异常。而针对高维数据,可以通过PCA算法对于数据进行主成分分析,进而判断潜在的异常数据。
学分银行存储的数据可能因为种种原因存在错误或虚假数据。有些错误或虚假数据很难通过智能与人工相结合的方式找出并清洗。对此,可以通过数据接口利用互联网查询进行数据校验。比如,可以通过数据接口与公安网络身份识别系统或是支付宝等第三方系统进行对接,判断学习者的身份信息是否准确;可以通过数据接口与中国高等教育学生信息网进行对接,判断学习者的学历教育信息是否准确;可以通过数据接口与国家职业资格证书全国联网查询系统进行对接,判断学习者的国家职业资格证书信息是否准确。同时,我们还可以根据网络上公开的其他信息对于数据准确度进行判断,清洗学分银行信息化平台中存储的错误或虚假数据。
此外,通过联网查询,还可以跟踪学分银行学习者最新的信息变动,并对信息变动进行收集。比如学习者有了新的学习成果,我们可以更新相应的信息。通过学分银行内部的信息互联,以及外部的信息收集,可以有效保证学分银行信息化平台相关数据的真实性及实时性,进而提升学分银行信息化平台存储数据的价值。
1.区块链技术有利于海量数据长久存储
区块链技术集合了非对称加密、点对点网络、分布式数据库等技术,具有安全、透明、信息不可篡改等特点。区块链技术不依靠中心机构,采取数学方法建立可信任的分布式节点,形成去中心化分布式系统。通过区块链技术数据存储在不同区域,互为备份,共同维护系统功能,因此不会因为任一节点的损坏或异常而影响系统的运行及信息的记录,而在学分银行建立的过程中,积累了海量的学习成果信息,这些信息具有范围广、跨越时间长的特点,传统的方式不利于海量数据的长久存储,而区块链技术降低了学分银行海量数据长久存储的难度。
2.区块链技术可有效避免虚假信息存入学分银行
区块链的核心技术是非对称加密技术,非对称加密技术是指若信息由公钥加密,则只能由私钥解密;若信息由私钥加密,则只能由公钥解密。公钥和私钥都属于密钥,其中,公钥公开,私钥由所有者保管。学分银行信息化平台可以利用区块链的非对称加密技术,实现对学习信息的分布式控制,从而通过技术手段,避免虚假信息存入学分银行信息化平台。
通过非对称加密技术,还可以保证不同区域的数据安全可靠。这样即使中心信息丢失,也可以可靠的利用其它节点的数据进行数据恢复。再者,区块链的共识机制规定了数据一经记录就不可更改,杜绝了人为篡改数据的可能性。
3.区块链技术可有效保障数据传递的安全性
区块链的本质是一种加密的去中心化分布式账本系统,它可以用于登记和发行数字化资产、产权凭证、积分等。借助于区块链技术,可以实现对于学分银行信息分布式存储。学分银行信息化平台可以将大量的信息分别存储在独立的区块中。学分银行信息资源拥有者可以利用非对称加密算法中的私有密钥共享的方式决定存于区块的教育信息资源共享给那些特定的节点用户。节点用户可以不借助中介平台,直接点对点的对于信息传播。这样保证了学分银行数据传递的安全性。
同时,传统的中心化存储由于数据集中存放容易受突发事件影响,比如自然灾害或黑客攻击。因此需要大量投入人力物力财力建立安全设备。而通过区块链技术存储学分银行数据,数据分散在各网络区块中,可以有效降低平台的运维成本且保障信息的安全可靠。
学分银行的定位及功能,决定了学分银行信息化平台存储的数据必然是海量的,上海、浙江、江苏等地的学分银行先试先行,目前,已阶段性地完成了基础数据存入学分银行信息化平台的工作,而在实践探索过程中,各地逐步意识到学分银行存储数据质量的提升对于学分银行的良性发展的重要意义。本文基于此,提出了利用智能与人工相结合的方式进行数据清洗、利用联网查询进行数据校验、利用区块链技术进行分布式存储的数据质量提升策略,进一步推进各地学分银行的健康发展,更好地为广大学习者提供支持服务。