张文青+穆晓静+傅钢善
编者按:随着教育信息化的不断发展,各种教育教学信息系统中存储的大量学生数据、学习轨迹、学习行为等信息急剧增长,这些数据集过大,难以被典型数据库软件共聚捕捉、存储、管理和分析的教育类“大数据”,目前已成为教育机构关注的热点,研究者们已经开始研究这些数据潜在的利用价值。学习分析作为分析技术的一种,也逐渐受到教育领域研究者的关注与重视。本专题研究立足于帮助教育工作者更好地了解学习分析技术,通过对伦理视域、Moodle平台下学习分析的研究,以及典型案例分析、平台建设经验分享,力求使大家能够认识学习分析的意义、掌握学习分析的方法,迈好大数据时代的数据“掘金”之旅。
摘 要:学习过程中涌现的大量技术使我们对学生学习过程的追踪、复杂学习行为的分析成为可能,学习分析也通过对学生数据的测量、收集、分析,为教师的干预提供依据,为学生的个性化学习提供技术支持。然而,在学习分析的开展过程中,数据的收集和使用面临大量的伦理挑战,其中包括隐私、所属权、人文关怀等问题。本文的目的在于梳理当前学习分析在开展过程中存在伦理问题,分析其研究现状,分享从中得到的启示,以期对后续研究有借鉴意义。
关键词:学习分析;伦理;数据挖掘
中图分类号:G40-05 文献标志码:A 文章编号:1673-8454(2015)09-0003-03
一、引言
随着教育环境中新技术的不断涌入,新数字设备的频繁运用,学习中的交互性与日俱增,碎片化信息的分享也无处不在,在线学习管理系统也收集了学生大量的个人信息和行为数据。若使这些信息和数据能更有效地服务于教育,学习分析的作用则举足轻重,它的应用也正在创造着教育领域的新景观。例如,可汗学院的ALAS-KA[1]学习分析服务可以提供课程层面和学生个体层面的可视化信息,帮助师生在学习过程中做出决策,在有效的指导下检测学生的学习风格。然而,在学习分析的进一步研究中,仍然存在很多问题,尤其是在伦理和实践方面。例如,Moocs的研究者一直在关注着论坛中学生观念的变化和知识的增长。指导公开发布交互数据的原则是什么?一个课程中的学习者应该同意数据的搜集和分析吗?种种质疑不绝于耳。
学习分析从社会网络分析、潜在语义分析、心理分析等领域中发展而来,(Ferguson,2012年)这些领域都有自己的伦理指南和行为规范,用以强调数据的所属权、隐私、用户是否同意等相关内容,但其并没有完整、明晰地勾勒出学习分析在开展过程中的伦理关怀和道德挑战。[2]所以,对学习分析中伦理问题的研究就显得颇为重要。
二、学习分析的教育意义
Siemens将学习分析定义为“为了理解和优化学习和学习发生的环境,对学习者的数据及其所处的情境进行测量、收集、分析以形成报告”。[3]新媒体联盟(NMC,2012)认为:“学习分析是以评估学生学业进展、预测未来表现、发现潜在问题为目的,对学生的大量数据进行解释的过程。”[4] Oblinger(2012年)将学习分析与商业智能、学术分析进行了区分,认为学习分析关注“学生和学生的学习行为,从课程管理和学生信息系统中收集信息是为了更好地促进学生学习”。[5]
在教育领域中,由于在传统环境中对数据的分析和反馈的处理方面经常有大量的操作延迟,所以以往对数据的使用往往是无效的。[3]而学习分析通过对学生数据的实时监测,可以有效缩短数据分析周期,为教师提供决策依据,优化教学,为个性化学习的推进提供支持。但是学习分析的意义绝不在于建立一所数据驱动的大学,教育的意义也绝不仅仅是研究教学方法与教学技术所带来的教学效果。真正的学习分析应该在关注学习效率的同时遵守数字时代的伦理要求,学习分析的意义不单单在于测量,而在于其本质上的一种道德实践。
三、学习分析开展中存在的问题
1.个人隐私的泄露与个性化学习间的矛盾
一方面,数字技术的进步使互联网给予了我们前所未有的自由,任何人都能畅所欲言;与此同时,万事万物都能被追踪,经过追踪,个人信息和行为显露无疑。英国伦敦政治经济学院教授理查德·桑内特说,例如Google和Facebook,他们唯一能够赚钱的方式就是披露人们的个性,更多挖掘人们的个人信息,及时找到与他们个人信息相关的邮件或者短信息。在英国,上千万认为Google跟踪了自己在线行为的受害者将形成人类史上最大的集体诉讼。在欧洲六个国家的数据保护机构将对Google展开联合法律调查。这一现象表明,个人隐私泄露造成的负面影响已不容小觑。
另一方面,大数据时代数据的真正价值恰恰体现在数字的“二次用途”中。学习分析通过对数据的进一步挖掘与加工,使优化学习者的学习及其学习环境成为可能,使教育中所倡导的个性化学习成为可能。个性化学习即根据长期网络应用轨迹,对所得数据进行挖掘、研究,从而为每个学生提供最合适学习的内容。Kobsa(2007年)认为学习分析和个性化学习的共同点是它们都需要收集用户的私人信息,并运用这些数据去提升个人的学习经验。[6]
2.数据所属权混淆和访问权限模糊
尽管线下的研究中数据的所有权是相当明确的,但是在互联网中数据的所有权却经常混淆,例如数据库、数据集、服务等很难找到其相应的国界或者所属机构。而且在课程中,学生经常会用到系统外的社交网络,由于这些网络不属于研究机构管辖的范围,其数据跟踪也有一定的困难。同时研究机构如何让学生了解这些数据的范围和属性,如何让学生知道发布在这些社交网络上的信息有被公开和被滥用的可能,这些问题困扰着我们。在实践中,由于管理、资金各种因素,很多有关部门都需要访问学生数据,这对数据的安全造成了很大的困扰,这些安全隐患能否通过清晰的访问权限来规避也需要进一步研究。
3.数据详尽记录的需要与人文关怀间的权衡
学习分析是学习者在一个特定时间和特定情境中的快照式的反应。若想更好地发挥学习分析的作用,学习者纵向时间上的数据和更为详尽的记录就显得颇为珍贵,这些数据若尽可能长久地储存则会使效果更加明显。但是如果学生的不良信息被永久性地记录,那么这些数据的存在则会对学生今后的生活构成潜在的威胁,使其陷入“一失足成千古恨”的窘境。忘记是人类基本的能力,人类历史上的一切事物都因宽容与遗忘变得更美好。正是由于这些数据的数字属性,所以应该允许学生申请删除不良数据,从过去的经验中反省和调整,而不是让那些过去的经验成为成长历程中永久的污点,让学生的个人档案变得“像数字皮肤中的纹身”[7](Mayer-Sch?nberger,2009年)那样挥之不去。因此用于学习分析的数据是否应该有一个双方一致赞成的研究期限,届时可以允许学生请求数据的删除,这是一个值得深究的问题。
四、伦理视域下学习分析的启示
学习分析在教育中存在的种种问题向我们提出挑战:我们既想发挥学习分析在分析学生时的潜能,又想正确应对伦理上的挑战,途径之一则是形成机构间的行为规范。例如Bienkowski(2012年)等人引用了在“美国家庭教育权利隐私法”(the U.S. Family Educational Rights and Privacy Act)的准备中所做的工作,澄清了数据集的访问与学生隐私需求之间的对立关系。[8]Petersen(2012年)提出要遵守美国联邦贸易委员会的公平信息实践原则,该原则包含知情同意,数据使用选择,在检测数据的精确性和完整性时个人的权利,预防越权的存取、使用,泄露数据,执行和赔偿的条款等等。[9]Slade和Prinsloo(2013年)提出一系列原则去指导院校在学习分析中处理伦理的相关问题。在立法机构与研究人员共同努力的同时,出现的非盈利组织也在保卫用户的数字权利。
在此笔者试图从数据的收集、测量、分析等方面考虑学习分析开展过程中的隐私与伦理因素,以期对学习分析能够得到更好更规范的运用起到借鉴作用。
1.数据的测量要遵循透明原则并取得学习者的知情同意
学习分析在教育领域的应用首先应该遵循透明原则。在研究过程中,学生的哪些数据要被使用、使用目的、使用条件、访问权利、个人身份保护措施等都要详细说明。教育机构有责任保护学习者在系统中的数据,有义务及时提示学习者系统之外存在的风险。
其次,在学习分析过程中我们应该考虑学习者的知情同意。Toch、Wang和Cranor(2012年)做了一份有关社交网络中因个性化而产生隐私风险的调查,结果表明,由于这些网站上发布内容会被呈现在朋友或同学面前,所以用户会感到潜在的不安。[10]也有研究表明,学生处于监视之下时,出于一种自我保护的意识,往往不会表现出其真实想法。因此,只有研究者和学习者双方一致认识到诚实和详尽的数据的重要性,才能实现最优的个性化,接受到合适的学习支持,获得最高的学习效益。我们建议,要在保证研究质量和保护用户免受危害之间取得一个合理的平衡。在学习分析情境中,如果没有特殊的原因,应向学习者取得知情同意,学生也应在制度的保障下、双方相互信任的前提下,表现出真实的自己。
2.数据的收集要严格控制传输、过滤过程,明确规定访问权限
在从分散的资源中收集数据时,所记录的学习者活动往往是分布式的,也由于系统中的数据量不足以准确勾画出学习者的学习行为,所以研究者倾向从学习管理系统之外的网站获得更多的学习者轨迹。但是系统之外的数据不易被跟踪,加之网络的分布式属性,我们不仅不能获得全部数据,而且所获得的数据还需要进行大规模的过滤,将看似无用的信息转化成与教育相关的信息。所以在数据的收集传输过程中不仅应该保证在不同的网站、不同的标准、不同的所有者、不同的访问水平下,不能放大错误,而且要严格控制传输、过滤过程,有效控制外部网络。
同时,数据的收集应在一个清晰规定的访问权限下进行。当访问权限不明晰,就会存在安全性威胁或者用户高度敏感的数据被泄露的问题,用户便不会信任该研究。研究机构必须对访问权限给予足够的重视。在最初的研究设计过程中,要对访问权限进行明确规定,清楚地描述出哪些用户允许访问、操纵哪一部分信息,用户也应相应地了解他们所能操纵的信息类型。相关学者针对学习分析的实践方法提出了“以学生为中心”的观点,[11]坚持“学生为中心”的学习分析,就应取得学生的知情同意,保证学生的相关数据不被越权存取;就应通过一定的措施保护学生数据的访问,避免未授权的人访问他们的个人数据。
3.数据的分析要摒弃固有的偏见与陈规,提倡学习者的参与配合
在数据分析阶段,构建系统化的行为模型就需要做出一些假设,比如假设学习环境是一成不变的,不同变量之间的联系也可能是假设的,当学习管理系统中处理一些错误和不完整的数据时,在模型的分析上就可能受潜在的偏见和固有陈规的影响;另外,学习分析的算法也不可避免地保留着文化上、地理上、经济上和社会上的偏见和成见。考虑到学习情境的不可复制和学生群体的差异性,研究机构应对数据分析的情境仔细斟酌,尽量杜绝偏见的存在,承认所收集的学生经验动态的数据并不完整,所分析出的预测模型和算法应避免直接的迁移。
学生应自觉地参与合作,与研究机构一起收集数据、做出决策,构建自己的身份,使学习分析更好地为个体的学习和发展服务。“以学生为中心”的学习分析建议学生作为他自己数据的联合解读者,可能的话甚至是收集和鉴定数据的参与者。唯有这样,学生才能知道他自己在系统中的行为,才能利用这些数据来反应或者改变行为。
参考文献:
[1]Ruipérez-Valiente, J. A., et al. ALAS-KA: A learning analytics extension for better understanding the learning process in the Khan Academy platform[J]. Computers in Human Behavior(2014), http://dx.doi.org/10.1016/j.chb.2014.07.002.
[2]Ferguson, R.(2012, March). The state of learning analytics in 2012: A review and future challenges (Tech. Rep. No. KMI-12-01) [EB/OL]. Milton Keynes, UK: The Open University, Knowledge Media Institute. http://kmi.open.ac.uk/publications/techreport/kmi-12-01.