耿曼曼(南京师范大学图书馆)
2011年,学习分析研究协会(Societyfor Learning AnalyticsResearch,SoLAR)举办“学习分析与知识国际会议”(International Conferenceon Learning Analytics&Knowledge,LAK),将学习分析 (Learning Analytics,LA)定义为“对学习者及其所在环境中产生的数据进行测量、搜集、分析和报告,以便理解和优化他们的学习及其所处的环境”。[1]学习分析是通过教育大数据对学习者的学习行为和学习能力进行分析,以帮助学习者获得更加个性化的学习方式。广义来讲,学习分析是将大数据、统计、机器学习、教育理论、心理学、认知科学、人工智能等融合在一起的一种研究方式。
近年来,在“图书馆价值”或“图书馆影响”研究的支持下,图书馆界出现了一系列研究成果,以确定学生数据中表达的图书馆的使用情况(资源、服务、空间等)与学生学习成果的相关性。例如,美国大学与研究图书馆协会(Association of College&Research Libraries,ACRL)领导小组通过一系列有影响力的调查、项目和会议实现对高校图书馆价值的宣传、展示和评估。[2]ACRL在2014年和2016年的高校图书馆发展趋势报告中分别将“学生成功”[3]和“学习证据:学生成功、学习分析、证书授予”[4]列为高校图书馆的重要趋势。为推动高校图书馆价值评估,ACRL从2013年到2016年开展的大型评估项目“行动评估:高校图书馆与学生成功”(Assessmentin Action:Academic Librariesand Student Success,AiA) 调查了图书馆在参考咨询、馆藏、教学指导、空间等方面对于学生学习/成功的影响,记录了高校图书馆促进学生学习与成功的方法、实践和策略。
实际上,图书馆价值研究与学习分析目标是一致的。使用学习分析,图书馆和学校可以描述(发生了什么)、诊断(为什么会发生)、预测(可能发生什么),分析影响或抑制学生学习的因素,并规定(应该怎样做)干预措施;学习分析的成功在一定程度上取决于学校内部信息系统连接整合的能力(如图书馆范围内的信息系统、汇总和分析学生数据等)。然而,随着学校和图书馆继续展示关于学生生活的细粒度数据和信息,学生隐私的风险也在增加。
笔者采用文献调研法在CNKI、万方等数据库中搜索“学习分析”相关文献,总结了国内学习分析研究的主要领域。① 国内外学习分析研究现状及趋势。潘青青等[5]、陈羽洁等[6]、牟智佳等[7]选取国外相关期刊、国际会议和权威数据库为样本,研究国外学习分析的现状及未来趋势;赵春鱼[8]、崔晓莺[9]、杨冰[10]选取CNKI为数据来源,研究国内学习分析研究热点。② 华东师范大学顾小清教授研究团队用学习分析技术刻画学习行为印记,[11]利用学习分析技术来促进教学和改进学习;[12]郑隆威等借助学习分析方法探究学习成果在认知维度上是“可测量的”;[13]胡艺龄等从追求教育收益的视角来阐述学习分析技术的应用。[14]③ 课程教学。卞少辉将学习分析技术引入大学英语混合式课程中,认为大学英语可以实现线上、线下教学优势互补。[15]④ 多模态学习分析。钟薇等从技术视角深入探究多模态数据的采集、处理和分析过程,从而拓宽学习分析的研究广度,推动多模态学习分析的新发展。[16]⑤ 图书馆应用。胡维青介绍了美国学术图书馆参与学习分析的实践及启示;[17]高霏霏构建了学习分析支持下的图书馆嵌入式服务模型;[18]杨景光构建了将学习分析技术应用于高校图书馆的基本模型。[19]
以有研究从不同角度探讨了学习分析的发展,但主要集中在教育学领域内,站在图书馆视角开展的研究不多,也并未涉及北美地区图书馆学习分析工作整体全景层面的介绍。2018年9月,北美研究图书馆协会(The Association of Research Libraries,ARL) 围绕学习分析对其成员馆展开调查,并发布调查报告《SPEC Kit360:LearningAnalytics(September 2018)》。[20]围绕该报告,笔者以ARL成员馆为调查对象,逐一访问其图书馆网站,调查隐私政策、学习分析等相关栏目(网络调查时间为2019年3月12日-5月10日),获得全面的北美研究图书馆学习分析的现状信息,以期为我国图书馆展开学习分析服务提供借鉴。
ARL是一个由加拿大和美国125个研究图书馆组成的非营利性组织,它们具有相似的研究任务、愿望和成就。ARL建立研究型图书馆之间的伙伴关系并促进集体努力,公开交流思想和专业知识,开展反映图书馆、学术和高等教育社区价值观的宣传和公共政策工作,促进具有公平性和多样性的知识创造,并实现持久和无障碍的信息获取。ARL成员馆积极参与新型学术交流模式的开发,每年在信息资源建设上的花费超过14亿美元,ARL发布的调查报告、立场声明、统计资料以及其他类型文件反映了北美地区图书馆在服务、技术、管理上的现状和未来发展趋势。
2018年4月30日至6月15日,ARL对所有成员馆展开调查,有53个成员馆回复了该调查,回复率为42%。调查的目的是阐明图书馆在学习分析方面的当前实践、政策和道德问题,探讨ARL成员机构在支持学习分析和履行职业道德的过程中,如何在收集和管理数据之间取得平衡。因此,调查表的设计包括图书馆如何规划、采用和参与学习分析计划,使用什么机制来维护数据安全和隐私,在参与学习分析时会遇到什么道德问题以及如何解决。2018年9月,ARL发布了,调查报告共159页,由调查结果、代表性文件、精选资源三部分组成:调查结果包括摘要、调查问卷和反馈、反馈机构;代表性文件分别就图书馆隐私声明及政策、学校隐私政策、数据安全政策三个方面列举一些大学图书馆和学校的政策,包含加利福尼亚大学图书馆、杜克大学图书馆、马里兰大学图书馆等24个机构相关网页的链接、截图和介绍;精选资源包括书籍、报告、期刊文章和政府信息,以及数据处理政策和培训。该报告包含大量的北美研究图书馆实践资源,通过该报告可以全面了解ARL成员馆学习分析工作开展的现状,对我国高校图书馆开展该类工作具有指导借鉴意义。
在53个响应的图书馆中,41个(81%)表示他们参与了学习分析项目,近四分之三的图书馆表示他们的工作人员已分配到这些类型的项目中。这种高百分比的图书馆馆员致力于支持学习分析的现状显示出图书馆对该工作的重视。关于学习分析数据存储的回复揭示了多种存储策略。最常见的数据存储是中央数据仓库(41个,占80%),几乎同样多的图书馆(38个,占75%)表示数据由收集数据的单位存储,近20%的图书馆表示他们将数据存储在不同的学习分析仓库中,20%表明使用其他存储库。
(1)收集数据类型。调查“图书馆收集的用于学习分析的数据类型以及是否包含个人标识符”,结果见表1。收集多种类型的数据大多需要图书馆工作人员参与,如参考咨询、研究咨询、课程综合指导等,有超过80%的图书馆正在收集这些数据;其次是资源使用数据,如数据库使用、电子资源使用等。图书馆收集的包括个人标识符的数据类型中最多的是馆际互借请求数据和纸本资源流通数据。
表1 “收集数据类型”调查结果
除表1中所示,还有其他不包含个人标识符的数据类型,如图书馆使用指南、利用代理获得许可的电子资源使用等。此外,还有部分图书馆表示他们所有的资源使用都需要个人标识符认证,但是不会收集数据或者只保留30天的记录。
(2)谁参与收集和分析数据。所有回复图书馆表示由图书馆员收集学习分析数据,图书馆员参与分析数据的有43个(96%),有40个图书馆表示非图书馆员工也经常参与收集学习分析数据工作(89%),但从事分析数据的人数较少(29个,64%)。
(3)数据保留期限。只有不到一半的图书馆(18个,38%)有保留计划或其他关于学习分析数据保留时长的政策。在有相关政策的图书馆中,保留期限因数据类型和收集目的而异,时间间隔从一个月(电子供应商数据)到十年(流通数据)不等;没有保留计划的图书馆更有可能无限期地保留数据。
不到一半的图书馆表示与机构其他部门共享数据或者将数据存储在一个中心仓储库中,20%的图书馆表明他们计划在接下来的6-12个月与其他部门共享(见表 2)。
表2 “数据共享”调查结果
有趣的是,最常与其他部门共享的数据主要是馆藏使用(纸本资源流通数据和电子资源使用)数据,而不是关于用户与图书馆员工互动的数据(见表3),这与表1中的收集数据类型最多的是需要图书馆工作人员参与的数据(如参考咨询、研究咨询、课程综合指导)不太一致。不与其他部门共享数据的原因主要是隐私和保密,其次是缺乏相应资源(如时间、人力)。除此以外,还包括学校没有学习分析计划、或者没有向图书馆请求过该类数据等(见表4)。
表3 “共享数据类型”调查结果
最常见的数据保护策略包括图书馆馆员访问原始数据权限控制、在数据记录中删除直接身份信息、限制数据收集范围和数据存储中的技术性安全保护,比较少的图书馆通过传输过程中保护数据、删除数据或限制数据保留的途径保护数据(见表5)。
表4 “不与其他部门共享数据的原因”调查结果
表5 “数据保护策略”调查结果
关于学习分析数据匿名化的问题,只有16位受访者给出了回答。部分图书馆依靠学校研究机构办公室为数据去除身份识别信息,还有的通过删除学生ID号、姓名以及屏蔽标识符来匿名化,或者为个人分配随机数,并在服务器上保留密钥以用于纵向分析。只有2个图书馆表示制定了学习分析数据管理计划,一些图书馆表示他们打算在未来12个月内制定数据管理计划。当被问及计划细节时,有几个图书馆链接到了针对研究人员的数据管理计划网页,没有迹象表明这些实践是否用于图书馆内部数据。
45个图书馆(90%)有隐私政策,其中31个图书馆的隐私政策与学校的隐私政策是分开的,主要参考学校政策、州/省法律中关于图书馆记录、美国图书馆协会的道德规范、软件/应用程序的服务条款、《美国爱国者法案》《家庭教育权利和隐私法案》。18个图书馆(42%)向学生介绍图书馆学习分析计划。然而,其中11个表明学生没有选择退出的机制或者任何形式的非参与选项可用。大多数图书馆(28个,70%)的学习分析项目获得了机构伦理审查委员会(Institutional Review Board,IRB)批准,特别是涉及学生身份ID号的数据。那些没有寻求批准的图书馆表示这些项目用于非研究目的,仅限图书馆内部使用或流程改进,所有这些通常都免于IRB监督。两个图书馆表示当他们使用超出内部审查流程的数据时,会获得学生的同意并允许参与者选择退出。
在政策审查和修订受访者方面,一些图书馆表示“根据需要”或“定期”进行更新,而无需进一步详细说明。值得注意的是,两个图书馆提到他们目前正在审查这些政策,以便在2018年进行更新,其他图书馆每隔几年审查一次,其中一个图书馆在法律变更时更新。大多数图书馆表示,学习分析并没有改变他们的隐私政策,只有一个图书馆为配合学习分析项目创建了“负责任地使用图书馆数据”声明。
除了了解有关数据处理和隐私的总体政策外,该调查还旨在了解针对图书馆内部工作人员的日常文档和培训,以帮助图书馆员收集数据并参与学习分析。其中,11个图书馆有内部工作人员指南和文件,包括内部和外部培训文件、规划文件以及指定数据访问级别的文档(未分析的数据、去身份识别等)。
参与学习分析项目的图书馆工作人员最有可能接受有关特定工具、IRB和FERPA要求的培训,一些图书馆也提供关于数据可视化、安全性和数据处理的培训,但7个图书馆(16%)表示图书馆员未接受过学习分析有关的培训。此外,部分图书馆还提供其他培训(见表6),如研究分析、研究方法等。
表6 “馆员学习分析培训”调查结果
(1)制定数据隐私和管理政策。电子信息技术和服务的快速发展带来数据的海量收集和处理,给现行法律和社会管理模式带来新的挑战。学习分析是一个新领域,与任何其他新技术一样,要将现有的道德和隐私方法应用于新环境中,还有许多工作要做。越来越多的研究者期待在学习分析与个人隐私之间找到平衡点,妥善解决伦理、隐私和数据保护之间的问题。[5]欧盟资助项目学习分析交流社区(The Learning Analytics Community Exchange,LACE) 提出DELICATE清单,指导相关利益者如何进行学习分析,并保证数据的安全和规范。[21]该清单包含8个行动点,希望能够成为教育机构揭开围绕学习分析的道德和隐私讨论神秘面纱的有用工具。
图书馆应制定数据隐私和数据管理政策,政策应以清晰、简洁和易懂的语言编写。该类政策包括个人信息收集声明、收集的数据类型、用途、谁可以访问、是否共享、用户权利、免责声明等,还应该包括实际实用的系统、修订历史记录、批准过程和上次审核日期,以及问题的联系信息等。任何学习者可以通过联系图书馆的学习和研究服务部门,要求删除他们的某些数据(如电子邮件或文本记录等),学习者需要提供他们的姓名、电子邮件地址、电话号码,以及他们交易的日期和大致时间,以帮助确定正确的记录以便删除。政策应酌情与其他管理文件相关联,例如学校政策、国家法律、图书馆协会道德规范等。
(2)公开隐私政策和学习分析计划。图书馆应该向学生公开隐私政策和学习分析计划,使其对用户更加透明。隐私政策的透明度包括与学生交流,告知他们收集的有关他们的数据以及如何使用这些数据。比如,加利福尼亚大学IRVINE图书馆、埃默里大学图书馆、印第安纳大学布鲁明顿图书馆、天普大学图书馆、华盛顿大学-圣路易斯图书馆、雪城大学图书馆等在图书馆主页都有专门页面介绍图书馆的隐私政策。[22-27]再比如,香港地区19所高校图书馆中的10所具有独立用户隐私政策,香港中文大学图书馆网站引用了学校的隐私政策,香港演艺学院图书馆直接引用了香港特别行政区的《个人资料(私隐)条例》,其余图书馆无隐私声明。[28]ARL调查报告中显示42%的图书馆会向学生主动介绍图书馆学习分析计划。
大陆的高校图书馆主页上基本没有隐私政策声明,表明国内图书馆还未将此列入工作日程,对隐私政策的重视程度远远不够。因此,大陆高校图书馆需要提升认识,借鉴欧美及香港地区图书馆经验,根据我国法律法规及行业相关准则,尽快开展隐私政策制定工作并予以公开,将用户隐私保护工作落到实处。
(1)提高数据质量,增加数据可信性。利用学习分析技术,将学习者的海量数据转变为有价值的知识信息,最重要的前提就是要保证数据质量,增加数据可信性。[29]如果数据不准确或者质量差,那么利用这些数据得出的分析结果以及方案都会在质量上大打折扣。数据质量问题的来源可能产生于从数据源头到数据存储介质的各个环节。① 在数据收集过程中,可能会因为系统设计的不合理或者人工干预导致获得的数据产生误差。② 在对数据进行分析和加工的过程中,有可能涉及对原始数据的修改,因此必须及时发现并改正错误数据,保证分析结果的正确合理。③在存储收集到的数据时,记录的学习者学习数据可能会因为学习平台自身的升级导致数据丢失、遗漏,或者由于保存时间过长而失真。
数据的生命周期包括数据规划、产生、处理、部署、应用、监控、存档、销毁几个步骤,并且是个不断循环的过程。随着图书馆业务的不断发展,系统产生的数据类型和业务规范不断变化,要制定一个完备的学习分析数据生命周期管理方案,并配备先进的设备和系统来管理数据,降低数据管理运营成本,提高数据质量和可信性,实现学习分析中数据价值最大化的终极目的。
(2)打造学习活动与学习分析相结合的综合性智慧学习平台。学习分析取决于学习者参与学习活动产生的数据。网络平台是学习活动得以开展的基础,如MOOC等平台可以帮助我们收集学习者数据。未来应该加大学习平台的开发,平台既能够支持学习活动过程的实时监控,也能够动态生成学习内容,既能够满足学习分析对数据的需求,也能够满足学生的个性化学习需求。[30]从图书馆的角度看,学习分析取决于数据,学习平台需要通过读取大量数据、数据统计、概率分析等方法获得智能处理能力,所以平台要建立图书馆学习数据中心,形成具有完全自主操作权的学习数据中央知识库,实现学习数据积累,摆脱对第三方接口的依赖。同时,学习平台要满足学习者个性化学习需求。设计和创建个性化学习平台,要考虑学生需要学习的知识及其学习方式,并允许学习者参与控制,便于对他们对自身学习过程的自我感知和自我调节,从而提高学习者的自主性和积极性。[31]
(1)对馆员的隐私政策培训。ARL调查报告中显示,在针对馆员的学习分析培训中IRB和FERPA的培训占比很大,表明北美研究图书馆在学习分析过程中将学习者的隐私权利和伦理道德摆在很重要的位置。要加强对图书馆员的隐私政策培训,首先要向图书馆员宣传学习分析中隐私问题和伦理道德的重要性,其次要让图书馆员理解制定隐私政策目的,再次要让所有工作人员学习并理解各级机构制定的隐私政策的详细内容,并知晓每一条款的含义。
(2)对馆员的数据处理技术培训。馆员要能够在保护学习者隐私的基础上,充分挖掘数据的价值,以及保护和共享用户数据。对馆员数据处理技术的培训包括:存储和运输等保护技术(如加密、访问权限控制等)数据最小化技术(如限制数据收集和设置保留时间等)、匿名策略等。
(3)对馆员的数据解读技能培训。学习分析的最终目的是优化学习者的学习,如果仅仅是对数据进行分析而不解读并采取措施,那么学习分析的效果将无从谈起。一方面,培训馆员有效解读分析结果的能力。对结果的有效解读可以起到点石成金的效果,而对数据的理解偏差与错误使用则会产生一系列的不良影响,更会影响图书馆决策的有效性。另一方面,依据分析结果采取措施。只有将分析结果转换为合理有效的图书馆决策才能够真正达到学习分析的目的,为后续教学活动提供足够的支持。[30]
近几年的“新媒体联盟地平线报告”中都提及了学习分析,预测了学习分析技术在教育教学中的重大作用。未来,国内高校图书馆不仅要为学生提供资源和服务,更通过学习分析优化图书馆环境、促进学习效果,助力学生的学业成功和未来发展,向上级部门、高校领导者、社会资助者和其他部门证明图书馆的价值。