齐 静
(辽宁中医药大学图书馆,辽宁 沈阳110847)
近年来,国内外图书馆学文献中出现了一些“图书馆价值”“图书馆影响”类的研究成果[1]。读者利用图书馆资源,汲取营养,并转化为科研成果。图书馆的“价值”,能够在读者的学术成果中得以体现。专家学者试图将读者的学术成果、学习成绩与对图书馆资源的利用联系起来,进而体现图书馆“价值”[2]。因此,学习分析越来越多地被图书馆界特别是高校图书馆所重视[3]。
学习分析是近十年迅速发展的研究领域,它融合了学习、分析、人本设计等多学科。由于出发点不同,科研机构或专家对学习分析概念的界定存在一定差异。美国高校教育信息化协会认为,学习分析是利用数据挖掘、数据推断以及知识科学建模等技术,加强教师和学生对教学与学习的理解,为教育个性化提供有力的支持与保障的综合学科。学习分析协会(The Society for Learning Analytics Research,简称SoLAR)认为,学习分析就是测量、收集、分析和报告关于学习者机器学习情景的数据,利用它可以了解和优化学习和学习发生的情景。学习分析专家G.Siemens 教授认为,学习分析是利用先进的数据挖掘技术,收集和分析学生在整个学习周期中产生的各类数据,从而进行预测分析,客观评价学生的学习行为及其学习状态,最终达到合理干预的目的的行为。
目前多数专家学者普遍接受学习分析协会对学习分析的定义。笔者认为学习分析是通过获取学生的学习行为数据,利用统计学、可视化、人工智能等计算分析技术,发现影响学习效果的关键要素及存在“学习危机”的学生,进而寻找改善教学科研环境、提升学生学术成就的途径与方法,以便为学生提供富有针对性的服务。
自2011 年起,学习和知识分析国际大会(In⁃ternational Conference on Learning Analytics &Knowledge)每年都会召开,对学习分析技术发展起到了极大的推动作用[4]。学习分析协会因分析目的不同将学习分析方法分为描述性分析、诊断分析、预测分析和规范性分析。
除此之外,有专家学者将其他学科的研究方法引入学习分析研究,如社会学领域的社会网络分析法、内容分析法、学习行为分析法等。
目前国内图书馆学界对于学习分析的研究较少,尚处于起步阶段,因而缺少理论基础和实践经验。相较之下,北美高校图书馆在学习分析领域的研究起步较早,实践经验丰富。研究图书馆协会(简称ARL)是美国和加拿大研究图书馆组成的非营利性组织[5]。2018 年4 月,ARL 向其125 个成员馆发送了关于学习分析的调查问卷,并于同年9月发布了调查报告——《SPEC Kit 360:学习分析》[6]。该报告全面地反映了北美高校图书馆在学习分析领域的现状,对该报告的深入解读具有重要的借鉴意义。
《SPEC Kit 360:学习分析》的目的是阐明当前图书馆学习分析实践、政策和伦理问题,探讨ARL成员馆如何在收集和管理数据之间寻找平衡,以支持学习分析活动,并遵守职业道德承诺。为此目的,调查力求回答以下问题:(1)学术图书馆如何规划、实施和参与学习分析活动?(2)他们使用什么机制来维护数据安全和隐私?(3)在他们参与学习分析时遇到过什么道德问题?(4)他们是如何探讨并解决这些问题的?
调查报告主要研究了7方面内容:学习分析活动的参与、图书馆实践、图书馆与其他机构间的数据共享、数据保护政策、隐私政策和实践、工作规范、合作伙伴。报告共设置了43个问题,目前共有53 所成员馆对调查问卷进行了反馈,反馈率为42%。由于不是每个问题都要求必须回答,所以每个问题的回答率都不同。
报告内容丰富,覆盖面广。全文共159页,有3个方面的内容:调查结果、具有代表性的文档、选择的资源。调查结果部分详细介绍了本次调查的目的,以及接受调查的图书馆在参与学习分析活动、数据保护、隐私政策等方面的反馈信息,并提出了建议。具有代表性的文档部分,详细罗列了加州大学欧文分校图书馆等11所高校图书馆的隐私声明和政策原文;科罗拉多州立大学等5所高校的隐私政策原文;波士顿学院等8所高校的数据安全策略原文。选择的资源部分包括学习分析相关的图书、报告、期刊和政府文件等题录信息,学习分析相关组织名称和链接。
在ARL 官方网站的“出版物和资源”栏目下,读者可以方便地下载到《SPEC Kit 360:学习分析》调查报告的相关文档,并且是免费的,极大地方便了用户学习和研究北美图书馆学习分析领域近况。
报告收集了成员馆参与学习分析活动的实践、数据收集和管理、数据保护和共享、隐私政策等信息,着重分析了图书馆在学习分析领域的实践经验。报告对我国图书馆界研究学习分析具有重要借鉴意义。
53 所图书馆中,83%的图书馆参与了学习分析项目,近3/4的图书馆设置了专职人员。图书馆采取多种数据存储策略,常见的数据存储位置是中央数据仓库,其次是由收集数据的部门存储,还有的图书馆将数据存储在不同的学习分析库。负责管理数据库的部门多数是信息技术部门,其次是教务处或机构研究规划评估办公室。学习分析用户数据类型,详见表1。
图书馆捕获最多的是与馆员互动的数据,其次是馆藏资源使用数据。带个人标识符最多的是馆际互借和馆藏流通数据,其次是研究咨询、图书馆电脑登录等数据。图书馆各管理系统中的学生信息是识别学生权限的依据。馆藏资源使用等数据在产生时就自带个人信息,并非图书馆刻意而为。
图书馆实践部分研究了谁参与收集、分析信息,以及数据保留政策。45 所图书馆的工作人员参与数据收集,其中43 所图书馆馆员参与数据分析,89%的图书馆有专业支持人员收集数据,64%的图书馆有专业支持人员分析数据。所有成员馆馆员都忙于收集数据,缺少对数据的分析。
不到半数的图书馆设置了数据管理时间表或数据保留策略。仅有两所图书馆因学习分析活动修订了馆内原有的数据保留政策。公立和私立机构在数据保存政策方面没有明显差异。数据保存时间通常在3年以上,无数据管理计划的图书馆可能无限期保存数据。少数图书馆数据保留时间依据数据类型、收集目的不同而定,或者数据保留一段时间后,根据用户的活跃程度而定期删除。还有部分图书馆自身没有数据保留政策,仅遵循学校相关规定执行。
不到半数的图书馆与其他部门或中央数据库分享数据,20%的图书馆计划在未来6-12 个月内开始共享数据。通常图书馆会将数据分享到教务处、高校研究与评估机构或Unizin数据平台。仅8所图书馆制定了共享数据使用规则,少数图书馆利用共识性的限制规则来约束共享数据的使用。ARL成员馆与其他机构共享的数据类型见图1。
共享数据中欠缺读者与馆员互动信息,这可能与图书馆欲通过提供相关数据,以获得更多馆藏建设资金有关,也可能受院系或学校范围内的学习分析活动影响。少数图书馆还将本馆数据和其他机构数据进行整合挖掘,但通常要遵守学校的数据管理政策、道德规范,确保数据的安全性以及用户隐私。
图1 共享数据类型
未共享数据的图书馆首先考虑的是读者个人隐私保护问题,其次是人员紧张、缺乏资源等因素。很多高校并未将图书馆视为数据源,从未向图书馆提出数据需求,这也是导致图书馆未共享用户数据的一个因素。
报告还讨论了数据保护的政策和实践。常见的数据保护技术包括限制员工访问原始数据,删除直接标识符、限制数据收集范围和安全存储。少数图书馆利用传输过程中技术安全保护、删除数据或限制数据的保留等手段保护数据。目前数据保存周期普遍很长,说明图书馆未考虑到数据删除或者限制保留作为数据保护的必要策略。在匿名技术方面,多数图书馆选择删除所有能显示个人信息的数据。有的图书馆在收到数据前,其他机构或部门已经清除掉了数据中的个人标识符。
45 所图书馆有隐私政策,其中31 所有独立于学校的隐私政策。大多数图书馆政策与大学政策、图书馆相关的州法律以及美国图书馆协会的道德规范相联系。不到半数的图书馆隐私政策还参考了软件或应用服务条款、2001年《美国爱国者法案》(USA Patriot Act of 2001)、1974年《家庭教育权利和隐私法案》(Family Education Rights and Pri⁃vacy Act,简称FERPA)以及其他相关法律法规。
表1 用户数据类型
隐私政策的审查和修订普遍缺乏一致性。有的图书馆“按需”或“定期”更新政策,多数馆选择每年更新,少数馆2 至3 年更新一次,个别馆十多年未更新过隐私政策,也有少数馆在法律或相关政策变更时更新馆内的隐私政策。学习分析活动并未改变大多数馆的原有政策,仅有一所图书馆根据学习分析项目的需要创建了“图书馆数据使用责任”声明。
在项目审核方面,28 所图书馆的学习分析项目获得了院校评审委员会的批准。未获得批准的图书馆声明项目只用于非研究目的、图书馆内部使用或者工作改进,从而免于学校评审委员会的监督。当使用数据超出严格的内部范围时,图书馆会取得学生的同意,并允许参与者选择退出。
在日常工作规范方面,1/4 的图书馆制定了内部员工指南或文件。文件内容包括内部和外部培训、计划文件和说明数据访问级别的文件等。在处理数据需求方面,1/3的图书馆制定了处理数据需求的工作规范。在专业技能培训方面,参与学习分析项目的人员多数会接受特殊工具、IRB 和FERPA 隐私政策的培训,不少图书馆还提供数据可视化、数据安全性和处理等培训。
报告还研究了图书馆参与学习分析组织合作的情况。近40%的图书馆同时参与了学院研究室、写作中心、信息技术中心、教务处、评估办公室和本科生事务办公室等的学习分析项目。1/3 的图书馆正在与联盟合作,例如大西部图书馆联盟(Greater Western Library Alliance,简称GWLA)、三角研究图书馆网络(Triangle Research Libraries Network,简称TRLN)、常春藤联盟高校图书馆(Ivy Plus Libraries,简称IPL)、Unizin等。
Malcolm Brown认为学习分析的核心是收集和挖掘学习行为的相关数据,包括数据收集、分析、学习、受益方和干预5个要素;G.Siemens提出学习分析包括收集、分析、预测和调整几个阶段。综合以上观点,笔者将学习分析分为数据收集、数据分析、预测、信息反馈、干预5 个阶段,这5 个阶段循环往复。结合报告的调查结果,笔者设计了北美高校图书馆开展学习分析活动模式,详见图2。
图2 北美高校图书馆学习分析应用模式
第一,数据收集阶段。研究首先需确定目标,进而明确所需的数据类型。高校图书馆开展学习分析研究离不开图书馆这个环境要素,所需的数据类型一般为学生对图书馆文献资源的使用、图书馆空间资源的利用以及参考咨询等。不同数据类型隐含着学生不同的学习行为、兴趣爱好、科研方向及心理需求等。
第二,数据分析阶段。针对已选定的数据类型,寻找合适的数据分析方法和分析工具。学习分析工具既有可视化、数据挖掘等领域的通用工具,也有专门开发的学习分析工具。如Mixpanel Analytics是数据可视化工具,能够显示用户使用网站的情况,进行预测性分析;Userfly 能够记录用户访问网站的各种行为,进行可用性测试分析;Socrato 是在线题库学习分析工具,能够捕捉学习过程数据,进行诊断性分析;SNAPP可以从LMS中收集学生数据,绘制社会化网络图,以辅助教师掌握学生学习状态。
第三,预测和信息反馈阶段。预测阶段需要利用数据挖掘、数据推断以及知识科学建模等技术对学生学习行为进行预测分析,以期为馆员和教师提供学生实时的学习状态,对图书馆的利用情况等。反馈阶段编制分析报告,利用电子邮件、微信、QQ等交流平台反馈给学生、老师和馆员。
第四,干预阶段。图书馆主要可以从以下途径入手进行干预:(1)学科馆员嵌入式干预。学科馆员针对不同学生的问题,在课堂辅助教师实施嵌入式干预。(2)信息咨询馆员主动式干预。信息咨询馆员利用电子邮件、QQ、微信、微博等社交平台为存在问题的学生提供主动式干预服务。(3)图书馆环境要素调整。图书馆通过调整馆藏资源结构、图书馆空间资源等手段,提供更加符合读者需求的个性化服务,以提高学生的学习成绩和学术成果。
探讨数据安全和隐私保护问题需先对图书馆用户的个人信息的概念和内涵进行分析。学界没有针对图书馆用户的个人信息进行明确的定义,结合相关法律中个人信息的定义,笔者认为高校图书馆用户的个人信息是指用户从入学到离校期间,利用图书馆资源和服务过程中的所有痕迹。
5.2.1 数据安全保护
从管理层面看,图书馆制定了严格的数据存储、传输、使用、共享等的数据保护规范。采用多种数据存储策略,设置专职数据收集和分析人员,严格控制数据的访问权限;制定数据管理时间表和数据保留政策,定期删除失效信息;少数馆还制定了数据共享规范;定期开展数据安全技术培训,并积极引入信息安全技术人才。
从技术层面看,图书馆采用多种信息安全技术以保障数据安全。利用数据加密技术加密数据,使用数字签名技术和签名识别技术进行权限认证。采用数据匿名化技术保护学生的个人信息,如删除学号、姓名等。使用数据访问控制技术,防止非法访问和非法入侵。针对不同角色,设置相应的访问权限。
5.2.2 隐私保护
结合北美高校图书馆的实践经验,图书馆需对学生信息进行等级分类,实行分级管理,以保护学生个人隐私。具体包括:(1)一类信息,如学生的性别、年级、专业、入学时间等。这类信息不能指示学生个人,不会对其利益产生影响。(2)二类信息,如姓名、学号、身份证号等,这类信息能够指示到学生个人,容易损害学生的个人利益。(3)三类信息,利用大数据、数据挖掘技术分析出来的反映学生阅读习惯、兴趣爱好、科研内容、性格特征、精神和心理需求的信息,此类信息涉及个人敏感问题,对学生个人隐私存在严重的威胁。
针对不同类别信息,图书馆可以从两个方面实施保护:(1)法律法规方面。图书馆需结合国家、学校、行业内的相关法律法规制定符合本馆实际的隐私保护政策。如北美高校图书馆除了参考学校、州法律以及美国图书馆协会的道德规范外,还借鉴了《美国爱国者法案》《家庭教育权利和隐私法案》等。(2)技术方面的保护。首先,利用数据加密技术处理用户数据。其次,针对二类和三类容易暴露个人敏感问题、损害个人利益的信息进行数据匿名化处理。再次,利用数据访问控制技术限制对学生信息的访问与使用。
高校图书馆员的职业道德要求爱岗敬业、尊重读者,然而学习分析研究中常常会遇到一些可能侵犯读者个人隐私、暴露读者信息的道德问题。
首先,宣传时的道德问题。图书馆公开宣传时的透明度不一致,这就引发了道德问题。有的图书馆选择直接进行研究,并未向学生宣传或说明;有的选择公开学习分析研究,但未给学生提供退出的选择;极少数馆为不愿意参与的学生提供了退出的机会。
其次,数据存储、传输和共享中的道德问题。图书馆捕获的学生信息多数带有能够识别学生个人的信息,因而可能侵犯学生的隐私权。尽管图书馆利用匿名技术,删除了此类信息,但这并不意味着完全的匿名化。数据一旦被入侵者捕获很可能推断出学生个人信息,影响其个人利益。
再次,数据分析时的道德问题。学习分析目的是对学习行为进行预测,客观评价学生的学习行为及其学习状态,最终进行合理干预。这就决定图书馆在学习分析研究中需要针对某个学生进行跟踪式行为分析,然而这种研究行为又引出了道德问题。目前多数图书馆选择去除数据中能够标示学生个人信息的数据,以规避这类道德问题。
最后,数据反馈时的道德问题。图书馆利用学习分析过程发现存在“学习危机”的学生后,一般会把分析结果反馈给相关老师。学生的自尊心也许会因此受到打击,也可能影响学生在老师心目中的形象。由于尚处于起步阶段,目前北美高校图书馆大多还未遇到过此类问题。
作为信息和知识中心,图书馆也承担着教书育人的重任。高校图书馆更希望利用数据来反馈自身价值、提升服务。国内大多数图书馆还没有开展严格意义上的学习分析工作。笔者基于《SPEC Kit 360:学习分析》的解读,提出我国图书馆开展学习分析活动的几点启示。
我国高校图书馆应进行深入调研,以便找出本馆现有服务的不足,借鉴其他部门和机构的经验[7]。首先,图书馆需调研读者对本馆现有服务的利用情况,分析读者学习、科研中的需求。其次,图书馆应调查相关部门或已经开展该项工作的图书馆、图书馆联盟等。从事学习分析工作的多数是教学成果评估部门,并积累了大量的实践经验。图书馆可以借鉴其经验,合理设计用户数据类型,为日后共建共享数据打下基础。再次,调研商业性或开源的学习分析工具。图书馆可以从本馆实际出发,利用商业性或开源的学习分析工具,甚至是自行设计符合本馆需求的综合性学习分析平台。最后,图书馆也可以调研有意开展该工作的图书馆,并建立区域内图书馆学习分析共建共享联盟。
ARL成员馆收集学习分析的数据涉及多个方面,参与的人员需掌握图书馆各部门的业务知识,因此工作人员的选取就很关键。首先,根据本馆馆员从事工作的内容和预期学习分析工作的需求情况,确定从事该工作的人员数量,以确保不影响本馆各项服务工作。其次,依据制定的工作内容和本馆人员的专业技能水平,安排负责学习分析的人员。如收集读者数据的工作量大,而且工作随着新生报到、老生毕业等因素的变化而具有不定期性,可以组织不同部门的员工共同承担该工作。在不需要采集数据时,则各自从事本职工作。再次,合理安排专职支持人员。学习分析工作需要有人协调各部门人员参与临时性的工作,负责该项工作的整体推进。专职人员数量不宜过多,以免影响图书馆其他服务。
对ARL 成员馆的调查表明,多数图书馆组织了大量的人员从事数据收集,缺少对数据的分析,进而导致该工作仅仅处于初期阶段,没有真正发挥指导图书馆提升服务的作用。鉴于此,图书馆应该设立学习分析部门或工作组。从数据收集、数据分析、结果呈现到优化资源配置,每一步都由学习分析部门有力地组织与推进。
学习分析研究需要具有多种专业技能的人才。北美高校图书馆对员工开展的培训主要包括特定工具使用、隐私保护政策、数据可视化、数据管理与安全、数据匿名化处理等。鉴于此,我国高校图书馆也应注重组织专业培训,提高馆员的学习分析技能。首先,明确本馆人员存在的专业技能差距,然后制定适合本馆馆情的专业技能提升计划。其次,组织专业技术人员对馆员进行培训,也可以尝试派人参加国内外图书馆界组织的相关培训。再次,对于急需的专业人才,图书馆可以考虑从馆外引进。最后,本馆可以定期组织专业技能大赛和经验分享研讨会。
图书馆需制定学习分析活动相关规章制度,并定时或者周期性对制度进行审查和修订。制度内容应与学校政策、国家法律法规、图书馆协会制度相联系。当相关领域政策变化时,图书馆制度也应随之修订。首先,制定日常工作规范。学习分析工作涉及多部门,各部门只有严格遵循日常工作规范,才能够相互配合、沟通。其次,制定个人隐私保护政策。学习分析过程中会收集大量带有个人标识符的数据,处理这类数据可能会侵犯读者个人隐私。图书馆需制定详细的个人隐私保护制度。同时,图书馆应征求参与学习分析活动读者的同意,并阐述研究过程,使过程更加透明化。再次,制定数据处理政策。图书馆应明确数据保存时间、数据定期清理、数据共享、数据使用等规范,以确保数据的时效性、安全性。