何胜+周兵+李仁璞+熊太纯+郭丹
[摘要]大数据背景下,高校图书馆如何充分利用自身海量的数据资源提升教师的数据素养水平,是该领域面临的挑战性问题。首先综述了数据素养研究现状,结合大数据特征讨论“大数据素养”的内涵并给出其定义;接着依据高校教师的特点,提出以图书馆大数据平台为依托,在大数据意识培养、大数据能力提高和大数据伦理内化三个层面上对应开展教育培训,实践服务和虚拟互动三方面服务的“大数据素养”教育策略。基于图书馆大数据平台的方案能够有效地将大数据技术深入融合到数据素养教育中,帮助高校教师尽快适应当前大数据技术变革的要求。
[关键词]数据素养教育;大数据;高校图书馆;大数据伦理
十八届五中全会提出实施国家大数据战略,极大地推动了大数据在高等教育领域的应用研究。高校图书馆拥有丰富的数据和人力资源,是教育大数据应用的主要阵地。近年来,基于数据素养理论和高校图书馆资源,提高教师数据素养的相关研究,学界已经积累了一些研究成果。然而在大数据环境下,如何从海量资源中收集数据,发现知识,从而辅助教学活动,提高科研效率,完善自身专业发展,已成为当前教师数据素养教育面临的主要问题,相关的研究还比较零散,并缺乏系统的解决方案。
本文在综述数据素养研究的基础上,提出“大数据素养”的概念并探讨其内涵;针对高校教师“大数据素养”教育面临的问题,提出一种基于图书馆大数据平台的解决方案。
1研究现状分析
1.1数据素养概念和数据素养教育
国外学界将数据素养称为数据信息素养(Datainformation Literacy,DIL)。David Herzog认为DIL过程包括数据获取、评估、分析及可视化;Adam Beauchamp则将DIL简述为阐释、评价和传播信息的能力;JacobCarlson认为数据素养教育应涵盖以下能力:数据采集、转换、重用、分析和可视化能力,并应注意数据伦理规范;Tibor Koltay认为数据素养是关于获取数据、并能进行批判式的评价和利用的能力;Qin Jian强调数据素养教育过程中需要提升对科学数据的理解、利用和管理等能力。国内方面,黄如花等深入分析英美等国的研究现状后认为数据素养应包括数据意识、数据能力和数据伦理三方面内容;孟祥保讨论了科学数据素养(Science DataLiteracy)的3个层次,即具有数据意识,具备数据知识与技能,了解数据管理政策法规、数据伦理。
从以上分析可以看出,国内外学者对数据素养教育的概念及内涵解析并不完全一致,但基本上都涵盖数据意识、数据能力和数据伦理这三个方面的内容,并认为数据能力是关键要素。
1.2图书馆支持下的数据素养教育研究
由于图书馆拥有大量数据资源且数据服务人才高度集中,因而成为开展数据素养教育的主要机构。国外学界关注图书馆支持下的高校师生数据素养教育的实证研究。美国大学与图书馆研究协会(The Association of Collegeand Research Libraries,ACRL)认为,图书馆员有必要与高校教师开展合作,为DIL培育开发新的具有粘合力的课程;针对教师DIL的提高问题,加州大学洛杉矶分校的社会学系教师与图书馆员合作开展实践研究:教师负责科学方法论、专业知识教学,馆员负责数据采集、存储和管理的实用性技能教学,共同提高师生的数据素养。国内方面,张晨认为高校师生的数据素养教育将成为大数据时代图书馆的主要职能之一,并研究了数据素养教育的内容与方式;基于网络文献调查法等手段,黄如花等提出数据素养教育应结合图书馆资源平台,采取包括初级、进阶和高级三个阶段的分层次循序渐进的方式开展。邓李君等认为高校图书馆在数据管理、资源整合、数据描述、数据保存等方面具有较强的优势,专业讲座、个性化培养等方式是提升高校教师数据素养的有效方式。
国外学者着重探讨以高校教师和图书馆员相互合作的方式开展师生数据素养教育;国内方面力图跟踪国外研究进行理论探讨的同时,基于图情领域方法提出数据素养教育的具体措施。但是国内外研究存在如下问题:第一,偏重讨论有限数据规模下的数据素养教育,在如何结合大数据特征,针对高校教师提升“大数据素养”以适应大数据技术变革要求的角度,缺乏系统研究;第二,认可图书馆数据和智力资源对数据素养教育的优势,但是将教师和学生的数据素养放在一起讨论。由于高校教师和学生分属两个不同特性的群体,在素养教育方面的知识储备和能力水平存在不小的差异,有必要将二者分开加以讨论,才能使数据素养教育方案更有针对性;第三,对“大数据素养”教育的讨论大多还停留在方法概述和概念解析阶段,缺乏有效的设计方案。
综合以上分析,本文结合大数据理念和以往学界对数据素养的研究成果,首先分析“大数据素养”的内涵并探索性提出“大数据素养”的定义,在此基础上提出以高校教师为主体对象,涵盖大数据意识培养,大数据能力提高,大数据伦理内化三个方面内容的基于图书馆大数据平台的应对策略。
2“大数据素养”定义
“大数据素养”是全新的概念,现有文献一般讨论或解析大数据背景下的数据素养的内涵,尚未有文献直接给出“大数据素养”的定义。考虑到大数据虽然具有鲜明的特征,但其本质仍然是数据,也具有一般数据的基础属性,因而学界专家以往所提出的数据素养概念和内涵,对海量数据情景下的数据素养研究具有重要启发意义,所以可将数据素养的主要内涵“数据意识、数据能力和数据伦理”扩展为“大数据意识、大数据能力和大数据伦理”,同时结合大数据的“数据量大、多样性、增长快以及高价值”的4V特征赋予“大数据素养”新的意义。
本文借鉴国内外学者对数据素养的研究成果,着重从技术和应具备的能力角度,对“大数据素养”的概念做如下表述:“大数据素养”就是具备大数据意识,拥有运用数据处理和分析工具收集、整合、分析多樣化的海量数据资源,获取并应用高价值知识的能力,以及具备应付大数据伦理失范问题的道德规范和法律知识的伦理修养。
2.1大数据意识
如图1左侧框中所示,大数据意识包括资源意识、技术意识和安全意识。
1)资源意识。大数据是重要资源。云计算、物联网、互联网产生的海量数据,其中蕴含巨大价值,是重要的资源,需要通过信息技术或工具挖掘。高校图书馆资源包括:各种纸质资源,音视频等电子资源,各类数据库以及系统产生的日志数据等,这些数据需要整合并存储到有统一结构的数据库,是开展“大数据素养”教育的主要资源。
2)技术意识。大数据处理需要技术支持。由于海量、多样且高速增长的数据主要依赖技术手段收集、存储、分配、管理和分析,对所采用的工具及使用方法应有深入了解。学科服务是高校图书馆的主要任务,要求精准、快速提供检索服务和知识问答,涉及的技术包括:语义网,数据导航、云计算等。
3)安全意识。大数据安全刻不容缓。安全意识包括风险意识和法律意识。由于大数据的开放性,大到国家安全,小至个人隐私都面临泄漏的风险;因大量数据被盗窃和篡改、甚至被出卖而导致的损失,应有依据相关法律自我保护的意识。高校图书馆数据库中个人资料等数据,从访问日志挖掘出来的读者偏好等都属于个人隐私,应有清醒的安全保护意识。
2.2大数据能力
大数据能力包括大数据采集能力、分析能力和应用能力。
1)采集能力。从海量、多样的数据资源中采集数据,经过清洗后整合形成统一的结构化数据库。可以应用抽取一一转换一一装载(Extraction-Transformation-Loading,ETL)技术,将高校图书馆的各类资源采集并融合,构建统一的语义网知识库。
2)分析能力。基于所构建的结构化数据库,恰当运用数据挖掘工具,包括各种分析算法和工具软件,进行快速、精准的知识检索,实现个性化推荐等。
3)应用能力。应用数据导航和可视化等工具实现学科知识导航,应用社会网络和语义网络分析工具分析学科发展趋势,提供智能决策等。
2.3大数据伦理
从思想和实践层面上,将大数据伦理概括为道德规范和行为准则两个方面。
1)道德规范。海量、多样、快速、高价值特点,融合自由、合作、分享等时代精神,使得大数据具有极高的开放性,由此引起的安全和隐私保护问题,需要从思想上内化为使用者的道德规范,其中包括道德观念、道德准则、道德行为、道德评价等方面。
2)行为准则。在数据采集、数据取舍、数据使用过程中,有关大数据预测和预防性保护、数据独裁与唯数据论、人性自由与外部约束等伦理问题,需要在实践应用中对使用者行为加以约束,如采取技术保障手段和制定法律条文等。
从以上的分析还可以看出,大数据意识是认识层面,要求认识到大数据的价值,以及数据管理不善可能带来的危害;大数据能力是核心内容,是数据素养提升的关键要素;大数据伦理在具备基本的数据意识和拥有一定的数据能力的基础上,使用者应持有的道德规范和应遵循的行为准则,是大数据素养的高级阶段。
3高校教师“大数据素养”教育策略
依据百度百科的描述,策略是指“不同的条件下,为达到不同的结果所采用的方式、方法、媒体的总和”,本文策略研究聚焦于当前大数据环境下,针对大数据素养教育所要达到的要求,图书馆在提升高校教师大数据素养方面应采取的方法和手段。
本文提出一种基于图书馆大数据系统平台开展数据素养教育的方案。因为大数据平台能快速地整合海量的教育资源,以培训方式提高教师的大数据意识;能有效地基于平台中集成的工具软件进行自我实践,从而提升教师大数据技术能力;能持久地与图书馆馆员互动,长期获取大数据伦理知识并逐步内化为个体特质。另外,相比于其他受教育的主体,高校教师一般具有较高的知识水平和较强的动手实践能力,经过培训后,能够较快地适应大数据平台的各种互动方式。
3.1图书馆大数据服务平台
图书馆大数据平台架构一般由数据采集、数据存储和数据服务几个部分组成,为了实时处理海量数据,一般采取云计算分布式计算平台;为实现学科知识库精准检索和提供个性化服务,可采用语义网技术构建大规模知识库。这是一种以大数据素养教育为目标的大数据平台(如图2所示)。该框架包括数据采集与清洗,数据存储和图书馆大数据服务与应用三个部分。
数据采集与清洗。相关技术采用Hadoop的云平台及分布式数据库技术(MySQL和MongoDB)。应用语义网和本体技术,从互联网、物联网资源(包括博客,微博,微信公众号,新闻网站和论坛以及语义网知识库等),图书馆资源(包括学科专业数据库,书目库,专利库,OA资源等)中抽取教育资源、学科数据等,并进行数据清洗。
数据存储。采用D2R Server、D2RQ等工具对不同的数据集关联,构建教育资源、图书馆关联数据,语义网学科知识库和互动交流基础数据库,并存储于云平台上的MySQL数据库或MongoDB数据库。
图书馆大数据服务和应用。开发Web应用系统,并通过数据库访问接口获取数据,应用数据挖掘和机器学习技术,获取高价值知识,提供面向教师的教育培训,实践服务和虚拟互动等应用。
3.2大数据素养教育策略
如图2所示,结合大数据意识培养,能力提高和伦理内化的目标,分别采取教育培训、实践服务和虚拟互动的形式开展“大数据素养”教育。以下主要从教育方式和内容两个角度,结合图书馆大数据平台,面向高校教师讨论大数据素养教育策略。
3.2.1大数据意识培养
教育形式。在圖书馆大数据平台上,以在线课程与讲座视频为主,通过在线课程、MOOC,微课,视频点播等不同媒体,开展一般性内容的基础讲座和个性化内容的专业讲座,为教师提供大数据意识的培养。大数据平台的优势在于,海量的存储空间能存储巨量的课程资源,高速的云计算平台能使课程和各种视频的播放非常流畅快捷。
教育内容。①资源意识。识别大数据资源的类型,了解自己领域相关的科研和教育资源获取方法;②技术意识。认识大数据处理和分析的一系列的方法和技术的背景,以及不同技术的适用范围;③安全意识。认识到各种教学和科研资源(包括版权)使用规范以及个人隐私保护的意义。
3.2.2大数据能力提高
教育形式。通过对图书馆数据资源的收集、整合和分析等实践活动,以及使用平台所提供的知识检索、个性化服务和数据导航等服务,密切与平台互动以提高自身技术能力。大数据平台的优势在于,高校教师可以自设情境,自行实践包括知识检索,体验知识问答和个性化推荐等技术和服务;能充分体验到大数据平台中精准的知识检索,丰富的导航与可视化效果。
教育内容。①采集能力。对不同类型格式数据的收集入库,数据格式的相互转换,数据存储以及应用相关工具将不同类型的数据库整合成统一结构化数据库的能力。②分析能力。应用平台提供的软件工具和搜索引擎检索学科知识,实践个性化定制知识,体验个性化推荐服务;应用可视化工具创建数据导航和知识地图,显示数据演变过程和知识脉络关系等。③应用能力。根据数据导航,知识地图以及个性化推荐的结果,理解知识来源、知识流动和知识汇聚的脉络,跟踪科研动态,预测学科发展前沿。
3.2.3大数据伦理内化
教育形式。通过建立在大数据平台上的各类虚拟社区和互动论坛(如新闻社区,BBS论坛等),在图书馆馆员的主导下,开展互动交流:包括教师之间互动、教师和館员的网络互动等,并通过社交网络分析工具对交流内容进行分析,以发现热点主题并跟踪热点内容。大数据平台的优势在于,应用语义网检索工具能快速精准获取互联网上的相关资料,及时提供到论坛,供教师学习和参考;应用平台上的大规模网络实时分析工具快速发现论坛新的热点话题并加以引导。
教育内容。①道德规范。从海量数据资源中提取有关大数据道德规范的文档,视频,热点评论等资料,并与教师互动。②行为准则。提取有关国家数据管理政策法规、数据伦理等知识,分享并讨论,帮助教师逐步内化为具有自我约束力的个体行为规范。
4结束语
本文探讨的“大数据素养”的内涵是以意识为基础,以能力为核心,伦理为升华的有机整体,因而针对性提出先培训意识,再实践能力,最后内化为伦理的大数据素养的养成思路。
“大数据素养”有着丰富的内涵和深刻的含义,考虑到大数据应用非常依赖信息技术手段,本文提出的“大数据素养”的定义,偏重从技术和应具备的能力角度解析和探讨。基于其它视角的讨论,是本文后续研究重点关注的内容。