张路路,张 群,b△,贾 洁(江南大学 .图书馆,b.教育信息化研究中心)
伴随着科学研究第四类范式——“数据密集型科学”的来临,科学数据成为国家科技创新发展和经济社会发展的重要基础性战略资源,[1]收集、创造、分析、利用、保存、共享数据的能力成为科研人员需具备的核心能力。为进一步探索数据素养的内涵,评测用户的数据素养,加强数据素养教育,本文对国内外数据素养评价研究进行了调研、分析,总结了评价指标体系的类型和特点,揭示了相关实证研究类型及影响因素,构建了数据素养评价研究的基本框架,为开展数据素养评价、推进数据素养教育、提升用户数据素养提供意见和建议。
为全面收集相关文献,笔者在中国知网(CNKI)、读秀、Webof Science、EBSCO等学术数据库中分别以“数据”“素养”“data”“literacy”等为检索词进行篇名和主题组配检索;在获得初步文献集合的基础上,通过文献追溯法进一步收集资料。数据素养评价指标的确立是开展数据素养评价的基础,因此,本文主要从数据素养评价指标体系的理论依据、类型、体系构建、实证研究几个角度进行阐述与分析。
在数据素养评价指标体系构建方面,主要在数据素养内涵、数据素养的认知评价框架、信息素养理论、数据生命周期理论、胜任特征模型理论等基础上,借助于模糊综合评价法、德尔菲法、探索性因素分析法、层次分析法等方法来构建具体指标体系。
在已有的数据素养评价体系研究中,构建体系的理论依据主要有三大类。① 根据数据素养内涵进行判定,主要指用户在数据采集、管理、共享和知识发现等方面的能力,以及在整个过程中的道德及行为规范等。[2]Konkiel S将数据素养核心能力划分为明确数据需求、熟悉数据格式与类型并对其进行自由转换、具备数据可视化技能、具有数据伦理等17项具体指标。[3]弗吉尼亚理工大学图书馆数据素养咨询团队构建的数据素养经典模型包括数据组织与管理、数据转换与互操作、数据获取与共享、元数据与质量保障、数据科学、数据监护、数据保存和数据伦理7个维度,每个维度都有其具体要求。[4]② 基于现有成熟理论和评价体系(如信息素养能力评价标准),结合数据素养特性构建具体评价标准。Mandinach E B等从用户认知的角度构建数据素养认知评价框架,主要包括解释和使用数据的知识、明确数据分析的结论和最终用途、具备数据收集处理等的操作技能、了解数据可运用的环境与方式等。[5]Gummer E等在数据素养认知评价框架基础上构建了数据素养评价的三层指标体系。[6]Carlson J等结合ACRL的信息素养能力标准,将用户的数据素养划分为对数据仓库和数据形式的认知、数据发现与采集、数据管理与组织、数据管理和互操作性、数据可视化和数据道德等12项具体指标。[7]③ 将数据素养内涵与数据的生命周期或用户特性(如胜任力等)相结合,构建数据素养评价指标体系。数据生命周期理论是指从数据产生,经过加工和发布,最终实现数据再利用的一个循环往复的过程。[8]Prado J C等结合数据素养定义和数据生命周期理论,构建了深刻理解数据内涵、查找并获取数据、解释和评价数据、管理数据、运用数据等5项数据素养评测指标。[9]有些研究基于用户的胜任力来构建数据素养评价指标,胜任力是指担任某一任务的角色所需具备胜任特征的综合,用于区分用户工作表现潜在的、深层次的特征。[10]张晓阳等基于研究生的胜任特征模型,运用德尔菲法和问卷调查法开展调研,采用探索性因素分析法构建研究生数据素养评测量表。[11]
从组织结构来分析,已有的评价指标体系主要分为单层指标体系和多层指标体系。
(1)单层指标体系。主要从数据素养的内涵、原则等角度出发,结合被评测对象的行为过程、数据生命周期等指标评测用户的数据素养。王维佳等将数据生命周期理论与数据素养定义框架相结合,设计了包括对数据真实性认识、对数据生命周期认识程度、对专业统计软件的使用技能等18项具体、详细的测评指标。[12]
(2)多层指标体系。其构建可细分为3类。① 从数据素养内涵出发,包括数据意识、数据技能、数据伦理等一级指标,在此基础上再进行细化。[13]Schneider R构建了数据素养评价二级指标体系。一级指标包括明确目标、规定范围、操作计划、数据分析、数据保护、数据评估、数据管理、数据评估8个方面,二级指标体系将一级指标进行了细化,如将“操作计划”化分为数据建模、数据变换、标准开发等评测指标。[14]② 将评价对象与数据素养结合起来作为一级指标。Tenopir等提出了图书馆员数据素养二级评价体系。一级指标包括数据信息服务和技术服务。二级指标将数据信息服务细化为数据管理、数据与元数据咨询,将数据技术服务细化为提供机构库技术服务、在数据仓库中进行数据处理等。[15]③ 以评价对象的特性为一级指标,二级指标是由用户的数据素养内涵发展而来的。李红以某高校10名本科生的采访数据为基础,运用扎根理论,将指标体系归类为个人特质、辅助技能、核心技能。数据意识、基本规范、计划与评估、收集与保存、数据分析、数据利用、数据共享、数据管理8个二级指标,在二级指标下又细化为63 个三级指标。[16]
在构建指标的过程中,研究者通常采用模糊综合评价法、德尔菲法等方法。周兵在探索高校教师数据素养时,采用模糊综合评价法构建高校数据素养评价指标集合,包括5个一级指标和18个二级指标,每个指标赋予了不同权重;[17]赵欢欢在构建中小学教师数据素养结构模型时,采用了德尔菲法对评价指标体系进行了修订。[18]在指标权重的设置上,研究者常采用探索性因子分析法和层次分析法。王维佳在分析科研人员数据素养时,采用探索性因子分析法发现科研人员数据素养包括数据真实性的认识、数据生命周期认识程度等18项内容;[12]李青等采用层次分析法设置了一级指标的权重,采用专家排序法对二三级指标的权重进行设置,构建了教师数据素养评价指标体系。[19]
在数据素养的实证评价方面,评价对象侧重于学习、研究型人员,包括学生、教师、图书馆员、科研人员等,也有部分研究关注社会公众的数据素养。评价目的主要包括:评价改进型——调查某类用户数据素养并对其进行评价,提出改进意见和建议,以提升其数据素养;比较研究型——比较分析不同类型的评价对象及其数据素养情况;影响因素探索型——从微观、中观、宏观层面分别开展数据素养影响因素分析。
评价改进型数据素养研究主要包括两类。① 评价某类用户的数据素养,展示其数据素养特征和规律。雷擎在研究经济管理类研究生数据素养的数据分析能力时,发现我国经济管理类研究生整体数据素养在逐年提高,但在论文中运用信息技术和工具进行数据分析方面较为薄弱;[20]Frank EP等对挪威奥斯陆大学地球科学系气象专业学生的数据素养进行调研,发现学生的自我数据素养评价较高,但实际数据处理技能、数据分析技能等方面有待提高,并认为图书馆应在学生数据素养教育中起作用。[21]郝媛玲等对我国不同地区的6所高校和研究机构的图书馆学专业在读研究生及图书馆馆员进行深度访谈,发现图书情报人员对数据进行科学管理、分类、分析的能力较差,缺乏系统的学习。[22]② 在探索数据素养需求和能力的基础上开展相应培训。[23]Reeves TD等对美国中西部大学64名职前教师进行了访谈,开展针对性的数据素养培训课程,参与培训的教师表示,通过数据素养培训提高了数据查找、数据管理等的效率。[24]Wu M等对中国科学院大学生命科学学院的59名研究生进行了问卷调查,发现大多数研究生认为数据素养很重要,但他们缺乏相关的理论知识、缺乏使用数据管理工具的技能等。[25]
比较研究型既包括对不同专业、不同职业用户数据素养的横向比较,也包括相同专业不同年级用户间的纵向比较。[26]Wiorogórska Z等对波兰弗罗茨瓦夫大学和华沙大学博士生和科研人员的数据素养进行了比较,发现博士生和科研人员的数据素养意识都很高,但科研人员更看中科学数据管理的重要性,而博士生更倾向于对于元数据的培训;[27]Doucette L对加拿大三千多名社会科学和自然科学专业的硕士、博士生的数据素养进行了调研,发现博硕士生对自我数据素养评价很高,但在数据查找、数据管理、科研效率等方面存在不足;[28]郝媛玲等调查了上海6所高校的教师数据素养现状和需求,发现理工科教师更注重更新研究中的科学数据,文科教师对数据分析处理咨询和数据存储平台的需求比例远高于理工科。[29]
对数据素养影响因素探索主要包括微观、中观和宏观三个层面。① 微观层面主要指用户的人口学属性、学历、专业、知识背景、职业类型等。在学历和性别对数据素养影响方面,曲德强等发现在数据意识、数据技能方面,硕士研究生的数据素养要强于本科生;在数据挖掘、数据存储意识和数据伦理方面,女生的数据素养强于男生;在数据技能方面,男生的数据素养强于女生。[30]在职业类型方面,Crowell A等发现工作者的学历对其数据素养影响很小,而职业类型影响其数据素养。[31]在专业方面,郝媛玲等对上海地区高校文理科研究生数据素养进行调研,发现在数据意识、数据伦理和数据道德方面,文科生认知度高于理科生,但在数据技能方面,理科生要强于文科生。[32]② 中观层面主要包括教育环境、数据文化等因素。Rui MV等发现在数据素养培训环境下开展相应的课程能够提高用户专业知识的同时增强用户的数据素养,尤其是在批判性思维方面;[33]Piro JS对比了78名学生在接受数据素养教学干预前后的数据素养自我评测,发现教学干预提高了学生的数字素养知识和技能。[34]③ 宏观层面主要包括社会文化、技术、经济等因素对数据素养的影响。我国高校图书情报人员表示学科背景是影响个人数据素养水平最主要的因素,近一半的受访者表示政策因素、文化氛围、软硬件条件等在一定程度上决定了师生的数据素养水平;[35]Boychuk M等在调研加拿大公众的科学数据需求时也发现政府的政策会影响公众的数据素养。[36]
(1)从研究问题和内容来看,基本涵盖了数据素养评价的主要方面,包括数据素养基本内涵、数据素养相关的理论问题、评价指标体系的构建及实证测评等。总体而言,数据素养的评价原则、评价过程与评价方法与用户的信息素养评价、数字素养评价相类似,差异性主要体现在数据素养评价更加注重用户在数据方面的能力,强调数据采集、管理、共享和知识发现等。
(2)从研究方法来看,既有定性方法也有定量方法。其中,定性研究包括观察法、访谈法、德尔菲法,定量研究包括问卷调查法、实验法、内容分析法、文献计量法等。此外,还有研究通过开发相应的软件工具来对数据素养进行评价。在研究中,应兼顾定性方法与定量方法,既照顾被评价主体的主观特征,同时客观、全面、准确地反映评价主体的数据素养特征。
(3)从研究对象来看,涉及了不同职业、不同年龄阶段的用户,既有研究普通大众群体的数据素养调查,又有研究某类用户的数据素养特征;既有对相同职业(专业)用户数据素养规律调查,也有对相同专业不同年级用户的数据素养纵向比较。
(4)虽然数据素养评价的指标有所差异,但基本的出发点还是遵循了数据素养的核心要素,即从伦理意识、数据知识、数据技能和思维方式4个层面设立指标。[37]① 伦理意识层面主要是对用户数据意识和数据伦理进行评价。对数据意识评价的指标一般包括认识数据的重要性、了解数据所属范畴、关注数据来源、对数据的敏感度、数据获取意识、数据基础意识、数据安全意识等;对数据伦理评价的指标一般包括了解相关数据法律和法规、规范引用数据等。② 数据知识层面主要指用户所具备的与数据相关的知识,用户从理论层面对数据有深刻的理解和认识,了解数据的基础知识,具备数据相关技能知识。③ 数据技能层面主要指用户真正掌握的数据技能,包括采集、管理、分析、应用、表达等方面的技能。④ 思维方式层面主要指用户的数据研究与实践过程中所形成的思维方式,如创新性思维、批判性思维、反思性思维等。
(1)加强数据素养概念的全面性和规范性,这是开展数据素养研究的基础问题。已有研究者从多个视角对数据素养进行探索,造成数据素养概念的模糊与多义,对数据素养内涵的不同限定会直接影响指标层级和指标权重等的设置。Herzog D L指出,数据素养是对数据获取、处理、分析、可视化及评价的过程;[38]Calzada Prado J等指出,数据素养指用户获取、理解、评估、管理数据的能力,同时在此过程中遵守道德规范;[39]Hogenboom K等认为,数据素养是用户阅读、分析、思考、解释并将数据作为证据的能力;[40]肖希明等将数据素养视为数据生命周期中数据发现、收集、选择、评估、保存、共享等一系列所需的意识和能力。[41]因此,建立对数据素养概念的统一认识是开展研究的根本。此外,有必要区分数据素养与其他素养之间的关系,如数据素养与信息素养、数字素养、媒介素养、计算机素养等之间的关系。有研究认为数据素养是数字素养在大数据环境下的延伸,[42]有研究认为数据素养与数字素养是并列概念,[43]有研究将数据素养视为信息素养、网络素养、数字素养、媒介素养等的连续统。[44]因此,对数据素养概念维度的正确界定是构建评价指标体系的关键。
(2)加强评价体系的科学性和可操作性。一方面,在明确数据素养内涵基础上借鉴更多的成熟理论,运用扎根理论建立设计合理、层次分明、维度清晰、可操作性强的数据素养评价体系,包括评价目标和理念、评价原则及具体评价内容等。另一方面,数据素养评价方法更加多样化,目前大部分实证研究以问卷调查、访谈法、实验法、内容分析法等方法为主,开发相关评价软件为辅。[45]可以借鉴其他的研究方法,如理想点法[46]、网络分析法[47]等,指标权重的确定可采用回归分析法[48]等。此外,对评价指标体系的构建原则、方法、过程、结论等进行理论的高度概括和总结,为开展更多的实证研究提供现实指导,也为同类评价提供参考。
(3)加强数据素养的比较性研究。从用户主观特征角度进行比较,分析不同人口学自然属性、专业特征的数据素养差异,同时探索不同心理特征、认知特征、情感特征的用户数据素养差异,为丰富用户素养理论体系提供丰富的素材。此外,从客观角度进行比较,分析在不同教育环境、学术环境、数据环境下用户的数据素养特征,为学校开展数据素养教育,创造数据素养环境,创新素养服务机制和模式提供依据。最后,从地域、文化的角度出发,对处于不同社会文化、技术、经济环境的用户数据素养进行探索和比较,为国家制定素养教育战略方针提供更多参考。在数据素养比较研究基础上,发现更多影响因素,为构建数据素养教育内容框架、探索数据素养教育与信息素养教育衔接、数据素养教育与新媒体教育方式融合提供借鉴依据。