随着e-Science、e-Social Science的发展,大数据时代的到来,趋于密集分布的科研数据正以指数级速度增长。数据不再仅仅是科学研究的结果,而且变成科学研究的基础[1]。研究者面临着一系列数据管理计划制定、引用、出版、使用伦理等方面的问题[2],数据素养已然成为21世纪科研人员的必备技能。在此背景下,国内外学者纷纷开展数据素养教育活动,从不同角度对数据素养进行探讨。国外在数据管理培训和实践方面已经积累了丰富的经验,有很多成功的案例,国内关于该主题的成果也不断出现。基于此,本文对国内的相关研究成果和实践进展进行系统梳理,对相关主题进行分析,以期能够全面了解我国国内数据素养教育现状,从而发现问题,为下一步深入研究和实践提供借鉴。
笔者选择中国知网、维普、万方3个大型中文数据库,以“篇名/题名/标题=数据素养 OR 数据管理素养”进行检索(截止日期为2017年1月,文献类型为期刊论文),通过浏览文献标题、摘要和全文筛选出相关度较高文献82篇。
最早的关于数据素养的文献出现于2011年,是北京师范大学项华的“论物理教育中数据素养的培养”。从2013年起,数据素养研究文献量逐年上升,2016年大幅增长,达51篇,占全部文献量的62.2%,表明国内学者越来越意识到数据的价值,开始关注数据素养研究。
通过分析来源期刊发现,数据素养研究文献发文量排名前10的期刊发文量为31篇,占全部文献量的37.8%,以图书情报类期刊为主,其中《图书与情报》发文8篇。国内数据素养研究的主要群体为图书情报从业人员。
通过分析发文作者发现,主要的研究团队包括上海大学和中国科学院文献情报中心。其中发文量最多的机构为上海大学,发文量为9篇,文献多来源于教育部人文社会科学研究青年基金项目“数据素养对科学数据管理的影响及对策研究”成果。
普赖斯定律可判定该领域的核心作者。根据武汉大学邱均平教授对普赖斯定律的描述:核心作者计算公式M≈0.749(Nmax)1/2(其中M为文献数,Nmax为所统计年限中最高产的那位作者的文献数,即杰出科学家中最低产的科学家所发表的文献数等于最高产科学家发文数的平方根的0.749倍,且M占文献总数的50%)[3],最高产作者发文6篇,根据公式得出M值约为2.247篇,即发文量为3篇及以上作者为该领域核心作者。核心作者共发文14篇,占全部文献的17.1%,远未达到50%的比例,说明该领域尚未形成稳定的核心作者群。
国内数据素养领域研究的热点主要包括数据素养内涵、数据素养需求及利用、数据素养能力评价、数据素养教育4个方面。
数据素养的定义和内涵目前还未有统一定论,具有代表性的定义如表1所示。
表1 不同学者关于数据素养的定义和内涵
有学者认为数据素养是信息素养的重要组成方面,也有学者认为数据素养是信息素养的延伸和扩展。国内研究者着重于数据素养的数据意识、数据获取、数据处理、数据评估和数据伦理等方面的能力。其中,孟祥保[2]从科研生命周期、学科专业和大数据角度阐释了科学数据素养的内涵;张进良[4]从教师专业发展和改进学生学习的角度,对教师数据素养进行解读。
用户需求是数据素养发展的驱动力。不同学科领域的知识结构、科研环境、研究内容不同,对数据需求也不同。表2列举了国内部分图书馆开展的数据需求调查情况。对用户需求的调查基本是沿着管理、利用和素养3条路径展开:管理角度是从数据存储、组织、引用、出版、伦理等科研数据管理的视角,调查用户科学数据管理需求,如胡永生[10]对科研人员的数据管理需求进行调查;利用角度侧重于数据素养是个体行为,调查用户的数据意识、数据利用能力和数据伦理等方面的内容[11];素养角度主要是调研用户对数据素养教育课程的需求,如华东理工大学调研了本科生对数据素养的了解以及数据素养教育需求、课程内容、课程模式。综合调查结果显示,学生数据素养普遍较差,多数学生只注重数据的获取,对数据组织、存储等问题不够重视;数据共享意识不强;国内高校图书馆在数据服务、数据监护及数据素养教育等领域面临较多问题。
表2 数据素养需求调研分析
从表3可见,国内学者的研究主要着眼于数据素养的数据意识、数据获取、数据处理、数据评价、数据伦理等能力。
隆茜[1]在调研国内外文献基础上,构建了高校师生数据素养能力评价指标体系;胡卉[17]绘制了研究人员应具备的数据素养能力框架;王维佳[18]提出了科研人员数据素养能力综合评价函数;郝媛玲[9]对数据素养的基本要素及核心内容进行了详细阐述。
表3 国内学者关于数据素养核心能力的评价要素
通过对数据素养教育主题进行统计分析发现,目前国内研究热点主要集中在数据素养教育主体、教育对象、教育模式、教学内容4个方面。
2.4.1 教育主体
国内数据素养课程开设主体主要包括图书馆、学院、数据管理研究机构及IT机构。
图书馆具有信息组织、数据挖掘、信息分析、知识服务、学科服务等知识沉淀与技能积累,具备开展数据素养教育的先天优势[11]。且图书馆在信息素养教育中积累了丰富经验,信息源于数据,从信息素养教育发展到数据素养教育是一个自然的过程[19]。
由学院开设的数据素养教育课程专业性和系统性较强,一般采用多个院系联合培养的模式。如清华大学与哥伦比亚大学联合开办的商务分析双学位硕士,由清华大学经济管理学院与哥伦比亚大学工程与应用科学学院具体实施,旨在培养具有大数据思维和全球视野的未来领袖;由首都经济贸易大学统计学院作为发起单位,与中国人民大学统计学院、北京大学数学科学学院、中国科学院大学数学科学院和中央财经大学统计与数学学院组建了北京大数据分析硕士培养协同创新平台,旨在进行高级大数据分析人才的培养。
清华-青岛数据科学研究院主要通过多学科交叉融合的大数据课程体系,培养大数据思维和素养,重点培养数据分析、数据管理和创新应用能力;南京大学与江苏银行共建“大学生大数据研究基地”,共同开展大数据项目研究;中关村管委会、海淀区政府、北京大学、北京工业大学共同筹建了北京大数据研究院,旨在建成国际一流的大数据人才培养、科研创新和产业化平台。
IT机构具备强大的技术力量,其提供的数据素养教育课程是专业教育的有益补充。如微软亚洲研究院在中国大学MOOC网开课,提供大数据系列讲座。
2.4.2 教育对象
学生、教师和图书馆员是国内数据素养教育的主要对象。学生包括了中学生、本科生和研究生。中学生以解决具体的课程问题为目标,如数学教育主要将统计学的知识纳入课程体系,以培养学生阅读和统计数据的能力;物理教育主张培养学生数据价值感觉、数据探究意识及数据探究能力[5]。大学各个层次的在校学生(本科生和研究生)是数据的使用者,他们中的一部分是未来的研究人员,是科学数据的潜在使用者,且他们在以后的职业生涯中也需要使用大量数据[19]。教师在教书育人的过程中,需要将数据整合到教学中,借助大数据了解学生的学习轨迹和知识点掌握情况,从而做出一系列客观、科学和合理的决策。数据密集型科研环境也要求教师必须掌握数据组织、管理和分析等方面的能力,才能顺利开展研究[6]。作为教育者,教师可以利用自身的知识和能力提升学生数据素养能力。高校图书馆员作为科研数据的保存者、服务提供者及数据素养教育的主力军,其数据素养水平直接影响服务质量,培养具备数据资源管理、数据服务、数据版权及数据伦理能力的图书馆员迫在眉睫。
2.4.3 教育模式
国内图书馆开展数据素养教育的形式主要有专题讲座、学位项目或证书课程、专业课程、在线课程、短期培训。其中,专题讲座因其较易组织、适用面广、灵活性和针对性强、能在有限时间内传递大量的系统性知识而被广为使用;部分高校开设有数据科学或数据分析方面的硕士学位项目,如清华大学与哥伦比亚大学联合开办商务分析双学位硕士项目。
清华-青岛数据科学研究院的大数据硕士项目、数据科学与工程专业硕士、大数据能力提升项目,其中大数据能力提升项目是面向在学所有研究生的一个证书课程项目,不限学期和学年,只要在毕业前完成要求的学分,经考核合格,即可获得清华大数据能力提升项目证书。学位项目主要是培养大数据时代所需的高、精、尖人才;开设专业课程的高校极少,典型的如清华大学交叉信息研究院和微软亚洲研究院合作开设的《大数据基础与应用》研究生专业课,课程涵盖了互联网搜索、城市计算、社会计算、软件分析、可视化等大数据研究热点和前沿领域,该类课程内容系统性较强;在线课程形式灵活,且不受时空限制,满足了学生个性化、自主化的学习需求,如中国大学MOOC平台上的“微软亚洲研究院大数据系列讲座”在线课程;短期培训是面向数据管理人员的一种快速有效的教学方法,如中科院文献情报中心邀请美国雪城大学信息研究学院师资为图书馆员做“科学数据管理与数据挖掘”培训课程。CODATA中国每年召开科学数据大会,探讨科研大数据和数据科学,开设“数据科学家”培训课程等[20]。
此外,部分图书馆也采用在信息检索课中引入数据素养教育,如西南交通大学的《信息检索》课有涉及数据检索,山东理工大学的《信息检索与利用》课有专门介绍科学数据资源及技术数据资源,但仅有对数据资源获取的介绍,其他维度尚未涉及,缺乏深入系统的研究和阐述。
2.4.4 教育内容
表4列出了部分高校图书馆数据素养类讲座内容,除北京大学图书馆和上海交通大学图书馆外,其他图书馆均未明确提及“数据素养”概念。内容主要集中在数据资源获取(数据检索)、数据处理与分析(Excel、SPSS软件应用)两方面,较为单一,尚未涉及数据素养所有维度。
表4 部分高校图书馆数据素养培训内容
目前国内数据素养教学实践尚处于探索阶段,仅有少数高校尝试开设数据素养教育相关课程。总体来说,对科学数据管理和科学数据素养概念缺乏系统深入研究,对数据素养教育重视程度不够,相关政策支持也较为薄弱,尚未形成完备的教育及管理体系。国外已经形成了较为完善的数据素养教育体系,且有很多成功的案例和有益经验,值得借鉴。
美国、英国、加拿大等国家政府机构,美国国家科学基金会、英国研究理事会等科研资助者以及牛津大学、康奈尔大学等学术机构纷纷发布数据管理和共享政策,规范和指导研究人员的数据管理行为[27]。国外对教师的数据素养教育也特别重视,投入大量资金推进教师数据素养能力提升项目,美国大学教师教育协会、国家专业教学标准委员会等机构已将数据素养能力纳入教师的专业认证中。
完善的政策是开展数据管理和数据素养教育的有力保障。我国需要从政策、资金、技术、信息公开及资格认证方面给予支持,制定数据管理政策和数据素养教育长期规划,加强人力和资金投入,开设培训机构,将数据素养能力纳入教师专业技能的认定;学校需要制定明确的战略规划,制定完备的数据素养教育方案,加强需求调研,根据不同对象的不同需求采取差异化的教育方案。同时要为教师使用数据优化教学提供支持,聘请专业人员为教师和图书馆员开设数据素养讲座或培训,并将数据素养能力纳入其考核指标。
嵌入式教育模式的实施可包括3个方面。一是以图书馆信息检索教育、参考咨询服务、学科服务等现有服务模式为依托,嵌入数据素养教育。如在信息检索课中渗透科学数据的基本理论、数据的检索知识,让学生了解数据的价值,具备数据意识;针对特定学院或学科提供科学数据管理的专题讲座或培训,如武汉大学图书馆在学科服务平台嵌入了科研数据管理模块;参考咨询服务也是实现个性化数据素养教育的一个重要途径,在解答数据相关问题的同时,向用户推送数据检索、数据使用方面的技能。二是把数据意识、数据技能和数据伦理等内容融入专业课程或网络教学平台的设计与教学实践中。在设计课程教学方案时,应充分调研不同学科用户的需求,针对性地设计教学大纲和内容。通过跨学科合作,快速提高学生的数据素养。我国信息检索课在嵌入式教学方面有很多成功经验,可参考借鉴。三是参与教师的科研活动、学生的毕业论文写作或创新性学习活动,提供数据管理服务。通过这种合作,可以了解用户在科学数据管理和数据素养上的真实想法,及时解决用户的迫切需求。
国外数据素养教育内容一般基于科研生命周期设计教学内容,提供数据收集、组织、管理、保存、利用、共享及数据伦理方面的知识与技能培训,可以帮助研究者正确认识科研数据生命周期,从容面对庞大的数据,更好地管理和利用数据,实现科研数据的规范管理和价值最大化。目前我国高校图书馆数据素养教育内容设计缺乏整体性和系统性,应考虑不同地区、不同学校的数据管理需求,针对不同用户开展差异化教学。
数据文化是指在科研过程中崇尚科学数据,用科学数据来推动科研进程,形成收集、使用、共享数据的研究文化[28]。哈佛大学十分重视数据文化的宣传,利用数据交互社区、嵌入科研的数据服务和丰富的数据素养教育活动来影响研究者的数据价值观、态度和行为[16]。北京大学图书馆在2016年成功举办了“开放数据”第三届搜索达人大赛,旨在让广大师生更多地了解开放数据资源,提高搜索和利用开放数据的实践技能,激发创新创意,促进跨学科合作,在宣传数据文化方面起到了积极的推动作用。目前我国绝大部分高校严重缺乏数据文化,影响着图书馆员和研究人员对待和处理科学数据的态度。因此,为了推动数据管理和数据素养教育顺利有效开展,必须加强数据文化的宣传,普及数据知识,加强高校及组织机构之间的交流合作,搭建畅通的数据素养交流平台,开展丰富多彩的数据素养教育活动,努力营造尊重数据、使用数据和共享数据的文化环境。具体措施可以包括通过图书馆主页、图书馆微信公众号、学校论坛等渠道推广数据服务、数据管理、数据共享等相关政策;开办数据素养相关讲座或研讨会;开展数据技能竞赛;建立科学数据平台;加入其他高校数据管理项目等。
2015年国务院发布《促进大数据发展行动纲要》,数据作为战略性资源,其重要性毋庸置疑。我们需借鉴国外成功经验,积极探索符合我国国情的数据素养教育内容和模式,不断优化课程体系,积极开展数据素养教育,需多方协调互助,统一规划、长期合作,从而实现数据素养教育的长期稳定发展。数据素养教育不是单向的灌输过程,应该创造各种机会,让用户在科研、学习和生活需求的驱动力下实现自身数据素养的提升。