董晶许浩吴丹,3
(1.华中师范大学信息管理学院,武汉,430079;2.武汉大学信息管理学院,武汉,430072; 3.武汉大学人机交互与用户行为研究中心,武汉,430072)
利用数据挖掘、机器学习、大数据分析等科学的方法、流程和手段,从异质化和非结构化的数据原材料中提取和推断知识,并将其应用到不同领域的规模化决策中去,由此形成了一门以“数据”为核心的系统性科学[1]。数据科学的诞生源于20世纪60年代初一批计算机科学家和统计学家关于批判传统学科、拓宽学科边界的讨论。1974年,图灵奖获得者Peter Naur首次提出“数据科学”(Data Science)这一术语,并将其作为计算机科学的替代名称[2]。1985年,美国威斯康星大学统计系教授吴建福(Jeff Wu)在中国科学院系统科学研究所发表题为“从历史发展看中国统计方向”的报告时,首次使用“数据科学”这一术语替代“统计学”[3]。随着理论基础与方法技术的发展完善,同时伴随着大数据时代的到来,数据科学逐渐成为一门独立于计算机科学与统计学的新兴学科。
大数据被誉为21世纪数字经济的新石油,加快建设数据驱动型社会成为世界各国的发展共识。如何分析和理解大数据现象中蕴含的信息和知识,挖掘海量存储数据的价值,为各行各业的创新发展注入动力是数据驱动型社会必须应对的挑战,由此产生了对数据相关人才的大量需求。在数据科学的快速发展期,围绕数据科学家的岗位职责、能力要求和团队建设的讨论成为学术焦点,而当数据科学步入成熟发展期,关于数据科学专业建设、课程设计和人才培养的探索受到广泛关注[4]。由于数据科学天然具有交叉学科特征,许多学科均下设数据科学相关的学位项目,学科领域集中在图书情报、经济与工商管理、计算机科学与技术、数学与统计学等[5],学位覆盖学士、硕士和博士[6]。数据科学的跨学科性也意味着不同学科背景下的数据科学教育亟须建立自己独有的学科身份,探索一条彰显自身学科特色的数据科学人才教育和培养之路。因此,本文对《iDSCC报告》进行系统梳理和解读,总结报告主要内容和重要观点,并在此基础上,结合我国国情实际,提出中国特色iField数据科学教育的发展方向。
由于我国最新发布的《研究生教育学科专业目录(2022年)》已将“图书情报与档案管理”更名为“信息资源管理”,而《iDSCC报告》原文以及本文引用的前人研究使用的学科名称为“Library and Information Science”或“图书情报”,因此后文在表达学科领域时视情况而定,同时使用了“信息资源管理”(简称信资管)和“图书情报”(简称图情)两种表述。
信息与通讯技术的快速发展使人类社会进入信息爆炸的时代,信息的表现形式日益多样,信息地位飙升,而传统图书馆日渐式微。二十世纪八九十年代,美国部分图书情报学院删除名称中的“图书馆”字样,更名信息学院,iSchools运动诞生。iSchools运动是一场面向图书情报学科的教育改革运动,信息学科(the Information Field,iField)是iSchools运动致力于打造的新学科,旨在围绕“人、信息、技术”三要素的交叉领域开展研究[7]。目前,iSchools联盟在全球范围内共有123所成员院校,涉及的学科领域十分广泛,如图书情报、计算机、信息学、商科、数字人文、传播、传媒、教育、语言等[8]。实证研究也表明iSchools院校师资具有高度多元化的学科背景[9]。因此,iField学科的跨学科性毋庸置疑,这一特征也使得iField学科就像植物根茎一样具有动态性、开放性和关联性[10]。
iField学科与同样具有跨学科特征的数据科学相得益彰,这为iField领域发展数据科学教育提供了得天独厚的环境。一方面,数据科学成为信息资源管理领域学者备受推崇的研究主题,大量研究成果涌现,内容主要包括6个方面:(1)数据科学教育和培训;(2)数据科学人才的知识和技能;(3)图书馆和图书馆员在数据科学运动中的作用;(4)数据科学的工具、技术和应用;(5)知识管理视角下的数据科学;(6)健康科学视角下的数据科学[11]。另一方面,研究者们致力于讨论iField学科与数据科学的内在关联,思考数据科学教育如何融合和体现iField方法与特点。以此背景为契机,iSchools联盟专门组建iSchools数据科学教学指导委员会(The iSchools Data Science Curriculum Committee,iDSCC),从iField视角探究数据科学人才培养,进而定义和确立具有iField识别特性的数据科学教育。
iDSCC委员会针对全球信息学院数据科学专业的本科生和研究生教育,围绕人才培养、课程设计、岗位技能等方面开展了多项调查研究,在iConference、ASIS&T等国际会议上多次组织数据科学教育相关的专题研讨(如“iSchools情境下的数据科学教育”专题研讨[12]),最终将三年工作成果集结成题为《iField学科领域的数据科学课程》(Data science curriculum in the iField)[13]的研究报告(简称《iDSCC报告》),发表在信资管领域重要学术期刊Journal of the Association for Information Science and Technology(JASIS&T)。《iDSCC报告》的主要目标在于区分数据科学教育宏观语境下的iField数据科学教育,明确其独特视角与关键构成,提炼数据科学人才培养中的iField学科特色方法,为iField数据科学教育项目和课程设计提供指导和参考。《iDSCC报告》旨在解决下列核心问题:
(1)在多学科参与的数据科学教育宏观语境下,iField学科身份何在?iField数据科学教育有哪些特征?
(2)iField院校的数据科学教育现状如何?
(3)iField数据科学核心课程应包括哪些知识和技能以便iField数据科学教育向好发展?
(4)面向iField领域数据科学专业毕业生的就业岗位有哪些?
(5)数据科学专业的研究生教育和本科生教育之间有什么区别?
《iDSCC报告》通过德尔菲专家咨询、数据科学本科生/研究生项目和课程调查、数据科学相关招聘广告等多种渠道收集数据,采用内容分析、关键词聚类、可视化等定性定量的数据分析方法,对提出的核心问题开展研究。
德尔菲研究的目的在于识别iField数据科学教育独有的特征,从而将其与其他学科区分开来;同时,对iField学科培养的数据科学人才应掌握的知识和必备的技能形成共识。该研究围绕iSchools数据科学教育的代表性特征、iSchools培养的数据科学人才职业前景、数据科学人才必备的知识领域、数据科学人才必备的技能和能力、解决现实世界问题的最佳实践,以及无需过分强调的知识领域、技能和实践这六个方面,向来自不同地区iSchools从事数据科学教学、研究和实践的专家学者们寻求建议。
参与德尔菲研究的专家既包括iDSCC委员会成员,也包括2019年ASIS&T专题研讨会公开招募的学者。专家咨询历时9周,共计三轮。第一轮咨询,专家们通过匿名方式针对六个方面的问题独立给出对应的建议和理由,回收的280条建议经过整合归纳形成63条不同的意见;第二轮咨询,专家们在上一轮咨询的基础上给出新建议,与第一轮咨询共计产生65条不同意见;第三轮咨询,专家们对65条匿名意见按重要性进行评估排序,并通过商议达成关于数据科学教育关键领域的共识。
学位项目和课程的调查研究分研究生教育和本科生教育两部分。数据科学研究生项目的调查以iSchools联盟院校的研究生项目以及“Datascience.Community”网站提供的数据科学项目索引为来源,筛选标准为该项目是否培养数据挖掘、数据分析、数据建模相关技能,由此共计得到96个数据科学研究生项目及其对应的2084门课程。《iDSCC报告》对这些研究生项目的项目名称、项目描述、项目成果、课程名称和课程描述进行内容分析和聚类分析,从而揭示数据科学研究生需具备的技术和能力。
数据科学本科生项目和课程调查的数据来源于两个不同的数据集。学位项目调查采用方便抽样方法,通过联系iSchools联盟院校负责人,收集了9个数据科学本科生项目信息。专业课程调查则根据美国图书馆协会(ALA)认定的学位项目数据库、图书馆和信息科学教育协会(ALISE)的机构名录,以及iSchools联盟成员列表,先锁定目标院校为图书情报学院或信息学院,进一步根据项目名称是否包含关键词“数据”,最终得到来自12个数据相关本科生项目的120门课程信息作为数据集。项目和课程信息经过内容编码处理,进而通过定性和聚类分析得出不同主题类目。
分析数据科学相关工作岗位的招聘信息可以从市场需求角度反映数据科学人才的就业方向和所需技能,有助于增强数据科学专业就业,提升数据科学教育的影响力。《iDSCC报告》对数据科学家等数据科学人才需求较大的四个国家展开调查,即美国、中国、英国、德国。招聘信息来源于各国主流招聘网站,以“数据”或“数据科学”为关键词进行职位筛选。数据集由四个子部分组成(表1),其中美国和中国的数据集专门筛选出面向iField学科的数据科学招聘数据。《iDSCC报告》对招聘广告中的岗位名称和岗位职责进行关键词抽取和聚类可视化,明确了数据科学毕业生的对口岗位,以及响应市场用工需求所应具备的专业技能和软性技能。
表1 数据科学相关招聘广告分析数据集Table 1 Dataset for Data Science-Related Job Analysis
数据科学是一门面向实践和应用的交叉学科,领域知识是数据科学的重要组成之一[14],这也意味着数据科学能够与各种学科融合(如经济[15]、地理[16]、生物[17]等),应用数据挖掘、数据分析等方法解决具体领域问题,助力不同学科领域应对大数据时代的机遇和挑战。与此同时,如何在数据科学中体现自身学科特点,发展本学科内的数据科学引发不同学科的反思和讨论。《iDSCC报告》基于专家意见和课程调查分析,就iField数据科学教育思路总结出四大独特之处。
(1)跨学科性
iSchools运动的初衷便是突破图书情报的传统学科边界,突破图书馆机构和图书馆职业的视野限制,面向更广阔的信息环境,打造具有跨学科特征的信息学院。自2005年iSchools联盟成立以来,经过十余年发展,iSchools院校的跨学科特征得到充分展现,不仅表现为iSchools院校知识产出和流动通常涉及两个或以上学科,同时还表现为iSchools院校的研究侧重点涵盖图书情报学、计算机科学、传播学、教育研究、管理学和数据科学等多个大类[18]。这些院校的科学研究属性会映射到教育教学和人才培养工作中,使得iField学科发展的数据科学教育自然地具有跨学科色彩。
(2)以人为本
iField学科的核心议题落足于“人、信息、技术”三要素的关系,因此iField学科秉持着“以人为本”的精神,将与数据生命周期有关的道德、伦理、社会以及对社会的影响等内容纳入数据科学专业课程中。以人为本的数据科学不仅关心数据和技术“能够”做什么,也关心数据和技术“应该”做什么[19],强调数据为人所用、为人服务,始终坚持以用户为中心的根本理念。
(3)视野前瞻
iSchools运动发起图书情报学教育改革,发展iField学科是主动把握信息时代新机遇的结果。这种积极迎接时代发展新挑战的前瞻性品质深刻影响了iField学科。当社会发展进入大数据时代,iField学科敏锐地察觉到数据处理、分析、挖掘和管理相关人才的稀缺性和重要性,开始关注和探索数据科学人才培养。同时,iField学科也意识到海量的、多样化的数据带给社会的影响是长期且持续的,因而iSchools院校开展数据科学教育时也特别注意根据社会需求不断调整课程设计和教育方式。
(4)注重方式
将“怎么教”置于和“教什么”同等重要的位置,是iSchools专家学者们一致认可的iField数据科学教育具有辨识度的特征。在“怎么教”的问题上,iSchools院校采取两轨并行的方式:一方面,通过开设数据处理和分析相关课程突出数据科学本身,如数据挖掘与建模、大数据分析、算法与编程、数学与统计等;另一方面,在数据科学教育中融合图书情报作为社会科学一部分的传统价值取向,强调利用数据的同时要关注实践背后的个人或组织可能付出的代价,不仅仅停留在单纯地教育学生数据科学“可以”做什么,更进一步培养学生们数据科学“应该”做什么的意识,更注重实践背后的利弊权衡。
《iDSCC报告》根据数据科学学位项目和课程调查,发现研究生教育关注三个方面的能力培养:①专业能力,包括数据分析、数据管理、数据处理、统计、可视化;②个人能力,包括解决问题、实践素养、支持决策、使用工具、学术素养;③实践能力,包括需求理解、组织技能、责任感、创业精神、持续学习。本科生教育的课程内容的主题类别(如数据挖掘与分析、数据素养、项目管理等)也基本反映了这三个方面。与一般数据科学教育类似,iField学科关注学生的技术类专业技能,并且技术类技能基本覆盖完整的数据生命周期(从数据存储、处理、分析到数据管理);不同地,iField学科同样重视学生的软性技能培养,这种软性技能集中体现为两种核心能力:以人为本和数据素养。以人为本是贯穿于整个iField数据科学教育的一条主脉络,任何技术技能的培养都需融入以用户为中心的基本理念,不仅关注数据的技术方面也考虑数据的人文方面。数据素养体现为人们的数据意识和数据伦理观,引导人们正确、高效地使用和解释数据,基于问题和情境为决策制定提供支持。
在开展招聘广告分析时,《iDSCC报告》显示数据科学相关工作的岗位名称表述不一,并且不同国家之间有着明显差异。既有带有明显图情性质的“数据馆员”“数据库经理”,也有一般性的“数据科学家”“数据分析师”。岗位职责方面既要求数据管理、数据分析、数据可视化、建模、编程算法、文本挖掘等各种与数据科学直接相关的能力,也对团队协作、领导能力、沟通能力等与数据科学非直接相关的能力提出要求[20]。招聘市场对数据科学人才的能力需求与iField数据科学教育对专业技术技能和软性技能的同等重视不谋而合。数字经济时代人才既要求有过硬的技术实力(如编程、建模),又要求有完善的人类特有技能(如合作、沟通),而iField数据科学教育具备的社会科学传统优势和跨学科优势能够良好适应此类新时代人才需求,因而人才就业极具前景。
早在2018年就有研究者调查了iSchools联盟的数据科学教育项目情况,有4所学校开设本科项目、10所学校开设硕士项目[21]。《iDSCC报告》的调查结果进一步更新了iField数据科学教育项目发展情况,学位项目数量明显增加,且出现了博士项目,然而总体上仍是研究生项目多于本科生项目。尽管大多数iSchools院校不会同时设置本科生和研究生项目,但二者在教育培养特征上存在共通之处。首先,最显著的特征是“以人为本”的教育思路贯穿始终,无论本科生还是研究生教育都必不可少对数据的伦理、道德、社会影响等方面的关注。其次,课程内容都相对完整地覆盖了数据生命周期。此外,都强调利用数据技术解决现实问题,而且比起超前的编程和算法技术更看重数据的处理、分析和应用技能。
虽然本科生和研究生教育都延续了iField数据科学教育的特色思路,但在具体能力要求上却有所侧重。本科生教育更注重理论性学习,掌握与信息、数据科学有关的基础性知识,培养基本的信息素养;而研究生教育相对偏重实践性和应用性学习,要求更全面地掌握数据生命周期全流程的相关技术,具备领域知识从而解决具体领域问题,以及提高管理项目和领导团队的能力。
《iDSCC 报告》基于对iField 数据科学教育特色道路的思考,以及iSchools 院校数据科学人才培养现状和就业前景,进一步提出了未来发展需解决的若干问题。
(1)iField数据科学教育如何适应数据科学自身的不断变化?
当前iField数据科学教育正在尝试一条以人为本、技术与人文相结合的道路,在运用数据解决现实问题的同时也兼顾人文价值和社会利好。然而,数据科学领域是不断发展成熟的,iField数据科学人才培养需始终与时俱进,持续反思和总结本学科特色的教育道路。
(2)iField数据科学教育如何平衡短期机遇与长期可持续发展?
大数据时代为iField学科发展数据科学教育提供了难得的机遇,不同专业背景的高学历人才来到iSchools院校承担数据科学研究和教育工作,对数据科学感兴趣的学生能够为iSchools院校增添大量生源。然而,由于不能清楚而正确地认识iField数据科学的独特性导致与原本期望不符,师资和生源可能逐渐离开iSchools,这一问题会影响iField数据科学的持续性发展。
(3)如何彰显iField数据科学教育区别于其他学科的价值所在?
尽管iSchools 学者们一致认可iField 数据科学教育有自身独特之处并加以提炼总结,但这些抽象的特征需要体现在具体的实践中并传递给相关政府机构、用人单位、师资与学生,才能获得广泛认同、深入人心。
(4)iSchools院校如何开展数据科学教育的本土化建设?
iSchools院校在开设数据科学教育项目时会参考其他学科或学校的课程体系、培养方案等经验,不可避免地会出现一些水土不服的现象。不同地区和学校的数据科学教育应从实际出发,课程设计和教育方式应符合自己学生的需求,满足当地就业市场需要,反映本地区和学校特色。
(5)如何让iField数据科学课程体系成为一个不断生长的有机体?
保持iField数据科学的前瞻性是一项持续性工作,这意味着iField数据科学课程体系不能一成不变。iField学科需要继续应对复杂数据中蕴藏的不确定性、人工智能带来的社会不公平等问题,在课程体系的不断更新中坚守以人为本。
当前,我国高等教育教学正在经历新文科建设这一改革之举。为响应习近平总书记在全国哲学社会科学座谈会上提出的发展中国特色哲学社会科学的号召,2018年,教育部联合12部门启动“六卓越一拔尖”计划2.0,提出新文科建设战略,并成立教育部新文科建设工作组[22]。2020年,新文科建设工作组发布《新文科建设宣言》,指出要进一步打破学科专业壁垒,促进文科与理工农医交叉融合,以现代信息技术赋能文科教育[23]。iField数据科学强调以人为本,将数据的技术层面和人文层面相互融合,因而iField学科发展数据学科教育符合新文科建设要求。《iDSCC报告》将iField数据科学教育的本土化发展视为未来需面临的一项重要议题,与此同时,《新文科建设宣言》也指出建设新文科要坚持“尊重规律、立足国情、守正创新”的基本原则。基于此,本文对我国信息资源管理学科如何形成中国特色的iField数据科学道路进行了思考。
在我国,除信息资源管理(原图书情报与档案管理)学科以外,还有多个其他学科也在开展数据科学专业教育。教育部发布的《普通高等学校本科专业目录(2022版)》显示有6个数据科学相关专业:数据计算及应用(数学类)、数据科学与大数据技术(计算机类)、资源环境大数据工程(地质类)、数据警务技术(警务技术类)、生物医药数据科学(医学技术类)、大数据管理与应用(管理科学与工程类)。实现“以人为本”的数据科学教育是我国信资管学科从众多培养数据科学人才的学科领域中脱颖而出的关键。培养数据意识和数据素养,利用数据解决不同领域问题,提供可持续可解释的数据方案是对“以人为本”特征的解构[24]。“以人为本”这一核心特征的形成与iSchools院校在图书情报领域长期开展研究教学工作密切相关,换句话说,长期以来,图书情报学科围绕信息、技术与人三要素形成的“以用户为中心”的基本理念是iField数据科学重视数据背后的法律、政策、伦理、道德等社会和人文因素的源头。因此,我国信资管学科要想建立以人为本的数据科学教育就不能脱离图书情报这一学科本源,始终将信息和数据中关系人与社会的部分与数据分析技术内容置于同等重要的位置,从社会利好的角度发挥数据的作用和价值,为技术赋予人性。
在教育部最新印发的《研究生教育学科专业目录(2022年)》中,已正式将“图书情报与档案管理”一级学科名称更新为“信息资源管理”[25]。名称的变化使得一级学科具有更广泛的内涵,对二级学科的包容性更强,更好地体现信息社会中信息资源的战略性价值,但并不意味着抛弃了原本的图书情报[26]。相应地,一级学科更名让我国iField学科发展数据科学教育更加名正言顺,因为数据是信息资源的一种,培养能够正确利用数据解决现实问题的人才是信息资源管理学科的使命。
《iDSCC报告》认为数据素养是iField数据科学人才应具备的核心能力之一。“数据素养”的概念最早由Schield提出,他认为数据素养和信息素养一样,其关键都是批判性思维,区别在于信息素养的前提是能够对概念、主张、观点进行批判性思考,而数据素养则需要具备获取、评估、使用、总结和展示数据的能力[27]。数据素养与信息素养有着密切联系,总体而言是指与数据有关的一系列技能组合和知识基础,包括获取数据、解释数据、批判地评估数据、管理数据、在道德规范内使用数据,以及将数据转化为信息和知识[28]。国内学者从结构属性角度将数据素养归纳为数据意识、数据知识、数据文化、数据能力和数据伦理等不同维度[29]。数据素养教育不仅涉及数据生命周期有关的专业技术学习,还涉及道德意识和伦理价值观层面的塑造,此教育内容在中国语境下恰好与课程思政的教育理念相契合。
理论上,以数据素养为重要内容的信息素养课程开展课程思政建设的应然性、可行性和优越性已得到充分论证[30]。实践上,2021年5月,武汉大学信息管理学院组织召开了“图书情报与档案管理课程思政建设”研讨会;此外,以北京大学、南京大学、中山大学、吉林大学为代表的多所iSchools院校也就信息资源管理学科课程思政建设进行了诸多实践探索。把课程思政贯穿于iField数据科学人才培养体系,在数据素养课程中融合法律政策、道德伦理、社会主义核心价值观等思政元素,在数据科学教育中落实“立德树人”的根本任务,是发展具有中国特色的iField数据科学教育的重要举措。
我国开设信息资源管理类专业的学院中,除少部分为独立的信息管理学院外,更多是与经济管理、计算机、教育、数字人文等其他专业合并成院。学院专业结构的多元化意味着师资储备和教育资源的专业多样性,为我国实现iField数据科学教育的跨学科性提供了条件。然而,仅仅具备如此有利的条件尚不足以将跨学科性真正落实到教学育人,还需要配合专门的育人模式方可让已有条件发挥优势作用。产学研协同育人是教育部为深入贯彻落实《“十四五”教育发展规划》《国务院办公厅关于深化产教融合的若干意见》精神而发起的高校人才培养改革项目,旨在通过产教融合、校企合作提升高校人才培养质量。这种人才培养模式在日本被称为“产官学体系”,并在其数据科学专业建设中已得到推广应用[31]。
对于iField数据科学教育而言,采用产学研协同育人模式,可以有效整合学校、企业、政府三方资源,一方面将科学研究成果转化为教学资源,夯实学生的理论学习,形成多学科的理论知识体系;另一方面联合企业培养学生的实践与应用能力,增强学生的技术技能,培养解决领域问题的能力。引进企业专家作为客座讲师、联合校企组建课程开发团队、企业提供实习实训场所等产学研融合举措能够进一步丰富师资背景和教学资源中的领域知识,加深iField数据科学教育的跨学科性。
数据科学是一门围绕数据获取、处理、分析、利用和评估,结合数据相关技术和领域知识解决现实世界问题的交叉学科。大数据时代对于数据科学人才的需求与日俱增,不同学科领域均设有数据科学相关专业与课程,并在教育实践中反思本学科的数据科学教育特征,iField学科也不例外。《iDSCC报告》得出iField数据科学教育有四大独特之处:跨学科性、以人为本、视野前瞻和注重方式;总结了iField学科培养的数据科学人才应具备的两大核心能力:以人为本的思想和良好的数据素养;认为本科生和研究生的数据科学教育既有共通之处又各有侧重;最后提出iField数据科学教育在未来发展中还会面临若干挑战。受《iDSCC报告》观点的启发,我国信息资源管理学科应把握iField数据科学教育核心特征,结合中国语境将概念性特征落实到具体的教育实践,形成中国特色的iField数据科学教育之路。
作者贡献说明
董晶:设计研究方案,论文撰写及修改;
许浩:收集和分析资料;
吴丹:提出研究思路,论文定稿。