伏安娜 程蕴涵 胡 杰 朱宇红 张计龙
(1.复旦大学图书馆 上海 200433; 2.复旦大学大数据研究院人文社科数据研究所 上海 200433;3.上海市科研领域大数据联合创新实验室 上海 200433;4.上海市大数据中心 上海 200040)
2015年,我国出台了《促进大数据发展行动纲要》,数据人才培养问题由此引发了相关研究主体的广泛关注。2020年,中共中央、国务院印发了《关于构建更加完善的要素市场化配置体制机制的意见》,数据成为与土地、劳动力、资本、技术等传统要素并列的要素之一,培养好数据人才、数据团队,制定好人才战略计划,已然成为数字经济背景下成功实现数字化转型的重要抓手和把握发展新机遇的重要基础[1]。高校是培养数据人才的重要阵地,特别是受数据密集型科研范式、开放科学和教育数字化转型等因素的影响,数据素养教育已成为各学科专业人才培养的重要内容。作为高校数据素养教育中的重要主体之一,图书馆一直在积极探索和开展相关教学实践活动。在前期实践中,国内高校图书馆多延续了信息素养的传统教育模式,采用以讲授式培训为主的培养方式。近年来,随着数据开放氛围越发浓厚,更多针对数据思维、数据技能、数据应用以及激发数据潜能的创新活动层出不穷,高校图书馆数据素养教育更具多元性和开放性,开放数据竞赛就是新环境下的一种创新尝试。由复旦大学图书馆等联合组织的“慧源共享”全国高校开放数据创新研究大赛(以下简称“慧源数据大赛”)旨在推动教育科研领域数据资源的汇聚流通和共享开放,鼓励高校师生利用新技术对开放数据进行分析,将人文社会科学与机器学习相结合,开展跨学科的交叉研究和创新应用,聚合各行业力量以培养和提升大学生的数据素养,这是“产学研用”新生态下高校图书馆数据素养教育的创新探索实践。
文章以慧源数据大赛为例,重点研究和分析了基于开放数据竞赛的数据素养教育活动的主要特征,并结合大赛成果数据和参赛团队反馈的情况,探讨了该实践活动的改进和优化方向,以期为我国高校图书馆数据素养教育探索创新路径提供参考和借鉴。
数据素养一般被定义为有关数据的态度、思维、意识、知识、能力、技能、文化、伦理[2-3]等的综合体,与不同的时代背景、学科专业、职业角色、情景语境、主体视角[4]密切相关,并在关联后产生了更为具体的内涵和要求,如医学生、博士生、中小学教师的数据素养等。高校图书馆数据素养教育活动是由图书馆组织专业馆员或邀请专业人士参与,利用多种教学形式和手段,围绕一定的数据素养培养目标,对其所属机构的教师和学生等设计和开展的教学实践活动,学科广泛、主体多元、对象普及、形式多样是其主要特征[5-6]。
卢祖丹和余达淮对国内38所“世界一流大学”图书馆的数据素养教育内容进行了调研分析,发现各种形式的数据素养教育活动正在各馆如火如荼地开展,具体方式包括专题讲座、学分课程、嵌入式课堂、在线微视频、在线教育,部分高校讲座已具备系列性,形成了定制化服务,相关教育内容主要涉及数据意识、伦理与评价、数据获取、数据处理、数据交流[7]。尽管高校图书馆数据素养教育的名称和内容多种多样,但讲座仍是最常见的形式[8]。作为一种传统的说教式教学方法,课程讲座能在一个相对较短的时间里传播一定的知识,但在教学过程中,学习者易产生消极情绪,注意力不够集中,在个性化、自主性培养方面较弱[9]。此外,相较于文献资源,高校图书馆的数据资源储存量不大,数据素养教育资源、教学经验也尚未形成有效的共享和交流机制,在实践中存在重技能而轻意识、缺乏系统性等问题[10-11]。在此背景下,有研究指出,高校图书馆的数据素养教育应朝着教育主体合作化、教育内容体系化、教育方式多元化、教育客体开放化、教育评价科学化的方向发展[12]。随着高校图书馆数据素养教育活动的不断发展,更多创新手段被引入其中,开放数据竞赛即是其中之一,因此承办竞赛或组织师生参赛既有助于激发学生学习数据知识的兴趣,又能提升其数据素养和科研创新能力[13]。
开放数据竞赛是相关组织为促进开放数据的挖掘利用而发起的以激活数据价值、发现数据人才等为目标的赛事活动。该活动有助于组织方寻求业务问题和优质算法的解决方案,吸引优秀的数据人才,构建行业生态,也有助于参赛人员提升自身数据能力并增加行业的知名度和影响力[14]。Kaggle是全球开放数据竞赛中最典型的案例之一,截至目前该平台已发布数据竞赛500余个。一些高校教师也尝试依托Kaggle探索“产出导向”的数据人才培养模式,借助竞赛平台在数据资源、应用场景等方面的优势,进行有关数据技术和能力的课程建设[15]。近年来,在我国政府数据开放等政策的持续推动下,国内启动了多项开放数据竞赛活动,如2015年启动的SODA上海开放数据创新应用大赛(以下简称“SODA大赛”),至今已成功举办八届。
在图情领域,2016年,上海图书馆(上海科学技术情报研究所)等单位牵头组织了2016开放数据应用开发竞赛[16];2017年,北京大学图书馆面向全国高校在读学生组织了首届全国高校数据驱动创新研究大赛[17];2019年,由复旦大学图书馆等单位举办的“慧源共享”上海高校开放数据创新研究大赛首次启动,明确将培养和提升大学生的数据素养和数据能力作为活动目标之一[18]。与常规的数据素养培训讲座不同,开放数据竞赛在活动组织中体现出更强的联合性;在数据方面,整合开放了更加多源的高价值数据;在过程方面,参赛团队能自主选择将与学习主题密切相关的事件或问题作为主要学习内容,由赛事主办单位和团队指导教师提供解决问题的线索,强调自主和协作学习,并对学习成果从形式、内容、表达等方面进行评价。
笔者通过调研上述三项开放数据竞赛活动后发现,尽管由图书馆主导的开放数据竞赛在组织实施、数据资源、具体活动、规则要求等方面有所不同,但活动主要内容和流程已形成了固定的基本模式:赛前训练与指导—竞赛准备与实操—赛后支持与孵化。其中赛前培训与指导的时间或长或短,主要以讲座形式开展,期间一方面为参赛者提供数据知识和方法储备,另一方面对大赛进行宣传和推广。竞赛准备和开展阶段为参赛选手提出明确的基于数据的目标任务,以构建主义学习为理论基础,强调任务驱动性,创建贴近现实的、具有挑战性的任务环境,参赛团队和选手基于前期的数据知识和方法储备,运用数据技能解决具体问题。赛后支持包括对竞赛作品本身的支持,如学术出版和应用落地转化;对参赛选手的支持,如奖金奖品、奖状证书、实习推荐等。这一方面可对数据作品实现价值升华,另一方面可发现和认证数据人才。
图 1 基于数据竞赛的数据素养教育模式
相较而言,由高校图书馆牵头主办的赛事活动在参赛对象和提交作品要求方面更有针对性,强调学术性。随着相关赛事的不断开展,活动逐渐形成多主题、多赛道、多赛区的特点,体现出新阶段开放数据竞赛对数据素养教育任务的进一步解读和细分,以及对专业数据素养、行业数据素养更为深入的探索。
“慧源共享”全国高校开放数据创新研究大赛是在上海市教育委员会和上海市经济和信息化委员会指导下,由复旦大学图书馆等联合国内多个政府部门、高校、科研机构和企业共同组织并面向全国高校师生开展的开放数据竞赛系列活动。大赛于2019年首次启动,截至目前已成功举办三届,第四届大赛于2022年9月启动。在历届大赛中,高校图书馆始终是核心组织力量。以第三届大赛为例,在54家联合举办单位中,共有22家高校图书馆和7个省市的高校图工委参与组织。前三届大赛吸引了全国241所高校的5 000余名师生报名参赛,参与系列活动“数据悦读”学术训练营的师生超过15万人次。大赛在基于开放数据竞赛的高校图书馆数据素养教育实践中具有一定的代表性和典型性。
3.2.1 覆盖全生命周期,融合多种教育方法,多维度提升数据素养
在整个科研生命周期中有效地进行渗透式数据素养教育,基于数据生命周期设计课程内容[19-20],将数据素养的培养和提升视作一个循序渐进的、连续的过程,通过不同的教学形式实现不同的教学目标[21],是前期高校馆在数据素养教育中获得的成功经验,也是慧源数据大赛系列活动设计中的重要理念。以此为基础,慧源数据大赛系列活动主要分为三个部分:第一部分,“学术训练营”邀请不同行业和领域的数据专家,以线上线下相结合的形式开展数据素养系列专题讲座;第二部分,“数据竞赛”环节提供多个高质量数据集,参赛团队可自定选题或参照选题指南开展研究并参与竞赛;第三部分,“成果孵化”主要通过出版论文集、推荐发表(包括研究论文和数据)、促进应用成果落地转化、推荐实习等途径,进一步支持参赛团队。笔者对照余维杰等[22]84-93构建的双生命周期模型,对慧源数据大赛系列活动的环节和任务进行分解(见图2),发现大赛活动的各个环节较为全面和完整地覆盖了两个生命周期,教育内容涵盖了数据获取意识、数据使用意识、数据传播意识、数据收集能力、数据处理分析能力、数据展示能力、数据保存能力以及数据伦理中相关的数据规范、数据安全和数据法律等方面。
此外,慧源数据大赛设计了层层相扣的活动内容,如专题授课式讲座、任务驱动的数据竞赛和多途径的成果孵化,其融合了多种教育方法,因此可多维度提升参赛者的数据素养。训练营阶段邀请了近百位不同行业和领域的数据专家,结合当前数据科学领域的热点、赛事数据等内容,以及基本的数据概念知识、理论方法、工具技巧等,基于7大主题课程框架“A(AI人工智能)、B(Blockchain 区块链)、C(Cloud Computing 云计算)、D(Big Data 大数据)、E(Energy Data能源数据)、F(Fintech 金融科技)、G(GIS地理信息)”开展数据素养系列讲座。竞赛环节为竞赛者构建了与当前数据驱动的教学、科研实践情况基本一致的学习情境,选手在理解基本理论和方法的基础上,围绕抗击新冠疫情和社会经济复苏、数字化转型等社会热点,针对智慧图书馆建设、流动人口研究、长三角社会变迁等主题,构建具体的研究框架,寻找、选择、整合、利用必要的数据资源、学习资源、专家资源,实现问题解决式的自主学习。在学习过程中,团队指导教师、大赛组织方、数据提供方、训练营导师、相关高校专业馆员会提供不同层面的专业指导。学术成果的发表和转化是体现学术价值的重要环节,但在读学生往往缺乏相关思路和途径。成果孵化环节正是为竞赛中产生的优秀成果提供针对性的学术出版和应用转化支持。
3.2.2 聚合多方资源,充分发挥图书馆优势,共同营造数据文化氛围
从开放政府数据到开放科学数据(或研究数据、科研数据),再到开放机构数据(如开放企业数据)和开放个人数据[23],开放数据与各行各业的发展关系密切。与传统图书馆数据素养教育活动的组织方式不同,开放数据竞赛充分借助了“产学研用”的教育新生态。大赛积极聚合政府、高校和科研机构、企业及社会各方力量,在数据资源、专家资源、平台资源、经费资源、宣传资源、应用场景资源等方面发挥各自优势,聚力实现共同目标。在2020世界人工智能大会云端峰会数据智能主题论坛上,慧源数据大赛与SODA大赛等8项赛事共同组建“开放数据赛事联盟”,合力促进全社会共同关注、支持、参与、推动高校数据素养教育活动的开展。
慧源数据竞赛由高校图书馆牵头举办,在赛事组织和开展的过程中,高校图书馆积极发挥了其在数据服务、资源组织、学科服务、宣传推广服务方面的专业优势,从多层面开展了数据素养教育实践活动。多个省(市)的高校图工委号召、组织本地区高校师生参加大赛,多家高校图书馆通过微信、网站、海报、邮件等途径开展宣推广工作。全国20余家高校图书馆利用本馆基础数据层的数据形成了高校图书馆业务数据集,切实践行了数据共享与数据开放的理念。上海师范大学图书馆面向本校师生建立了线上群组,结合院系相关课程,组织和帮助师生参赛。浙江大学图书馆以慧源数据大赛为平台面向本校师生同步举办了“数据悦读”创新大赛,结合本馆、本校数据素养教育需求,开展针对性指导。除了授课式培训外,还有多位专业馆员通过学科服务积极联系院系教师和授课团队,联合指导学生参赛,一些高校馆员还担任了参赛团队的指导教师。例如在第二届大赛中,55.95%参赛团队有指导教师,14.42%参赛团队的指导教师由图书馆员担任。3.2.3 支持和鼓励跨学科研究与团队合作
开展跨学科、跨校合作是基于开放数据竞赛的数据素养教育活动的又一特征。以第二届大赛为例,活动要求参赛者组成1—7人的团队,组队不作学科、学校方面的特殊限制。在所有参赛队伍中,2—7人的团队形式占比为64.3%,以团队形式提交作品的队伍占比达到86.9%。此外,在报名团队中,分别有25.5%和11.5%的队伍开展了跨学科和跨校合作,在提交作品的团队中,该比重分别为37.4%和12.6%,在获奖团队中的占比分别为32%和16%。
3.2.4 数据素养提升效果显著,但学习过程参与度和完成率有待提高
在慧源数据大赛中,竞赛团队使用了多样的统计分析方法和工具,其中常用的方法包括描述性统计分析、数据挖掘、机器学习、用户画像、社会网络分析、深度学习、K-Means、Lstm、层次分析法等,数据分析和可视化工具包括SPSS、Excel、Python、MATLAB、R、Stata、SQL等。在第二届大赛中,主办方组织调研并收到了65支参赛队伍的反馈。关于最初的参赛原因,89.39%的团队表示希望通过比赛提升自身的数据素养;48.48%的团队表示希望通过比赛拿奖证明自己的数据能力;45.45%的团队表示被大赛数据所吸引。通过参加大赛的系列活动,77.27%的团队表示其通过比赛发现自己还需要提升分析处理数据的能力;69.7%的团队表示通过比赛学到了很多数据处理技能,提升了自己的数据素养;51.52%的团队认为通过大赛接触到了很多高质量的数据资源;45.54%的团队认为对未来开展数据分析和解决数据问题更有信心了;40.91%的团队表示通过参加大赛更深入地了解了数据驱动原理。综上,开放数据大赛已被更多师生认为是一种重要且有效的数据素养培养途径,且实际成效反馈良好。
大赛数据的申请和利用几乎覆盖了任务驱动的数据素养教育的全过程,选手和团队参与活动的周期长短、参加活动的场次、完成任务的程度可在一定程度上体现出其学习过程的深度和完整度。以第二届大赛为例,在所有报名团队中,有72%完成了数据申请,但申请数据的团队中仅有36%提交了最终作品,占报名团队总数的26%,上述数据反映出开放数据竞赛在学生学习完成率方面的影响力有限。
数据素养教育是数据时代对高校图书馆职能提出的新要求,也是高校图书馆在“双一流”和“四新”建设等新环境下发挥自身价值的重要途径。基于开放数据竞赛的数据素养教育实践在一定程度上弥补了单一授课式培训系统性不强、难以覆盖全生命周期、缺乏个性化教育、对实操能力提升不足等方面的缺陷,参赛师生对该模式也有较高的参与度和良好的成效反馈。越来越多高校图书馆的关注和加入,体现出其对该数据素养教育方式接受度和认可度的提升。尽管如此,开放数据竞赛作为一种数据素养教育的途径和方法,仍需图书馆界进行更深入的探索研究。结合赛事组织经验以及与活动参与者、组织者的多方交流,笔者现提出以下改进方向。
随着大数据、云计算和人工智能等新技术的不断发展,社会对数据人才的定义和需求也在发生变化。在此背景下,高校图书馆数据素养教育应充分考虑外部环境和需求的变化,理解时代所需的数据素养和数据人才,据此设计并更新数据素养教育体系和培养内容,组织开展有针对性的、有特色的教育活动。与高校图书馆传统培训开展的数据素养教育活动相比,开放数据竞赛在教育内容和实施主体方面更为灵活、开放,因而在实施过程中应更加重视政策导向,把握前沿需求和热点主题,立足全行业、全领域整合相关资源,培养与时俱进的数据人才。
相较于传统教学中对某门课程明确的需求、目的和固定的目标群体,基于开放数据竞赛的数据素养教育更类似于在线教育活动,难以明确学习者的需求状态,学习者、学习环境具有多样性,系统中各要素间的关系也更为复杂[24]。数据竞赛相关学习活动设计和实施中的开放性、灵活性,在一定程度上影响了学习者的学习效果,如可能造成活动参与的“高开低走”。以第二届大赛为例,实际提交作品的队伍数量仅占报名队伍数量的26%。据参赛团队反馈,其中存在的主要困难包括:数据处理和分析能力的欠缺,编程能力不足无法应用作品,以及拖延症和数据资源选择方面的困难等。因此,未来高校图书馆在活动推进过程中,应加强对组织需求与条件、学习者、学习情境、学习资源等要素的调研,把控学习进度管理、学习质量管理环节,提供更加丰富的管理性、学习型和情感性支持服务[25]。在教育过程中,组织者应重视开放数据竞赛模式三环节间的系统性,强化训练和指导环节与选手准备和实操环节的关联性,让学习者能够学以致用。
经过近十年的发展,国内外不同机构、组织和平台都已经成功组织了多项开放数据竞赛,在竞赛设计、数据服务、成果评价、赛事管理等方面形成了一定的流程化、规范化的案例经验。与此同时,国内高校图书馆在开展包括开放数据竞赛等各类数据素养教育活动的过程中也形成了一定具有可复制性、可传递性的教学和指导经验,上述经验对于降低开放数据竞赛的组织成本,提升组织效率,提高活动相关主体的满意度有借鉴意义。未来高校图书馆在开展数据素养教育活动时,可针对当前存在的薄弱环节和重点内容,确定大赛内外的最佳实践环节,通过组织规范文档、指导手册、专题研讨会、经验分享会、培训交流会等方式,在活动组织方内部进行知识交流和传递,推动大赛的持续性开展,最大化发挥数据素养教育的成效。
尽管开放数据竞赛可在一定程度上从多维度实践数据素养教育内容,但其依然只是诸多数据素养构建路径“之一”,而非“唯一”,不同的数据素养教育活动在教学内容和成效方面可进行优势互补。开放数据竞赛活动应积极与其他数据素养教育路径进行关联,如与院系及图书馆的数据分析、数据挖掘、数据管理等课程展开合作,提供课程所需的数据资源、应用场景等支持。总之,应将开放数据竞赛系列活动打造成一个整合和汇聚多源数据资源、专家资源、课程资源、场景资源的开放平台,鼓励和支持更多学校、教师、学生利用平台开展个性化、专业化的数据素养教育实践。