发言人:曹高辉 华中师范大学信息管理学院
袁平鹏 华中科技大学计算机科学与技术学院
邓胜利 武汉大学信息管理学院
洪 亮 武汉大学信息管理学院
黄 颖 武汉大学信息管理学院
毛 进 武汉大学信息管理学院
整理:汪 璠 武汉大学信息管理学院
钱倩文 武汉大学信息管理学院
2022 年武汉大学“大数据管理与应用”暑期学校期间,举办了“图书情报与数据科学理论与前沿论坛”,六位受邀专家从人才培养、社会服务、学习方法等多个方面对数据科学的理论与前沿进行了探讨和交流。
目前,国内各大高校数据科学类专业的课程体系建设方向主要分为三类。①课程体系建设主要采取数学与计算机科学结合的方式,通过计算机搭建数学模型,解决社会中存在的一些重大问题。数据科学专业与计算机类专业的主要区别为:传统计算机类专业还需要学习计算机组成原理等这些偏体系结构的知识,而数据科学专业开设的课程主要为数据挖掘、自然语言处理、机器学习等偏数学计算的知识。该类课程体系建设方式的代表性高校包括北京大学和武汉大学。②课程体系建设侧重于对大数据的管理与应用,主要是将大数据与经济、管理、宏观统计和宏观决策相结合。开设的课程除了信息技术类课程,还包括大数据管理、数据治理、领域大数据应用等偏管理应用的课程。③在课程体系建设方面与计算机类专业近似,主要开设大数据应用技术的相关课程。
针对数据科学类专业的人才培养现状,袁平鹏教授提出了三个重要问题:①数据科学专业的课程体系应该是什么样的?②不同层次的高校、不同学科方向培养出的众多数据科学人才是否符合市场的需求?职业定位是怎样的?是有自己的就业方向,还是和计算机类一样,从事互联网、编程相关的工作?③数据科学人才培养更应该偏管理还是偏技术?
袁平鹏教授在这些问题上也给出了建议。在学术课程体系的建设方面,不同层次的高校都开设了数据科学专业,并分别在三个不同的方向有所侧重。每个学校都应该结合自身的学科特点和师资力量,构建一个适合自身的课程体系。此外,高等教育机构还应该考虑所培养的大数据相关人才是否能满足市场的需求。在人才培养方面,不同类型的高等教育机构也应该充分发挥自身的学科优势,有侧重点地制定自己的培养方案。以侧重于信息资源管理方向的学校为例,袁平鹏教授指出,此类培养单位在制定数据科学专业培养方案时应该从大数据的管理角度出发,而不是过分聚焦大数据技术开发和实施,充分发挥信息资源管理方面的学科特色,以更好地培养该方向下相关学生的计算思维和逻辑分析能力。
曹高辉教授针对就业导向型的硕士研究生人才培养模式提出了三个问题。①就业导向的学生是否需要写论文?当前,就业市场对数据科学人才的综合素质要求很高,同时论文的录用难度也在加大。在当前需要研究生发表资格论文的培养模式下,研究生发表论文需要投入科研的时间也更多。在这种困境下,研究生如何合理安排自己的时间,以兼顾就业与科研?②就业能力应该由谁来培养?究竟是老师来培养研究生的求职能力,还是研究生自学来提升自己的求职能力?同时,由于数据科学是一种新兴专业,该专业人才培养的经验较少。数据科学类专业的师生更应该思考,导师需要承担什么样的角色?③就业导向型学生是否要多听学术报告?以及如何利用学术报告提升自身科研能力?
针对曹高辉教授提出的问题,黄颖老师发表了自己的两个观点:①就业导向型硕士研究生也应该撰写学术论文;②就业导向型研究生也应该参加学术报告。
第一,撰写论文之前需要对数据进行收集、清洗、处理和分析,此过程和论文撰写过程能够锻炼学生的诸多能力,而这些能力与就业能力是一脉相通的。同时,国内论文录用难度的增大会鞭策和激励研究生学习新的技术、方法和软件。研究生通过应对数据分析和论文的撰写、投稿、返修等各种类型的压力,能够学习到多元的知识、提升多方面的能力。因此,就业导向型硕士研究生也应该撰写学术论文。
第二,研究生通过参加学术报告,能够提高自身的信息捕捉能力。数据科学是一类理论与实践结合较为密切的专业,参加学术会议能够了解最新的学术动向,能够提高学生对就业方向的把握。另外,在当前需要研究生发表资格论文的培养模式下,研究生提前撰写论文和多参加学术报告,在应对毕业论文时,会游刃有余,更加轻松。综上,就业导向型研究生应该撰写学术论文和参加学术报告。
第一,数据科学类专业的课程体系该如何设计?目前,国内对信息资源管理学科视角下数据科学的研究集中在数据素养、人才培养目标、课程体系、实践应用等方面[1]。吴丹教授研究团队回顾全球图书情报学科所开设的数据科学专业,发现除了计算机科学等数据科学技术课程外,信息伦理、信息隐私、算法公平课程也是课程所关注的亮点。在图情领域内数据科学的专业教育不单单是学术性人才的培养,还强调培养面向企业应用的实践型人才[2]。闫慧[3]、陶俊[4]等学者对iSchools 联盟中开设数据科学教育项目的14所院校进行分析发现,大部分学校重视对学生实践能力的培养,人才培养定位集中在商业智能分析师、数据科学家、数据工程师、数据分析师、数据架构师等。
第二,数据科学与图书情报的关系。数据科学(Data Science)术语及其定义由著名计算机科学家、图灵奖获得者Peter Naur于1974年在其著作Concise Survey of Computer Methods中首次提出,他认为数据科学是一门基于数据处理的科学[5]。吴丹教授研究团队通过对诸多文献的梳理,认为数据科学是一门具有跨学科属性的科学,其核心问题是从数据中提取知识以获得对问题或现象的重要见解,涉及收集、管理、分析、呈现等大数据生命周期的理论、方法和技术[2]。数据科学与信息资源管理学科具有天然联系,数据科学作为以研究数据为核心的新兴学科,将其引入信息资源管理学科,将带来全面深刻的影响,主要体现在信息资源管理学科研究对象的细化和深入、研究内容的扩充、解决方案的优化以及理论的变革与建构[6]。
第三,数据科学学生需要掌握的能力与技能。数据科学专业旨在培养掌握具有大数据思维、运用大数据思维及分析应用技术的高层次大数据人才,从计算机理论、大数据处理技术和大数据应用三个主要层面(即数据管理、系统开发、海量数据分析与挖掘)系统地培养学生[7]。王东波等发现数据分析、数据挖掘和处理能力等数据技能较为重要[8]。
此外,洪亮老师认为我们需要进一步思考如下问题:①从学生视角应该有哪些课程?从大数据专家角度认为数据科学专业应该开设哪些课程?从就业市场角度又需要哪些课程?②数据科学的内涵是什么?数据科学与信息资源管理的关系是什么?③数据科学人才需要哪些技能?
针对现有研究的基础和当前的问题,洪亮老师从硕博的数据科学专业培养方案制定方面发表了自己的观点。培养方案的设计是专业人才培养的重点,各个学校和专业的人才培养思路与课程方案设计均有所侧重与差异,各具特色。洪亮教授认为在制定数据科学人才培养方案时,需要注意:①根据本学院的学科基础制定培养方案;②在课程设计上需兼顾管理科学、计算机科学、大数据等学科领域的课程,形成基础思维类、技术类、大数据类课程三足鼎立型培养体系;③由于数据科学专业的学生来自于计算机、信息资源管理等不同专业背景,因此课程设计还需要兼顾学生专业背景的差异性,既要为学生补充部分基础性知识,又需要根据实际情况定期动态调整培养方案;④需要从学生、大数据专家、就业市场等多个视角进行课程设计的考虑。
第一,数据科学就是管理数据的科学,大数据时代需要数据科学。从宏观层面来看,数据的采集、管理、治理(诸如国家、企业、互联网的数据安全治理)都需要数据科学;从微观层面来看,数据质量会影响机器学习模型,数据科学可探索数据质量如何影响机器学习的性能等各个方面指标。
第二,数据科学就是运用数据的科学,数据科学可面向不同领域,从数据中提炼、挖掘价值,这便涉及到其与情报学的关系。从这个角度来看,我们需要思考学生要具备一些怎样的思维和技能才能帮助其处理数据。一方面,学生需要数据思维,具备数据采集、清洗、挖掘、分析、可视化等能力和技能。所谓数据思维,就是在解决问题的过程中使用数据方法(也称量化方法),通过可衡量、可评估的量化数据解决问题[9]。大数据环境下数据科学的人才培养秉承多“源”异“构”理念[10],要求利用多种本源学科,具备差异化知识结构,培养复合型人才。教学实践表明,培养学生(本科生)的大数据技术能力并不难,在开源工具包的环境下,技术入门也较为容易;数据科学专业的学生也可以从事技术工作,因此我们不必有畏难情绪。另一方面,大数据环境下,学生不仅需要数据思维,还需要模型思维。相较于数据思维,模型思维更关注通过建模理解事物本身的规律。小理查兹•霍耶尔认为,情报分析先由概念驱动,然后才是数据驱动,概念框架是解读数据信息的基础和依据,这种概念框架可以被看成是一种容纳了过去知识、当前情况的思维模型[11]。虽然现阶段数据思维即可解决很多问题,但对于数据科学专业来说,模型思维同样重要。例如传染病传播研究需要建模,只有理解了传染病的传播机制,才能更好地建模,而仅仅了解数据挖掘的方法和技术是无法完成这个任务的。因此大数据时代下需要数据思维与模型思维相结合,需要设置一些数据建模课程来培养学生的模型思维。
在大数据时代,科学研究逐渐向数据密集型转变。一个直观的感受便是论文越来越难发,那么发论文为什么变难?科学研究正逐步向数据密集型驱动的研究范式发展。科研工作需要以可靠的数据作为支撑,大数据量在科研中变得越来越重要。相比之前注重因果关系的理论型研究,数据密集型驱动的研究范式因其在挖掘事物之间关联关系方面的优势而成为当前科学研究的主流。然而,以数据为基础的科学研究需要更多的工作量,它需要经过大数据的获取、处理到分析的完整过程,这种工作的负担导致了科研人员发论文变得更加困难。总之,数据密集型驱动的研究范式成为科学研究的主流后,所需要的工作量使得发表质量高的科研论文变得更加具有挑战性。
那么如何才能做出高价值的研究呢?邓胜利教授认为需要遵循“四个面向”和“三度”。具体而言,学者需要坚持面向世界科技前沿、坚持面向经济主战场、坚持面向国家重大需求、坚持面向人民生命健康,真正着眼于国家所需,紧紧抓住时代切实问题,从而做出高价值的研究。高价值的科学研究需要具备三个特征。①研究有高度。研究需与国家重大战略息息相关,比如围绕数字经济、数字文化、国民健康等国家重大需求开展研究。2020 年,JASIS&T 期刊专家将健康危机事件切入到了信息危机事件,给我们后来的研究指引了方向,即研究需要着眼时代重大问题。②研究有深度。目前高质量期刊上刊发了很多跨学科的研究文章,这些文章一方面借助其他学科理论作为支撑,另一方面利用海量的数据揭示事物的表征、规律、行为机理,结论更可信、更科学。③研究有温度。技术发展及其在各个领域的应用也会带来诸多负面效应和社会问题。当前研究日益重视特定群体(如社交媒体用户等)、边缘人群(比如老年人、残障人士、儿童等)在互联网信息化时代的问题,涉及对大数据杀熟、信息泄露等社会问题的探究。我们不仅仅关注科技带来的便利,还应关注科技是否向善、是否具有积极的影响及其负面效应。
毛进:对于数据科学专业的学生,知道如何使用公式、知道什么算法解决什么问题比较重要,而了解算法公式本身的原理并不那么重要,对数学的掌握要求并不需要那么高。算法公式推导过程的难度与大学本科阶段《高等数学》课程内容的难度基本相当,若有同学对于算法钻研感兴趣,可以通过国内外的慕课平台进行学习。简而言之,数据科学专业并不需要高深的数学知识,同学们具有基础的高等数学、线性代数与概率论知识即可,对于一些新兴的技术,确保会用,知道其是做什么即可。
曹高辉:对算法和公式等技术知识的学习与要求,更多体现在论文撰写中的研究方法阐述部分,很多学生表示在数学公式的推导撰写时比较困难。但是数据科学专业不应该强调如何使用LDA等算法和公式,而是注重使用某种算法做什么事情、实现什么功能、得到什么结果以及如何揭示这个结果,这样同学们的学习压力就会小很多。
袁平鹏:每个学科具有自身的优势和特点,每个学科做自己擅长的事情即可。对于数据科学学科而言,我们不做改进算法的事情,而是注重算法的使用,充分发挥其优势才能做出更好的研究。此外,很多在ACM等计算机类期刊上刊载的论文更关注想法和模型,而不是作者使用了什么编程语言等。数据科学学科的研究内容和信息资源管理有一定关系,比如我所在团队主要做三个方面的研究:①通过对文献数据的抽取和清洗以获取数据的不同特征,这与信息资源管理领域做的研究较为相似;②分析和处理数据,涉及到图情领域的数据库、信息资源管理等问题;③改进算法、定义模型,模型性能要好、速度要快,研究内容要新。相较于计算机等学科领域的原始创新(方法和应用都是新的),数据科学的研究侧重于把方法用到新的领域,实现某种技术或方法的应用创新,通过数据分析与挖掘,从而得到有价值的研究结论。
总之,数据科学专业更注重技术的使用而不是原理的掌握,注重技术的运用而不是仅仅在技术方法上的创新,注重分析结果的揭示而不是分析过程的阐述,注重研究问题本身的价值而不是采用技术的创新,注重研究问题的解决而不是研究方法的改进。
洪亮:数据科学专业设在信息资源管理领域,原因有两个:①数据科学可以支撑用数据的方法研究科学,用数据分析方式为学科服务。这与信息资源管理领域用数据分析的方式做知识管理并为学科服务是类似的。②数据科学是用科学的方法去研究数据,用数据发现与揭示现实生活中的规律,如通过在线社区的数据发现用户行为的一些规律。这些与信息资源管理领域的研究是一脉相通的,在我们领域,学习一定的数据分析等技术能力也是比较容易实现的。因此,数据科学开设在信息资源管理领域是非常合适的。
此外,数据科学专业培养的更应当是数据科学家,是培养兼具行业领域问题意识和计算机能力的人才,是具有学科交叉点的复合型人才,以达到“1+1>2”的效果。数据科学家与数据分析师的研究对象都是数据,但也存在区别,数据科学家是从数据中发现未知的问题并开展研究,而数据分析师是研究确定的问题。此外,我们不能“拿着锤子找钉子”,切忌用技术导向贯穿学科研究,而是要以问题导向指导科研。因此,数据科学家需要树立正确的数据观,认识到研究的难度不取决于技术的难度,而是取决于所研究问题的难度,即使需要对所用技术进行一定的改进和改良,但仍需以问题为中心。
黄颖:信息资源管理学科本身就是一种交叉学科,融合了计算机等专业的知识。目前交叉学科研究领域主要研究有以下几个方面:①定义好学科的基准是什么?做好学科的分类,从而衡量研究的跨学科性。②交叉性与促进团队合作的关系是什么?如物理学领域和情报学领域科研人员的合作与计算机领域和信管领域科研人员的合作肯定是不一样的。这也从一个角度回答了为何数据科学专业开在信息资源管理学科下更合适。③如何培养交叉学科的人才?很多国家已然意识到交叉学科人才培养的重要性,但尚未提出可行的培养方案和落实措施。④多大程度上的学科交叉才是合适的?即对交叉学科的评价进行研究,衡量交叉学科对创新的影响。我们不能为了跨学科而跨学科,需要研究学科跨度到多大才算合适,可以最大效益地激励科研。
毛进:相较于数据科学,数据治理侧重于对数据进行治理。国家层面关注用数据进行社会治理;企业层面关注企业数据治理,比如对不同数据库进行规范融合。
邓胜利:宏观层面的数据治理,旨在建设数据治理体系、构建数据治理模型。数据安全问题日益凸显,诸多数据问题已经演变成社会问题,比如数据泄露、隐私安全、国家安全、大数据杀熟、算法杀熟等一系列的问题。数据治理是针对宏观层面数据的治理,如对国家、企业层面的数据治理,其目的不仅仅是确保数据的高效应和实现企业价值,还是为了提升政府公共管理能力和国家治理能力,正如清华大学江小娟教授所言“数据治理需要体现社会价值,具有一定的社会属性。”
洪亮:以研究问题为导向,逐步学习涉及到的工具及方法,在解决一个一个问题的过程中学习、培养发现问题和解决问题的能力,提升自身的科研水平。从学科发展来看,当前数据驱动的第四范式的研究已经很成熟了。人、机、物深度的协同和交互式研究是第五范式,创新性的研究需要将机器、环境与人的协同考虑进去。因此,大数据专业类学生需要努力成为复合型人才,既要掌握相关方法和技术,也要有正确的数据观,并围绕自己的研究方向逐步拓宽视野。
黄颖:以自身的研究领域与方向为主,与其他专业的学者和学生合作,开展跨学科的研究;重点围绕所解决的问题,面向领域学科,提高研究立意,避免技术至上。
曹高辉:方法和技术的学习只是开展科学研究的一个方面,目前方法驱动的论文已经过了红利期。学生在科研过程中应该多看前沿的文章,多与计算机专业或其他专业的学者合作;关注方法的适用性(计算机方法并不能够解决全部的问题);加强对数据分析结果的解读,计算机技术与方法生成的结果不能代表完全正确的观点。
毛进:做科研需要做到“大处着眼,小处抓力”。“大处着眼”指科研需要围绕“四个面向”,将自己的研究与四个面向结合。“小处抓力”指在研究过程中应当通过拆解问题,得到最终的解决方案。
邓胜利:学生做科研应当注意以下几点。①提高问题意识。在方法层出不穷的今天,学生需提高问题意识,多参加学术报告与学术会议,多读最新的文献资料,关注所开展的科学研究是否解决现实问题。②选择合适自己的方法。不必要刻意地追求花哨的方法与技术,而是根据自己的兴趣和能力,选择适合自己的研究方法。③提高换位思考能力。从评审专家/审稿人的角度,阅读自己撰写的论文,从逻辑、研究价值、研究意义、是否提出创新性的研究问题与是否符合“四个面向”等方面深入剖析自己的论文。总之,数据科学类的科研需要树立正确的数据观,坚持以问题为导向,确定主要研究方向,选取合适研究方法,注重团队成员合作,加强跨学科交叉协作,学习高质量期刊立意方向,紧紧围绕“四个面向”,提高换位思考能力,做出具有实践价值和理论意义的高质量科研成果。