周傲英 周烜
摘 要:21世纪以来,对人类影响最大的科技事件是互联网的蓬勃发展。互联网企业的成功彰显了数据的重要性,“大数据”因此成为耳熟能详的热词。“大数据”是说数据很重要,其本质上指的是数据的采集、汇聚、关联和使用。数据是人类文明史上堪比蒸汽能和电能的新能源,是催生数字经济的新动能。基于这样的认识,华东师范大学成立了数据学院(全名:数据科学与工程学院),“面向新经济的数据科学与工程专业建设”入选第一批新工科建设项目,数据专业于2019年入选同类专业唯一的一个国家级一流本科专业。发起成立的數据专业协作组围绕本科核心课程进行了全面深入的讨论,确定了第一批八门核心课程及其教学大纲,教材编写和课程建设正在全面推进。另外两门核心课程“区块链导论——原理、技术与应用”和“数据中台初阶教程”也将很快面世。
关键词:大数据;数据专业;人才培养;核心课程;知识体系
目前,国内很多高校都在积极申办“数据专业”。然而,大家对这个专业缺乏统一认识,特别是对培养目标的设置和课程的安排。有的学校在原有计算机专业的基础上拓展出“数据专业”,也有的学校在原有统计专业的基础上拓展出“数据专业”。不同的专业创办方式造成人才培养方式的极大差异。这让学生在选择专业时深感困惑,也给用人单位的毕业生招聘带来了困扰。
2018年,由华东师范大学发起,全国多所高校联合成立了“数据科学与工程专业协作组”,旨在商讨并制订出一套统一的“数据专业”培养目标和课程体系。至今,数据科学与工程专业协作组已经举办了四届研讨会,就“数据专业”的培养目标和核心课程设置进行了深入讨论,并且咨询了大量工业界专家的意见,对专业建设的若干关键问题都得到了比较明确的答案。协作组的成员高校目前已经开始针对“数据专业”的8门核心课程开展精品课程建设,并计划在不远的将来推出一系列核心课程教材。由数据专业协作组编写的《数据科学与工程专业人才培养方案与核心课程体系》将由高等教育出版社出版。
目前,工业界对“大数据”这个名字的解释并不完全一致。特别是对“大”字的解读,有人认为“大”单纯指数据量大(Big Volume),也有人认为“大”有多重含义,除了数据量大还包括数据产生速度快(Big Velocity)、数据种类多(Big Variety)等,由此引申出3V、4V、5V等叫法。不一致的解释容易造成学生的困惑。协作组认为数据本身就是有价值的,无论大小,只要能帮助实际生产提升效率,就是可利用的对象。因此,我们不拘泥于某一种“大数据”的定义,而将“数据科学与工程专业”“数据科学与大数据技术专业”和“数据专业”一视同仁。核心是数据。
一、数据是新的电能
历史揭示,工业的跨越式发展通常需要新的驱动力。这个驱动力可以是新的能源、能量或生产资料。第一次和第二次工业革命背后的驱动力分别是蒸汽能和电能。它们让新的生产方式成为可能。现在距第二次工业革命已经有一个多世纪,人类工业进步的下一个驱动力会是什么?我们大胆猜想:下一个驱动力是数据。
近百年来,最让人瞩目的技术变革是信息化。信息化将所有人连接起来,让每个人可以随时随地传递消息、表达见解。商铺、银行、服务机构利用信息化将它们的渠道延伸至世界的每一个角落,让所有的商品和服务都变得唾手可得。各种生活用具、设施和生产设备也通过信息技术联系在一起,使得它们可以互通有无、相互协作,进一步提高人们的生产效率和生活便利程度。如今,由计算机和互联网构成的庞大信息系统已经成为人类社会正常运转不可或缺的部分,其重要程度无异于传统的桥梁、道路、电力系统等基础设施。而人类社会运转的过程也被这个系统记录下来,形成大量数据。数据中隐含了丰富的信息和规律,因而成为炙手可热的资源。电子商务集团利用购物数据获知不同人群对不同商品的喜好,从而大大提升商品推广的效率。医疗机构通过分析病人的检测数据,发掘出疾病的成因和致病规律,让诊断和治疗变得更加准确。教育机构通过分析学生的行为数据了解学生的个体差异,从而做到更好因材施教。很多行业的经营和生产模式都因数据的使用而发生改变。从这一点上看,数据很像当年的蒸汽能和电能。
数据是如何驱动生产的?在传统的生产方式中,企业重点关注产品和用户两个要素:去用户那里了解需求,根据需求生产出产品给用户。传统企业缺少利用数据的意识或手段。因此,产品更新迭代的速度很慢。为了获得竞争力,企业须做尽量全面的需求分析,力图将产品设计得尽可能完美。在数据驱动的生产方式中,企业除了考虑产品和用户,还将数据作为重要的生产要素:企业将产品生产出来给用户,用户使用产品的过程和效果被记录下来,形成数据;数据立即被反馈回去,用于优化产品的设计和生产。在这个过程中,由于有数据的支持,产品不断快速迭代,日臻完善。在数据驱动的生产方式下,数据成为核心竞争力——谁拥有更全面的数据,谁就能制造出更完美的产品。
数据驱动的生产方式首先是在互联网上彰显了它的威力。我们耳熟能详的互联网业务大都是数据驱动的。最明显的例子是搜索引擎。无论是谷歌还是百度,都在不停地收集用户搜索行为数据。这些数据让它们对用户的理解不断深入,从而可以不断优化搜索功能和排序模型。同时,数据也让广告投放的精准度得到提升。正是数据的积累,让谷歌和百度这样的公司成为垄断搜索市场的科技巨头。电子商务是另一个显著的例子。例如,亚马逊和淘宝的营销业务也都是数据驱动的。通过分析用户的浏览和购买行为数据,这些电商平台得以洞悉用户的需求和喜好,从而准确地将商品推送给潜在客户。互联网社交平台同样是数据驱动的典型业务。微信、微博、脸书的产品迭代速度都非常快,新功能层出不穷。这得益于用户数据的积累。它们因此可以不断挖掘用户的需求,从而不断对产品进行改进。此外,这些社交平台的主要商业价值在于它们的商业推广能力,而数据也是支撑这种推广能力的基础。可以说,大部分成功的互联网业务都依赖对数据的合理利用。如今,不仅仅是互联网业务重视数据了,各个行业都开始引入数据驱动的生产方式,包括零售、餐饮、医疗、金融、教育、物流和工业制造。大数据产业逐渐形成。
如上所述,大数据产业的根本目的也是用数据去为各个行业赋能。换一句话说,就是帮助各个行业进行数据驱动的生产方式的转型,让各个行业的业务都能利用数据的驱动力提升效率。就像第一和第二次工业革命时期蒸汽机和电动机的发明与制造,大数据产业要为社会创造数据驱动的“引擎”。
二、数据人才应该具备的素质
“数据专业”的目的是为大数据产业培养人才,其目标也就是培养学生用数据为各个行业的业务进行赋能的能力。我们希望这个专业的毕业生能够理解数据的价值,并且能夠帮助各种行业、各个企业建立数据驱动的生产方式,从而实现数据的价值。“数据赋能”并不是简单的工作,而是复杂的系统工程,需要不同专长的人倾力合作才能实现,这包括数据科学家、数据工程师、软件开发人员、熟悉业务的领域专家等。在大数据行业里,职业分工可能不下数十种,甚至包括一些垂直领域的细分岗位,比如金融数据分析师、医疗数据分析师等。大学本科阶段的学习重在培养学生在专业领域的基本素质和能力,而不宜只针对某几类工作岗位做职业训练。当学生获得了“数据赋能”的基本素质和能力之后,再进一步根据自己的特长和兴趣并结合市场需求进行择业。这与大学的其他专业都是类似的,即一个专业通常对应着众多的职业发展路径。
“数据赋能”的基本素质和能力主要包括哪些呢?数据科学与工程专业协作组讨论后,得出了如下一些意见。首先,学生需要理解数据的价值,即数据如何提升业务的效率,或者帮助业务解决什么问题。为此,学生需要养成用数据去解决问题的思维习惯,即惯常讲的“数据思维”。现实世界的数据种类繁多,业务也种类繁多。因此,对数据价值的把握并非一件简单的事,需要不同场景的案例支持以及反复的思维训练。其次,学生需要学习如何“把玩”数据。这涉及大量数学知识,包括数据的表示方法、处理方式以及从数据中发现规律的原理。同时,这也涉及计算机领域的工程能力,包括用计算机去收集数据、管理数据、处理数据的能力,还包括用计算机去训练模型、部署模型的能力。最后,学生需要学习如何用数据去驱动业务。这要求学生能够分析业务的需求,并且用软件构建出数据驱动的解决方案。最后这个方面的学习通常需要学生在实践中完成。只有通过以上三方面的学习和训练,学生才能系统地理解“数据赋能”的全过程并掌握其中的关键技能,才算具备了“数据赋能”的基本素质。
三、“数据专业”在国内外的发展状况
2013年,纽约大学推出了数据科学硕士课程,这被普遍认为是最早的“数据专业”课程。随后,美国的各大顶尖高校(包括斯坦福、加州伯克利、卡内基梅隆等)也相继开设了数据科学硕士课程。我国的清华大学也在2014年推出了“大数据”硕士课程,开始了该专业的教学探索。可以说,“数据专业”的建设是从硕士课程开始的,其培养对象不仅仅是计算机和统计专业的本科毕业生,还包括理科、工科和商科各个专业的本科毕业生。大数据的应用领域非常广,各行各业都有明确的数据人才需求。通过硕士课程的学习,各行业的专业人士可以比较快速地获得数据技能。这成为各行业补齐数据人才缺口的一种方式。
数据本科专业是近几年才开始出现的,比硕士专业滞后了好几年。本科生的培养需要构建一套完整的知识体系,这比“锦上添花”的硕士课程要求更高、难度也更大。据统计,美国现有50余所高校开设了数据科学的本科专业,其中包括纽约大学、耶鲁大学、普渡大学、加州大学圣地亚哥分校等知名大学。在国内,比较早开设数据本科专业的知名高校包括复旦大学和华东师范大学。这两所高校分别于2016年和2017年开始招收该专业本科生。华东师范大学的数据科学与工程学院一开始招收的是本科2年级的转专业学生,自2019年开始招收高考生。而复旦大学的“大数据学院”一直招收的都是本科3年级的转专业学生。自2018年起,中国的数据专业加速发展,目前已有上百所高校开启该专业的本科培养。
虽然国内外的众多高校都开始了“数据专业”人才培养的探索,但大家并没有对该专业的知识体系和课程体系达成一个统一的认识。不少学校都是在原有计算机专业或统计专业的基础上通过增删部分课程构建“数据专业”的培养方案。这并不能很好地服务于我们的人才培养目标。
为了对“数据专业”的人才培养体系有一个全面统一的认识,国内外的教育界人士都做了不少工作。值得一提的有ACM的数据科学专案组(ACM Data Science Task Force)和欧盟的EDISON(Education for Data Intensive Science to Open New science frontiers)项目的工作。ACM的数据科学专案组由来自美国、加拿大和中国的10余位专家学者组成,目的是讨论数据科学专业的人才培养目标和课程体系。他们的最新研报对数据科学家基本能力做了梳理,认为数据科学家的能力应包括计算机的基础能力、数据收集和治理的能力、数据安全管理的能力、数据分析的能力、大规模数据处理的能力以及数据科学家的基本职业素养(Professionalism)。这些其实都是“数据赋能”能力的组成部分。EDISON项目的成果报告则把数据人才的能力分为了五个大类,包括数据分析(Data Science Data Analytics)、数据工程(Data Science Engineering)、数据管理(Data Science Data Management)、研究与项目管理(Data Science Research Methods and Project Management),以及商业过程管理(Business Process Management)。他们建议为这五类能力分别设置课程和培养方案。在协作组看来,这样细致的职业分工虽然合理,但未必适合作为本科的培养方案。协作组坚持认为“数据专业”的本科教育应该着重基本能力的培养,一套培养方案比多套培养方案更精干也更便于推行。
四、从三个维度看“数据专业”的知识体系
协作组对“数据专业”的课程设置进行了深入探讨。当前各院校对“数据科学与大数据技术”的理解不尽相同。总结一下,大部分院校通过以下三个维度(或视角)之一去理解该专业的知识构成。
第一个维度是按照软件系统的层次架构对知识进行划分。这样的划分方式清晰地区分了底层的计算机系统、中间层数据管理和处理平台、运行在平台上的算法和模型以及顶层各个领域的大数据应用。如图1所示,华东师范大学数据学院发表在《大数据》期刊上的系统层次架构正是通过这个维度对“数据专业”的知识构成进行了解读。计算机系统领域的学者通常也都会使用这个维度去理解大数据技术。首先,任何大数据应用需要一个数据管理和处理的平台。数据在这个平台上被记录和维护,也在这个平台上被处理并得到价值实现。学会使用这样的平台是数据人才的必备技能,而获得这项基本技能的前提是学习计算机系统的基本知识。其次,数据的价值提取依靠算法设计和建模,这不仅要求学生具备足够的数学知识,也要求他们精通程序设计,从而可以将算法和模型实现在数据处理平台上。最后,数据处理的结果需要对接应用,以实现数据对应用的赋能。这需要学生具备一定的系统工程能力,从而能够对传统应用进行改造;同时也要求学生掌握应用的领域知识,从而可以理解应用的真实需求和痛点,让数据真正解决应用的问题。
第二个维度是按照数据科学的生命周期对知识进行划分。数据科学的生命周期刻画了从需求分析到数据收集,再到数据整理,最后到数据分析和结果展示的数据处理的全过程。对数据科学家而言,这一过程的每一个步骤都是至关重要的,并且每一个步骤都涉及各自的理论、工具和技术(其中的一些步骤可能用到重复的理论和工具,比如数据分析和数据整理),都需要“数据专业”的学生去深入学习。随着时代的发展,专业人士对数据科学生命周期的认识也在变化,出现了不同的版本。比如最后一步未必需要将结果直接展示给用户,而可以将数据反馈给模型,以提升模型的性能。图2是从互联网上摘录的两种生命周期的刻画方式。它们都有各自适用的应用场景。目前,我们尚不能对数据科学生命周期的所有环节形成共识。但总体而言,这种过程式的知识刻画方式不乏其合理性。
第三个维度是按照从理论到实践的传统方式对知识进行划分。对一个能够实现“数据赋能”的专业人才,深厚的理论知识是必备的条件。首先,学生需要接受充分的数学训练。这不仅仅是为了提升思维能力,而是学习数据处理的前提。数据的本原是数字,数据的处理实际上就是数学计算的过程。与“数据专业”相关数学知识除了基本的高等数学和代数之外,还包括离散数学、概率论、统计学、运筹学等。其次,学生还需要学习计算机的理论。特别是算法理论和机器学习理论,它们都是用于实现“数据赋能”的基本理论知识。有了理论知识,学生需要大量实践能力训练。这里的实践能力包含两个层次。第一个层次是工程实践能力,即要求学生能够动手将数据处理的软件系统构建起来。对“数据专业”而言,程序设计是最基础、最核心的工程实践能力,需要学生投入大量精力去练习并积累经验。除此之外,学生还需要掌握各种系统工具,包括操作系统、数据管理系统、云计算平台、分布式数据处理平台等。第二个层次的实践能力是对接应用的能力。对特定的应用场景,学生需要具备一定的交流能力和探索能力,能够发现数据对业务的价值,能够分析数据对业务的驱动方式,从而制订“数据赋能”的解决方案。这样一套从理论到实践的知识体系虽然传统,但能比较全面地概括“数据专业”所涉及的重要知识。
以上三个维度的知识体系梳理都具备明确的合理性,都应该纳入“数据专业”的课程体系中。但我们只需要让课程体系涵盖这三个维度的知识构成,而不需要严格依照它们去设计课程体系。课程体系的设计更应该讲究教学的可操作性,其目的是让教学的分工协作更高效、更灵活。
五、推荐的数据科学与工程专业课程设置
“数据科学与工程专业”是一个新专业。以上的分析讨论揭示:数学(包含统计)和计算机科学是这个专业的支柱学科。同时,“数据专业”与传统的数学专业、统计专业和计算机专业的人才培养目标又是不同的。它必须提供与这些传统专业不同的人才培养体系,才能达成自身的培养目标。但是,从目前国内各高校的师资条件看,为“数据专业”重新量身定制一套全新的课程体系并不现实。目前,能够参与“数据专业”教学的老师几乎都是来自数学、统计和计算机专业的老师。他们中的大多数未必有大数据行业的从业经验,也未必掌握“数据赋能”的能力。在短时间内,我们无法要求他们完全胜任全新的“数据专业”课程。作为折中之举,我们可以将数学和计算机专业的一些基础课程直接复制过来,作为“数据专业”的基础课程,然后再设计一套精干的属于“数据专业”的核心课程,用于重点培养“数据赋能”的能力。
协作组为“数据专业”设计的课程体系如图3所示。整个课程体系分成四个部分。第一部分为基础课,都是从数学和计算机专业筛选出来的重要课程,目的是帮助“数据专业”的学生打好在数学和计算机方向上的基础。第二部分是核心课,是协作组经过激烈讨论后选出的8门针对“数据专业”培养目标的重要课程。第三部分是方向课,也是选修课,由学生根据自己的兴趣或职业规划自主选择。方向课包括深入科研领域的技术类课程,比如深度学习、自然语言处理等,也包括面向行业应用的垂直课程,比如教育大数据、物流大数据等。后者通常会将“数据专业”的知识和行业领域知识结合起来,让学生体会数据是如何驱动现实业务的。第四部分是工程实践课,主要用于:训练学生的工程能力,向他们灌输职业行为规范,并提升他们的创新意识(主要体现在“设计思维”课程)。其中“毕业设计”是最重要的实践环节。该环节最好将学生置身于实际的业务场景,让他们用数据去解决业务的问题。对于工科的“数据专业”,第四部分的课程是很重要的。
表1是上述課程在四年本科期间的一种时间安排,以供参考。其中,方向课建议都放在第5—8学期。
对于方向课,可以根据各个学校的师资条件和教学专长进行开设。作为选修课,方向课的门类和内容都不应受到任何限定。各个学校只需要确保学生能够通过方向课获得在大数据细分领域的深入学习机会。下面着重介绍一下协作组选定的专业核心课程,也是“数据专业”最关键的课程。