如何开设中学数据科学通识课程

2019-05-25 08:18华东师范大学数据科学与工程学院
中学数学杂志 2019年7期
关键词:学科科学工程

☉华东师范大学数据科学与工程学院 王 伟

在上一期的《摭谈数据科学在中学通识教育中的作用》一文中,我们给大家介绍了以“思考点”和“实践点”为中心的中学通识课程的重要性,并提出了“数据科学作为一门通识课程”的观点.随着2017年教育部新一轮的高中课程标准的更新,数学与信息技术两门基础课程备受瞩目,其也是和数据科学最为密切相关的课程.本期我们就“如何开设中学数据科学通识课程”这一话题给大家做进一步的阐释,同时也看看高中课程标准的改革是如何对数据科学的普及起到支撑作用的.

一、数据学科

要说清楚什么是数据科学,首先要把这个词放到数据学科(或数据专业)这个更大的语境下去考量.虽然当下的数据学科还没有像其他传统学科一样标准化,但不妨碍我们从自身的认识出发来进行探讨.在现阶段,可以初步认为数据专业至少包括下面四个方面的内容:

数据学(Dataology):研究探索数字空间中数据界(Data nature)的理论、技术以及相关方法,对象是数字空间中数据界里的数据,以此来获悉数据的类型、状态、属性、变化形式以及变化规律,即数据专业的数据本体内涵;

数据科学(Data science):是以数据为中心,通过计算思维与数据思维的方法,来理解我们所处的世界,并实现问题的求解,即数据专业的学科方法内涵;

数据工程(Data engineering):支持数据学和数据科学的工程实现,即为数据相关基础设施、数据全部生命周期管理过程、数据科学过程方法论和工具、数据处理与分析系统、数据分析编程语言、可视化工具等,即数据专业的工程实现内涵;

数据道德与职业行为准则(Data of Ethics&Professional Conduct):在数据的整个生命周期过程中所可能涉及的道德规范、社会问题、伦理问题、职业行为准则等,即数据专业的道德与职业内涵.

1.数据学

我们首先来区分一下数据、信息和知识这三个概念.数据是数字空间中的个体;信息是自然世界及人类社会中的各种现象;知识则是通过实践得到的认识和经验.数据是信息、知识的符号表示或者是载体,然而数据自身并非是信息或知识.故数据学所研究的对象并不是信息或知识,而是数据;若是对数据进一步研究,不仅能够认识自然、生命和行为,还能获得信息和知识.

复旦大学的朱杨勇教授认为,人类在探索现实自然界和人类社会时,用计算机在处理人-自然-社会的整个过程中,一个复杂且庞大的数据世界应运而生.自从数据爆炸以来,人们除了生活在一直以来存在的自然界外,还生活在新的数据世界中.人类能够通过探索数据界来了解世界,同时更需要探索数据界中的各种现象以及规律,这即为数据学的任务.能够预见到,目前全部科学研究领域,都会形成其相应的数据学,并且伴随着数据学的发展,更多的科学研究工作将会直接针对数据进行,以此认识数据、自然、社会以及人类的行为.

从这个角度看,数据学(Dataology)和美食学(Gastronomy)非常类似,前者是研究数据界中的数据,研究并认识数据的各种类型、状态、属性及其变化形式和变化规律,而后者则是研究自然界中的各种食材,研究并认识这些不同食材的类型、色泽、味道、以及烹饪加工变化中的形式与规律;厨师以食材作为原材料,利用菜谱和各种厨具,做成美味佳肴,而数据科学家则以数据为原材料,借助模型、算法和软件工具,形成数据产品和应用洞见.

因此,数据学所包含的研究对象、目的以及方法等都与现有的计算机科学、信息科学乃至统计学有着根本上的不同.

2.数据科学

鄂维南院士曾这样论述数据科学所包含的两方面内容,即为:用数据的方法来研究科学、用科学的方法来研究数据.前者的包含面很广,囊括了地理信息学、神经信息学、数字地球、生物信息学、网络信息学、天体信息学、商务智能与社会计算等多个领域.后者囊括了数理统计、数据挖掘、模式识别、机器学习、数据库、信息管理、数据可视化等领域.故从技术的角度来看,前者关注的是数据技术如何在各行各业中发挥作用;后者关注的则是如何用信息技术收集、传输、处理、存储和显示数据.

“数据科学”概念的出现要早于我们今天炒的热火朝天的“大数据”,其研究的并非只是大数据,随着数据量的井喷式增长,数据科学在其中扮演的角色也越来越重要,同时这也使得数据科学获得更广泛的理论内涵和实践意义.

上世纪六十年代《数据分析的未来》一书中,J.W.Tukey就预见了数据分析的新方法将会成为一门新的科学.而在七十年代,P.Naur在《计算机方法的简明调查》中第一次定义并提出了数据科学是“一门研究数据处理的科学,创立之初,数据与其所代表的事物之间的关系隶属于其他学科领域的研究范畴”.

数据科学的发展与计算机、互联网、大数据紧密相关,是以问题为根本指导的交叉型学科创新和新的知识体系.因此,与数据学以数据为导向不同,我们认为数据科学的核心是以问题为导向的.

基于上述内容,按照计算机科学中流行的计算思维的提法,数据科学可以定义为:以数据为中心,通过计算思维与数据思维的方法,来理解我们所处的世界(科学),以及对现实问题的求解(工程).其最重要的思维方式是数据思维,简单来说就是以数据为中心的问题求解.这也是贯彻后面中学数据科学通识课程中最重要的一条线.

数据思维是基于计算思维,因此数据思维的养成自然也就包括计算思维的养成,但数据思维可以解决部分用传统计算思维所解决不了的问题.

3.数据工程

“数据工程”和上面所说的“数据学”与“数据科学”有什么区别呢?

实际上,现代“科学技术”中包含了科学、技术与工程三个不同领域或不同层次.科学,是对外在客观世界的本质规律的一种探索与认识.其主要形态即为发现(Discovery),主要手段是研究(Research),其获得的成果则大都是学术论文或专著.技术是沟通科学和工程的桥梁.其主要形态即为发明(Innovation),主要手段是研发(Research&Development),其主要成果是专利以及相关论文和专著.工程是科学与技术的应用,是通过创新思想(New idea)来对现实中的新问题进行求解(Solution).其形态是综合集成(Integration),手段主要是设计(Design)、制造(Manufacture)、应用(Application)与服务(Service),主要的成果是产品、作品、工程实现与产业化.科学家的工作是发现,工程师的工作是创造.

有了这些概念后,回过头再来看就比较明白了.数据科学是以问题为导向对自然世界和数据世界的本质规律进行探索与认识,是用创新的思想对现实世界中的问题进行求解;数据技术是数据科学与数据工程之间的桥梁.包括数据的采集与感知技术、数据的存储技术、数据的计算与分析技术、数据的可视化技术等;数据工程则是数据科学与数据技术的应用和归宿,是利用工程的观点进行数据管理和分析以及开展系统的研发和应用,是支持数据学和数据科学两类活动的工程实现,其包括数据基础设施、数据全生命周期管理过程、数据科学过程方法论和工具、数据处理与分析系统、数据分析编程语言、可视化工具等.

二、数据科学

有了上面的认识,我们可以看到,数据科学就是研究数据的产生、获取、存储、传输、处理、可视化、利用及其相互关系的一个当代科学的前沿学科,对几乎所有其他学科都有很强的协同性和渗透性,体现出整个基础学科在大数据时代科技进步中的先导作用.

今天,人类处于一个科学高度分化又高度综合的时代,数据科学在整个科学体系之中将是发展最迅速的领域,充当着人类发展最强大的引擎,其成为支撑学科交叉、技术创新、经济发展的主导力量,向全社会全方位渗透,并推动人类社会不断转型.

数据科学是一门典型的跨专业学科,第一张关于“数据科学”概念的韦恩图是由Drew Conway在2010年制作.图中的中心部分是数据科学,韦恩图表明了数据科学是数学、统计学、计算机、编程和领域专业知识的组合.

图1 数据科学的韦恩图

图2 数据科学的五大要素

可以将数据科学总结为三大支柱和五大要素.

三大支柱分别为数据学(Dataology)、分析学(Analytics)和算法学(Algorithmics);而五大要素则包括数据思维、数学基础、算法分析、工程技术和领域应用,如图2所示.

(1)数据思维:即数据驱动的问题求解,包括计算思维和统计思维.

(2)数学基础:以数学和统计学为基础的数据分析方法.

(3)算法分析:问题求解与数学分析方法的具体落实,通过作用在数据之上的算法来实现.

(4)工程技术:即数据采集、数据存储、数据计算、数据分析、数据展示等数据管理全生命周期技术.

(5)领域应用:结合领域知识,数据科学在各个行业的应用.

在该模型下,利于我们获悉数据科学的相关知识点.我们不妨把这门课程称作《中学数据科学与工程》,图3是我们构建的一个课程参考模型,供大家在做课程建设的时候参考.

图3 《中学数据科学与工程》参考模型

从图3中可以看出,该参考模型完全覆盖了前面所提到的数据科学的三大支柱与五大要素.同时也可以看到,其中很多模块和目前2017年新版的高中课程标准有着对应关系,以高中数学为例,新课标中数学核心素养中的数学抽象、数学建模、数学计算和数据分析在上面的参考模型中均有不同程度的涉及,而像“统计与概率”、“数学建模与数学探究”这样的课程模块更是有直接的对应.值得一提的是,在领域篇中的“科学研究”单元,还可以设计利用数据科学与工程来支持中学其他课程的内容模块,例如生物信息模块、计算物理模块等,这样就进一步打通了数据科学与其他学科之间的联系,非常符合新版高中课程标准的改革方向.

三、结束语

随着大数据与人工智能时代的到来,以及教育部新一轮的高中课程标准的改革,推动中学通识课程的改革恰逢其时.本文初步分析了目前在高等教育中扮演着重要角色的“数据科学”这个新的学科,在数据专业这个语境下分析了数据科学的内涵与外延,并以《中学数据科学与工程》为例,给出了开设相关课程的参考模型,希望对大家在中学开展数据科学的教学实践起到积极的推动作用.

猜你喜欢
学科科学工程
【学科新书导览】
土木工程学科简介
点击科学
科学大爆炸
“超学科”来啦
子午工程
工程
科学拔牙
借问学科哪家强?尽言洄服有良方
工程