吴贺俊?饶洋辉
摘 要:当前,传统信息技术类专业教育的发展面临重大挑战,新技术层出不穷,企业新技术高校不教,教学惯性形成阻力。新工科建设就是要解决工科专业教育滞后于新经济新技术发展的深层次问题。本文以大数据专业方向课程建设为具体实践基础,提出将专业建设中新科目和基础科目的有机融合,避免“因循守旧”和“沙上建塔”两个极端,从而主动适應并引领新工科的建设过程。
关键词:大数据;新工科;课程建设;教学内容;能力培养
我国高校都在面向未来布局新工科建设,积极探索更多样化和个性化的人才培养模式,培养具有创新能力和跨界整合能力的系统工程科技人才。以大数据专业方向课程建设为具体实践基础,本文提出将新科目和基础科目的有机融合,科学选择安排教学内容,既重视多年来计算机科学专业积累的理论基础教学,又要开放引入新的教学内容。
具体来说,新科目新内容怎么安排呢?新工科建设“天大行动”和“北京指南”提出的新工科三“新”就给出了方向[1-2]:(1)新理念——要应对变化,塑造未来;(2)新要求——要培养多元化、创新型卓越工程人才;(3)新途径——要继承与创新、交叉与融合、协调与共享。
根据以上原则,面向新工科的专业课程建设应有以下三点体现:一要体现未来发展趋势;二要体现卓越人才培养的高要求;三要体现产学、科教融合,学科交叉,共享共建的新
模式。
大数据专业方向属于“新兴工科方向”。大数据技术是专门应对大规模超复杂关联数据的分析处理挑战的一门新型信息技术,其重点关注如何对数据进行智能加工处理,筛选出有用信息,通过对数据的加工进一步挖掘数据的价值。据IDC(国际数据公司)预测:到2019年,大数据技术与服务市场复合年均增长率将达23.1%,而来自大数据分析的年度全球收入将达1870亿美元。
大数据技术中的数据源来自于各个行业的方方面面:工业制造、供销物流、农业生产、交通运输、生物、医疗、金融、气象、海洋、航空、航天、军事等。设计高效的统计分析及机器学习算法,采用高性能的分布式并行计算资源,对这些海量非结构化复杂关联的数据进行处理,这些是大数据技术的核心任务。这需要信息计算科学中几乎所有方向科研人员合作,也需要不同科学领域人员协同配合[3]。
信息技术类专业新工科建设中的重点应该放在新工科方向上,促进这些新工科在计算科学上继续创新、交叉融合。学院以新经济发展为导向,创新性卓越工程人才培养为主线,循序渐进,在原有专业基础上,提出了新专业课程建设中新科目和基础科目的继承融合发展,逐步开展大数据专业课程建设。
一、信息技术类专业现状和大数据专业迫切需求
当前,很多高校的工科课程体系多年来变化不大,从当前毕业生和用人单位反馈来看,很多课程体系已经不适合当前经济社会发展的需要。尤其是新经济发展带来以信息技术为核心的革命性的产业变革,由此,我们急需建设新的交叉型信息课程体系。当前高校的计算机科学专业课程尤其是较高年级的课程体系设置过于单一,未考虑实际应用,范围狭窄,与新经济新技术发展相脱节,需要引入新专业方向课程以跟上新技术的发展[4-5]。
当前,无论是互联网行业、金融业,还是服务业都需要大量的大数据人才;各大企业也迫切需要大数据人才来合理利用大数据技术为自身服务。各类单位也越来越重视大数据及相关技术,投入经费逐步增加。我国的综合性行业巨头,如华为、百度、腾讯、阿里巴巴、京东等企业,为了应对大数据挑战,均招纳了非常多的大数据人才和数据分析人才,并且京东、腾讯、阿里巴巴公司近几年对大数据人才的招纳力度大幅度上涨。由此可见当今时代大数据人才的稀少以及珍贵。根据中国通信研究院的预测,5年内国内大数据相关专业人才的缺口将高达130万左右。
数据科学与大数据技术专业毕业生的就业面要比计算机或者纯数学广泛很多。一方面,大批毕业生可进入IT行业从事大数据的工作,如国外的Facebook和Amazon等,中国的京东、淘宝等公司也急需数据科学与大数据技术专业相关人才;另一方面,随着很多传统行业数据的急剧增长,如信用卡刷卡记录、顾客消费数据、实时监控录像数据等,传统行业对数据分析方向的人才也呈现出了大量需求。
二、大数据专业准备工作
作为数据科学的学院,在新工科建设中,我们较早地开始关注、研究并逐步深度探索大数据这一新兴方向。我们认为,新的专业或方向建设应该做好充足的准备工作。前沿方向尤其应该“科研先行、产业结合、前沿教学、教研相长、产学共建”。
2015年开始,学院开展了多个关于大数据方向的科研课题,以人工智能、数据库等研究领域的教师和科研人员为主导,形成以大数据为核心,涵盖人工智能、数据库、高性能计算、云计算、网络安全、生物医药信息等相关领域的研究团队。
本学院建立了一个以“天河二号”超级计算机为依托,涵盖高层次人才培养、软件技术研发和支撑、面向产业和科研的高水平应用服务“三位一体”的新型管理运行机制。学院筹建了“大数据科学研究中心”,与“广州超算中心”形成了“一院两中心”的发展格局,互相支撑、共同发展。学术研究上形成了“数据、智能、计算”的三角结构,三者互为依托,协同发展。
但是,学院在人工智能和交叉领域方向上还相对薄弱,尤其是在专业数据挖掘、统计分析、深度学习方向上只有人数较少的团队从事研究。然而,大数据技术中关键一环是人工智能与传统工程产业结合、交叉应用:首先利用人工智能方法采集过滤清洗数据,其次采用高级统计分析方法或者机器学习方法进行关联分析、分类或者检测识别。以上都需要人工智能算法在理解该数据所属工程产业的基础上才能做到高准确率的分析识别。
学院在三个方面做了准备工作:(1)引进人才。学院从海外引进了生物信息、人工智能等专业人才。(2)成长培养。学院通过科研项目、教育部高校人工智能教师培训等方式,培养现有教师团队,跟进前沿技术发展。(3)结合产业。通过产学研合作,让工科的科研能够结合实际,尤其是非基础理论的应用类工科的研究,需要接地气,解决实际问题。产业界拥有很多数据资源但欠缺前沿技术,而高校科研机构缺乏丰富的数据资源但在前沿技术领域积累了大量研究成果,所以二者合作是共赢的。同时,由于大数据领域是前沿研究,所以不存在产业浪费学术时间的问题。
经过科研项目和工程实践的积累,下一步就是小范围开展前沿教学。本学院在计算机科学专业中分设了不同方向,包括人工智能与大数据方向、超级计算方向等,每个方向以40人为上限。在课程设置上,也从计算机科学专业延续而来,循序渐进,注重继承与创新的统一。
三、大數据专业课程建设探索
大数据专业方向的培养目标是让学生能够系统掌握数据科学以及统计学、人工智能等基础理论、基础知识和基本技能与方法,使得学生在课程学习和实践后具有较好的数据工程实践能力、较强的学习能力和很强的数据科学研究素质。学生毕业后将能从事大规模数据库的开发维护、各类数据的挖掘与分析、商业分析与预测、工农业产品的品质提升等相关大数据工程应用,成为数据计算、人工智能及其相关技术领域的系统设计研发、算法研发、数据科学研究与教学的复合型人才。
大数据专业系统能力培养要求则分为两个层面:
(1)掌握大数据科学相关的基础知识,掌握大规模、异构、多源、多维度、分布式、结构化和非结构化数据存储技术以及网络数据搜集及分布式存储技术,掌握格式化数据分析挖掘的基本方法,具备数据建模能力和数据可视化展现能力。
(2)对超级计算机、高性能计算、数据中心等基础设施有较好的了解,具有比较系统的大数据工程实践经验;具有较强的利用机器学习方法和运用高级统计学进行数据分析统计的能力,能够综合高效应用并行算法和计算资源如GPU集群、FPGA板等解决实际大数据工程问题。
根据以上培养目标和专业基础培养要求,我们可以看出该专业方向与计算机科学专业的重合以及区别。
首先,重合部分主要是在专业基础部分。包括:数学分析、概率论与数理统计、高等代数、回归分析、数值计算、程序设计、数据结构与算法(含实验)、算法分析与设计、机器学习与数据挖掘(计算机科学专业选修课程)、数据库系统原理及其实验课程、人工智能(计算机科学专业学习人工智能导论)。
其次,需要在继承计算机科学专业课程的基础上,继续发展大数据专业方向的四大系统课程,即:操作系统、编译原理、计算机组成原理和计算机体系结构。由于大数据专业方向后续还有很多分布式系统、并行体系结构、超级计算机原理等高级的系统基础课,并且,如果完全重合计算机系统类课程会导致学时不够用,学习内容过多等问题,因此我们这里把四大计算机系统类课程整合成一门课程——计算机系统。该课程结合后续实践课程,高效地培养学生计算机系统能力。
再次,与计算机科学专业课程不同,大数据专业核心课程主要包括:分布式与并行计算、高级人工智能原理、大数据处理(包含高等统计学、贝叶斯统计、多变量分析、并行机器学习算法、大规模数据并行处理)、高性能计算程序设计基础、超级计算机原理与操作、多核程序设计、图论及其应用、算法设计与应用基础、高级编程技术、智能算法及应用、机器学习与数据挖掘、云计算概论、优化理论、生物信息学引论等。
最后,大数据专业方向的主要实践性教学环节和主要专业实验包括:程序设计实验、数据结构与算法实验、操作系统原理实验、高性能计算程序设计基础实验、计算机组成与原理实验、并行机器学习算法实验、大数据应用实践、程序设计与数据结构综合实践、高级数据库技术及实践、多核程序设计与实践、数据分析实践、云计算项目实践、超级计算实践、专业技术综合实践等。
基于以上课程分析,我们探索针对性地建设教研相长、产学共建的共享共建开放实践教学平台。该平台的系统架构如下图所示。该平台的基础是一个远程网络虚拟实验室,通过虚拟现实设备和仿真节点,学生可以远程实验及硬件交互,例如远程运行超级计算程序和测试算法等。
该平台将在使用中持续开展产学共享共建,支持其他学院和其他经过学院认证的科研及企业机构上传题目、标准答案、评价标准,经审批后扩充教学平台题库等。平台建设采用通用框架,按照平台定义的协议由教学助理导入课程库、实验库、题目库和考核库,第三方机构提供的课题由管理员审批后扩充题目库。框架协议由平台的内核系统通过各种模块支撑。
参考文献:
[1] “新工科”建设行动路线:“天大行动”[J]. 高等工程教育研究,2017(2):24-25.
[2] “新工科” 建设指南:“北京指南”[J]. 高等工程教育研究,2017(4):20-12.
[3] 何海地. 美国大数据专业硕士研究生教育的背景、现状、特色与启示[J]. 图书与情报,2014(2):48-56.
[4] 郑庆华. 以创新创业教育引领创建新工科教育模式[J]. 中国大学教学,2017(12):8-12.
[5] 冯亚青,杨光. 理工融合:新工科教育改革的新探索[J]. 中国大学教学,2017(9):16-20.