祝英杰,李 晗,杨相群
(1.长春大学研究生院,吉林 长春 130022;2.长春大学理学院,吉林 长春 130022)
随着信息时代和人工智能技术飞速发展,人类社会正式从IT(Internet)时代步入DT(Data Technology)。“大数据”概念最初由思科、威睿、甲骨文、IBM 等公司联合倡议提出。大数据时代的到来,意味着亟须大量的数据科学人才,世界各国对数据科学人才的重视程度都已提高到国家战略的高度。
大数据行业面临全球性人才短缺的问题。据报道,美国2018 年数据科学人才缺口为151717 人,这个数据持续增长。中国至2025 年数据科学人才缺口将达到200 万,然而我国每年高校输出的数据科学方向的毕业生大约为20 万人,这远远不能满足我国对大数据专业人才的需求。世界各国相继成立数据科学研究机构,各高校成立大数据科学学院或研究所。奥巴马于2012 年3 月宣布启动“大数据研究与开发计划”,美国各高校开始大规模培养数据科学人才。我国2015 年启动大数据战略,发布了《促进大数据发展行动纲要》,正式拉开我国数据热潮。2017 年2月,我国教育部着力推广新工科建设,开设大数据、人工智能、数据科学与大数据技术等专业,获批这些新增专业高校的数量由2016 年仅有3 所发展到2018 年250 所。由此可见,国内高校对大数据专业人才培养异常火爆,结合大数据时代对数据科学人才迫切需求的实际,高校对大数据专业人才培养模式的改革和数据科学学科建设工作任重而道远。
2017 年11 月中国商业联合会数据分析专业委员会联合全国87 位专家共同起草《中国大数据人才培养体系标准》(以下简称“标准”)。《标准》给出“大数据人才”的界定,即大数据人才具备数学、计算机科学与技术等多种学科交叉且掌握金融、经济、财会等商业技能的人,能够将数据和技术转化为企业的商业价值。大数据人才内涵包括三方面:(1)理论性,即掌握各种大数据技术算法和数据分析模型,进而更好地理解和运用大数据技术,具备计算机编程能力;(2)实践性,即处理各领域中具有行业背景的数据,具备数据挖掘和统计建模分析能力;(3)应用性,即利用大数据技术解决各行业实际问题,具备行业业务管理能力。
对数据科学人才的培养进行系统分类,才能因势利导,因材施教。目前国内大数据人才分类没有统一标准。不论哪种分类方式,均依托于大数据的显著特征,概括为“7V”:大量性(Volume)、黏性(Viscosity)、准确性(Veracity)、高频性(Vevacity)、时效性(Volatility)、多样性(Variaty)和易变性(Variabiltiy),其本质都是实现成本经济型向新型并行架构转变的驱动力。《大数据人才解读》中将大数据人才分为核心人才和复合型人才。高全义等通过挖掘人才价值将大数据人才分为技术、应用、安全、管理和领军五大类,每大类又进行二级细分。李佳培等将大数据人才分为工程型和科研型。大数据企业从“职业角色”角度给出大数据人才分类。大数据运维工程师、大数据前端应用开发工程师、大数据架构师、大数据分析师、大数据可视化工程师、大数据平台研发工程师、数据挖掘师、大数据云端研发工程师、算法工程师,称之为“数据操作型人才”。
2.1.1 加拿大滑铁卢大学大数据人才培养模式
加拿大滑铁卢大学为了更好地培养大数据专业人才提出Co-op 产学教育合作模式,即以高校、社会用人单位、学生、政府等为主体,特点是学生的Co-op 老师负责为学生寻找实习机会并提供面试指导。实习对于大数据专业人才的培养至关重要,滑铁卢大学的Co-op 人才培养模式提升了大数据专业人才实操能力,因此,该校50%的学生申请注册参加Co-op 学习。Co-op 人才培养模式是带薪实习,这也是滑铁卢大学制胜的关键。大部分Co-op 学生在长达5 年的学习生活中,一方面需要学习新知识,另一方面就是将在学校学习的知识付诸校外的实习中,在长经验的同时实现生活经济上的独立。大数据专业的学生可根据自身情况选择实习期,这更有利于他们的学习与生活。据统计滑铁卢在校的Co-op 学生大约为5000 人,基本来源于工程院全院与数学院。以学习和实习并行的Co-op 人才培养模式使毕业生在数学、计算机科学、工程学领域取得的成绩非常突出,这让滑铁卢大学成功成为北美地区的优秀大学之一。
2.1.2 美国德雷塞尔大学大数据人才培养模式
德雷塞尔大学大数据人才生源主要来源于计算与信息学院,有两种培养模式,一是数据科学本科学位,二是数据科学辅修。在5 年学习中,大数据专业的学生需要在社会用人单位拥有3 次或3 次以上的实习经历,否则不予毕业。德雷塞尔大学对于大数据专业人才的培养明确规定大数据专业学生的修习课程,对于大数据专业学生来说,必须选择“数据科学导论”“数据分析导论”“数据挖掘应用”“云计算和大数据”等基础性理论课程学习,而选修课一般为“计算机编程入门”和“数据监护”等。
2.2.1 清华大学大数据专业人才培养模式
面对大数据时代的冲击,国内高校作为人才培养的摇篮也紧跟时代发展的潮流。作为国内首屈一指的高校,清华大学对大数据人才的培养,利用自身优势学院进行教育与信息资源共享,建立数据科学研究院,特色培养大数据专业人才,并且建立自己的大数据共享的专业平台,推出大量与大数据相关的开源软件以及服务,在大数据专业人才的培养上起到了表率作用,并为国内大数据人才的培养提供宝贵经验。清华大学数据科学研究院关于大数据专业人才培养分为三个模块。第一模块为基础技能模块,开设数据分析(A)、数据分析(B)、大数据系统基础(A)、大数据系统基础(B)等课程,其目的是让学生了解大数据的专业知识。第二模块为能力提升,这一模块是深入学习大数据有关知识,了解大数据的发展方向,并学习数据理论、大数据算法、数据可视化处理、大数据分析与处理的相关课程。第三模块为实践,包括《大数据实践课》及大数据相关讲座,这一模块目的是扩展学生眼界与实践能力。
2.2.2 复旦大学大数据专业人才培养模式
2016 年复旦大学调集一切优势力量,投入大量人力、物力培养大数据专业人才,开办大数据统计与分析专业、大数据系统与计算专业、大数据与智能科学专业,制定大数据专业人才培养体系。复旦大学利用数学、计算机科学等优势学科资源进行交叉融合,创建大数据学院,培养创新型大数据专业人才。大数据学院对于大数据专业人才的培养分为三个模块:通识课程教育、基础课程教育、专业课程教育。高级大数据解析、数据融合与同化、组学数据的统计分析和挖掘这几门课程是复旦大学大数据学院的特色课程。
目前我国大数据人才市场需求现状有以下几个特点:
大数据人才供需地域不均衡。我国有八个国家级大数据综合实验区,主要集中在京津冀、长三角、珠三角、成渝等区域。与这些试验区毗邻的省份,如江苏、陕西、湖北、浙江、四川、安徽和山东也在加紧大数据产业园/基地的建设。
大数据人才市场从事系统研发等技术岗位的大数据技术类人才稀缺。我国大数据产业发展成效显著,应用创新不断,在政府、金融、医疗、工业、交通、农业、能源、电信、教育、物流等众多领域,大数据应用需求越发强烈,大数据人才缺口约150 万。因此,新工科背景下国内大数据人才市场近期和远期需求体量较大。
对于大数据人才培养,偏重统计学理论基础知识的教学,力求知识体系的完整性,行业业务管理知识渗透不足。高校已有信息类相关专业,通过在培养方案中增加大数据相关课程,如数据科学导论、数据挖掘、云计算与大数据、Hadoop等,使毕业生适应大数据技术革命的迅速发展和行业应用需求的快速增长。然而,大数据人才培养和数据科学学科建设尚未形成完善体系。
具有企业实践经历的大数据专业教师师资力量薄弱。在经济相对落后地区,开设优质的大数据课程实属不易。大数据技术随着信息技术发展不断更新换代,这需要开设大数据专业的高校具备雄厚的师资力量和不断完善课程体系,以便适应复杂多变的大数据产业市场。
大数据专业教学方式以面授为主。吴丹等研究发现,非iSchools 高校数据科学学科的授课方式仍以面授为主,不利于增加学习形式多样性和提高学生学习效率。
我校以市场需求为导向,通过认真分析大数据专业教学存在的不足,研究制定我校数据科学与大数据技术学科专业培养目标,较全面掌握大数据处理和分析的基本理论、基本方法和基本技术,具有数据采集、存储、处理、分析与展示的基本能力,能够运用所学知识解决实际问题,具备较高的综合业务素质、创新与实践能力以及良好的外语运用能力,能从事大数据科学算法研究、大数据分析、大数据系统开发、大数据可视化以及大数据决策等工作的应用型创新人才。具有以下三方面素质的人才:理论性,即注重对数据科学中基本概念和理论的理解和应用;实践性,即处理金融、生态、医疗卫生、电信等领域数据;应用性,即利用大数据技术解决具体行业应用问题的能力。
构建“产学研深度融合”的大数据课程群。依托教育部“产学研”项目,加强学校和企业间校企合作的深度和广度,充分发挥高校和企业的主观能动性,实现校企双主体运作模式,最终实现双赢。课程群包括三个模块:学科基础课(数据科学与大数据技术专业导论、大学计算机基础、程序设计思维、概率论与数理统计)、专业核心课程(数据结构与算法、机器学习、最优化理论与算法)、专业方向课程(Python语言编程技术与实验、应用回归分析与实验、大型数据库、Hadoop编程与实验、数据仓库与实验、深度学习与实验、数据可视化与实验)。
加强大数据实践类课程教学。注重大数据企业实战项目和案例分析,为此聘请大数据企业项目经理讲授Hadoop 编程与实验、数据仓库与实验、深度学习与实验等课程。组织学生参加校内、校外企业实习实训,采取“双导师制”。选取综合型实验项目进行校外实习实训,通过“顶岗实习”方式,让学生融入企业环境,综合运用大数据技术解决行业实际问题。
加强大数据专业师资队伍建设。跨学科组织教师充分利用学校现有的科研平台、校企合作基地进行“双师型”教师培养;鼓励教师积极参与大学生创新创业训练计划项目;有计划地组织青年骨干教师到大数据培训企业或培训基地参加行业的专业技能培训;鼓励教师积极申报国家留学基金委国家公派出国项目和国内访问学者项目,并且每年选派教师到国内外高校或企事业单位交流培训。
充分利用互联网,实现优质课程共享。鼓励引进国家级、省级优质在线开放课程,任课教师采取MOOC 进行线上线下混合式教学方式,满足学生个性化发展需求,提高学习形式多样性和学生学习效率。
“数据生产力”一词于2020 年7 月正式向社会发布试用,这意味着我们需要构建数据为生产要素的新业态、新模式。数据生产力成为人类改造自然的新型能力。特别在“十四五”期间,高校将不断探索大数据人才培养模式改革,培养方式多元化;课程设置与时俱进;注重计算机编程课程以及行业背景实习。高校要进一步对标行业、企业需求,完善大数据人才培养方案一体化的理念,实现课程体系支撑人才培养目标与培养特色;完善实践教学体系,加强校内外实践环节,丰富项目与案例资源;加强课外实践与创新环节及课外教育运行机制;培养具有创新能力的“双师型”师资队伍。