主题论坛:大数据学科与人才
5月25日下午,“大数据学科与人才”主题论坛在贵阳金阳万丽酒店5F黄果树厅举行,清华大学计算机科学与技术系教授,党委书记,教育部在线教育研究中心副主任孙茂松作为论坛主席主持了会议。孙茂松教授表示,大数据要能够真正地落地需要很多关键因素的促成,人才是其中关键的一环。没有成熟的学科体系和人才培养机制,就无法提供优秀的后备人才,因此以此为主题邀请了国内外专家学者从不同角度介绍和探讨大数据学科建设和人才培养的工作。会议现场气氛热烈,与会嘉宾与专业观众还进行了深入的互动交流。
主持人孙茂松教授与演讲嘉宾陈振冲教授交流
会场观众
演讲嘉宾与专业观众互动
对于大数据人才培养上面临的挑战,孙茂松教授表示,当前大数据领域的人才培养机制仅是在现有框架体系下做了延展,并没有完全按照大数据包含的领域来设计体系,这也与大数据的领域特征有关。
首先,大数据领域比较广泛,多样性比较高,包括机器学习、并行计算、人工智能、统计学等多领域,同时还包括与工业领域的诸多结合,这样丰富的内容让大数据的课程设置很难全面覆盖,大数据的研究是相当庞杂的。
其次,大数据业务跨度不断扩大,涉及深度学习、基础学习、脑部深度计算、工程技术等,动辄都是几十亿的数据,且纵向延伸非常深,其研究需要极广泛的积累。
再次,大数据还具备很高的前沿性。基础科学、技术科学都是最前沿领域,采用最先进的技术,同时需要跟工业领域深度结合。如果重新设计大数据的课程体系,需要选择上游某一段进行若干种组合,目前系统性的尝试仍未开始。
孙茂松教授接受采访
香港理工大学教授、学务长陈振冲教授认为,社会对数据科学人才的需求量非常大,目前学校提供的数据科学人才数量远不够。McKinsey Global Institute针对大数据人才需求所做的一个研究结果表明,到2018年,美国面临14万~19万的数据分析师缺口,150万的管理和运营人才。与数据紧密相关的产业都急需大数据人才,包括互联网、电子商务、金融、工业服务、教育、娱乐文化、游戏、信息安全、O2O、社交媒体等。通过他们对中美两国对数据学科人才的招聘需求分析得出,目前市场所需的数据学科人才主要分为两类:数据科学家和数据分析师。对于数据分析师的学历要求相对数据科学家有所降低,而工作经验要求则高于数据科学家。综合来看,合格的数据数据分析师需要具备较强的应用能力,收集管理数据;利用工具或软件分析数据并生成报告,撰写报告;利用工具或软件进行数据挖掘;实现不同的算法。合格的数据科学家需要具备分析、研究、解决问题的能力;建立数据模型,分析模型;设计和实现数据分析、数据挖掘的算法;与商业或决策部门合作,利用数据分析结果提供决策支持。
美国伊利诺伊大学香槟分校教授翟成祥认为,从教育理论来讲,大数据的价值将来很多方面体现在人的感知能力和判断能力,是一种扩充,是智能助手。大数据的课程设置应该紧密结合大数据的应用来设计,即4个A:第一个是acquisition(数据的获取),第二是aggregation(数据的整合),第三是analysis(数据的分析),第四个是application(数据的应用)。这4个A是一个循环。acquisition,涉及传感器的分布,如何优化获得的数据等;aggregation,涉及数据库、搜索引擎、信息检索包括对数据的理解等;analysis,涉及数据挖掘和统计模型、高性能分析;对于application,目前比较可行的是用云计算的方式来支撑,因为数据比较大,另外一个发展方向是人工智能。
翟成祥教授表示,大数据时代已经到来,带来了挑战和机遇。挑战就是我们要培养什么样的人才,机遇就是可以改进教育,人才教育与教育方式二者结合起来,既能解决挑战,也能抓住机遇。
清华大学计算机系教授、副系主任武永卫介绍,2015年CSDN社区经过统计认为,未来3~5年中国所需的数据科学人才是180万,但是目前国内只有30万此类人才,缺口达到了150万。这说明了国内数据科学人才培养的急迫性。目前大数据人才分为应用数据分析师、数据系统构架师、算法设计工程师3类。应用数据分析师具备行业应用领域知识,可提供基于数据挖掘分析的战略决策。数据系统架构师对数据的存储、分析与处理等技术和系统架构有深入理解。算法设计工程师则注重数据分析算法设计,统计分析为核心的数学能力突出。
武永卫教授表示,针对大数据人才培养,清华大学设立了“数据科学与工程”混合式专业学位教育项目,其目的就是:培养具备数据存储、运行监管、智能分析挖掘以及战略决策等技能的专门人才,使其能够胜任数据存储管理师、数据分析师、数据系统构架师乃至数据科学家、首席数据官、商务分析师、战略管理者等职位。项目注重知识能力与职业素养融合的培养体系,设立了数据存储、系统架构、分析挖掘、应用/素养的相关课程。
韦恩州立大学计算机科学系教授,大数据和商务分析中心主任,IEEE计算机学会计算生命科学技术委员会主席陈学文在论坛上做了精彩报告。
陈学文教授认为,数据科学的一个重要价值就是给商业带来价值,通过大数据挖掘、分析可以得到其价值。因此数据科学家要掌握的基本技能包括编程能力、数学思维、机器学习和可视化、强烈的好奇心、软技能(domain knowledge and soft skill)。
陈学文教授介绍,目前美国在数据科学上开设课程的研究机构大大小小有30多家,高校开设的课程都是针对硕士研究生的培养,如伯克利大学、纽约大学等。他建议应该有一个本科生的培养方案,这样学生在学校跟着导师做项目,经过学习,学生会很熟悉整个流程,对学生的帮助很大。
复旦大学计算机科学技术学院教授,上海市数据科学重点实验室主任助理熊贇在论坛做了精彩报告。
熊贇教授认为,数据科学家包括3类人。第一类人更多的是从事科学数据分析,第二类人是从事商业业务分析;第三类人是科研高校里的师生,即专门研究数据的人。
熊贇教授表示,当前国内很多学校都建立了大数据专业,但是整个学科体系还没有能够全面地建立起来。在培养过程中,领域专家重点是学习如何将领域业务需求转化为数据问题交给数据分析人员,并不关注数据处理细节;而数据分析人员注重对领域专家所给的数据集进行处理,缺乏对领域知识的理解。这是目前数据科学家培养的常见方式,但却缺乏系统性。需要一个新的学科体系,包括数据科学基础理论、科学研究、数据方法、数据界探索、数据技术及应用、领域数据学。
熊贇教授表示,数据科学并不是简单的学科交叉,应该基于并和所有学科相关。而超学科数据人才培养体系,应该实现以团队培养为主的数据人才培养模式向培养具有数据能力的人(而非团队)为目标的培养模式转变。
(内容整合了嘉宾演讲速记及相关媒体报道)
大会网址:bdse2016.j-bigdataresearch.com.cn