冯小洁
(青岛滨海学院 信息工程学院,山东 青岛 266555)
当前,大数据的应用已广泛深入到人类社会各个方面,涵盖医疗健康、交通运输、金融、保险、教育、科研、电子商务、旅游等行业领域。大数据对科学研究、思维方式和人类社会发展都产生了深远的影响。大数据具有“全样而非抽样、效率而非精确、相关而非因果”的显著特征,完全颠覆了传统的思维方式[1]。大数据思维是指一种意识,公开的数据一旦处理得当就能为千百万人急需解决的问题提供答案[2]。文献[3]中从内涵和构成上给出了大数据思维的定义:大数据思维就是在大数据应用过程中,以大数据为视角分析问题、解决问题而形成的思维,它由大数据思维观念和大数据思维方式构成。
从2016 年开始我国一些高校相继开设了数据科学与大数据技术、大数据技术应用、大数据管理等大数据类本、专科层次的专业,用于培养大数据数据管理、大数据系统开发、数据分析与挖掘等应用领域的研究、开发、管理高级专业技术人才。由于这些专业是新设专业,人才培养标准尚未确立、教学体系尚在探索中、课程教学必然遇到一些问题,如教学思路不清晰、教学内容不系统、教学模式与课程不匹配、教学方法落后、教学实验环境不达标等。作为大数据类专业的核心专业基础课程,大数据技术原理与应用课程也必然存在此类问题。因此,必须在持续不断的教学改革实践中探索,打造大数据技术原理与应用精品课程。
大数据技术原理与应用课程在大数据类专业的课程中处于核心和基础地位,具有理论性强、涉及知识面广、实践能力要求高等特点。课程涉及大数据基本概念和应用领域、大数据存储与管理、大数据处理与分析、大数据应用等理论知识和技术;先修课程有数学、操作系统、计算机网络、数据库、程序设计、数据结构与算法、Web设计等;实践技能涉及大数据环境搭建能力、Linux 操作系统Shell 命令操作能力、java/Python语言分布式编程能力、流计算和图计算编程能力、数据可视化编程能力、HBase 等分布式数据库设计能力等。
课程教学目标是使学生掌握大数据的基本概念、原理,存储和管理、构建起大数据技术知识体系,掌握初步的大数据分析、挖掘和可视化技术,培养学生工程实践能力和利用大数据思维思考问题、分析问题和解决问题的能力。
大数据技术作为新一代信息技术的代表,对于大数据技术课程的教学,利用传统的以课程教材为中心的知识传输式的教学模式难以达到教学目标,必须根据课程的特点,以大数据技术体系结构的建立和大数据思维的培养为课程改革的方向进行教学改革。按照这个思路,课程组从教学内容、教学方法和实践教学3 个方面开展课程教学改革。具体的教学改革实施方案包括:①充分理解课程中的核心概念和原理、典型案例在教学内容中的特殊地位,依据教学目标,按照大数据思维形成和发展的规律组织教学内容;②采用项目驱动式为主的教学方法,辅以多媒体与网络教学平台等多种教学手段增强教学效果;③重视实践教学在提高教学质量中的重要作用,在项目实践中培养学生掌握大数据技术管理、分析和挖掘、大数据系统开发的工程实践技能和大数据思维能力。
按照信息论的观点,思维是对新输入信息与脑内储存知识经验进行一系列复杂的心智操作过程[4]。思维的形成和发展经历了概括到抽象、感性到理性、表象到本质、掌握到应用的过程。从前边论述知道,大数据思维是在大数据应用过程中,以大数据为视角分析问题、解决问题而形成的思维[3]。作为一种思维类型,大数据思维也必然遵循思维的形成和发展的一般规律。因此按照大数据思维形成和发展的规律,开展大数据技术原理和应用教学,培养学生大数据思维能力是一种有效的途径。依据这一思路,大数据技术原理与应用课程教学内容组织如下。
第1 部分:大数据技术基础。这部分内容包括大数据产生的时代背景、概念、大数据思维、大数据影响、大数据产业等内容。通过这些大数据基础知识引导学生形成对大数据的初步的认识,培养学生初步的大数据思维观念。
第2 部分:大数据存储和管理。这部分内容包括使用大数据解决大数据存储的分布式文件系统HDFS、分布式数据库HBase、NOSQL 数据库、云数据库等。通过对大数据存储概念、原理、读写过程的讲解,使学生理解大数据的存储体系架构、存储原理等,大数据思维观念得到强化。
第3 部分:大数据处理与分析。这部分内容包括解决大数据的高效处理问题的分布式并行编程框架MapReduce、大数据计算平台Spark 和Storm 以及大数据可视化技术。通过这部分内容的学习,学生可以初步掌握大数据处理和分析技术,并能够做一些简单的数据处理分析,形成解决实际问题的大数据思维方式。
第4 部分:大数据技术应用。这部分内容精选了大数据在电子商务领域的应用——京东商城商品推荐,大数据在生物医学领域的应用——Google 流感趋势预测,大数据在交通领域的应用——百度迁徙,大数据在娱乐领域的应用——电影纸牌屋的成功,大数据在政府领域的应用——网上办事大厅等。通过讲解大数据在社会生产和生活中的典型应用案例,使学生深刻领会到大数据对社会的影响及其重要作用。学生通过对应用案例的分析和理解,在这一过程中感悟大数据思维的内涵,训练大数据思维,将大数据思维能力转化为解决实际问题的具体方法。
项目驱动式为主,辅以多媒体教学与网络教学平台等多种教学手段和方法的教学方法满足了学生学习的个性化、多样化需求,更好地帮助学生掌握大数据技术知识体系,培养工程实践能力和训练大数据思维能力。
按照项目驱动式教学法,大数据技术原理与应用课程教学目标被分解为多个具体教学项目分目标,在完成各个项目教学的分目标基础上使学生理解和掌握大数据技术基础知识,逐步培养起大数据思维观念和大数据思维方式。这种教学方法强调学生按照项目管理学的要求自主完成项目,而教师只做必要的指导,学习的主动权交给了学生,便于学生发挥主观能动性,便于因材施教。课程采用项目驱动教学法,关注的是学生在不同教学阶段的自主学习和解决问题的能动性,关注学生理解和应用大数据技术原理知识的过程,关注学生工程实践能力的训练,重点在于对学生思维方式的引导,特别是在学生大数据思维观念和大数据思维方式的养成上下工夫。依据课程目标和项目驱动式教学法可以设计如下几个典型教学项目。
1)教育大数据项目。
新生大数据项目是典型的教育大数据应用项目。它以某高校2019 年新生数据为基础数据源,分别从生源质量、生源地分布、中学母校、民族、政治面貌、男女生比例、新生年龄、院系/专业人数、姓氏姓名、身高体重、兴趣爱好和饮食习惯等维度对新生大数据进行分析比较。这个项目涉及的就是大学生群体自身的事情,很容易引起学生产生对大数据技术原理与应用课程的学习兴趣,而数据分析和挖掘出的许多有趣的结果和丰富的可视化图表画面更是激发了学生探索大数据技术的热情。另一个教育大数据项目学生生活消费大数据分析项目则通过“一卡通”设备采集的学生消费数据进行分析可以为学校助学金评选提供依据。
2)大数据智能思维项目。
大数据智能思维的典型应用是“亚马逊雨林监测”项目:某雨林保护组织利用华为手机收集电锯、汽车和动物的声音,在华为云端通过大数据分析和AI 处理,实时监听亚马逊雨林,保护庞大的雨林不被滥砍滥伐[5]。在大数据时代,大数据智能系统也能够自动地搜索相关的数据信息,类似“人脑”一样主动、逻辑地分析数据、做出判断,无疑也就具有了类似人类的智能思维能力。亚马逊雨林监测项目正是这样的大数据智能系统。通过该项目的教学,学生了解到大数据思维转变的核心内容是大数据将有效推进机器思维方式由自然思维转向智能思维[6]。
3)大数据应用促进信息技术与行业融合项目。
物联网的飞速发展使得人类社会每时每刻产生大量的数据,持续积累的大数据促进了信息技术与其他行业的深度融合。“百度迁徙(春运出行仪表盘)”项目是由百度公司利用百度地图LBS(基于地理位置的服务)开放平台、百度天眼,对其拥有的LBS 大数据进行计算分析的平台,是以“人群迁徙”为主题,进行交通路线预测的大数据热点检测可视化项目。在讲授大数据可视化技术时,教师充分利用互联网这一巨大的共享资源库,详细分析百度迁徙大数据,通过人群流动和路况堵塞趋势状况大数据展示了大数据热点检测、可视化等技术应用于交通等行业。
4)“数据驱动”决策项目。
数据驱动决策的思想是将业务系统应用中产生的数据,通过汇聚、分析挖掘,可以对业务进行诊断、预警、改进跟踪,提高决策水平。“大数据与纸牌屋”项目就是大数据应用于影视产品开发的典型例子。项目通过一家在线视频播放网站奈飞在其网站上收集3 000 多万用户每天产生的点击、收藏、推荐、播放回放、暂停、快进、搜索请求等数据,进行分析挖掘,得出最受用户欢迎的剧本、著名导演和主要演员并适时修改剧情,最终推出电影纸牌屋,创造出数十亿票房收入的成功的故事说明大数据应用[7]。这是利用大数据进行投资决策的项目,真正做到了以数据为中心,“用数据说话”,从数据中发现问题、解决问题,使得决策方式从“目标驱动”或“业务驱动”向“数据驱动”转变,由数据创造价值,在这里,大数据成了商业创新的利器。
5)算法思维与大数据思维应用比较项目。
计算思维是运用计算机科学的基础概念进行问题求解、系统设计以及人类行为理解的涵盖计算机科学广度的一系列思维活动[8]。算法思维是计算思维的核心,强调解决问题的方法和步骤,而大数据思维是大数据时代计算思维的重要组成部分,它强调用“数据说话”,用数据分析和挖掘的结果得出问题的答案。为了使学生思维方式从算法思维向大数据思维转变,课程组设计了旅行路线推荐项目。旅行路线推荐项目提出这样的问题:给出旅客出行的起点城市和终点城市,推荐一条最佳出行方案,使得在距离、时间或交通费用等方面的权值最小?按照算法思维的解决办法,这是一个多起点多终点图的最短路径问题。起点和终点就是两个城市的车站、机场、酒店、景点等节点,中间节点对应两个城市间经过的车站、机场、酒店、景点等,节点之间的边对应距离、时间或交通费用等权值。可以利用Floyd 算法来求解这个问题,但当图的节点数过多时,该算法复杂度O(n3)的值较大,不易算出。换一种思路,采用大数据思维解决问题的方法,可以通过收集人们旅行数据,构建旅客、城市以及旅客行程关系的数据模型,得到旅行大数据作为数据源。再根据旅行大数据统计得到某种权值最小的路线推荐给旅客,可能更能让旅客满意[9]。这种大数据思维解决问题的方法,专注点放在了数据模型的设计上,而不再是算法思维的精确算法设计上,这是一种“计算向数据靠拢”思想的应用。与此相关的谷歌利用大数据实现机器翻译的项目也说明了这一点。
项目驱动式教学离不开多媒体教学、互联网与网络教学平台等多种教学手段的支撑。便于学生更好地进行自主探究式学习大数据技术原理与应用课程,课程组利用课程网络教学平台提供给学生大数据技术的多种学习资源,包括教学课件、单元测验、教学视频、教学案例、大数据前沿技术资料等,供学生在线学习或下载后学习。此外,通过课程网络教学平台提供的博客和论坛等互动交流功能,教师能够及时为学生答疑解惑。课程网络教学平台的应用,为学生提供更有选择性、拓展性和体验性的学习资源,学生摆脱了时间和空间上的限制,真正做到了个性化自主学习和探究式学习。
大数据技术原理与应用是一门实践性很强的课程。为培养学生的实践操作技能,课程组确立了课程理论知识与实践技能相结合,以数据为基础,强化大数据实际操作能力以及编程、设计和分析能力,以实际问题为导向的实践教学方案。
学校支持大数据专业建设,建立了大数据实验室,引进了一套专门用于大数据实践教学的大数据技术实验实训平台。实验实训平台通过典型的大数据知识体系结合大数据分析和挖掘的应用场景与案例对学生进行大数据技术方面的综合训练,从而实现专业课程实验实训教学由点到面、理论到应用,涵盖原理验证、设计研究、综合应用的多层次实验实训体系。该平台基于OpenStack 及Docker 混合云平台开发而成,采用B/S 架构,支持用户通过浏览器访问使用。该平台提供的实验实训项目有Linux 常用命令、分布式处理架构Hadoop、Spark、java、R 语言、python、SAS、MapReduce、大数据案例实战等。课程组根据课程教学目标精选了其中的大部分项目作为课程实验项目,并编写了大数据技术原理实验教程作为课程实验实训教材,其中每个实验都设计了实验目标、实验内容、实验步骤和实验结果等模块。为有效考核学生的实践技能,课程组要求学生完成实验后要独立撰写实验报告。实验报告不合格,要求必须重新做实验、重新撰写报告,直到合格为止。在课程综合考核中加大了实验设计的比重。
通过大量的实验项目训练和严格考核,学生初步了解了大数据处理业务流程,初步掌握了大数据的存储、管理的方法,有了一定的大数据分析和挖掘、可视化等基本技能,工程实践技能得到提升,大数据思维能力得到了有效训练。
大数据思维应大数据的产生而产生,伴随人们对大数据的认识和应用的深化而发挥作用,进而对大数据技术产生影响。大数据技术原理与应用课程以培养学生掌握大数据技术基本原理,培养学生的大数据思维能力,提高教学质量为教学目标。课程组根据课程的特点,以大数据技术体系结构的建立、工程实践能力的培养和大数据思维的训练和培养,将大数据思维能力转化成学生的解决复杂问题的方法利器作为改革的方向。具体在通过按照大数据思维形成和发展的规律组织教学内容、项目驱动式为主的教学方法和强化实践教学等3 个方面实施教学改革。经过一个学期的教学改革实践,大数据技术原理与应用课程取得了良好的教学效果。学生对大数据的概念、处理流程有了深刻的认识;初步掌握了大数据存储和管理技术,能够进行简单的大数据分析和可视化呈现,具备了一定的工程实践能力,能够有意识地运用大数据思维思考、分析、创新研究和解决实际问题。大数据技术原理与应用课程教学还需要不断总结、借鉴和吸收国内外同类课程教学成功经验,持续改进。