贾立秀 林忠 韩磊
摘 要:随着大数据和云计算等新兴技术的发展,数据科学与大数据专业应运而生。本文根据应用型本科人才培养的特点和要求,结合笔者开设的数据清洗技术课程的经验,初步探讨了该课程的教学目的、教学内容和考核方法等课程教学设计问题。现阶段开设的数据清洗技术课程重点培养学生掌握专业基础理论知识和提高工程实践能力,凸显其专业核心类课程的地位,注重与大数据人才需求的接轨。
关键词:数据科学 大数据技术 数据清洗技术 教学初探
中图分类号:TP311.13-4;G642 文献标识码:A 文章编号:1674-098X(2021)07(a)-129-03
On the Teaching of Data Cleaning Technology for Big Data Specialty
JIA Lixiu* LIN Zhong HAN Lei
(School of Computer Engineering, Nanjing Institute of Technology, Nanjing, Jiangsu Province, 211167 China)
Abstract: With the development of emerging technologies such as big data and cloud computing, majors in data science and big data emerged. According to the characteristics and requirements of application-oriented undergraduate talent training, the author combines her own experience in Data Cleaning Technology course to preliminarily discuss the course teaching design issues such as the course's teaching purpose, teaching content and assessment methods. Data Cleaning Technology course offered at this stage focuses on cultivating students to master basic professional theoretical knowledge and improve engineering practice capabilities, highlighting its status as core professional courses, and focusing on the integration of big data talent needs.
Key Words: Data science; Big data technology; Data cleaning technique; Teaching exploration
随着大数据时代的到来,数据即是最宝贵的“石油资源”,具有国家战略意义[1],数据质量的重要性日益显著。大数据具有规模性、高速性、多样性和价值稀疏性等时代特征,其数据质量问题尤为突出。数据清洗是提高数据质量的重要技术,保障大数据的可用性。在很多大数据项目中,数据清洗工作在开发时间和预算方面占30%~80%[2,3]。现实世界中“脏”数据无处不在,数据不完整、不一致或不正确会严重影响数据分析和挖掘的结果,从而产生消极的作用[4]。数据清洗技术是一门活跃的学科,在数据管理和数据分析的历史上发挥了重要作用,并且仍在快速发展。此外,数据清洗被认为是大数据时代的主要挑战,因为在许多应用中,数据的体积、速度和多样性不断增加[5]。
数据清洗方面的研究最早出现在美国[6],“脏”数据每年导致大约14%的美国医疗支出被浪费,每年让美国经济损失3万亿美元以上。2012年,英国一次性投入1.8亿英镑用于大数据领域的科研与创新,并将大数据作为八大前瞻性技术领域之首。2015—2016年QS世界排名前50的大学中有17所大学开设数据科学相关硕士培养计划,其中10所在美国,6所在英国,1所在新加坡[7]。2013年,韩国多部门联合发布“大数据产业发展战略”,于2015年初,给出全球进入大数据2.0时代的重大判断。2013年6月,日本公布了新IT战略——《创新最尖端IT国家宣言》,全面阐述了2013—2020年以发展开放公共数据和大数据为核心的日本新IT国家战略。2017年,我国工业和信息化部印发了《大数据产业发展规划》,全面部署“十三五”时期大数据产业发展工作。2016年,教育部批准北京大学、中南大学及对外经贸大学开设数据科学与大数据技术专业,2018年增至283所[8]。数据科学与大数据技术是一门新兴学科专业,其课程体系相关建设尚在发展与完善中,具有独立性、交叉性、实践性和系统性等特点[9]。
本文以南京工程学院2018级数据科学与大数据专业为例,从教学目的、教学内容和考核方法等方面初探应用型本科课程《数据清洗技术》教学,以学生为主体,不断激发学生的学习热情和学习主动性。
1 教學目的
从数据科学与大数据专业人才培养方案可以看出,数据清洗技术课程的教学重点应放在让学生掌握如何使用数据清洗技术解决特定业务领域的问题,在完成本课程学习后能够熟练地应用数据清洗技术解决企业中的实际工程问题。作为大数据专业的专业核心类课程,需要讲解数据清洗的理论、方法、流程、工具及技术等内容,为学生进一步学习数据分析、数据挖掘和数据可视化等课程奠定基础。具体而言,本课程的教学目的主要包括以下几点
(1)理解数据清洗的理论、方法、流程、工具及技术。
(2)掌握数据质量的评价指标和问题分类。
(3)掌握ETL的关键技术和常见工具的基本功能。
(4)掌握数据去重、缺失值处理以及异常值处理的方法。
(5)熟悉多数据源的合并,掌握不一致和数据粒度的转换及数据的合计处理。
(6)提高使用数据清洗技术解决实际问题的能力和动手实践能力以及学习数据科学相关知识的兴趣。
众所周知,兴趣是最好的老师,培养学生的学习兴趣和学习信心是本课程教学的最基本的目的。此外,学生对先修基础课程,如概率论与数理统计、机器学习、Python、R语言、MySQL、数据采集技术及数据存储技术等学习积累直接影响该课程的教学效果,该课程教学中尽量保持数据科学基础知识在广度上和数据清洗技术在深度上的平衡。
2 教学内容
该课程采用理论与实践相结合的教学方式,理论知识和实际工程问题相互渗透融合。教学内容主要包括理论教学和实践教学两部分,选取的教学内容主要来自《数据清洗》(李法平主编)、《数据清洗》(黑马程序员编著)、《大数据分析:Python爬虫、数据清洗和数据可视化》(黄源、蒋文豪、徐受蓉主编)、《数据清洗》(黄源、涂旭东、罗少甫编著)和《大数据清洗技术》(王宏志著)等,符合应用型本科数据科学与大数据专业人才培养方案的培养目标,主要体现在学习难度适中和课程学时合理。下文将从理论教学和实践教学两部分讨论教学内容的编排,其中理论教学占32学时,实践教学占16学时,总共48学时。
2.1 理论教学内容设计
考虑到数据清洗理论正在快速发展,理论教学内容在参考相关书籍的同时,要实时更新解读国内外最新的经典图书及重要的学术论文,开阔学术的视野,提高学生学习的兴趣和主动性。理论教学内容主要包括以下几个方面。
(1)数据清洗的基本概念和原理,常见数据清洗的策略、方法与基本流程,以及数据质量的评价指标和问题分类。
(2)Microsoft Excel数据清洗基本操作,ETL的概念、体系结构和关键技术,ETL的常见工具Kettle、OpenRefine、DataWrangler和Hawk下载安装、基本概念及基本功能。
(3)使用至少一种软件工具,如Kettle、Open Refine、Python和R语言等进行数据去重、缺失值处理和异常值处理。
(4)使用至少一种软件工具,如Kettle、Open Refine、Python和R语言等进行多数据源的合并、不一致数据转换、数据粒度的转换及数据的商务规则计算。
(5)数据的增量加载、全量加载以及MySQL和Oracle的批量加载,数据加载异常的处理。
2.2 实践教学内容设计
实践教学主要通过机房上机实验完成,结合实际工程项目问题,精心挑选难度适中的上机实验题,由浅入深,环环相扣,步步推进,进一步加深对理论知识的理解,充分调动学生的学习主动性,并培养学生学习的兴趣。实践教学内容主要包括以下几个方面。
(1)Microsoft Excel数据清洗基本操作。该实验项目通过企业招聘职位信息的数据集练习使用Microsoft Excel进行数据清洗的基本步骤、方法及常见的数据清洗函数。
(2)Kettle软件数据清洗基本概念和基本功能。该实验项目通过网络爬虫获得的某基金网站的基金名称和基金代码信息数据集练习使用Kettle软件进行数据重复和错误等问题的处理。
(3)OpenRefine、DataWrangler、Hawk软件数据清洗的基本概念和基本功能。该实验项目通过企业招聘职位信息的数据集练习使用OpenRefine、DataWrangler和Hawk软件中至少一种进行数据重复、缺失、数据粒度过大等问题的处理。
(4)使用Kettle、Python、R语言进行数据去重、缺失值和异常值处理。该实验项目通过用户访问某网站的数据集和某公司就业人员收入数据集等练习使用Kettle、Python与R语言进行数据完全去重,不完全去重,删除缺失值,填充缺失值以及异常值检测、删除异常值、修补异常值处理。
(5)使用Kettle、Python、R语言进行数据转换。该实验项目通过某公司的2个分公司不同城市的销售数据集练习使用Kettle、Python、R语言进行不一致的数据转换、数据粒度的转换及一些商务规则的计算。
上述实验内容设计秉承难度适中、切合实际工程问题的原则,不仅使学生深入理解专业理论知识,还培养了学生利用数据清洗技术解决企业中的实际工程问题的能力。
3 考核方法
本课程采用传统的闭卷笔试的考核方式,题型有单项选择题、填空题、判断题、简答题和综合题等五大类,题型丰富,重点考查了学生对于本课程基本理论知识的掌握程度。平时成绩占总成绩30%,其中考勤、课堂表现和作业部分各占5%,上机实验部分占15%,期末考试成绩占总成绩的70%。设计合理的考核方案,让学生重视理论知识和上机实验操作,其中上机实验一方面可以通过实验报告考查学生对理论知识的掌握,实验报告内容主要包括题目、设计方案、源程序清单、程序运行结果和实验总结与思考;另一方面可以通过实验结果考查学生解决实际工程问题的能力,学生根据具体的实验要求编写代码实现相应的功能,教师对学生编写的代码进行提问,要求学生能讲解算法设计流程和每句代码的含义。这樣的考核方法使得学生不仅注重理论知识的学习,更激励学生认真准备上机实验,以提高学生解决实际工程问题的能力。
4 结语
本文探讨了应用型本科数据科学与大数据技术专业《数据清洗技术》教学的相关问题。从教学目的、教学内容和考核方法等方面做了一定探索,正确认识数据清洗技术在大数据专业人才培养方案中的地位,对应用型本科数据科学与大数据技术专业的相关教育工作者或有一定的参考价值。坚持以学生为主体的教学,因材施教,培养学生学习的兴趣和信心,以培养高质量的大数据人才为目标,是课程今后努力的方向。
参考文献
[1] 钟泽灵.大数据背景下的政务信息化治理探讨[J].中国信息化,2021(3):106-107.
[2] 谢智颖,何原荣,李清泉.基于时空相关性的公交大数据清洗[J].计算机工程与应用,2021(4):1-11.
[3] 叶鸥,张璟,李军怀.中文数据清洗研究综述[J].计算机工程与应用,2012,48(14):121-129.
[4] 郝爽,李国良,冯建华,等.结构化数据清洗技术综述[J].清华大学学报:自然科学版,2018,58(12):1037-1050.
[5] Tang N. Big Data Cleaning[C]//Asia-Pacific Web Conference. Springer,Cham,2014:13-24.
[6] Badia A. Data Cleaning and Pre-processing[M]//SQL for Data Science.Springer,Cham,2020:77-169.
[7] 陈振冲,贺田田.数据科学人才的需求与培养[J].大数据,2016(5):95-106.
[8] 张永亮,刘子昂.大数据专业国内外建设现状与发展特征分析[J].科技风,2021(3):125-126.
[9] 贺文武,刘国买.数据科学与大数据技术专业核心课程建设的探索与研究[J].教育评论,2017(11):31-35.