肖卓宇 黎妍
摘 要: 为了提高Python数据分析课程教学效果不佳的问题,以计算思维为导向,厘析了Python数据分析的核心知识点,设计了Python数据分析依赖包知识点调查问卷,探究了Python数据分析总体流程,构建了四阶段的Python数据分析依赖包与计算思维能力映射关系,为Python数据分析课程教学改革提供了新思路。
关键词: 计算思维; 问卷调查; 数据分析; 映射
中图分类号:G642 文献标识码:A 文章编号:1006-8228(2021)12-121-04
Abstract: In order to improve the teaching effect of Python data analysis course, the core knowledge points of Python data analysis based on computational thinking were analyzed, the questionnaire of Python data analysis dependency package knowledge points was designed, the process of Python data analysis was researched, a four stage mapping relationship between Python data analysis dependency package and computational thinking ability was constructed, which provides a perspective for the teaching reform of Python data analysis.
Key words: computational thinking; questionnaire; data analysis; mapping
0 引言
信息技术与数据存储飞速发展的今天,全世界每天产生EB级海量数据,2020中国通信院大数据白皮书预测,到2035年全球将产生2142ZB的大数据。如何充分利用数据、处理数据成为困扰行业的难题,因此,数据分析显得尤为重要[1]。Python数据分析目前是众多高校人工智能与大数据相关专业的核心课程,培养大学生数据分析思维素养已刻不容缓。为提升Python数据分析课程教学效果,众多研究团队做出了很多贡献[2-5]。
李书影等[6]基于Python数据分析构建了国外社交平台评论《道德经》的情感分析模型。谢红霞等[7]设计了线上线下融合的Python数据分析课程教学改革。杨彩云等[8]提出以案例为驱动的Python数据分析课程教学改革。贾扬蕾等[9]分阶段提出以成果为导向的Python数据分析教学改革。肖卓宇等[10]通过深度学习课程为例,关注计算思维与深度学习能力要求的映射关系。文献[11]构建了计算思维与Python公共基础能力要求的映射关系。
总而言之,目前众多研究团队在Python数据分析课程改革上提升了教学效果,但总体而言存在以下主要问题:
⑴ 缺乏用基于计算思维能力要求的视角实施Python数据分析课程教学改革;
⑵ 尚未建立Python数据分析课程与计算思维能力间的映射关系;
⑶ 部分研究关注到了计算思维与信息类课程的映射,但缺乏对Python数据分析课程的关注。
因此,本研究致力于从根本上探究提升Python数据分析课程的教学效果,以计算思维为导向,归纳了Python数据分析依赖包的核心知识点,设计了Python数据分析依赖包知识点调查问卷,探究Python数据分析总体流程,构建了四阶段Python数据分析依赖包与计算思维能力的映射关系。
1 Python数据分析依赖包问卷调查设计
表1通过问卷星平台进行线上调查,问卷调查对象为AI从业人员、大数据技术从业人员和相关专业的大学生。调查时间从2021年3月1日开始,截止日期为2021年6月1日。调查问卷涵盖行业内主流的Python数据分析依赖包,如Numpy、Pandas、Matplotlib、Scikit-Learn、Scipy、Tensorflow、Keras等,共计发放647份,回收有效问卷589份,有效问卷占比为91.36%,调查对象可对问卷中的Python数据分析依赖包选项进行单选或多选。
表2通过降序对Python数据分析依赖包问卷调查的重要性进行了排序,其中,Numpy、Pandas、Matplotlib、Scikit-Learn四个依赖包分别以615、580、540、270的选中数占据前四。
参与问卷调研的人群,男性调查者占71.21%,女性调查者占28.79%。理科与工科占62.3%,管理类与文科专业占37.7%。年龄分布18至22岁占46.8%,23至35岁占36.7%,35岁以上者占16.5%。
图1通过使用Wordart软件对Python数據分析依赖包问卷调查结果进行可视化展示, 并给出了Python数据分析依赖包的关键字云图。
2 计算思维导向下的Python数据分析教学改革
2.1 计算思维
2006年3月,Carnegie Mellon University周以真教授在权威期刊《Communications of the ACM》上提出并定义了计算思维[12]。计算思维实质是运用计算机的思维与概念对复杂问题进行求解,可通过仿真、递归、抽象、迭代与启发式等方法将一个相对复杂问题进行分解、实现并行处理等。
目前,计算思维在信息类课程教学中取得了较好的效果[10-11]。为此,课题组基于前期工作基础与图1 中的Python数据分析依赖包关键字云图,致力于研究计算思维导向下的Python数据分析教学改革,探究计算思维与Python数据分析依赖包Numpy、Pandas、Matplotlib、Scikit-Learn的映射关系,以提升Python数据分析课程的教学效果。
2.2 计算思维与Python数据分析依赖包映射
图2描述了Python数据分析总体流程。首先,数据源阶段获取的数据需要通过Numpy和Pandas依赖包进行数据预处理;接着,预处理后的数据需要通过Scikit-Learn依赖包进行数据的训练与建模;而后,需要继续通过Scikit-Learn依赖包的特征指标对应用结果进行有效评估;最终,评估结果将通过Matplotlib依赖包进行可视化展示。
依据表2中的调研问卷结果与图2中的Python数据分析总体流程,并综合项目组前期工作基础[13],构建四阶段的计算思维与Python数据分析依赖包关联映射:①计算思维能力和Numpy依赖包关联映射;②计算思维能力和Pandas依赖包关联映射;③计算思维能力和Scikit-Learn依赖包关联映射;④计算思维能力和Matplotlib依赖包关联映射。
2.2.1 计算思维能力与Numpy依赖包关联映射
Numpy包是Python程序语言用于数据科学计算的基础包,能够有效处理多维数据、大型矩阵等的计算问题,并能够对数据进行切片、整合等,有助于提升Pandas包的使用效率。
计算思维能力与Numpy依赖包映射阶段主要关注Numpy数组、Numpy矩阵、Numpy函数、Numpy统计分析等知识点,同时需要探究学生掌握上述知识点所需具备的计算思维能力,如Numpy数组与Numpy矩阵需要学生具备概念化与抽象思维等能力,Numpy包切片函数需要具备抽象思维、递归和分解等能力等,见表3。
2.2.2 计算思维能力与Pandas依赖包关联映射
Pandas 依赖包依托于Numpy依赖包,其中,Numpy依赖包是基础。Numpy依赖包侧重科学计算,而Pandas 依赖包侧重统计分析。
计算思维能力与Pandas依赖包映射阶段主要关注DataFrame操作、合并与聚合数据、清洗数据、标准化数据、数据转化等知识点。其中,DataFrame操作需要具备概念化与抽象思维能力;合并与聚合数据需要具备分解、迭代等能力;清洗数据需要具备概念化、抽象思维、数学思维与迭代等能力;标准化需要具备数学思维、概念化与抽象思维能力等;数据转化需要具备数学思维和分解等能力,见表4。
2.2.3 计算思维能力与Scikit-Learn依赖包关联映射
Scikit-Learn依赖包的Model_selection模块提供了部分监督学习、非监督学习和强化学习算法;Preprocessing预处理模块提供了PCA降维、OneHotEncoder、Normalizer、Function Transformer、StandardScaler、Binarizer等处理方法。
计算思维能力与Scikit-Lear依赖包映射阶段主要关注数据集划分、数据预处理、模型构建、评估模型。其中,数据集划分需要具备概念化与数学思维能力;数据预处理需要具备概念化、数学思维和抽象思维能力;模型构建需要具备工程思维、数学思维、数据建模和符号表示等能力;评估模型需要具备数学思维、概念化和符号表示等能力,见表5。
2.2.4 计算思维能力与Matplotlib依赖包关联映射
通过Numpy、Pandas依赖包的数据预处理,而后使用Scikit-Learn进行数据训练与建模,模型最终预测结果需要通过Matplotlib依赖包进行可视化展示。
计算思维能力与Matplotlib依赖包映射阶段主要关注可视化语法、可视化参数、可视化特征关系、特征数据分布等知识点。其中,可视化语法与参数部分需要具备分解、抽象思维和逻辑思维等能力;可视化特征关系需要具备启发式、递归、抽象思维等能力;特征数据分布需要具备数据仿真、抽象思维、启发式和递归等能力,见表6。
3 结束语
本研究归纳了Python数据分析的核心知识点,设计了Python数据分析依赖包知识点调查问卷,探究了Python数据分析总体流程,构建了四阶段的Python依赖包与计算思维能力映射关系,为Python数据分析课程教学改革提供了新视角。未来工作将致力于构建计算思维与Python网络爬虫、Tensorflow、Keras、Pytorch等技术的关联映射关系,为人工智能与大数据相关课程学习效果提升提供支撑。
参考文献(References):
[1] 中国大数据产业生态地图暨中国大数据产业发展白皮书[R].大数据产生生态联盟,2020:1-16
[2] 肖卓宇,徐运标,陈果,郭杰,黄俊.“人工智能+高职教育”融合的内涵与模型研究[J].中国教育信息化,2021.27(3):22-26
[3] 阙金煌.基于Anaconda环境下的Python数据分析及可视化[J].信息技术与信息化,2021.45(4):215-218
[4] 肖卓宇,陈果,郭杰,黄俊,徐运标.“人工智能+教育”融合视域下的人才培养研究[J].软件工程,2021.24(1):57-59,50
[5] 肖卓宇,徐运标,陈果,郭杰,黄俊.“人工智能+教育”融合的实施路径研究[J].计算机时代,2020.39(11):103-105,109
[6] 李书影,王宏俐.《道德经》英译本的海外读者接受研究——基于Python数据分析技术[J].外语电化教学,2020.42(2):35-41,6
[7] 谢红霞,孟学多.“Python数据分析基础”线上线下混合教学设计与实施[J].计算机时代,2021.39(4):89-91,94
[8] 杨彩云,詹国华.引导性问题案例在Python数据分析基础课程的教学[J].计算机教育,2021.19(1):154-157,162
[9] 贾扬蕾,袁梦洁.基于OBE理念的《Python数据分析》混合式教学模式研究[J].洛阳理工学院学报(自然科学版),2020.30(4):93-96
[10] 肖卓宇,陈果,徐运标,郭杰.新工科视角下以计算思维为导向的高职信息类学生程序设计能力培养研究[J].计算机时代,2020.39(6):106-108
[11] 肖卓宇,黃俊,徐运标,陈果,郭杰.新工科视角下以计算思维为导向的高职Python程序设计公共课程教学改革研究[J].电脑知识与技术,2020.16(21):154-155
[12] Wing B J M . Computational thinking and thinking about computing[J].Philosophical Transactions A:Mathematical, Physical and Engineering Sciences,2008.49(3):3717-3725
[13] 肖卓宇,宋艺.基于CDIO的大数据技术课程教学研究[J].长沙民政职业技术学院学报,2018.25(2):125-126